마이크로소프트가 해리포터로 AI 훈련하라고 했다가 삭제한 이유

마이크로소프트가 해리포터 불법복제를 권장하는 블로그 게시물을 올렸다가 비판 후 삭제. AI 훈련용 데이터 확보의 윤리적 딜레마가 드러났다.

48시간. 마이크로소프트의 한 블로그 게시물이 온라인에 머물렀던 시간이다. 그 짧은 시간 동안 이 글은 AI 업계의 가장 민감한 문제를 건드렸다.

무슨 일이 일어났나

지난 11월, 마이크로소프트의 시니어 제품 관리자 푸자 카마스가 회사 블로그에 글을 올렸다. 새로운 AI 기능을 소개하는 평범한 기술 포스팅처럼 보였다. Azure SQL DB와 LangChain을 활용해 "몇 줄의 코드만으로" 생성형 AI를 앱에 추가하는 방법을 설명했다.

문제는 예시였다. "폭넓은 독자들에게 어필할 수 있는 친숙하고 매력적인 예시"로 해리포터 시리즈를 제안한 것이다. 그것도 "잘 알려진 데이터셋"이라는 표현을 쓰면서.

해커뉴스 커뮤니티가 발견했다. 비판이 쏟아졌다. "마이크로소프트가 저작권 침해를 권장하고 있다"는 지적부터 "AI 슬롭(AI로 생성한 저품질 콘텐츠) 양산을 부추긴다"는 비난까지.

마이크로소프트는 조용히 게시물을 삭제했다.

개발자들의 딜레마

AI 개발자들에게 이런 상황은 낯설지 않다. 좋은 훈련 데이터가 필요하지만, 합법적으로 확보하기는 쉽지 않다.

"해리포터는 완벽한 데이터셋이에요." 한 AI 스타트업 개발자는 익명을 조건으로 말했다. "문학적 완성도가 높고, 캐릭터가 일관되며, 방대한 분량이죠. 하지만 J.K. 롤링과 워너브라더스가 허락할 리 없어요."

실제로 많은 개발자들이 "회색지대"를 걷고 있다. 공개적으로는 합법적 데이터만 사용한다고 하지만, 개발 과정에서는 저작권이 있는 콘텐츠로 실험한다.

광고주 모집

[email protected]

기업의 계산법

마이크로소프트의 실수는 단순한 커뮤니케이션 오류가 아니다. 이면에는 AI 기업들의 복잡한 계산이 있다.

첫째, 개발 속도다. AI 모델 경쟁이 치열해지면서 "일단 만들고 보자"는 문화가 퍼졌다. 저작권 검토는 나중 일이다.

둘째, 법적 모호함이다. AI 훈련용 데이터 사용에 대한 명확한 판례가 부족하다. 기업들은 "공정 이용"을 주장하며 경계를 시험한다.

셋째, 경쟁 압박이다. OpenAI, 구글, 앤스로픽 모두 비슷한 고민을 한다. 상대방이 더 좋은 데이터를 쓴다면?

저작권 소유자들의 반격

하지만 콘텐츠 소유자들도 가만히 있지 않는다. 뉴욕타임스는 OpenAI를 고소했고, 여러 출판사들이 연합해 소송을 준비 중이다.

워너브라더스도 해리포터 IP 보호에 적극적이다. 팬 사이트조차 엄격히 관리하는 회사가 AI 훈련용 사용을 허락할 리 없다.

"우리는 모든 불법 사용을 추적하고 있습니다." 워너브라더스 법무팀의 한 관계자는 말했다.

한국 기업들은?

국내 AI 기업들도 비슷한 고민을 한다. 네이버의 하이퍼클로바, 카카오의 KoGPT는 어떤 데이터로 훈련됐을까?

특히 한국의 웹소설, 웹툰 시장이 급성장하면서 새로운 갈등이 예상된다. 네이버웹툰, 카카오페이지 같은 플랫폼들이 자체 AI 모델을 개발한다면?