마이크로소프트가 해리포터로 AI 훈련하라고 했다가 삭제한 이유
마이크로소프트가 해리포터 불법복제를 권장하는 블로그 게시물을 올렸다가 비판 후 삭제. AI 훈련용 데이터 확보의 윤리적 딜레마가 드러났다.
48시간. 마이크로소프트의 한 블로그 게시물이 온라인에 머물렀던 시간이다. 그 짧은 시간 동안 이 글은 AI 업계의 가장 민감한 문제를 건드렸다.
무슨 일이 일어났나
지난 11월, 마이크로소프트의 시니어 제품 관리자 푸자 카마스가 회사 블로그에 글을 올렸다. 새로운 AI 기능을 소개하는 평범한 기술 포스팅처럼 보였다. Azure SQL DB와 LangChain을 활용해 "몇 줄의 코드만으로" 생성형 AI를 앱에 추가하는 방법을 설명했다.
문제는 예시였다. "폭넓은 독자들에게 어필할 수 있는 친숙하고 매력적인 예시"로 해리포터 시리즈를 제안한 것이다. 그것도 "잘 알려진 데이터셋"이라는 표현을 쓰면서.
해커뉴스 커뮤니티가 발견했다. 비판이 쏟아졌다. "마이크로소프트가 저작권 침해를 권장하고 있다"는 지적부터 "AI 슬롭(AI로 생성한 저품질 콘텐츠) 양산을 부추긴다"는 비난까지.
마이크로소프트는 조용히 게시물을 삭제했다.
개발자들의 딜레마
AI 개발자들에게 이런 상황은 낯설지 않다. 좋은 훈련 데이터가 필요하지만, 합법적으로 확보하기는 쉽지 않다.
"해리포터는 완벽한 데이터셋이에요." 한 AI 스타트업 개발자는 익명을 조건으로 말했다. "문학적 완성도가 높고, 캐릭터가 일관되며, 방대한 분량이죠. 하지만 J.K. 롤링과 워너브라더스가 허락할 리 없어요."
실제로 많은 개발자들이 "회색지대"를 걷고 있다. 공개적으로는 합법적 데이터만 사용한다고 하지만, 개발 과정에서는 저작권이 있는 콘텐츠로 실험한다.
기업의 계산법
마이크로소프트의 실수는 단순한 커뮤니케이션 오류가 아니다. 이면에는 AI 기업들의 복잡한 계산이 있다.
첫째, 개발 속도다. AI 모델 경쟁이 치열해지면서 "일단 만들고 보자"는 문화가 퍼졌다. 저작권 검토는 나중 일이다.
둘째, 법적 모호함이다. AI 훈련용 데이터 사용에 대한 명확한 판례가 부족하다. 기업들은 "공정 이용"을 주장하며 경계를 시험한다.
셋째, 경쟁 압박이다. OpenAI, 구글, 앤스로픽 모두 비슷한 고민을 한다. 상대방이 더 좋은 데이터를 쓴다면?
저작권 소유자들의 반격
하지만 콘텐츠 소유자들도 가만히 있지 않는다. 뉴욕타임스는 OpenAI를 고소했고, 여러 출판사들이 연합해 소송을 준비 중이다.
워너브라더스도 해리포터 IP 보호에 적극적이다. 팬 사이트조차 엄격히 관리하는 회사가 AI 훈련용 사용을 허락할 리 없다.
"우리는 모든 불법 사용을 추적하고 있습니다." 워너브라더스 법무팀의 한 관계자는 말했다.
한국 기업들은?
국내 AI 기업들도 비슷한 고민을 한다. 네이버의 하이퍼클로바, 카카오의 KoGPT는 어떤 데이터로 훈련됐을까?
"한국어 데이터는 더 부족해요." 국내 AI 스타트업 대표는 말했다. "영어 데이터보다 선택지가 제한적이라 저작권 문제가 더 민감합니다."
특히 한국의 웹소설, 웹툰 시장이 급성장하면서 새로운 갈등이 예상된다. 네이버웹툰, 카카오페이지 같은 플랫폼들이 자체 AI 모델을 개발한다면?
기자
관련 기사
연방법원에 공개된 2017~2018년 이메일이 드러낸 MS-OpenAI 파트너십의 숨겨진 이면. 사티아 나델라와 임원들이 나눈 솔직한 내부 대화를 분석한다.
마이크로소프트의 Xbox 하드웨어 매출이 33% 급감했다. 그런데 회사 전체 매출은 829억 달러로 사상 최대 수준이다. 이 역설이 게임 산업의 미래를 보여준다.
마이크로소프트가 윈도우 업데이트를 최대 35일씩 무기한 연기할 수 있는 기능을 공개했다. 게임 중 강제 재시작에 지친 수억 명의 사용자에게 무엇이 달라지는가.
마이크로소프트와 갈등을 빚은 보안연구원이 미패치 취약점 코드를 공개하자, 해커들이 즉시 실제 공격에 활용했다. 윈도우 디펜더 3개 취약점의 파장을 분석한다.
의견
이 기사에 대한 생각을 나눠주세요
로그인하고 의견을 남겨보세요