AI 학습 데이터 전쟁, 2026년이 분수령이다

AI 기업들의 저작권 침해 논란이 본격화되고 있다. 50여 건의 소송이 진행 중인 가운데, 창작자와 기술 기업 간 갈등이 최고조에 달했다.

40조 개의 텍스트 토큰. 평균적인 인간이 읽으려면 수천만 년이 걸리는 분량이다. 이것이 메타의 최신 AI 모델이 학습한 데이터의 규모다.

2020년 OpenAI가 GPT-3을 출시할 때만 해도 상황은 달랐다. 위키피디아가 3%를 차지한다는 식으로 학습 데이터의 구성을 상세히 공개했다. 연구자들은 AI가 무엇을 배웠는지 정확히 알 수 있었다. 하지만 지금은 이런 정보가 영업비밀 취급을 받는다.

AI가 학교와 병원, 직장에 스며들면서도 정작 그 시스템이 무엇을 학습했는지는 베일에 싸여 있다. 이런 불투명성이 지금 거대한 법정 싸움의 중심에 서 있다.

창작자들의 반격이 시작됐다

"내가 과거에 쓴 노래들 때문에 AI가 존재한다는 사실을 피할 수 없다"고 ABBA의 멤버 비요른 울바에우스는 말했다. "내가 만드는 것을 도와준 것으로 돈을 벌면, 나도 몫을 받아야 한다."

그의 말은 현재 AI 업계를 뒤흔들고 있는 핵심 쟁점을 압축한다. 작가, 화가, 음악가, 출판사들의 작품이 오늘날 AI 모델의 동력이 되고 있다는 것은 공공연한 사실이다. 문제는 이들이 허락도 받지 않았고, 돈도 받지 못했다는 점이다.

미국에서만 50여 건의 저작권 소송이 진행 중이고, 이 중 주요 사건들이 2026년에 본격적인 판결을 받을 예정이다. Anthropic을 상대로 한 음악 출판사들의 소송, 구글의 이미지 생성 도구를 겨냥한 시각 예술가들의 집단소송이 대표적이다.

디즈니와 유니버설 픽처스는 올해 AI 이미지 생성기 Midjourney를 "표절의 무저갱"이라고 부르며 소송을 제기했다. 유명 캐릭터들을 무단으로 복사하고 재생산했다는 이유에서다. 디즈니의 최고법무책임자 호라시오 구티에레스는 "해적질은 해적질이고, AI 회사가 했다고 해서 덜 침해적인 게 아니다"라고 단언했다.

법정에서 엇갈리는 판단

광고주 모집

[email protected]

AI 기업들은 반박한다. 대량의 기존 자료로 모델을 훈련시키는 것은 언어와 이미지, 소리를 이해할 수 있는 시스템을 구축하기 위해 필수적이며, 전통적인 의미의 복사 행위가 아니라는 주장이다.

일부 미국 법원은 이런 시각에 동조하고 있다. Anthropic을 상대로 한 책 저자들의 소송에서 윌리엄 앨섭 연방지방법원 판사는 AI 훈련을 "본질적으로 변형적"이라고 평가했다. 그는 저작권법이 "창작자들 간의 경쟁으로부터 보호하는 것이 아니라 독창적인 저작물을 발전시키려는 것"이라며, AI 훈련 과정을 "학생들에게 글쓰기를 가르치는 것"에 비유했다.

하지만 다른 판사들은 더 신중한 입장이다. 메타를 상대로 한 별도 사건에서 빈스 차브리아 연방지방법원 판사는 AI 훈련이 "많은 상황에서" 공정이용 테스트를 통과하지 못할 것이라고 판단했다. 특히 이 기술이 시장을 "범람"시켜 인간 창작자들의 인센티브를 약화시킬 위험이 있다고 지적했다.

빅테크의 전략적 타협

일부 기업들은 법정 판결을 기다리지 않고 있다. 디즈니는 작년 말 OpenAI에 10억 달러를 투자하고 자사 캐릭터를 동영상 생성기 Sora에서 사용할 수 있도록 허용했다. 워너 뮤직은 AI 음악 스타트업들과 소송을 합의하고 라이선스 도구 개발 계획을 발표했다. 유니버설 뮤직도 올해 엔비디아와 AI 관련 음악 프로젝트 협력을 선언했다.

하지만 이런 거래는 협상력을 가진 대형 엔터테인먼트 기업들에게만 가능하다. 소규모 권리자들과 독립 창작자들은 그런 여력이 없다. 게다가 법원이 이런 거래가 불필요하다고 판단하면 협상 인센티브 자체가 사라질 수 있다.

트럼프 행정부는 창작자들에게 우호적이지 않아 보인다. 작년 발표된 백악관의 AI 행동계획에는 AI 훈련에 사용된 예술가나 창작자들의 권리를 보호하는 내용이 포함되지 않았다. 트럼프는 "읽거나 공부한 모든 기사, 책, 기타 모든 것에 대해 돈을 내야 한다면 성공적인 AI 프로그램을 기대할 수 없다"고 말했다.

데이터 품질의 어두운 면

다른 연구들은 AI 시스템이 영어 콘텐츠와 서구 문화적 산물에 불균형적으로 치우쳐 훈련되고 있다는 우려를 제기했다. 이는 이런 도구들이 세상을 해석하는 방식과 누구의 관점을 우선시하는지에 영향을 미칠 가능성이 높다.

창작자들의 반격이 시작됐다

법정에서 엇갈리는 판단

빅테크의 전략적 타협

데이터 품질의 어두운 면

의견

기자

관련 기사