Liabooks Home|PRISM News
AI가 언어를 죽이고 있다—위키피디아를 통해
테크AI 분석

AI가 언어를 죽이고 있다—위키피디아를 통해

5분 읽기Source

AI 번역기가 위키피디아 소수언어 문서를 오염시키고, 그 오염된 데이터로 AI가 다시 학습하는 악순환. 세계 7,000개 언어 중 절반이 위기에 처했다.

그린란드어 위키피디아의 절반은 가짜였다

케네스 웨어가 그린란드어 위키피디아 관리를 맡았을 때, 그는 이상한 점을 눈치챘다. 대부분의 문서가 그린란드어를 전혀 모르는 사람들이 작성한 것이었다. 더 충격적인 사실은 따로 있었다. 상당수 문서가 기계 번역기에서 복사·붙여넣기 된 것들이었고, 초보적인 문법 오류로 가득했다.

그런데 이것이 왜 단순한 위키피디아 품질 문제에 그치지 않는가. 이유는 하나다. 구글 번역부터 ChatGPT까지, AI 언어 모델들은 새로운 언어를 배울 때 위키피디아를 핵심 학습 데이터로 활용한다. 오염된 문서가 AI를 학습시키고, 그 AI가 다시 더 많은 오염 문서를 생성하는 악순환이 시작된 것이다.

'도움'이 독이 된 구조

이 문제를 이해하려면 AI 언어 학습의 구조를 알아야 한다. AI 모델은 방대한 텍스트 데이터를 학습해 언어 패턴을 익힌다. 영어나 중국어처럼 데이터가 풍부한 언어는 고품질 텍스트가 넘쳐난다. 하지만 그린란드어, 나바호어, 웨일스어 같은 소수언어는 학습할 텍스트 자체가 부족하다.

이때 위키피디아가 구원투수처럼 등장한다. 전 세계 자원봉사자들이 300개 이상 언어로 문서를 작성해온 위키피디아는 AI 학습의 핵심 소스다. 문제는 소수언어 위키피디아에 '선의의 기여자'들이 몰려들기 시작했다는 점이다. 해당 언어를 모르는 사람들이 기계 번역으로 문서를 채웠다. 숫자는 늘었지만 품질은 바닥을 쳤다.

AI는 이 가짜 문서들을 진짜 언어 데이터로 학습했다. 그 결과물인 AI 번역기는 더 엉터리 번역을 내놓는다. 그 번역이 다시 위키피디아에 올라온다. 악순환이 가속화된다.

왜 지금 이 문제가 중요한가

PRISM

광고주 모집

[email protected]

현재 전 세계에는 약 7,000개의 언어가 존재한다. 언어학자들은 이 중 절반이 금세기 안에 사라질 위기에 처해 있다고 경고한다. 언어의 소멸은 단순히 단어의 소멸이 아니다. 수천 년에 걸쳐 축적된 지식 체계, 세계관, 문화적 기억이 함께 사라진다.

디지털 시대에 AI는 소수언어의 마지막 보루가 될 수도 있었다. 번역 도구, 음성 인식, 교육 콘텐츠를 통해 언어 학습을 돕고 사용자를 늘릴 수 있기 때문이다. 그런데 현실은 반대 방향으로 흘러가고 있다. AI가 소수언어를 보존하는 것이 아니라, 잘못된 형태로 고착시키거나 아예 대체하고 있다.

한국어로 생각해보자. 한국어는 인터넷에서 비교적 풍부한 데이터를 가진 언어다. 네이버, 카카오를 비롯한 국내 기업들이 한국어 AI 모델을 독자적으로 개발하고 있다. 하지만 제주어, 함경도 방언 같은 지역 언어나 국내 소수 언어 공동체는 이 문제에서 자유롭지 않다. 더 나아가, 한국 기업들이 동남아·중앙아시아 시장에 진출할 때 현지 소수언어 처리 능력이 경쟁력을 좌우할 수 있다.

누가 이 문제를 해결해야 하는가

시각은 엇갈린다.

위키피디아 재단 입장에서는 품질 관리가 자원봉사 기반 시스템의 근본적 한계다. 수백 개 언어의 문서를 검증할 전문가를 확보하는 것은 현실적으로 불가능하다.

AI 기업들은 학습 데이터 품질 검증에 더 많은 투자를 해야 한다는 압박을 받는다. 하지만 소수언어 전문가 확보 비용은 막대하고, 상업적 유인은 크지 않다. 영어 모델 개선에 집중하는 것이 수익 면에서 훨씬 합리적이다.

해당 언어 공동체의 관점은 다르다. 그린란드 원주민 공동체, 나바호 네이션, 웨일스 정부는 자신들의 언어가 외부인의 '선의'에 의해 왜곡되는 것에 분노한다. 언어 주권(linguistic sovereignty)의 문제다. 누가 우리 언어의 디지털 표준을 정의할 권한을 갖는가?

정부 차원의 개입을 요구하는 목소리도 있다. 유네스코는 이미 디지털 언어 다양성 보존을 의제로 다루고 있지만, 구속력 있는 규제로 이어지지는 않았다.

본 콘텐츠는 AI가 원문 기사를 기반으로 요약 및 분석한 것입니다. 정확성을 위해 노력하지만 오류가 있을 수 있으며, 원문 확인을 권장합니다.

의견

관련 기사

PRISM

광고주 모집

[email protected]
PRISM

광고주 모집

[email protected]