아프리카 언어로 말하는 AI, 데이터 주권의 새로운 실험
구글이 아프리카 21개 언어 데이터셋 WAXAL을 공개했다. 특별한 점은 데이터 소유권이 아프리카 기관에 있다는 것. 디지털 주권 시대의 새로운 모델이 될까?
요루바어로 AI와 대화할 수 있을까?
아프리카 언어로 AI 챗봇에게 말을 걸어보자. 십중팔구 알아듣지 못한다. 간신히 답변을 내놓더라도 오류투성이다. 아프리카 대륙 전체가 풀어야 할 숙제였다.
구글이 2월 3일 공개한 WAXAL 데이터셋이 이 문제에 도전장을 냈다. 아촐리어, 하우사어, 루간다어, 요루바어 등 아프리카 21개 언어를 담은 이 데이터셋은 단순한 기술 발표가 아니다. 디지털 주권을 둘러싼 새로운 실험이다.
'말하다'를 뜻하는 월로프어에서 이름을 딴 WAXAL의 가장 특별한 점은 데이터 소유권이 아프리카 파트너들에게 있다는 것이다. 구글이 아닌.
데이터 주권, 2조 달러 시장의 새로운 규칙
"성공의 열쇠는 현지 소유권에 있다"고 구글 AI의 압둘라예 디아크 연구 프로젝트 매니저는 말했다. 우간다 마케레레 대학교, 가나 대학교, 르완다의 Digital Umuganda 등이 이 프로젝트의 공동 소유자다.
이는 AI 업계의 판을 바꿀 수 있는 움직임이다. 지금까지 미국과 중국 빅테크 기업들이 전 세계 데이터를 수집해 자신들의 AI 모델을 훈련시켜왔다. 명확한 동의나 보상 없이 말이다. 연간 2조 달러 규모로 추산되는 데이터 기반 비즈니스에서 누가 데이터를 소유하고 누가 이익을 가져가는지가 핵심 쟁점이 됐다.
WAXAL은 1만 1천 시간이 넘는 음성 데이터와 200만 개에 가까운 개별 녹음을 담고 있다. 자동 음성 인식용 1,250시간의 전사 음성과 텍스트-음성 변환용 20시간의 스튜디오 녹음도 포함했다.
실리콘밸리를 우회하는 길
구글은 이 데이터를 상업적 활용이 가능한 허용적 라이선스로 공개했다. 오픈소스로 만든 이유는 아프리카 기업가들이 실리콘밸리 중개자 없이도 혁신할 수 있게 하기 위해서다.
실제로 활용 사례가 나오고 있다. 가나 대학교는 이 데이터를 모성 건강 연구에 활용하고 있다. "이들 기관은 단순한 데이터 수집자가 아니라 이제 AI 인프라의 허브가 되고 있다"고 디아크는 설명했다.
하지만 도전도 만만치 않다. 나이지리아 언어학자 콜라 투보순은 구글이 공개한 요루바어 데이터에 발음 구별 부호가 빠져있다고 지적했다. "발음 구별 부호는 요루바어 음성에서 핵심 요소인데, 이게 없으면 텍스트-음성 변환 성능이 크게 떨어질 것"이라고 우려했다.
한국은 어떻게 대응할까?
이 움직임은 한국에도 시사점을 던진다. 네이버와 카카오가 한국어 AI 모델 개발에 투자하고 있지만, 데이터 주권 관점에서는 어떨까? 한국어 데이터의 소유권과 활용 방식에 대한 논의가 필요한 시점이다.
마이크로소프트도 최근 39개 아프리카 언어를 지원하는 Paza 도구를 내놓으며 경쟁에 뛰어들었다. 커뮤니티 주도 AI 인프라로의 전환 신호다.
본 콘텐츠는 AI가 원문 기사를 기반으로 요약 및 분석한 것입니다. 정확성을 위해 노력하지만 오류가 있을 수 있으며, 원문 확인을 권장합니다.
관련 기사
사르밤 AI가 현지어 특화 챗봇 인더스를 출시하며 글로벌 AI 거대 기업들과 정면승부에 나섰다. 105억 파라미터 모델로 무장한 이들의 승산은?
xAI가 며칠간 모델 출시를 연기하며 발더스 게이트 공략을 완성한 사건. 게임에 특화된 AI의 숨겨진 전략과 시장 의미를 분석한다.
Anthropic과 OpenAI 등 AI 기업들이 정치자금을 쏟아붓는 진짜 이유. 규제 vs 혁신의 갈림길에서 벌어지는 로비 전쟁의 속내를 들여다본다.
2025년 AI 업계의 과대광고 수정과 LLM의 한계, 그리고 우리가 놓친 진실들에 대한 분석
의견
이 기사에 대한 생각을 나눠주세요
로그인하고 의견을 남겨보세요