Liabooks Home|PRISM News
아프리카 언어로 말하는 AI, 데이터 주권의 새로운 실험
테크AI 분석

아프리카 언어로 말하는 AI, 데이터 주권의 새로운 실험

4분 읽기Source

구글이 아프리카 21개 언어 데이터셋 WAXAL을 공개했다. 특별한 점은 데이터 소유권이 아프리카 기관에 있다는 것. 디지털 주권 시대의 새로운 모델이 될까?

요루바어로 AI와 대화할 수 있을까?

아프리카 언어로 AI 챗봇에게 말을 걸어보자. 십중팔구 알아듣지 못한다. 간신히 답변을 내놓더라도 오류투성이다. 아프리카 대륙 전체가 풀어야 할 숙제였다.

구글이 2월 3일 공개한 WAXAL 데이터셋이 이 문제에 도전장을 냈다. 아촐리어, 하우사어, 루간다어, 요루바어 등 아프리카 21개 언어를 담은 이 데이터셋은 단순한 기술 발표가 아니다. 디지털 주권을 둘러싼 새로운 실험이다.

'말하다'를 뜻하는 월로프어에서 이름을 딴 WAXAL의 가장 특별한 점은 데이터 소유권이 아프리카 파트너들에게 있다는 것이다. 구글이 아닌.

데이터 주권, 2조 달러 시장의 새로운 규칙

"성공의 열쇠는 현지 소유권에 있다"고 구글 AI의 압둘라예 디아크 연구 프로젝트 매니저는 말했다. 우간다 마케레레 대학교, 가나 대학교, 르완다의 Digital Umuganda 등이 이 프로젝트의 공동 소유자다.

이는 AI 업계의 판을 바꿀 수 있는 움직임이다. 지금까지 미국과 중국 빅테크 기업들이 전 세계 데이터를 수집해 자신들의 AI 모델을 훈련시켜왔다. 명확한 동의나 보상 없이 말이다. 연간 2조 달러 규모로 추산되는 데이터 기반 비즈니스에서 누가 데이터를 소유하고 누가 이익을 가져가는지가 핵심 쟁점이 됐다.

WAXAL1만 1천 시간이 넘는 음성 데이터와 200만 개에 가까운 개별 녹음을 담고 있다. 자동 음성 인식용 1,250시간의 전사 음성과 텍스트-음성 변환용 20시간의 스튜디오 녹음도 포함했다.

실리콘밸리를 우회하는 길

구글은 이 데이터를 상업적 활용이 가능한 허용적 라이선스로 공개했다. 오픈소스로 만든 이유는 아프리카 기업가들이 실리콘밸리 중개자 없이도 혁신할 수 있게 하기 위해서다.

실제로 활용 사례가 나오고 있다. 가나 대학교는 이 데이터를 모성 건강 연구에 활용하고 있다. "이들 기관은 단순한 데이터 수집자가 아니라 이제 AI 인프라의 허브가 되고 있다"고 디아크는 설명했다.

하지만 도전도 만만치 않다. 나이지리아 언어학자 콜라 투보순은 구글이 공개한 요루바어 데이터에 발음 구별 부호가 빠져있다고 지적했다. "발음 구별 부호는 요루바어 음성에서 핵심 요소인데, 이게 없으면 텍스트-음성 변환 성능이 크게 떨어질 것"이라고 우려했다.

한국은 어떻게 대응할까?

이 움직임은 한국에도 시사점을 던진다. 네이버카카오가 한국어 AI 모델 개발에 투자하고 있지만, 데이터 주권 관점에서는 어떨까? 한국어 데이터의 소유권과 활용 방식에 대한 논의가 필요한 시점이다.

마이크로소프트도 최근 39개 아프리카 언어를 지원하는 Paza 도구를 내놓으며 경쟁에 뛰어들었다. 커뮤니티 주도 AI 인프라로의 전환 신호다.

본 콘텐츠는 AI가 원문 기사를 기반으로 요약 및 분석한 것입니다. 정확성을 위해 노력하지만 오류가 있을 수 있으며, 원문 확인을 권장합니다.

의견

관련 기사