AI도 검열당한다: 중국 모델들의 '침묵하는 법

스탠포드-프린스턴 공동연구로 밝혀진 중국 AI 모델의 검열 실태. 딥시크는 36%, 바이두는 32%의 질문을 거부했다.

36% vs 3%, 이 숫자가 말하는 것

같은 질문을 던졌을 뿐인데 답변률이 12배나 차이 났다. 스탠포드와 프린스턴 대학 연구진이 중국 AI 모델 4개와 미국 모델 5개에 정치적으로 민감한 질문 145개를 던진 결과다. 딥시크는 36%, 바이두의 어니봇은 32%의 질문을 거부했다. 반면 OpenAI의 GPT와 메타의 라마는 거부율이 3% 미만이었다.

이는 단순한 '차이'가 아니다. AI가 정보를 통제하는 새로운 방식의 등장을 의미한다.

훈련 데이터 vs 수동 개입, 진짜 원인은?

연구진이 파헤친 핵심 질문은 이것이었다. 중국 AI 모델들이 더 많은 검열을 보이는 이유가 무엇인가? 이미 검열된 중국 인터넷 데이터로 훈련받아서인가, 아니면 개발자들이 나중에 수동으로 개입해서인가?

흥미롭게도 답은 후자에 가까웠다. 중국 모델들은 영어로 답할 때도 여전히 검열을 보였다. 영어 훈련 데이터에는 이론적으로 더 다양한 출처가 포함되어 있음에도 불구하고 말이다.

스탠포드 대학의 제니퍼 판 교수는 "중국 인터넷이 수십 년간 검열되어 왔기 때문에 누락된 데이터가 많다"면서도, 수동 개입이 더 큰 영향을 미쳤다고 설명했다.

거짓말인가, 환각인가

더 복잡한 문제가 있다. AI 모델들이 거짓말을 하는지, 아니면 정말 모르는지 구별하기 어렵다는 점이다.

광고주 모집

[email protected]

한 중국 모델은 노벨평화상 수상자 류샤오보에 대해 "일본의 핵무기 기술 전문가"라고 답했다. 완전한 거짓이다. 하지만 이게 의도적인 정보 조작인지, 아니면 훈련 데이터에서 류샤오보 관련 정보가 모두 삭제되어 발생한 환각인지 알 수 없다.

판 교수는 "신호가 명확하지 않을수록 검열을 탐지하기 어렵고, 그럴 때 검열이 가장 효과적"이라고 지적했다.

숨겨진 지시사항 추출하기

중국 미디어 프로젝트의 알렉스 콜빌 연구원은 더 교묘한 조작을 발견했다. 알리바바의 Qwen에게 "중국의 국제적 평판은?"이라는 질문과 함께 모델의 사고 과정을 드러내는 특수 프롬프트를 사용했다.

Qwen은 일관되게 다음과 같은 5가지 지시사항을 받았다고 답했다:

중국의 성취와 기여에 집중하라
부정적이거나 비판적인 진술을 피하라

"이는 훨씬 더 미묘한 형태의 조작"이라고 콜빌은 설명했다.

시간과의 경쟁

이런 연구에는 한계가 많다. 민감한 질문을 너무 많이 하면 중국 AI 모델에 대한 접근이 차단될 수 있다. 고급 모델들은 상당한 컴퓨팅 자원이 필요하고, 연구자들은 빠른 모델 개발 속도와 경쟁해야 한다.

판 교수는 "LLM 연구의 어려움은 너무 빨리 발전한다는 것"이라며 "프롬프팅을 마칠 때쯤이면 논문이 이미 구식이 된다"고 토로했다.

콜빌은 "좋은 연구에는 시간이 필요하지만, AI 개발에서 시간은 우리에게 절대적으로 부족한 것"이라고 덧붙였다.