AI가 도덕적 조언자가 되려면, 무엇을 검증해야 할까

구글 딥마인드가 AI의 도덕적 판단 능력 평가 필요성을 제기했다. 코딩과 수학처럼 명확한 정답이 없는 윤리 문제를 AI는 어떻게 해결할 수 있을까?

"The Ethicist"보다 나은 AI 상담사

GPT-4o가 뉴욕타임스의 인기 윤리 상담 칼럼니스트보다 더 도덕적이고 신뢰할 만한 조언을 한다는 연구 결과가 나왔다. 하지만 구글 딥마인드 연구진은 이런 결과에 제동을 걸었다. "AI의 도덕적 행동이 진짜인지, 아니면 단순한 연기인지 알 수 없다"는 것이다.

Nature지에 발표된 이번 연구는 AI의 도덕적 판단 능력을 평가하는 새로운 방법론을 제시했다. 코딩이나 수학처럼 정답이 명확한 영역과 달리, 윤리는 "옳고 그름이 없지만 더 나은 답과 더 나쁜 답은 존재한다"고 연구진은 설명했다.

포맷만 바뀌어도 답이 뒤바뀌는 AI

문제는 AI의 일관성 부족이다. 독일 자를란트 대학의 베라 뎀베르크 교수팀이 메타의 Llama 3와 Mistral 모델을 테스트한 결과는 충격적이었다. 같은 도덕적 딜레마에서 선택지 라벨을 "Case 1, Case 2"에서 "(A), (B)"로만 바꿔도 AI는 정반대 답변을 내놓았다.

더 놀라운 건 다음과 같은 미세한 변화에도 답이 달라진다는 점이다:

선택지 순서를 바꿀 때
질문 끝에 물음표 대신 콜론을 붙일 때
사용자가 반박하면 180도 다른 입장으로 돌아설 때

구글 딥마인드의 줄리아 하스 연구원은 "사람들이 답을 신뢰하려면, 그 답이 어떻게 나왔는지 알아야 한다"고 강조했다.

한국형 AI 윤리는 가능할까

더 복잡한 문제는 문화적 다양성이다. "돼지고기를 주문해도 될까요?"라는 질문에 대한 답은 질문자가 채식주의자인지, 유대인인지에 따라 달라져야 한다. 하지만 현재 AI 모델들은 서구 중심적 도덕관에 편향되어 있다.

오하이오 주립대 다니카 딜리온 교수는 "AI가 서구인의 도덕성은 잘 표현하지만 비서구인의 도덕성은 제대로 반영하지 못한다"고 지적했다. 한국의 네이버나 카카오가 개발하는 AI도 이런 문제에서 자유롭지 않을 것이다.

연구진은 두 가지 해결책을 제시했다:

모든 사람을 만족시키는 다양한 답변 제공
사용자에 따라 다른 도덕적 코드를 적용하는 스위치 기능

"The Ethicist"보다 나은 AI 상담사

포맷만 바뀌어도 답이 뒤바뀌는 AI

한국형 AI 윤리는 가능할까

의견

관련 기사