AI는 왜 고양이를 코끼리로 볼까

AI 비전 시스템이 인간과 다르게 세상을 인식하는 이유, 그리고 이 '표현 정렬' 문제가 자율주행·의료 AI·한국 산업에 미치는 영향을 분석합니다.

털이 한 올도 없는 스핑크스 고양이 사진을 보면, 누구나 단번에 '고양이'라고 안다. 그런데 최첨단 AI 비전 시스템은 이 사진을 코끼리로 분류하기도 한다.

황당하게 들리겠지만, 이건 단순한 버그가 아니다. AI가 세상을 보는 방식 자체가 인간과 근본적으로 다르다는 사실을 드러내는 증거다. 그리고 이 차이는 자율주행차, 의료 영상 판독, 보안 시스템 등 삶과 직결된 영역에서 예상치 못한 실패를 낳고 있다.

AI는 '모양'이 아니라 '픽셀 패턴'을 본다

인간의 시각은 카메라가 아니다. 우리 뇌는 눈에 들어오는 빛을 즉각적으로 의미 있는 객체로 변환한다. 커피잔을 볼 때 우리는 직선과 곡선의 조합을 인식하는 게 아니라, '커피를 담는 물건'이라는 맥락과 용도, 관계를 통째로 떠올린다. 게다가 이 인식은 유연하다. 이사 짐을 쌀 때는 크기와 모양이 중요하고, 식기장에 넣을 때는 같은 잔을 다른 잔들 옆에 배치한다. 같은 물건이지만, 상황에 따라 다른 방식으로 조직된다.

반면 AI 비전 시스템은 다르게 작동한다. 학습 과정에서 AI는 오직 하나만 묻는다: '이 이미지에 어떤 라벨을 붙여야 정답인가?' 고양이와 코끼리를 구별하는 법을 배울 때, AI는 두 동물이 생태계에서 어떤 역할을 하는지, 어떤 관계인지는 전혀 고려하지 않는다. 오직 정답 라벨로 이어지는 시각적 패턴—픽셀의 배열, 색상, 질감—만을 학습한다.

스핑크스 고양이의 경우, 털이 없는 주름진 피부 질감이 AI에게는 코끼리의 피부 패턴과 더 유사하게 보일 수 있다. 인간이라면 전체적인 형태와 맥락을 통해 즉각 '고양이'로 인식하겠지만, AI는 질감이라는 단일 단서에 지나치게 의존해 엉뚱한 결론에 도달한다.

멈춤 표지판을 못 읽는 자율주행차

이 문제가 실험실 밖에서 얼마나 위험해질 수 있는지를 보여주는 사례가 있다. 자율주행차가 낙서로 뒤덮인 정지 표지판에 접근하는 상황을 상상해보라. 인간 운전자는 형태와 맥락—팔각형 모양, 도로 가장자리 위치—을 통해 즉시 정지 표지판임을 인식한다. 하지만 픽셀 패턴에 의존하는 AI는 이 표지판을 광고판이나 다른 도로 표지물로 분류할 수 있다.

의료 분야도 마찬가지다. AI가 실제 병변의 시각적 특징이 아니라, 이미지 촬영 장비의 특성이나 반복되는 아티팩트(인공 결함)를 질병의 신호로 학습한다면? 정확도 지표는 높게 나오겠지만, 실제로는 엉뚱한 근거로 판단을 내리는 셈이다.

광고주 모집

[email protected]

이처럼 AI의 실수 유형은 단순한 오류가 아니라, AI가 시각 정보를 어떻게 조직하는지를 보여주는 창이다. 그리고 그 조직 방식이 인간과 얼마나 다른지를 측정하는 개념이 바로 표현 정렬(Representational Alignment)이다.

'표현 정렬'이란 무엇인가

뉴멕시코 주립대학교 연구팀을 포함한 시각 지각 전문가들은 이 문제를 '표현 정렬'이라는 개념으로 정의한다. AI가 정보를 조직하는 방식이 인간의 방식과 얼마나 유사한가를 묻는 질문이다.

이는 종종 혼동되는 '가치 정렬(Value Alignment)'—AI가 인간이 원하는 목표를 추구하도록 만드는 문제—과는 다르다. 표현 정렬은 더 근본적인 층위를 다룬다. AI가 세상을 인식하고 분류하는 내부 구조 자체가 인간과 닮아 있는가.

연구자들은 이 문제를 해결하기 위한 접근법을 개발 중이다. 한 가지 방법은 인간의 유사성 판단 데이터를 학습에 포함시키는 것이다. 실험 참가자들에게 세 이미지를 보여주고 '어떤 두 개가 더 비슷한가'를 묻는다. 예를 들어 머그잔은 유리잔과 더 비슷한가, 아니면 그릇과 더 비슷한가. 이런 데이터를 학습에 포함하면 AI는 개별 객체의 라벨을 맞히는 것을 넘어, 객체들 사이의 관계를 학습하게 된다.

한국 AI 산업에 던지는 질문

이 연구는 한국 AI 생태계에도 직접적인 함의를 갖는다. 현대자동차와 카카오모빌리티가 자율주행 기술에 막대한 투자를 쏟아붓고 있고, 삼성전자와 LG전자는 AI 기반 의료 영상 기기 시장을 공략하고 있다. 네이버와 카카오는 AI 비전 기술을 쇼핑, 검색, 콘텐츠 추천에 적극 활용한다.

이 모든 영역에서 AI가 인간과 다른 방식으로 세상을 인식한다면, 정확도 벤치마크를 통과한 시스템도 현실 세계에서 예상치 못한 방식으로 실패할 수 있다. 특히 한국처럼 AI 도입 속도가 빠르고 규제 논의가 아직 진행 중인 환경에서는, 이 '조용한 불일치'가 더 큰 위험을 내포할 수 있다.

물론 반론도 있다. AI가 반드시 인간처럼 세상을 인식해야 하는가? 일부 연구자들은 AI가 인간과 다른 방식으로 정보를 처리하더라도, 목적에 맞는 정확도를 달성한다면 충분하다고 주장한다. 표현 정렬을 추구하는 것이 오히려 AI의 잠재력을 인간의 인지적 한계에 가두는 것일 수도 있다는 시각이다.

하지만 의료 진단이나 자율주행처럼 오류의 대가가 치명적인 영역에서는, '결과가 맞으면 된다'는 논리만으로는 부족하다. 왜 그 결과가 나왔는지, 어떤 근거로 판단했는지를 인간이 이해할 수 있어야 한다. 그 이해의 출발점이 바로 표현 정렬이다.