AI는 달리고 있다, 우리는 신발을 찾고 있다
스탠퍼드 AI 인덱스 2026이 공개됐다. AI는 예상보다 빠르게 진화하고, 일자리·규제·벤치마크 모두 따라잡지 못하고 있다. 한국 기업과 취업준비생이 주목해야 할 핵심 데이터.
소프트웨어 개발자 취업을 준비하던 25살 청년이 있다고 하자. 2022년이었다면 그는 경쟁자가 수천 명이라고 생각했을 것이다. 2026년 지금, 경쟁자 중 하나는 코드를 하루 24시간 짜는 AI다. 스탠퍼드대학교 인간중심AI연구소(HAI)가 매년 발간하는 AI 인덱스 2026이 오늘 공개됐다. 이 보고서는 AI를 둘러싼 과장과 공포를 걷어내고, 숫자로 현실을 보여준다. 결론부터 말하면: AI는 우리가 예상한 것보다 빠르고, 우리가 준비한 것보다 복잡하다.
미국 vs 중국: 사실상 동점
2023년 초만 해도 OpenAI의 ChatGPT는 독보적이었다. 그로부터 3년이 지난 지금, 순위표는 완전히 달라졌다. 커뮤니티 기반 AI 성능 비교 플랫폼 Arena의 2026년 3월 기준 순위에서 Anthropic이 1위를 달리고 있고, xAI, Google, OpenAI가 그 뒤를 바짝 쫓는다. 그리고 중국의 DeepSeek과 Alibaba 모델은 불과 소폭 차이로 뒤처져 있다. 2025년 2월엔 DeepSeek의 R1 모델이 잠시 ChatGPT와 동급으로 평가받기도 했다.
보고서는 미·중의 AI 강점이 다르다고 분석한다. 미국은 자본력과 인프라에서 압도적이다. 미국의 AI 데이터센터는 5,427개로, 2위 국가보다 10배 이상 많다. 반면 중국은 AI 연구 논문 수, 특허, 그리고 로보틱스 분야에서 앞서고 있다.
한국 입장에서 이 구도는 남의 이야기가 아니다. 삼성전자와 SK하이닉스는 AI 반도체 공급망의 핵심 고리다. 미·중 AI 경쟁이 격화될수록 두 나라 모두 한국산 메모리에 더 의존하게 된다. 동시에, 미국이 중국 AI 기업에 대한 반도체 수출 규제를 강화할수록 한국 기업은 '어느 편에 설 것인가'라는 지정학적 압력에 놓인다.
모델은 계속 좋아지는데, 측정 방법이 망가졌다
"이 기술이 계속 발전하고 있다는 사실에 저는 여전히 놀랍니다. 어떤 식으로도 정체되지 않고 있어요." 보고서 공동저자인 USC의 컴퓨터과학자 Yolanda Gil의 말이다.
숫자가 이를 뒷받침한다. AI 소프트웨어 엔지니어링 능력을 측정하는 벤치마크 SWE-bench Verified에서 최고 점수는 2024년 약 60%에서 2025년 거의 100%로 뛰었다. AI는 이제 박사급 과학·수학·언어 이해 시험에서 인간 전문가와 동등하거나 그 이상의 성적을 낸다. 2025년엔 AI 시스템이 독자적으로 기상 예보를 만들어냈다.
그런데 여기서 중요한 함정이 있다. 측정 도구 자체가 신뢰할 수 없다. 수학 능력을 테스트하는 인기 벤치마크 하나는 오류율이 42%에 달한다. 모델이 시험 데이터로 훈련되면 실제로 똑똑해지지 않아도 높은 점수를 받을 수 있다. 더 큰 문제는 AI가 실제로 사용되는 방식과 테스트 방식이 다르다는 것이다. AI 에이전트나 로봇처럼 복잡하고 상호작용적인 기술에 대한 벤치마크는 아직 거의 존재하지 않는다.
Gil은 또 다른 경고를 덧붙인다. "많은 기업들이 특정 벤치마크, 특히 책임 있는 AI 관련 벤치마크에서 자사 모델의 성능을 공개하지 않고 있습니다. 어떤 벤치마크에서 모델이 어떻게 작동하는지 공개하지 않는다는 것 자체가 무언가를 말해줍니다."
일자리: 아직 '재앙'은 아니지만, 신호는 켜졌다
AI가 대중화된 지 3년 만에 전 세계 인구의 절반 이상이 AI를 사용한다. 개인용 컴퓨터나 인터넷보다 빠른 채택 속도다. 조직의 88%가 AI를 활용하고, 대학생 5명 중 4명이 AI를 쓴다.
일자리 영향은 아직 전면적이지 않지만, 특정 직군에서는 신호가 뚜렷하다. 스탠퍼드 경제학자들의 2025년 연구에 따르면, 22~25세 소프트웨어 개발자 고용이 2022년 이후 거의 20% 감소했다. 거시경제 요인도 있지만, AI가 일정 부분 작용하고 있다는 분석이다. McKinsey의 2025년 설문에서는 조직의 3분의 1이 올해 AI로 인해 인력을 줄일 것으로 예상했으며, 서비스·공급망·소프트웨어 엔지니어링 분야가 특히 취약하다고 밝혔다.
한국 맥락에서 이 수치는 더 예민하게 읽힌다. 매년 수만 명이 개발자 취업을 목표로 코딩 부트캠프와 컴퓨터공학과에 몰린다. AI가 주니어 개발자 업무의 상당 부분을 대체하기 시작했다면, 이 진로 선택의 전제 자체가 흔들린다. 네이버, 카카오, 삼성SDS 같은 국내 IT 기업들도 채용 전략을 재검토하고 있을 가능성이 높다.
반면 생산성 데이터는 다른 이야기를 한다. AI는 고객 서비스 분야에서 생산성을 14%, 소프트웨어 개발에서 26% 끌어올렸다. 일자리가 사라지는 것인지, 일의 방식이 바뀌는 것인지는 아직 판단하기 이르다.
규제는 기술을 따라잡지 못하고 있다
EU AI법의 첫 번째 금지 조항—예측적 치안 유지와 감정 인식 AI 사용 금지—이 지난해 발효됐다. 일본, 한국, 이탈리아도 국가 AI 법률을 통과시켰다. 미국에서는 연방 차원에서 트럼프 대통령이 주(州)의 AI 규제를 제한하는 행정명령을 내렸지만, 역설적으로 주 의회들은 AI 관련 법안을 150건 통과시켜 사상 최다를 기록했다.
Ipsos 조사에서 흥미로운 데이터가 나왔다. 조사 대상 국가 중 미국인이 자국 정부의 AI 규제 능력을 가장 불신했다. 규제가 너무 약할 것이라는 우려가 너무 강할 것이라는 우려보다 컸다.
한국은 국가 AI 법률을 통과시켰지만, 규제의 실질적 효력은 별개의 문제다. Gil의 지적처럼, 우리가 AI 시스템을 충분히 이해하지 못하는 상태에서 만들어진 규제는 현실과 빗나갈 수밖에 없다.
본 콘텐츠는 AI가 원문 기사를 기반으로 요약 및 분석한 것입니다. 정확성을 위해 노력하지만 오류가 있을 수 있으며, 원문 확인을 권장합니다.
관련 기사
플로리다 총기 난사 사건에 ChatGPT가 연루됐다는 의혹으로 OpenAI가 주 검찰 수사를 받고 있다. AI 책임 논쟁이 법정으로 향하는 지금, 우리는 무엇을 물어야 하는가.
플로리다 검찰이 OpenAI를 조사한다. 총기 난사 사건, 미성년자 보호, 국가 안보까지. AI 규제의 새 전선이 열렸다.
그래머리가 'Superhuman'으로 리브랜딩하며 AI 생산성 플랫폼으로 전환을 선언했다. 단순 맞춤법 교정 도구에서 업무 전반을 다루는 AI 에이전트로의 도약—이 전략이 성공할 수 있을까?
마이크로소프트, 아마존, 오픈AI가 잇달아 의료 챗봇을 출시했다. 하지만 이 도구들이 실제로 얼마나 안전한지 검증하는 외부 평가는 거의 없다. AI 건강 도구의 현주소와 우리가 물어야 할 질문들.
의견
이 기사에 대한 생각을 나눠주세요
로그인하고 의견을 남겨보세요