스탠포드 인간중심 인공지능 연구소(HAI)
최종 업데이트: 2025-10-31
인공지능(AI)은 우리의 일과 생활, 창작과 소비를 동시에 바꾸고 있다. 문제는 속도다. 매일 새 모델이 쏟아지니 무엇이 본질이고 무엇이 과장인지 가려내기 어렵다. AI의 현재를 가장 객관적으로 읽는 방법은 데이터를 보는 일이다.
스탠퍼드 대학교 인간 중심 AI 연구소(HAI)가 매년 발행하는 ‘AI 인덱스 보고서’는 기술, 산업, 정책, 사회 영향 전반을 수치로 보여주는 대표 자료다. 언론과 학계, 정책 입안자가 먼저 참고하는 기준서로 자리 잡았다.
이 글에서는 2025년 최신 보고서 속 방대한 지표 가운데, 우리가 흔히 오해하거나 놓치기 쉬운 핵심 사실 7가지를 추려 쉽게 정리한다. 기대와 불안을 넘어, 데이터가 말하는 AI의 진짜 얼굴을 살펴본다.
핵심 내용 요약 정리하고 원본 필요한 구독자는 아래링크에서 다운 받아 보면 된다.
https://hai.stanford.edu/ai-index/2025-ai-index-report
언론은 초거대 모델을 부각하지만 데이터는 반대 흐름을 가리킨다. 더 작은 모델이 더 효율적으로 같은 성능을 내는 사례가 빠르게 늘고 있다. 같은 기준 점수를 더 적은 파라미터와 적은 비용으로 달성하는 추세가 뚜렷하다.
구체 예시로 MMLU 성능을 보자. 2022년에는 5,400억 개 파라미터의 거대 모델이 기준을 통과했다. 2024년에는 38억 개 파라미터의 소형 모델이 같은 성능을 달성했다. 규모가 142분의 1로 줄었다. 그 사이 추론 비용도 급감했다. GPT‑3.5급 성능을 내는 시스템의 추론 비용은 2022년 11월 대비 2024년 10월에 280분의 1 수준으로 떨어졌다. 결과적으로 개발·운영 장벽이 낮아지고, AI가 거대 기업의 전유물에서 모두의 도구로 이동하고 있다.
AI 생태계는 소수 독주에서 다자 경쟁으로 이동하고 있다. 오픈소스 모델은 폐쇄형 모델을 빠르게 추격하고 있고, 국가 간 격차도 급격히 줄고 있다. 상위권 모델들 사이의 격차 역시 눈에 띄게 감소했다.
챗봇 아레나의 점수 차는 2024년 초 8.0%에서 2025년 2월 1.7%로 축소됐다. 같은 기간 미국과 중국 모델의 벤치마크 격차도 크게 줄었다. MMLU에서는 17.5%에서 0.3%로, MATH에서는 24.3%에서 1.6%로 감소했다. 상위 1위와 10위 모델 간 점수 차도 전년 11.9%에서 5.4%로 반 토막 났다. 해석은 간단하다. 기술이 분산되고 민주화되며, 경쟁 속도가 더 빨라지고 있다.
소형화·효율화와는 별개로 최첨단 모델 훈련은 갈수록 탄소 집약적이 되고 있다. 2012년 알렉스넷 훈련은 0.01톤의 탄소를 배출했다. 2020년 GPT‑3는 588톤, 2023년 GPT‑4는 5,184톤, 2024년 Llama 3.1 405B는 8,930톤 수준으로 급증했다.
비교 기준을 대입하면 심각성이 또렷해진다. 평균적인 미국인 1인의 연간 배출량이 약 18톤이다. 초거대 모델 하나를 훈련하는 행위가 수백 명의 1년치 배출량에 해당한다. 성능 경쟁과 환경 책임 사이의 균형을 설계하는 거버넌스가 시급하다.
모델은 요약·번역·코딩에서 인상적인 결과를 낸다. 그러나 다단계 논리와 계획이 필요한 과제에서는 불안정하다. PlanBench 같은 복잡 계획 벤치마크에서 실패가 빈번하다는 보고가 반복된다.
새로운 접근도 등장했다. 모델이 답을 내기 전 더 오래 ‘생각’하도록 연산을 늘리는 ‘추론 시간 컴퓨팅’이 성능을 크게 끌어올리는 사례가 나온다. 다만 더 많은 연산 비용이 든다. 신뢰가 중요한 고위험 영역 적용에서는 여전히 보수적 검증이 필요하다.
조직은 위험을 안다고 말하지만 실천은 부족하다. 한 설문에서 ‘지적 재산권 침해’를 중요한 위험으로 보는 조직은 57%였다. 그러나 적극 대응 조직은 38%에 그쳤다. 같은 해 보고된 AI 관련 사고는 233건으로 사상 최대였고 전년 대비 56.4% 증가했다.
메시지는 분명하다. 선언과 원칙만으로는 부족하다. 데이터 거버넌스, 모델 카드·평가 공개, 레드팀·사후 모니터링 등 실행 장치를 일상 운영에 녹여야 한다. 안전과 속도의 트레이드오프를 경영 의사결정 차원에서 명시해야 한다.
한때는 고품질 인터넷 텍스트가 곧 고갈될 것이라는 비관론이 우세했다. 최신 분석은 전망을 수정한다. 사용 가능한 훈련 데이터의 완전 고갈 시점은 2026~2032년 사이로 늦춰졌다.
핵심 이유는 재학습 효율성이다. 동일 데이터셋을 여러 번 반복 학습해도 성능을 유지·향상시킬 수 있다는 연구가 늘었다. 사실상 사용 가능한 데이터의 효율 용량이 커진 셈이다. 다만 도메인 특화·비정형·다국어의 새로운 고품질 데이터 수집과 정제는 여전히 전략 과제다.
세계 여론을 보면 기대와 불신이 공존한다. ‘이점이 단점보다 크다’는 응답은 2022년 52%에서 2024년 55%로 소폭 상승했다. 동시에 ‘AI 기업이 데이터를 안전하게 다룬다’에 대한 신뢰는 2023년 50%에서 2024년 47%로 하락했다.
지역별 온도차도 크다. 중국은 83%가 AI에 긍정적이었다. 반면 캐나다 40%, 미국 39%, 네덜란드 36%로 낮았다. 혜택을 기대하면서도 운영 주체에 대한 불신이 커지는 모순이 정책과 시장 모두에 영향을 준다.
AI 인덱스 2025는 기술 경쟁이 ‘더 작게, 더 싸게, 더 빨리’로 가는 동안 환경 비용이 커지고, 상위권이 촘촘해질수록 안전·책임의 과제가 도드라진다는 사실을 보여준다. 인간 능력을 뛰어넘는 영역이 늘지만 복잡 추론의 불안정성은 남아 있다. 우리는 위험을 인지하지만 실행은 더디다.
앞으로의 과제는 분명하다.
① 효율과 성능을 함께 추구하는 연구 전략을 세운다.
② 훈련·추론의 에너지와 탄소를 설계 단계에서 관리한다.
③ 책임감 있는 AI를 선언이 아니라 운영 프로세스로 내재화한다.
④ 데이터 생태계를 장기 관점에서 확장한다.
⑤ 신뢰 구축을 위해 투명성과 검증을 표준으로 만든다.
기술이 어디로 가야 하는지, 그 방향을 정하는 일은 이제 우리 모두의 몫이다.
- AI 일잘러 오픈채팅방: https://open.kakao.com/o/gl9MAbWh
- Threads: https://www.threads.net/@aicode.lab