AI가 인간을 완전히 대체했다고 여겨지는 분야, 초지능의 시대가 이미 도래했다고 믿어지는 분야가 하나 있다면 바로 코딩이다. 그런 맥락에서 최근 발표된 한 연구 결과는 충격적이다.
싱크탱크 METR(Model Evaluation & Threat Research)이 7월 발표한 연구는 숙련된 소프트웨어 개발자들을 무작위로 나누어 AI 도구 사용 여부에 따른 코딩 작업 성과를 비교했다. AI의 실무 성과를 측정한 가장 엄밀한 실험이었다. 코딩은 현재 AI가 가장 잘하는 분야로 알려져 있어, 참여자 대부분이 생산성의 획기적 향상을 예상했다. 실험 전 전문가 설문에서는 평균 40%의 속도 향상을 예측했고, 실험 참가자들도 체감상 20% 빨라졌다고 답했다.
하지만 실제 작업 결과물을 분석한 결과는 정반대였다. AI를 사용한 개발자들이 오히려 20% 더 느렸다. 연구 저자 중 한 명인 네이트 러시는 "전혀 예상 밖의 결과였다. 속도가 느려질 가능성은 아예 고려조차 하지 않았다"고 털어놨다.
물론 단일 실험 결과를 절대적 진실로 받아들여서는 안 된다. 하지만 많은 AI 전문가들은 이 METR 연구가 현재까지 나온 최고의 연구라고 평가한다. 이 연구는 AI를 둘러싼 현재의 모순적 상황을 이해하는 열쇠가 된다. 미국은 지금 AI가 이끄는 전례 없는 경제 호황을 누리고 있다. AI 관련 대기업들의 부풀려진 기업가치가 주식시장을 끌어올리고, 데이터센터와 AI 인프라 구축에 수천억 달러가 투입되며 실물경제가 돌아간다. 이 모든 투자의 전제는 AI가 노동 생산성을 비약적으로 높여 기업 수익을 상상 이상으로 늘릴 것이라는 믿음이다.
그런데 현실은 다르다. AI가 실무에서 제대로 작동하지 않는다는 증거가 속속 나타나고 있다. AI에 천문학적 자금을 쏟아붓는 거대 기술기업들도 투자 대비 수익은 아직 요원하다. 기업들이 AI를 도입해도 실적 개선이 거의 없다는 연구 결과가 나왔다. AI로 인한 일자리 감소를 찾던 경제학자들도 별다른 성과가 없었다.
물론 AI가 언젠가는 혁명적 변화를 가져올 수 있다. 문제는 그 '언젠가'가 생각보다 훨씬 먼 미래일 수 있다는 점이다. 현재 우리가 AI 버블 속에 있을 가능성이 크다. 투자자들의 기대가 기술의 단기적 생산성 개선 효과를 한참 앞질렀다는 의미다. 이 버블이 터진다면 닷컴 버블 붕괴가 애들 장난으로 보일 정도의 충격이 올 것이다. 피해는 실리콘밸리와 거대 기술기업에만 국한되지 않을 것이다.
실력은 있지만 믿을 수 없는 AI
코딩이 현재 AI 기술의 최고 활용 사례라는 점에는 이견이 없다. METR은 이번 연구 이전에도 최신 AI 시스템이 인간 개발자가 한 시간 걸리는 작업을 처리할 수 있다는 3월 분석으로 주목받았다. 그런데 왜 실험에서는 생산성이 떨어졌을까?
핵심은 '능력과 신뢰성의 격차'다. AI는 놀라운 작업들을 해낼 수 있지만, 실무가 요구하는 일관성과 정확도를 충족시키지 못한다. 3월 METR 연구에서도 AI의 성공률은 50%에 불과했다. 절반은 실패한다는 뜻이니 단독으로는 쓸모가 없다. 이런 격차 때문에 실무에서 AI 활용이 어렵다. 최고 수준의 시스템도 사소한 실수를 하거나 지시를 살짝 오해해서, 결국 사람이 일일이 검토하고 수정해야 한다.
이번 연구에서도 마찬가지였다. 개발자들은 AI가 만든 코드를 검토하고 고치느라 시간을 허비했다. 차라리 처음부터 직접 짜는 게 빨랐다. 한 참가자는 이 과정을 "자신감 넘치는 신입 개발자를 옆에서 감시하는 디지털 버전"이라고 빗댔다.
물론 실험 이후 AI 코딩 도구는 더 안정적으로 발전했다. 연구가 숙련 개발자에 초점을 맞춘 것도 한계다. 경험이 적은 개발자를 보조하거나 대체할 때 더 큰 효과가 날 수도 있다. 하지만 반대로 METR 연구가 AI 효과를 과대평가했을 가능성도 크다. 대부분의 지식노동은 코딩보다 자동화가 어렵다. 코딩은 방대한 학습 데이터와 명확한 성공 기준이라는 유리한 조건을 갖추고 있기 때문이다. Institute for Progress의 팀 피스트는 "프로그래밍은 AI가 특히 잘하는 분야다. 그런데도 개발자 생산성을 못 높인다면, AI가 경제 성장에 미칠 영향 자체를 재고해야 한다"고 지적했다.
기업 현장의 냉정한 현실
능력과 신뢰성의 격차는 생성형 AI가 기업 실무에서 성과를 못 내는 이유를 설명해준다. MIT 연구진이 공개된 AI 프로젝트 300개를 추적한 결과, 95%가 수익 개선에 실패했다. 맥킨지의 3월 보고서에 따르면 기업의 71%가 생성형 AI를 쓰지만, 80% 이상이 수익에 실질적 영향이 없다고 답했다. 기술 컨설팅 업체 가트너는 최근 AI가 기술 발전 과정상 '환멸의 골짜기' 단계에 들어섰다고 진단했다.
일시적 정체일 수도 있다. 스탠포드대 경제학자 에릭 브린욜프슨은 모든 신기술이 '생산성 J커브'를 그린다고 설명한다. 초기에는 도입 과정에서 생산성이 오히려 떨어지다가, 시간이 지나면서 급상승한다는 것이다.
전기가 대표적이다. 1880년대 도입됐지만 1910년대 헨리 포드가 공장 생산을 혁신하기 전까지는 별다른 효과가 없었다. 일부 전문가들은 AI는 이 과정이 훨씬 빠를 것으로 본다. 브린욜프슨은 "AI는 지금 J커브의 초기 하락 구간에 있다. 2020년대 후반에는 급상승할 것"이라고 전망했다. 앤스로픽 CEO 다리오 아모데이는 2027년쯤이면 AI가 "거의 모든 면에서 인간을 능가할 것"이라고 예측했다.
이런 전망은 AI가 최근 몇 년처럼 계속 빠르게 발전한다는 가정에 기반한다. 장담할 수 없는 일이다. 신규 모델들은 지연과 취소가 잦고, 올해 출시된 모델들은 개발비는 훨씬 늘었는데 성능 개선은 미미했다. 미국인공지능학회가 3월 실시한 설문에서 AI 연구자 475명 중 4분의 3 이상이 현재 방식으로는 인간 수준 AI 달성이 "어렵거나 매우 어렵다"고 답했다.
거품 경제의 위험한 도박
생성형 AI가 과대포장된 첫 기술은 아니다. 특이한 점은 AI가 사실상 미국 경제 전체를 떠받치고 있다는 사실이다. 2023년 이후 S&P 500 성장의 절반 이상이 단 7개 기업에서 나왔다. 알파벳, 아마존, 애플, 메타, 마이크로소프트, 엔비디아, 테슬라. '매그니피센트 세븐'으로 불리는 이들은 AI 혁명의 최대 수혜주로 꼽힌다.
하지만 주가 상승을 제외하면 실제 성과는 미미하다. (예외는 다른 6개사가 구매하는 AI 칩을 공급하는 엔비디아뿐이다.) 월스트리트저널에 따르면 알파벳, 아마존, 메타, 마이크로소프트의 잉여현금흐름은 2년간 30% 감소했다. 한 추정에 따르면 메타, 아마존, 마이크로소프트, 구글, 테슬라는 2024년 이후 AI 관련 설비투자에 5,600억 달러를 썼지만 관련 수익은 350억 달러에 그쳤다.
오픈AI와 앤스로픽은 매출이 빠르게 늘고 있지만 여전히 적자다. 기업가치(각각 3,000억 달러, 1,830억 달러)는 현재 매출의 수십 배에 달한다. (오픈AI 올해 예상 매출 130억 달러, 앤스로픽 20~40억 달러) 투자자들은 이 막대한 투자가 곧 기록적 수익으로 이어질 것에 베팅하고 있다. 만약 이 믿음이 깨진다면 대량 매도가 시작되고 시장은 극심한 조정을 겪을 것이다.
닷컴 버블을 넘어설 충격
1990년대 인터넷 혁명 때도 비슷했다. 투자자들은 '.com'만 붙으면 무조건 투자했다. 인터넷이 비즈니스를 혁신할 것이라 믿었기 때문이다. 하지만 2000년이 되자 기업들이 성과 없이 돈만 태우고 있다는 게 드러났다. 투자자들은 과대평가된 기술주를 팔아치웠다. 2000년 3월부터 2002년 10월까지 S&P 500은 거의 절반으로 폭락했다. 결국 인터넷은 경제를 혁신했고 역사상 가장 수익성 높은 기업들을 탄생시켰다. 하지만 그 과정에서 수많은 투자자가 파산했다.
닷컴 붕괴는 경제위기까지는 이어지지 않았다. AI 버블은 다를 수 있다. AI 투자는 이미 GDP 대비 비중으로 닷컴 정점기 통신 투자를 넘어섰다. 올해 상반기 기업들의 AI 투자가 GDP 성장에 기여한 정도는 전체 소비 지출을 합친 것보다 컸다. 많은 전문가들은 미국이 무역전쟁과 이민 단속에도 불구하고 경기침체를 피한 이유가 AI 투자라는 "거대한 민간 부양책" 덕분이라고 본다. AI 버블이 터지면 투자 감소, 일자리 축소, 성장 둔화가 연쇄적으로 일어나 경기침체로 이어질 수 있다. 경제학자 노아 스미스는 업계 확장을 뒷받침한 무규제 '사모대출'이 동시에 부실화되면 금융위기까지 올 수 있다고 경고한다.
일자리 대체도 환상
AI 버블이라면 그나마 다행인 점도 있다. AI가 갑자기 일자리를 빼앗을 것이라는 공포가 기우라는 것이다. 경제학자 사라 에크하트와 네이선 골드슐라그는 AI 노출도를 5가지 방식으로 측정해 노동시장 지표를 분석했는데, 어떤 영향도 발견하지 못했다. 오히려 AI 노출이 적은 건설노동자나 피트니스 트레이너의 실업률이 AI 노출이 많은 텔레마케터나 소프트웨어 개발자보다 3배 빠르게 상승했다. 대부분의 다른 연구도 비슷한 결론이다.
더 기묘한 시나리오도 있다. AI가 생산성을 높이지 못해도, 과대광고 때문에 기업들이 계속 도입할 수 있다. MIT 경제학자 대런 애쓰모글루는 "기업들에서 똑같은 얘기를 듣는다. 중간관리자들이 이사회를 만족시키려고 업무의 몇 퍼센트는 AI를 써야 한다는 압박을 받는다"고 전한다. 이런 기업들은 METR 실험의 개발자들처럼 착각에 빠져, 실제로는 생산성이 떨어졌는데도 AI 때문에 효율이 올랐다고 믿고 직원을 줄일 수 있다. 생산성 향상 없는 실업 증가가 일어나는 것이다.
황당해 보이지만 전례가 있다. 컴퓨터과학자 칼 뉴포트는 저서 『이메일 없는 세상』에서 1980년대 이후 벌어진 일을 소개한다. 컴퓨터와 이메일 덕분에 직원들이 스스로 소통하고 일정을 관리할 수 있게 되자, 기업들은 비서와 타이피스트를 해고했다. 그 결과 고급 인력이 이메일, 회의록 작성, 일정 조율에 시간을 빼앗겨 본업 생산성이 크게 떨어졌다. 결국 같은 일을 하는데 더 많은 사람을 뽑아야 했다. 포춘 500대 기업 20곳을 조사한 결과, 컴퓨터로 인한 '인력 불균형'을 겪는 기업들이 인건비를 15% 더 쓰고 있었다. 뉴포트는 "이메일은 생산성이 오른 것처럼 느끼게 했지만 실제로는 반대였다. AI도 같은 길을 갈까 봐 걱정된다"고 말했다.
그래도 경기침체나 금융위기를 일으킬 주식시장 대폭락보다는 나을지도 모른다.
<출처:theatlantic.com>