Ep.3
우선 우리가 어떤 자료에 자주 노출되는지에서 그 원인을 찾아볼 수 있겠다.
학계의 연구를 몇 개 소개해보자.
(1)스탠포드 대학의 HAI (Human-centered Artificial Intelligence), 인간중심 인공지능 리서치 팀에서 발표한 연구이다. (2024년 5월)
법조계에서 사용되는 법률모델 인공지능을 대상으로 한 실험이다.
Lexis, Westlaw, Pract.Law 등 유료로 제공되는 이 서비스들은 개인의 경우 월 200달러, 대형로펌은 인당 1000~1500달러, 약 130만원에서 200만원을 지급하는 모델이다.
이런 법률 전용 AI모델들의 환각률은 17%에서 34%에 달했다.
챗GPT의 경우 40%가 넘었다.
답변이 불완전한 경우 역시 18%에서 62%였다.
흥미로운 점은 이런 법률 전용 인공지능 모델들은 앞서 언급된 영국 법원의 사례와 같이 환각증상을 극복하기 위해 ’검색증강생성(RAG)‘라는 모델을 활용했음에도 이런 결과를 낳았다는 것이다.
자연스러운 답변을 위해 LLM을 아웃풋 단계에 두어서 어쩔 수 없는 게 아닌가 싶다.
그럼 법률 분야 말고 컴퓨터 과학분야 나 소프트웨어 엔지니어링은 어떨까?
(2) 미국 퍼듀 대학에서는 챗GPT의 프로그램 문제들의 해결능력을 파악하기 위해 진행한 연구를 보자. 이 연구에서는 챗GPT의 오답율이 52%이고 간결한 답변이 가능한 문제에도 77%이상 장황한 코딩을 했다는 걸 보여줬다. (2023년 8월)
(3) LLM을 뛰어넘은 활용도를 기대하며 AI에이전트가 대두되고 있다. 이런 인공지능 에이전트에 대해서 진행된 실험도 있다.
컴퓨터 과학 분야에 적용하여 연구결과를 검증하는 작업에 투여된 AI에이전트들은 GPT4부터 클로드 3.5까지 모두 40% 미만의 성공률을 보여줬다. 코드와 데이터가 제공되었음에도 과학 실험의 재현성이라는 영역에서 활용되지 못했다.
가장 높은 성공율을 보인 컴퓨터공학에서도 60% 미만, 그 외 의학, 사회과학 문제의 해결능력을 봤을 때도 40%를 넘지 못했다. (GPT-4o, 4o-mini)
(2024년 9월)
(4) 2025년 6월5일 스탠포드 대학의 생산성 연구그룹 연구 결과에선 인공지능을 실제로 도입했을 때 생산성이 얼마나 증가했는 지 결과를 발표했다. 아래 그래프의 주황색이 ’재작업‘한 비중이다. 오히려 인공지능을 통해 작업했을 때 재작업율이 상승한 것을 볼 수 있다.
(5) MIT의 또 다른 연구에서는 생성형 AI 파일럿들이 95%가 실패하고 있다는 연구를 내놓기도 했다. 이번 연구는 150명의 경영진 인터뷰, 350명의 직원 설문조사, 300건의 공개된 AI 도입 사례 분석을 바탕으로 성공 사례와 답보 상태의 프로젝트 사이의 뚜렷한 격차를 보여준다.
이 연구는 여러 기업들이 강력한 신모델을 서둘러 도입하고 있음에도 불구하고, AI 시범 프로그램 가운데 약 5%만이 빠른 매출 성장을 이끌어내고 있다고 설명한다. 기업들의 대부분은 제자리걸음을 하며 손익계산서에 거의 영향을 주지 못하거나 전혀 기여하지 못한다.
이 보고서에서 8가지 섹터/분야 중 2가지만(기술, 미디어통신) 의미있는 구조적 변화를 보여줬다는 부분도 담겨있다.
'기업용 생성형 AI와 관련된 다섯 가지 오해(myth)' 중 4번은 이렇게 설명한다.
"[오해] AI를 가로막고 있는 가장 큰 장애물은 품질, 법률, 리스크이다.
→
[사실] 진짜 발목을 잡고 있는 것은 대부분의 AI 도구들은 '학습능력'이 없고, 기존 워크플로우에 잘 통합되지 않는다"
어쩌면 이건 인공지능에 국한된 이야기라 보편적인 현상일 수 있겠다.
이렇게 위와 같은 "연구들을 접한 사람들"과 "(관련 기업의 CEO나 이해관계자들의 전망을 싣는) 언론보도만 접한 사람들"과의 견해 차이가 달라지는 건 어쩔 수 없겠다.
그리고 이 글을 읽게 된 작가/독자님도 지금부터는 다른 시선으로 AI의 발전을 바라볼 수 있게 되면 좋겠다.