현재 AI의 기술적 수준은 어디까지 와있을까?

스탠퍼드 AI Index Reprt 2024 분석 #4

by 키르히아이스 Jun 20. 2024

이번엔 스탠퍼드 보고서에 나온 AI의 기술적 성능 주제에 대해 알아볼 텐데 실제로 AI는 어느 수준까지 와있을까? 스탠퍼드의 보고서에서는 각 분야별로 최고성능의 AI로 인간과 비교해 보았다.

각 분야별 인간 대비 능력치 비율(출처: 스탠퍼드 AI Index Report 2024)

이 그래프에서 보듯이 거의 모든 분야에서 인간의 능력에 근접하고 있다. 물론 여기서 인간의 능력이란 평균치이지 고급 인력은 아니다. 고급인력에 관한 데이터는 좀 더 뒤에 나온다. 그래프상에서 지금 시각적 상식추론과 고급 수학문제에서 아직 인간 수준에 못 미치고 있다. 시각적 상식 추론이란 이미지를 보고 상식적 추론을 하는 것이다. 예를 들어 라면과 파와 계란의 사진을 주고 이걸로 끓인 라면 사진을 보여달라고 하면 AI가 요리한 뒤의 모습을 추론한다. 보고서에 나온 재밌는 예가 있는데 하나 보자.

이미지와 텍스트를 동시에 입력하고 AI의 반응을 보는 실험(출처: 스탠퍼드 AI Index Report 2024)

이것은 구글 제미나이로 실행한 예제인데 재료를 보여주고 동시에 음성도 같이 입력해 채식주의 오믈렛을 만드는 과정을 알려달라고 한다. 개인적으로 계란을 왜 채식주의에 포함하는지 이해가 안 되지만 아무튼 이렇게 물으면 계란을 깨고 보울에서 섞으라고 답한다. 그러고 나서 적당히 프라이팬에서 계란물이 익은 모습을 보여주면서 오믈렛에 맞게 되어가냐고 물으면 AI는 시각적으로 판단해서 적당하다고 답하고 이제 그것을 뒤집어서 익히라고 말한다.

여기서는 잘 되었지만 역시 텍스트보다는 이미지가 연산량이 많고 인식이 쉽지 않다. 고급 수학 문제도 마찬가지이다. 수학이라서 컴퓨터가 무조건 잘할 것 같지만 이 역시 고급 추론이 들어가야 한다.

<언어 이해>

각 모델별 언어이해 수준 벤치마크 테스트(출처: 스탠퍼드 AI Index Report 2024)

언어에 대한 벤치마크 테스트 결과는 이 그래프와 같다. GPT-4가 가장 앞선다고 볼 수 있지만 분야별로 다른 모델이 앞서는 경우도 있었다.

대규모 언어테스트(MMLU( Massive Multitask Language Understanding )라고 해서 인문학, 사회과학, 이공계과학을 포함한 57개 주제에 대해 질문을 하는 벤치마크 테스트에서 AI는 이제 인간의 평균에 도달했다.

대규모 언어테스트에서는 이미 인간 평균 수준 도달(출처: 스탠퍼드 AI Index Report 2024)

언어를 이해함에 있어 AI의 큰 문제는 환각(Hallucination)이다. 즉 학습 중에 사실 오해가 반복되면서 그것을 진실로 믿어버리는 경우이다. 이에 관한 테스트도 다양하게 수행되고 있는데 이 그래프는 환각분류 정확도이다.

환각 판별 비율(출처: 스탠퍼드 AI Index Report 2024)

환각과 정상질문 3만 5천 개를 주고 이를 판별하게 한 결과이다. GPT-4가 들어가 있지 않아 아쉬운데 아무튼 80% 정도 판별해 낸다고 보면 된다.

<코딩>

일반인들은 큰 관심 없는 문제이니 살짝 살펴보면 단순한 문제에 대해서는 96.30%의 해결률을 보이고 있지만 복잡한 소프트웨어 공학적 문제는 아직 갈길이 멀다.

소프트웨어 공학 문제 해결률(출처: 스탠퍼드 AI Index Report 2024)

위에서 보듯이 벤치마크 테스트에서 2294개의 문제데이터 세트를 주고 보았더니 가장 높은 것도 4.8%의 해결률밖에 되지 않았다. 혼자 개발프로젝트를 진행하는 툴도 나와있는데 아마 벤치마크에서 사용한 툴들은 범용 AI라서 그럴 수도 있다. 코딩에만 특화된 AI는 이보다 나을 수도 있다는 생각이 든다. 이 보고서가 2023년까지 내용을 반영한 거라 한계가 있다.

keyword