과연 법률 분야에서도 Grok4는 SOTA인가?
모두 아시는 것처럼 Grok4가 이번주에 출시되었죠.
일단 처음에는 발표한 성능을 보고 너무 놀랐습니다.
현재 시점 기준 SOTA 라고 볼 수 있을 것 같습니다.
(* SOTA = State of the Art = 현재 수준 최고 모델을 지칭)
Grok4 출시자료를 간단하게 요약한 내용을 공유드리면 아래와 같습니다.
모든 분야에서 대학원생을 압도하는 지능, 추론력을 실현
훈련 규모와 연산 자원이 100배 이상 증가
강화학습(RL) 중심으로 발전해 인간 수준을 뛰어넘는 문제 해결 능력을 입증
ARC-AGI 점수 15.9% 달성, 현존하는 AI 중 최고 수준의 추상적 추론 및 일반 지능 평가에서 우수 성과 기록
Humanity’s Last Exam(HLE) 등 다양한 벤치마크에서, 외부 도구 미사용 시 26.9%, 도구 사용 시 41~50.7%라는 혁신적 결과
네이티브 보이스 모드 도입으로, 실시간 대화 및 감정 표현, 저지연 응답 등 인간에 가까운 상호작용 구현
출처: https://x.ai/news/grok-4, https://news.hada.io/topic?id=21917
아직 법률 분야에서 많이 사용을 해보지는 않았지만, 어느정도 사용을 해봤을 때, 다소 부정확한 정보 및 표현들이 출력되는건 지난 글에도 공유드린 것처럼 LLM 특성상 어쩔 수 없는 부분이고, 흥미로운 특징은 1) 다중 에이전트의 결과값 중 제일 좋은 것을 선택해서 결과값을 리턴해준다는점과 (단일 에이전트 모델의 10배 리소스 사용), 2) 주요 데이터 학습 및 출처를 X를 참고하는 것으로 보이는 점입니다.
초기 Grok 모델은 X의 데이터를 토대로 만든것으로 알고 있고, 지속적으로 이렇게 X를 출처로 참고하는 부분은 (물론 전문 학술 데이터 및 정보들을 교차 검증을 하겠지만) 개인적으로 전문 도메인 영역에서는 오류를 범할 가능성이 매우 높아질 가능성이 있다고 생각합니다.
그럼에도 불구하고, 현재 벤치마크성능을 봤을 때, 이제 전반적으로 모델 성능 향상은 더욱 가속화될 것으로 보이고, 전문 영역의 경우 (특히 법률의 경우) 향후 1-2년간은 이미 누적 & 축적된 학습 모델에 1) 추가로 굉장히 좋은 수준의 양질 데이터 기반으로 파인튜닝하는 방식으로 나아가거나 2) 기존 데이터에 모델 API를 사용해서 RAG를 최적화하는 방식으로 나아가지 않을까 조심스럽게 예상해봅니다.
위 글을 보시면 AGI 까지 아직 멀었다고 볼수도 있겠지만, 저는 생각보다 빠르게 다가갈 수도 있다고 생각합니다. 만약 지속학습 (continual learning)이라는 개념으로 AI 가 발전한다면 (예를 들어, 제가 어떤 질문에 대해 물어봤을 때, 답변을 주고 끝나는 것이 아니라 해당 질문에 대한 지속적인 학습, 답이 정해져있다면 정해져있는 답을 찾을 때까지 지속적으로 검색 및 학습을 병행하는 식의 모델이 있다고 가정한다면) 모델의 성능은 기하급수적으로 높아질 것이라는 생각입니다.
2014년 처음 ML(기계학습)을 공부하고 접할 때부터 지금까지 줄곧 느끼는 것은 결국 AI는 엔지니어들이 인간에 대한 이해가 가장 깊어질 때, 인간에 가장 근접한 AGI 모델들이 나오지 않을까 싶네요.