현지 시각으로 2월 19일, 구글이 추론 능력을 획기적으로 개선한 제미나이 3.1 프로(Gemini 3.1 Pro)를 출시했다. 이번 모델은 주요 AI 성능 평가 항목 10개 중 6개 분야에서 1위를 차지하며 '최강 모델'의 지위를 탈환했다는 평을 받는다.
특히 추상 논리 추론 능력을 측정하는 ARC-AGI-2 벤치마크에서 기존 버전(31.1%)보다 두 배 이상 향상된 77.1%를 기록했다. 이는 앤트로픽의 '클로드 4.6 오퍼스'나 오픈 AI의 'GPT-5.2' 등 현존하는 경쟁 모델들의 성적을 상회하는 수치다.
어렵고 전문적인 내용은 잠시 접어두고 내가 이번 발표에서 주목한 지점은 두 가지다. 바로 '환각(Hallucination) 감소'와 '코딩 기능의 진화'이다.
첫째, 환각의 감소는 신뢰의 문제다. 실무에서 AI를 도구로 사용하는 사람에게 정보의 정확성은 생산성과 직결된다. AI가 그럴듯한 거짓말(환각)을 내놓을 경우, 이를 검증하고 수정하는 데 드는 시간은 AI를 쓰지 않았을 때보다 더 많은 낭비를 초래한다. 이번 모델이 환각 저항성에서 독보적인 점수를 기록했다는 사실은, 작업의 '속도'뿐만 아니라 '결과물의 신뢰도'를 보장한다는 측면에서 매우 고무적이다.
둘째, '바이브 코딩(Vibe Coding)'의 확장성이다. 구글은 이번 모델에서 3D 합성 기능을 결합한 코딩 능력을 강조했다. 사용자가 텍스트로 분위기나 모션을 입력하면, AI가 직접 애니메이션 SVG 코드를 생성해 낸다. 기존 비디오 파일과 달리 코드를 기반으로 구동되기 때문에 용량이 매우 가볍고, 웹사이트나 프레젠테이션 등 다양한 플랫폼에서 화질 저하 없이 세밀한 모션 그래픽을 구현할 수 있다. 텍스트 몇 줄로 전문적인 애니메이션 아이콘을 직접 만들 수 있게 된 셈이다.
이러한 기술적 도약은 반갑지만, 동시에 한 가지 의문이 남는다. "우리는 이 뛰어난 지능을 얼마나 제대로 쓰고 있는가?" 나는 주로 코딩 작업에 AI를 활용해 왔기에 이번 기능 향상이 반갑지만, 한편으로는 향상된 추론 능력과 지식 통합 기능을 내 연구와 일상에 충분히 녹여내지 못하고 있다는 아쉬움이 든다. AI의 성능은 하루가 다르게 폭발적으로 성장하고 있는데, 나의 활용 방식은 여전히 과거의 습관에 머물러 있는 것은 아닐까.
성능이 좋아진 만큼, 이제는 AI를 단순한 작업 도구를 넘어 내 사고의 깊이를 더하고 흩어진 지식을 유기적으로 잇는 ‘연구 파트너'로 활용할 수 있는 더 정교한 방법을 고민해 봐야겠다.
[참고 기사]
https://www.aitimes.com/news/articleView.html?idxno=206972