[방구석5분혁신.디지털&AI]
국내외 주요 인공지능(AI) 모델 성능 비교 위해 김정호 KAIST 교수 연구진과 조성은 한국외대 영어대학장 연구진이 각각 연구 진행함. 네이버 하이퍼클로바X(이하 클로바), 오픈AI 챗GPT, 구글 제미나이, 앤트로픽 클로드 대상으로 역사, 문화, 번역, 수학 문제 풀이 등 한국의 언어와 문화 이해도 차원에서 AI 성능 평가함.
▶ 연구자와 연구 설명
*김정호 KAIST 교수 연구진*은 역사, 문화 관련 질문 통해 각 AI의 한국 문화, 역사 이해도 평가. 클로바가 한국 역사에 대해 상대적 높은 이해도 보였음. 해외 AI들도 예상보다 높은 수준의 한국어 구사 능력 보임.
*조성은 한국외대 영어대학장 연구진*은 번역 품질을 평가. 문학, 수능지문, 안내문, 신문기사 등 다양한 텍스트를 활용해 번역 품질을 비교함. 챗GPT와 제미나이가 비교적 높은 성능을 보였음. 클로바는 번역의 일관성과 성별 대명사 사용에서 취약점이 드러남.
1. 한국 역사·문화 이해
- 클로바는 한국의 역사와 문화에 대한 높은 이해도를 보여줌.
- 김정호 KAIST 교수 연구진은 6·25전쟁 발발 책임과 같은 역사적 질문에 대해 각 AI의 답변을 분석.
- 클로바는 명확한 관점으로 ‘북한의 침공 책임’을 언급, 챗GPT는 중립적 입장을 유지, 제미나이는 다양한 해석이 가능하다고 답함.
2. 사진 인식
- 이순신 장군 표준 영정을 인식하는 테스트에서 클로바는 정확히 '이순신'으로 인식.
- 챗GPT는 잘못된 인식으로 '정약용'이라고 답변.
- 제미나이는 답변을 하지 못함.
3. 수학 문제 풀이
- 고등학교 수준의 수학 문제에서 네 개의 AI가 비슷한 성능을 보였음.
- 클로바는 한국어로 된 수학 문제에는 정확한 답변을 했으나, 영어로 물었을 때는 오답을 냄.
- 클로드는 영어 문제에서 높은 정확도를 보였지만, 한국어 문제에서는 성능 저하.
- 챗GPT는 전반적으로 일관적이고 우수한 성능을 보임.
4. 한영 번역 품질
- 연구진이 문학, 수능 지문, 안내문, 신문 기사 등을 활용해 각 AI의 한영 번역 능력을 평가.
- 챗GPT는 20점 만점 중 16점으로 가장 높은 점수 받음. 특히 1940년대 한국 소설 번역 시 문맥 살려 생동감 있게 표현함.
- 클로바는 13.5점으로 가장 낮은 점수를 받았으며, 번역의 일관성과 정확성에서 부족함을 보임.
- 특히 한국 소설 번역 시, 챗GPT는 문맥을 살린 생동감 있는 번역을 보여 연구진의 높은 평가를 받음.
5. 영한 번역 품질
- 제미나이가 20점 만점 중 15점으로 가장 우수한 성능을 보였음
- 챗GPT가 14.8점으로 그 뒤를 이음.
- 클로바는 영한 번역에서도 가장 낮은 성능(13.2점)을 보임.
- 연구진은 클로바의 번역에서 특히 성별 대명사 사용에서 오류가 많았다고 평가.
이번 연구 통해 네이버 하이퍼클로바X는 한국 문화, 역사 이해도에서 강점 보였으나, 번역 품질과 수학 문제 풀이에서 해외 AI와 경쟁에서 다소 뒤처짐. 특히 챗GPT, 제미나이는 한국어 구사 능력과 번역 성능에서 경쟁력 보이며, 한국어 데이터 학습 깊이와 품질이 해외 AI에서도 충분히 구현되고 있음을 확인할 수 있음.