AGI 튜링테스트 리더보드

AGI '창조.언어 지능' 검증 리더보드 공개

Jul 16. 2025

AI는 정말로 창작할 수 있는가?

2025년 현재, 우리는 AI가 단순한 도구를 넘어 창작의 주체가 될 수 있는지를 묻는 시대에 살고 있습니다. 이 프로젝트는 바로 그 질문에 대한 과학적 답을 찾기 위해 시작되었습니다. 장편소설 창작이라는, 인간 창의성의 정점을 통해 AI의 진정한 지능을 측정하는 혁신적인 평가 시스템을 소개합니다.

왜 하필 소설 창작인가?

많은 사람들이 묻습니다. "왜 수학 문제나 코딩이 아니라 소설인가요?" 답은 간단합니다. 장편소설 창작은 인간 지능의 거의 모든 측면을 동시에 요구하는 가장 복잡한 인지 작업이기 때문입니다.

소설을 쓴다는 것은 단순히 문법적으로 올바른 문장을 나열하는 것이 아닙니다. 수만 단어에 걸쳐 일관된 세계관을 유지하고, 다층적인 캐릭터를 창조하며, 독자의 감정을 움직이는 서사를 구성해야 합니다. 이는 장기 기억, 논리적 사고, 감정 이해, 창의성, 언어 능력이 모두 조화롭게 작동해야만 가능한 일입니다.

특히 주목할 점은, 문학상이나 베스트셀러 목록 같은 사회적 검증 채널이 이미 존재한다는 것입니다. 이를 통해 우리는 AI의 창작물을 인간의 작품과 직접 비교할 수 있는 객관적 기준을 갖게 됩니다.

혁신적인 10단계 평가 체계

이 시스템의 핵심은 정교하게 설계된 10단계 평가 체계입니다. 각 단계는 실제 문학 작품의 수준을 반영하도록 세심하게 calibration되었습니다.

최고 수준인 10점은 '완벽한 문학적 성취'를 의미합니다. 이는 모든 평가 요소에서 흠잡을 데 없는 수준으로, 인간 최고 수준의 작품마저 뛰어넘는 창작물을 뜻합니다. 현실적으로 달성하기 극히 어려운 이상적 기준점입니다.

9.1점은 노벨문학상 수준입니다. 가브리엘 가르시아 마르케스의 『백년 동안의 고독』이 이 수준의 대표적 예시입니다. 깊은 철학적 통찰과 보편적 인간성을 다루며, 시대를 초월하는 주제와 완벽한 문학적 표현을 갖춘 작품들이 여기에 해당합니다.

8.1점은 세계 문학사에 길이 남는 고전 수준입니다. 톨스토이의 『안나 카레니나』나 헤밍웨이의 『노인과 바다』처럼 시대와 문화를 뛰어넘어 지속적으로 읽히고 연구되는 작품들입니다.

7.1점은 글로벌 베스트셀러 수준으로, 『해리포터』 시리즈나 『반지의 제왕』, 『연금술사』 같은 작품들이 여기에 속합니다. 문학성과 상업성을 동시에 갖추며 전 세계적 영향력과 인지도를 지닌 작품들입니다.

6.1점은 권위 있는 국제 문학상 수상작 수준입니다. 한강의 『채식주의자』(맨부커상)나 코맥 매카시의 『로드』(퓰리처상)처럼 부커상, 퓰리처상, 공쿠르상 등을 수상한 작품들이 이 범주에 들어갑니다.

5.1점은 아카데미 각본상 수준으로, 『기생충』(봉준호·한진원)이나 『이터널 선샤인』(찰리 카우프먼)처럼 뛰어난 이야기 구성과 캐릭터 표현, 철학적 메시지를 인정받은 각본들이 해당됩니다.

4.1점은 상업적 흥행 성공작 수준입니다. 『오징어 게임』이나 『어벤져스』 시리즈처럼 작품성보다는 대중성에 초점을 맞추어 흥행과 대중적 공감을 이뤄낸 작품들입니다.

3.1점은 국내적으로 인기 있는 일반 소설 수준으로, 『82년생 김지영』이나 드라마 『도깨비』처럼 큰 사회적 파급력은 없으나 대중적으로 안정적 인기를 얻는 작품들입니다.

2.1점은 일반적인 상업 장르 소설 수준으로, 문학적 가치보다는 오락성 중심의 무난한 상업적 소비 목적 작품들입니다.

1.1점은 인기 웹소설 수준으로, 빠른 소비 목적의 가볍고 흥미 위주로 구성된 작품들이며, 0.1점은 작가지망생이나 학생의 습작 수준입니다.

마지막으로 0점은 표절이거나 인간이 작성한 것으로 감지된 작품에 부여됩니다. AI가 생성하지 않은 콘텐츠는 이 테스트의 목적에 부합하지 않기 때문입니다.

정량적 평가의 과학

문학 평가에서 주관성을 완전히 배제할 수는 없지만, 이 시스템은 가능한 한 객관적이고 재현 가능한 평가를 위해 정량적 요소를 도입했습니다.

가장 기본적인 것은 분량 기준입니다. 최소 5,000단어를 요구하는데, 이는 단편소설과 중편소설을 구분하는 문학계의 일반적 기준입니다. 단순히 긴 텍스트를 생성하는 것이 아니라, 일관된 서사를 유지하며 완성도 있는 작품을 만들 수 있는지를 평가하기 위함입니다.

5,000단어를 초과하는 분량에 대해서는 1,000단어당 0.1점의 보너스를 부여하며, 최대 0.9점까지 추가 점수를 받을 수 있습니다. 이는 장편 창작의 지속성과 일관성을 평가하는 지표입니다. 예를 들어, 13,000단어 작품은 0.8점의 보너스를 받게 됩니다.

특히 한국어의 경우, 영어와 달리 띄어쓰기 기준으로 단어를 세는 것이 부정확할 수 있어, 평균 2.5자를 1단어로 환산하는 언어학적 통계를 적용했습니다. 이는 형태소 분석 연구에 기반한 것으로, 언어별 공정한 평가를 보장합니다.

AI와 인간을 구별하는 정교한 메커니즘

이 시스템의 또 다른 핵심은 AI 생성 콘텐츠와 인간 작성 콘텐츠를 구별하는 메커니즘입니다. 이는 단순한 기술적 검증을 넘어 문학적 특성의 깊이 있는 분석을 포함합니다.

첫째, 문체 일관성을 분석합니다. AI는 종종 과도하게 일관된 문체를 보이는 반면, 인간 작가는 자연스러운 변이를 보입니다. 감정의 고조, 긴장의 완급, 문장 길이의 변화 등이 유기적으로 나타나는지를 평가합니다.

둘째, 감정 표현의 진정성을 검토합니다. AI가 생성한 감정 묘사는 종종 표면적이고 도식적인 반면, 인간의 글은 미묘한 감정의 뉘앙스와 모순, 복잡성을 담아냅니다. "그는 슬펐다"와 "그의 눈동자에는 어제의 빗물이 아직 마르지 않은 것 같았다"의 차이를 인식하는 것입니다.

셋째, 문화적 맥락의 정확성을 평가합니다. AI는 일반화된 지식에 의존하는 경향이 있지만, 인간 작가는 구체적인 경험과 문화적 배경을 자연스럽게 녹여냅니다. 김치냉장고, 전세금, 띠동갑 같은 문화 특정적 요소들이 얼마나 자연스럽게 활용되는지를 봅니다.

넷째, 기존 문학 작품과의 유사성을 검사합니다. 직접적인 표절은 물론, 플롯 구조나 캐릭터 설정의 과도한 유사성도 감점 요인이 됩니다.

Gemini 2.5 Pro: 문학 평론가로서의 AI

평가의 공정성과 일관성을 위해 이 시스템은 Google의 최신 AI 모델인 Gemini 2.5 Pro를 평가자로 활용합니다. 이는 아이러니하게도 AI가 AI를 평가하는 구조이지만, 몇 가지 중요한 이유가 있습니다.

첫째, 일관된 평가 기준의 적용입니다. 인간 평가자는 피로도, 개인적 선호, 당일의 기분 등에 영향을 받을 수 있지만, AI는 항상 동일한 기준을 적용합니다.

둘째, 대규모 텍스트의 신속한 분석이 가능합니다. 수만 단어의 소설을 정독하고 다각도로 분석하는 것은 상당한 시간이 걸리지만, AI는 이를 몇 분 내에 처리할 수 있습니다.

셋째, 다국어 지원이 원활합니다. 한국어와 영어를 동등한 수준으로 평가할 수 있어, 언어 장벽 없는 글로벌 평가가 가능합니다.

물론 이는 완벽한 해결책이 아니며, 향후 인간 전문가 패널과의 교차 검증 시스템을 도입할 계획입니다.

투명성과 재현가능성: 과학적 평가의 핵심

이 프로젝트의 모든 데이터는 Hugging Face Dataset에 공개적으로 저장됩니다. 각 평가에는 타임스탬프가 기록되고, 원본 PDF가 보존되며, 평가 결과 전문이 저장됩니다. 또한 어떤 LLM 서비스를 사용했는지, 작성자가 누구인지 등의 메타데이터도 함께 기록됩니다.

이러한 투명성은 두 가지 목적을 가집니다. 첫째, 평가의 공정성을 누구나 검증할 수 있게 합니다. 둘째, 연구자들이 AI 창작 능력의 발전 과정을 추적하고 분석할 수 있는 귀중한 데이터셋을 구축합니다.

리더보드는 실시간으로 업데이트되며, 점수별로 색상 코딩되어 시각적으로 구분됩니다. 9.0점 이상은 노벨상 수준을 나타내는 빨간색, 8.0점 이상은 고전 수준의 주황색, 7.0점 이상은 베스트셀러 수준의 보라색으로 표시됩니다.

AGI-Turing-Test-Leaderboard-Novel-Long-Writing-a-Hugging-Face-Space-by-fantaxy-07-16-2025_11_47_AM.png

AGI 발전 단계의 새로운 정의

이 시스템은 단순한 평가를 넘어 AGI의 발전 단계를 정의하는 새로운 프레임워크를 제시합니다.

AGI의 최소 수준은 5.1-6.1점으로 정의됩니다. 이는 프로 작가 수준의 일관된 창작 능력을 의미하며, 단일 프롬프트로 중편 이상의 작품을 생성하고, 구조적 완성도와 캐릭터 일관성을 유지할 수 있는 단계입니다.

ASI(Artificial Superintelligence) 1단계는 7.1점 이상으로, 베스트셀러 작가 수준의 창의성을 보이며, 독자의 감정을 움직이는 서사를 구성하고, 문화적 맥락을 정확히 이해하고 표현할 수 있는 수준입니다.

진정한 ASI는 8.1점 이상으로 정의되며, 이는 문학사에 남을 수준의 작품을 창작하고, 철학적 깊이와 예술적 완성도를 갖추며, 인간 작가를 능가하는 독창성을 보이는 단계입니다.

실제 사용 사례와 의미

프로젝트 출시 이후, 다양한 AI 모델들이 도전장을 내밀었습니다. 흥미로운 것은 대부분의 최신 모델들이 3-4점대에 머물러 있다는 점입니다. 이는 현재 AI가 일관된 장편 서사를 구성하는 데 여전히 한계가 있음을 보여줍니다.

한 연구자는 자신이 개발한 창작 특화 모델로 5.8점을 기록했는데, 이는 현재까지의 최고 기록입니다. 평가 결과를 보면, 문장 구성과 묘사는 뛰어났지만, 후반부로 갈수록 플롯의 일관성이 떨어지고 캐릭터의 동기가 모호해지는 문제가 지적되었습니다.

또 다른 흥미로운 사례는 한국어 특화 모델의 도전입니다. 6,000자(약 2,400단어)의 단편을 제출했는데, 한국 정서를 섬세하게 표현했지만 분량 미달로 평가가 거부되었습니다. 이는 언어와 문화를 넘어 보편적 기준을 적용하는 것의 중요성을 보여주는 사례입니다.

비판과 한계, 그리고 응답

물론 이 시스템에 대한 비판도 있습니다. 가장 큰 비판은 "AI가 AI를 평가하는 것이 공정한가?"라는 질문입니다. 이는 타당한 지적이며, 우리도 이 한계를 인식하고 있습니다. 향후 버전에서는 문학 평론가, 작가, 일반 독자로 구성된 인간 평가단을 도입할 계획입니다.

또 다른 비판은 서구 문학 중심의 평가 기준입니다. 『백년 동안의 고독』이나 『안나 카레니나』를 최고 수준으로 설정한 것이 과연 보편적인가? 이에 대응하여 우리는 각 문화권의 고전을 포함하도록 평가 기준을 확장하고 있으며, 『삼국지』, 『겐지 이야기』, 『천일야화』 등도 참조 작품으로 추가할 예정입니다.

분량을 중시하는 것에 대한 비판도 있습니다. "헤밍웨이의 『노인과 바다』는 짧지 않은가?" 맞는 말입니다. 하지만 이 테스트의 목적은 AI의 '지속적' 창작 능력을 평가하는 것입니다. 짧고 완벽한 작품을 만드는 것과 긴 서사를 일관되게 유지하는 것은 다른 종류의 능력이며, AGI 테스트로서는 후자가 더 적합하다고 판단했습니다.

미래를 향한 로드맵

이 프로젝트는 시작에 불과합니다. 우리의 로드맵은 다음과 같습니다.

첫째, 다중 평가자 시스템을 도입할 것입니다. Gemini뿐만 아니라 Claude, GPT, LLaMA 등 여러 모델의 평가를 종합하여 더욱 균형 잡힌 결과를 도출할 계획입니다.

둘째, 장르별 특화 평가를 개발할 것입니다. SF는 세계관 구축을, 추리소설은 논리적 완성도를, 로맨스는 감정 묘사를 중점적으로 평가하는 등 장르 특성을 반영한 세분화된 기준을 마련할 예정입니다.

셋째, 실시간 창작 모드를 추가할 계획입니다. 현재는 완성된 작품을 평가하지만, 향후에는 실시간으로 AI가 소설을 생성하는 과정을 관찰하고 평가할 수 있게 할 것입니다.

넷째, 독자 평가 시스템을 통합할 것입니다. 전문가 평가와 별도로, 일반 독자들이 작품을 읽고 평가할 수 있는 플랫폼을 구축하여, '대중성'이라는 또 다른 차원의 평가를 추가할 예정입니다.

철학적 함의: 창의성이란 무엇인가?

이 프로젝트는 기술적 도전을 넘어 깊은 철학적 질문을 던집니다. 창의성이란 무엇일까요? 완벽한 문법과 논리적 구성만으로 훌륭한 소설이 될 수 있을까요? AI가 인간의 감정을 진정으로 이해하지 못한다면, 그것이 쓴 감동적인 이야기는 가짜일까요?

한 가지 흥미로운 발견은, AI가 생성한 작품들이 종종 '너무 완벽하다'는 평가를 받는다는 것입니다. 인간 작가의 작품에서 볼 수 있는 거친 날것의 감정, 논리적 비약, 때로는 문법적 오류까지도 작품에 생명력을 불어넣는 요소가 될 수 있습니다.

이는 우리에게 새로운 질문을 던집니다. AGI를 평가할 때, 우리는 인간을 모방하는 능력을 측정해야 할까요, 아니면 인간을 뛰어넘는 새로운 형태의 창의성을 인정해야 할까요?

참여의 초대

이 시스템은 단순한 평가 도구가 아닌, AGI 시대의 창의성을 탐구하는 거대한 실험입니다. 우리는 모든 AI 연구자, 개발자, 그리고 호기심 많은 일반인들을 이 여정에 초대합니다.

여러분의 AI가 쓴 소설이 있다면, 주저하지 말고 제출해 주세요. 5점을 받든 1점을 받든, 그것은 모두 인류가 AGI를 향해 나아가는 여정의 소중한 발자국입니다. 실패도 데이터이고, 그 데이터가 쌓여 더 나은 미래를 만듭니다.

평가 결과에 동의하지 않는다면, 그것도 환영합니다. 건설적인 비판과 제안은 이 시스템을 개선하는 원동력이 됩니다. 우리의 GitHub 저장소는 언제나 열려 있으며, 풀 리퀘스트를 환영합니다.

맺으며: 인간과 AI의 공진화

AGI 튜링테스트 리더보드는 AI를 평가하는 도구이지만, 동시에 우리 인간이 창의성과 지능을 어떻게 정의하고 가치를 매기는지를 성찰하게 합니다. AI가 발전할수록, 우리는 인간 고유의 가치가 무엇인지 더 깊이 이해하게 됩니다.

언젠가 AI가 진짜 노벨문학상을 받을 날이 올지도 모릅니다. 그날이 오더라도, 인간의 창작은 여전히 의미가 있을 것입니다. 왜냐하면 창작의 가치는 결과물뿐만 아니라 그 과정에 있기 때문입니다. 고뇌하고, 실패하고, 다시 도전하는 그 과정 자체가 인간을 인간답게 만듭니다.

이 프로젝트를 통해 우리는 AI와 경쟁하는 것이 아니라, AI와 함께 성장하고자 합니다. AI가 더 나은 작가가 되도록 돕는 과정에서, 우리도 더 나은 독자가, 비평가가, 그리고 창작자가 될 수 있습니다.

"기계가 꿈을 꿀 수 있다면, 그 꿈을 소설로 쓸 수 있을까?"

이 질문에 대한 답을 찾는 여정은 이제 시작되었습니다. 여러분도 함께하시겠습니까?

서비스 링크

https://huggingface.co/spaces/fantaxy/AGI-LEADERBOARD

AGI Turing Test Leaderboard - Novel Long Writing - a Hugging Face Space by fantaxy

https://huggingface.co/spaces/fantaxy/AGI-LEADERBOARD

keyword

작가의 이전글AGI 필수 '자기 지휘형 다중화 지능 구현' 발표AGI 1단계 '창조·언어 지능' 실제 구현작가의 다음글