brunch
매거진 생각기록

Next generation of 튜링테스트

20250226

by 야옹이버스

사람과 기계를 구별하는 테스트인 튜링테스트

기계를 판별하기 위해 우리 주변에서 널리 쓰인 테스트는 CAPTCHA일텐데, '문자를 왜곡'하는 것에서 '신호등을 찾아봐' 등으로 그 발전사를 지켜봤다.


하지만 ChatGPT 의 등장과 함께 '사람같다' '쓸만하다'의 시대가 열리고,

생각보다 빨리 LLMs(대형언어모델) 의 성능이 향상되면서, 점점 사람인지 AI인지 구별이 어려워지는 시대로 넘어가고 있다.

AI 씬에서는 '인류의 마지막 문제(Humanity's Last Exam)'라는 벤치마크도 등장했으나 LLMs 의 정답률이 빠른 속도로 올라가는 중...

(인류마지막문제_최종_최종의최종.jpg 가 떠오른다...)


이후, 인간과 기계를 꼭 구별해야 하는 때가 올텐데, 아마도 쉽지 않은 과제가 될 것.




그렇다면,

인간의 특징 중 DNA(유전으로 남은)에 기록된 정보나, 인간의 몸과 관련되어 발현되는 특징이 힌트가 될 수 있지 않을까.


예를 들어,

인간은 '익숙한' 과 '좋은' 을 헷갈린다. (Cognitive ease, 대니얼 카너먼)

이는 반복 되는 것에 호감을 느끼는 진화적 역사로부터 발현된 혼동이다. 반복했으나 안전한 것은 좋은 것이었기 때문이다.

많이 다닌 길(익숙한)은 안전해(좋은)
자주 먹는 음식(익숙한)은 안전해(좋은)

안전성이 '생존'에 영향을 끼치므로 두 개념이 연결된 것이다.


이렇게, '생존'과 '유전'에 관련하여 발현된 특성의 경우, 인간과 모델의 판단이 다를 수 있지 않을까.

말하자면, 인간은 헷갈려하는 '익숙한'과 '좋은'을 모델은 다른 개념으로 명확히 구별한다던가 하는.

튜링테스트의 다음 버젼으로는 이런 고민을 해야하지 않나 싶다.


물론 인간이 만들어 낸 데이터로 학습하므로, 학습데이터에 담긴 인간의 헷갈리는 경향성마저도 모델이 학습할 수 있지. 그럼그럼.






Humanity's Last Exam

- 공식 페이지: https://lastexam.ai/

- 데이터셋: https://huggingface.co/datasets/cais/hle

- arXiv: https://arxiv.org/abs/2501.14249


476398992_10222831368372732_925612859699174531_n.jpg



Cognitive ease (인지적 편안함)

- 노벨 경제학상을 받은 심리학자, 대니얼 카너먼이 사람의 인지체계에 대해 쓴 책 '생각에 관한 생각(Thinking, Fast and Slow)'에 나오는 개념 중의 하나

- 이 책은 정말 재미있게 본 책이라, 세상 사람들 다 읽으셨으면 해서 리뷰도 했다.

- 영상 1편에 인지적 편안함이 나온다. (총 10편의 영상이다)

- https://www.youtube.com/watch?v=q78gQzDl2Jw&list=PLXYuWBt2rozxOXlCpxYjzAxyhthi9QaFn

keyword
매거진의 이전글인간의 symbolic 능력을 AI에게 키울 방법