GPT는 정말 아날로그시계를 못 읽을까?

by gulogulo


인터넷에서 “GPT는 아날로그시계를 못 읽는다”는 이야기를 봤다.

실제로 시계 이미지를 주고 시간을 물으면 엉뚱한 답을 내놓는 경우가 있다는 것이다.


심지어 어떤 사례에선, 첫 번째 답을 틀린 뒤 다시 이미지를 보여주자 시침과 분침의 각도를 계산하는 복잡한 수식을 몇 분간 늘어놓고는, 자랑스럽게 또 틀린 답을 내놓았다고 한다. 그 장면이 캡처돼 “박사급 인공지능의 허술한 모습”으로 떠돌고 있다.



GPT는 바보일까?


나도 궁금해졌다. 정말 그런 걸까.

그래서 GPT에게 “왜 아날로그시계를 못 읽는가”라고 물어봤다.


돌아온 대답은 간단했다.

이미지를 인식하는 과정과, 그것을 추론하는 과정이 분리되어 있기 때문이라는 것이다.


그래서 실험을 해봤다.

먼저 아날로그시계 사진을 보여주고 “이 이미지를 설명해 달라”라고 요청했다.

GPT는 시침, 분침, 초침의 위치를 비교적 정확히 짚어냈다.

그다음 “그 설명을 바탕으로 시간을 맞춰 보라”라고 했더니, 정확히 맞혔다.



‘바보’가 아니었다


사람 입장에서 보면, 시침과 분침의 위치를 읽어놓고 시간을 틀린다는 건 이해가 되지 않는다. 그러나 GPT는 그 과정을 한 번에 이어서 처리하지 못할 뿐이었다.


즉, GPT가 바보라서 그런 게 아니었다.



혁신이라는 말의 무게


이런 과정을 보면서 문득 생각했다.

매번 새 버전이 나올 때마다 오픈 AI에서 “이번 버전은 혁신적이다”라고 강조하는 말은, 단순한 마케팅만은 아닐지도 모른다.


아마도 내부에서 GPT를 실제로 사용하는 사람들이, 그만큼 성능을 제대로 사용하기 때문에 나오는 표현이 아닐까?



마무리


겉으로 보이는 실수만 떼어놓고 보면 우스갯거리에 불과하다.

하지만 그 이면에는 여전히 빠르게 진화하는 기술이 있다.


결국 중요한 건, 우리가 그 실수를 어떻게 바라보고 받아들이느냐일 것이다.


keyword