Claude vs ChatGPT 비교
생성형 인공지능 Claude에게 내가 만든 퍼즐을 풀려 보았다.
전에 소개한 ’언어학 올림피아드 방식의 수어 문자 퍼즐’이다.
https://brunch.co.kr/@saokim/36
처음엔 직접 내 블로그에 접속해서 문제 내용을 파악하도록 하려고 했는데 글 링크를 주니까 텍스트 내용만 긁어 와서 아무 소용이 없었다.
게다가 시키지도 않았는데 해설 글을 맘대로 찾아 내서는 그 내용을 막 늘어놓기까지...
해설을 외워 버리면 퍼즐을 풀리는 의미가 없지만,
다행히 Claude는 chatGPT하고는 다르게 새 채팅창을 열면 그 전까지 대화했던 내용을 싹 잊는다.
(적어도 새로 열린 채팅창에서는 이전 채팅 내용을 기억하지 못한다.)
그래서 이래저래 좀 돌아가기는 했지만 결국 온전히 자기 실력만으로 퍼즐을 풀게 하는 데 성공했다.
간단한 소감을 말하자면,
- Claude가 생각보다 헤매긴 한다.
- 그래도 자신의 사고 과정을 비교적 투명하게 보여주기 때문에 조목조목 반박하기가 편하다. 그렇게 가이드해 주니 곧잘 푼다.
- 처음 정답에 도달하게 하기까지 족히 한 시간은 걸린 듯.
- 인공지능이 안 지치고 나랑 계속 놀아 주니까 재밌다.
- 전에 말했듯 나는 ‘산파술’ 비슷한 걸 원래 좋아한다.
정답을 곧장 말하지 않고 상대가 뭘 오해하고 있는지 하나하나 지적해서 유도하는 그런 재미가 있었다.
여러 번 헤맨 끝에 드디어 방향을 제대로 잡는 순간.
Claude의 ‘사고 과정’을 이렇게 볼 수 있는데 이게 또한 재미있다.
한 번 정답에 도달하고 나니 재미가 쏠쏠하길래 새 채팅창을 열어서 또 시도해 봤는데, 이번엔 얼토당토않은 걸로 너무 헤매서 중간에 그만뒀다.
해설에서 말했듯이, 그리고 위 사진에서 볼 수 있듯이,
이 퍼즐은 우선 문자 중에 ‘G’가 유일하게 딱 한 번 등장하고 ‘무엇’의 손모양 또한 수어 음운 자질 중에 유일하게 딱 한 번 등장한다는 사실을 파악하여 연결짓는 것이 중요하다.
Claude의 첫 번째 시도에서는 (약간의 도움을 주긴 했지만) 그러한 사실을 잘 이해했다.
그런데 두 번째 시도에서는 ‘G’를 아무 이유 없이 ‘맵다’에 냅다 연결짓더니, 그 이유를 추궁하니까 ‘ㅐ’가 등장하는 단어가 ‘맵다’뿐이라는 창의적인 헛소리를 보여주었다.
이 문자들은 한국어가 아니라 한국수어를 적은 거라고 지적하자 곧장 깨닫고 사과하기는 했지만 여전히 좀 헤맸다.
그밖에 Claude와의 두 번째 시도 때 나온 장면 하나가 좀 어이없이 웃겨서 공유해 본다.
두 번 나오는 기호를 세 번 나오는 음운 자질에 연결짓고,
세 번 나오는 기호를 두 번 나오는 음운 자질에 연결짓는 모습.
한편 이렇게 Claude와 퍼즐놀이를 하고 나니 과연 챗지피티의 수어문자 퍼즐 풀이 실력은 어떨지 궁금해졌다.
그래서 ChatGPT에게도 같은 방식으로 풀이를 시켜 봤는데,
웬걸 너무 답답하고 화가 나서 그만뒀다.ㅋㅋ
‘불확실한 정보를 얼마나 적극적으로 사용할 것인가’ 등 인공지능이 답을 내놓는 방식은 프롬프트와 갖가지 설정을 어떻게 조절하느냐에 따라 천차만별이라고도 하니,
ChatGPT가 일반적으로 항상 Claude보다 어떻다고 말할 수 있는 거야 아니지만,
적어도 오늘 내가 나의 수어문자 퍼즐을 풀려 보는 동안만큼은
ChatGPT가 Claude보다 건방지고 오만하며 고집불통이었다. 사람처럼 표현하자면 그렇단 얘기다.
왜 그런 생각을 했는고 하니,
우선 풀이 시작부터 달랐다.
Claude는 이 퍼즐에 쓰인 기호가 무슨 시스템인지 메타적으로 따지는 시도를 거의 하나도 하지 않은 반면에,
ChatGPT는 내가 퍼즐에 제시한 수어문자가 Sutton SignWriting이라는 (틀린) 배경지식을 당당히 뽐내듯 제시하고 시작했으며,
그렇게 당당히 가져온 첫 줄의 배경지식이 틀리는 바람에 엉뚱하게 수어의 ‘표정’에 집중하는 오류를 범했다. (뭐, 이건 내가 출제자로서 미리 배제해 줬어야 하는 부분이기는 하다.)
또,
Claude의 풀이에서는 근거 없는 추측, 너무 대범하고 비약적인 전개(‘할루시네이션’?)가 그렇게 심하지 않았는데,
ChatGPT의 풀이에서는 그런 헛소리가 많았을 뿐더러 그런 헛소리를 제시하는 말투도 아주 얄밉도록 당당했다.
Claude가 제시하는 풀이는 수수하게 줄글로 되어 있어서 보기도 편하고 지적하기도 편했는데,
ChatGPT의 풀이는 틀려먹은 주제에 웬 같잖은 표를 막 만들어서 제시하질 않나 온갖 킹받는 이모지(emoji < 絵文字라서 ‘에모지’가 어원에 가깝다나 보다)를 막 집어넣질 않나...
다 틀려서 하나하나 지적해야 하는데 보기가 불편하니까 짜증났다.
(뭐 표를 만드는 게 잘못된 건 아니고, 오히려 사람이 풀이를 할 때 표를 만들었다면 칭찬을 했겠지만, 그냥 세로보기하는데 가로로 길쭉한 표가 등장하니까 지적하기가 불편해서 짜증이 났다.)
그리고 당장에 매칭할 근거가 충분하지 않은 항목을 마주치면 Claude는 대체로 답을 바로 내지 않고 일단 보류하는 반면,
ChatGPT는 말 같지도 않은 기준을 자기 맘대로 만들어 내서는 어떻게든 매칭을 해서 제시하고는 했다.
한 마디로 클로드와 달리 지피티는 불필요하게 대범했다.
가장 두드러지는 차이(=가장 열받게 하는 점)는 잘못된 풀이를 지적받을 때 나타났다.
Claude는 내가 지적하는 내용을 곧잘 알아듣고 풀이 방향을 바로바로 수정하는데,
ChatGPT는 지적을 받으면 수용하는 시늉만 할 뿐 다시 제시하는 풀이 내용을 보면 여전히 조금도 달라진 게 없이 지가 맘대로 상상한 내용을 고수하고 있는 것이다.
실제로 대화에 나타난 사례를 간략히 소개하자면 이렇다.
- 문제에 등장하는 ∪ 기호를 ChatGPT는 엉뚱하게 ‘두 손 수어’를 나타내는 기호로 해석했다.
- 그리고 한국수어 ‘연습’ 단어를 제멋대로 ‘양손을 서로 비비는 동작’이라고 상상했다. 그게 연습이란 의미를 연상시킨다나 뭐라나...
내가 준 데이터는 깔끔히 무시하고 정말 아무 근거도 없는 환상을 만들어 낸 셈이다.
- 그렇게 상상에 상상에 상상을 더해서 ∪ 가 포함된 문자열을 ‘연습’ 수어와 매칭했다.
- 난 당연히 지적과 교정을 했다. 내가 준 수어 단어는 모두 한 손 수어라고 알려줬고, ‘연습’이 양손을 비비는 동작이라는 상상은 도대체 어디서 났냐고 막 뭐라고 했다.
- 그랬더니 ∪ 가 양손 의미라는 말, ‘연습’이 양손을 비비는 동작이라는 말만 쏙 빼고,
- “몇 번 문자열에 ∪ 가 있으니 그 문자열이 ‘연습’이다”라는 식의 말은 고대로 남겨서 수정된 풀이랍시고 제시하는 것이다.
차라리 대놓고 무시를 하든가,
겉으로만 ‘죄송합니다 고치겠습니다’ 하고서는 고대로 똑같이 틀린 풀이를 다시 내뱉는 게 더 킹받았다.
오늘의 짧은 경험만 가지고 챗지피티가 클로드보다 나쁘다고 말하려는 건 아니다.
애초에 답변에 있어서 얼마나 적극적인 태도를 지닐 것인지, 불확실한 정보를 얼마나 회피할 것인지 사용자가 설정할 수 있는 뭔가가 있다고 했던 것 같고... 그런 건 잘 모르기도 하고 이번에 전혀 만지지 않았다.
그보다 중요한 건 생성형 인공지능이 분야에 따라서는 헛소리를 많이 한다는 사실일 것이다.
특히 공부하는 학생이 챗지피티에 과하게 의존하면 황당한 문제가 생길 수가 있다.
이와 관련해 어느 국어 질문 답변 오픈채팅방에서 겪은 일을 조만간 블로그에 공유해 보도록 하겠다.
어쨌든 스스로 만든 문제를 인공지능에게 풀려 보는 건 재미있다. 언제 또 해 봐야겠다.
이 글 제목에 ‘풀리다’라는 단어가 등장한다.
‘풀게 하다’라는 뜻의 사동사 ‘풀리다’는 피동의 ‘풀리다’에 비하면 훨씬 저빈도일 거라는 느낌이 든다.
그렇다고 제목과 본문 첫 문장을 쓰면서 어색함이 느껴질 정도는 아니었지만,
어쨌든 아주 무표적이지는 않은 느낌.
이러한 ‘풀리다’는 어쩌면 사동접미사 ‘-리-’의 ‘생산성’을 약간 높게 볼 근거가 되지 않을지.
(언어학 맥락에서 자주 보게 되는 ‘생산성’이라는 용어는 사실 세세히 나누면 아주 다양한 용법으로 구별할 수 있더라는 이야기를 들은 적이 있다. 아예 ‘생산성’이란 용어와 개념에 대해 다루는 논문이 있다고 했던 것 같다.)
생산적이라고 하면 빈도가 높다는 것과 직관적으로 연결되니까 특이한 저빈도 어형하고 생산성을 연관짓는 게 약간 이상하게 느껴질 수도 있는데,
복합 어형이 극저빈도면 오히려 그 안에 들어 있는 접사의 생산성은 높은 것이다. 여기저기 다 침투할 수 있다는 뜻이니까.
(찾아보니 사동사 ‘풀리다’는 표준국어대사전에 실려 있지도 않다. 이 사실 또한 사동접미사 ‘-리-’의 생산성을 보여준다.)
(반면 ‘읽히다’는 실려 있다. 내 개인적인 느낌으론 내가 평소 접하고 사용하는 한국어에서 사동사 ‘풀리다’와 사동사 ‘읽히다’의 빈도는 비슷할 것 같은데 하나는 표준어고 하나는 아닌 게 좀 의외다.)
약간 다른 거 같긴 한데,
수어에서도 [관습적으로 고정된 어형]이 아니라 [그때그때 즉흥적으로 만들어낸], [hapax legomenon에 가까운] 어형일수록 ‘생산적 수어’라고 부르곤 한다.
https://m.blog.naver.com/ks1127zzang/223246529035
+ 나는 Claude Pro를 유료로 구독중이다.
ChatGPT는 무료 로그인 상태로 사용했다.
+ ‘받다’는 기본적으론 타동사인데 ‘열받다’에 조사를 넣으면 ‘열을 받다’만 가능한 게 아니라 ‘열이 받다’가 가능하다는 게 흥미롭다.
오히려 ‘열을 받아서‘보다 ’열이 받아서‘가 자연스럽지 않나? 아니면 둘 다 비슷하게 괜찮든가