brunch

매거진 생존형 개발자의 생각

라이킷 10 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by Vintage appMaker Apr 12. 2023

AI 수학대결(벤치마킹)

개발자의 생각 #56

"며칠 전, SNS에서 10년전 포스팅을 보았다."

위와 같은 문제의 패턴은 [핸드폰 수학게임]에서조차 초급모드에서 나온다. 내 주위에서도 10에 7명은 맞추는 easy 난이도의 문제였다. 수학공식을 언급하지 않더라도 패턴을 보면 60임을 알 수 있다. 상위 8%만 알 수 있다라는 “어그로 소셜” 마케팅 때문에 수억 뷰를 만들었던 포스팅이었다.

AI 서비스는 어떻게 풀지 궁금했다.
Bing과 chatGPT의 결과가 궁금했다.

■ ChatGPT

경험상, ChatGPT가 재대로된 풀이법을 알려준 적이 없다. ChatGPT의 경우 연산능력은 전혀없다. 어디선가 들은 것을 말해주는 기능 외에는 제공하지 않는다. 그런 점에서 ChatGPT의 할루시네이션 현상(환각에 빠져서 아무말 대잔치)이 가장 심한 영역이 수학이다.

■ Bing

bing의 경우, 문제의 핵심을 바로 파악했다. 그리고 올바른 공식을 대입하여 수학문제를 풀어주고 있었다. ChatGPT에 비해 할루시네이션 현상은 적었다(없지는 않다). 그만큼 이공계 계열에서 유용하게 사용할 수 있는 AI 검색서비스로 판단된다.

ChatGPT의 경우 "프로그래밍"에 강화되어 있는 데, 이는 개발자들이 직접 RLHF(인간에 의한 강화학습)을 시켰기 때문이다. 반면 수학 영역의 경우는 많이 약한 모습을 보여주고 있다(개발자가 수학이랑 친하지않다는 것을 증명한 것이다. 가끔 개발자가 수학을 잘하는 줄 아는 사람들이 있다).

자녀들에게 수학을 가르치려 한다면 Bing을 일권한다.

현존하는 가장 쓸만한 AI이다.

■ ChatGPT와 Bing은 뭐가 달랐을까?

같은 gpt 엔진을 사용하는 Bing과 chatGPT는 왜 다른 결과를 보여주었을까? bing에게 질문을 했다.

bing의 답변에서 복잡한 감정이 느껴졌다. 그런데 “너네 gpt 엔진 맞는데? azure openAI도 gpt 기반이잖아?” 그래서 다음과 같이 물어보았다.

어데~! 형을 속일려고!.. 형이 이 바닥에서 조만간 30년이야! 그런데 니가 감히!! 있어보일라고 대들어!(K꼰대 중급과정)

사람들이 오해하고 있는 것이 있다. AI의 차별성을 "지능"이라고 생각하는데 실제로는 "데이터"이다. 의미있는 데이터를 학습했는가?가 핵심이다. 그런 점에서 의미있는 데이터를 학습시킨 "MS"의 솔루션이 ChatGPT와 차별화 되는 것이다. 그리고 최근의 AI 혁명(?)은 AI 알고리즘의 발전보다는 UX(사람과 대화하는)의 혁신이 크다. 결과적으로 엔진이 같다고 하더라도 "학습시킨 데이터와 UX"가 다르면 다른 지능을 가지게 된다.

마치 같은 IQ라도
어떤 환경에서 어떤 교육을
어떻게 받았는가에 따라
지적능력과 표현력이 달라지는 것

과 같은 이치이다.

조만간 다양한 강화학습을 통한 질좋은 AI 서비스가 나올 것은 확실하다. SNS의 [과거의 오늘]을 보며 10년 동안 세상은 많이 변해있다는 것을 깨닫는다. 그런데 앞으로의 세상이 과거의 타임라인보다 더 빠르게 움직일 듯해서 기대반 두려움반이다.

그런 점에서 MS 365의 copilot 기능은 기대된다.

Introducing Microsoft 365 Copilot – your copilot for work - The Official Microsoft Blog

Humans are hard-wired to dream, to create, to innovate. Each of us seeks to do work that gives us purpose — to write a great novel, to make a discovery, to build strong communities, to care for the sick. The urge to connect to the core of our work lives

blogs.microsoft.com

과거의 가치가 재해석되어 생산되고 있다.

(갑자기 딴소리: 가치의 재해석이라는 단어를 생각하며..)

가치는 너무 빠르게 변한다. 미국인들도 그들 사회 전반의 PC에는 혼란스러울 것 같다. “천재소년 두기”를 유색인종 여자로 바꾸어놓았다. 개인적으로는 정당성을 빙자한 역사왜곡 수준같다(디즈니가 최근 너무 오버하는 듯하다).

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari