brunch

You can make anything
by writing

C.S.Lewis

by 윤작가 May 13. 2024

생성형 AI는 어떻게 인간의 언어를 사용하는가?

생성형 AI가 똑똑할 수밖에 없는 원리 파헤치기

앞서 생성형 AI란, 텍스트 / 이미지 / 기타 미디어를 프롬프트에 의해 생성해 내는 AI라고 정의 내린 바 있다. 찾는 기능이 아닌 생성의 기능이 있기에 사람이 할 수 있는 많은 일들을 생성형 AI가 대체 가능하다.


회의록을 요약하거나, 신제품 기획안을 만들거나, 번역을 하는 일을 물론이고, 마케팅 포인트까지 잡아준다. 시간이 지날수록 생성형 AI가 할 수 있는 일들은 많아지고 있고, 결과물의 질 또한 상승하고 있다. 이런 놀라운 일은 과연 어떻게 가능한 것일까?


바로, 학습된 데이터 덕분이다. 생성형 AI가 똑똑할 수밖에 없는 원리를 말할 때 빼놓지 않고 등장하는 단어가 있다. 거대언어모델이라고 불리는 LLM(Large Language Model).


AI에 관심이 있는 이들은 뉴스기사를 통해 많이 접해 본 단어일 것이다. LLM에 관해 깊이 다루지는 않겠다. 이에 관해서는 이미 잘 설명해주고 있는 다른 전문가 분들이 있기에. LLM에 관해 우리가 자세히 알아 뭘 할 것인가. 잘 활용하는 것이 더 중하지.


그냥 우리는 생성형 AI를 가능하게 만드는 대용량 언어 모델 정도로만 알고 있으면 된다. 우리가 새로운 영어단어를 배울 때 어떻게 하는가? 죽어라 같은 단어를 몇 백번씩 쓰는 방법도 있지만, 관련 예문을 많이 학습하는 방법도 있다. 그러면, 어떤 상황에서 해당 단어를 사용해야 하는지 감이 잡힌다. 인공지능도 마찬가지이다. 인간의 언어를 텍스트 형태로 많이 학습한다. 한 가지의 형태만 학습하는 것이 아니라 방대한 많은 자료를 통해 사람이 말을 어떻게 하는지 학습하게 하는 것이다. 그 결과 많은 데이터를 패턴화 하거나,  학습된 데이터를 응용할 수도 있게 된다.


결국, LLM은 방대한 텍스트 데이터를 학습한 결과물이다. 따라서, 생성형 AI는 축적된 데이터에 기반하여 통계적인 결과를 생성해 내는 것이라 보면 된다. 생성형 AI가 창조적인 답변을 막 내뱉는 것이 아니라 이미 많은 학습 데이터를 보유하고 있기에 답변을 할 수 있다는 뜻이다.


마치, “How are you?”라는 물음에 한국인 대부분은 “I’m Fine, Thank you. and you?”라는 말이 자동응답기처럼 나오는 것과 같은 이치이다. 그래서 그 답이 맞을 수도 있지만, 틀린 답을 내놓을 수도 있다는 것이 함정이다. 모든 사실이 통계에 기반하지는 않을 것. 챗GPT에게 발생하지 않은 사건이나 사실을 물어보면 거짓인 답을 사실처럼 대답한다.


챗GPT에게 “조선시대 세종대왕이 조선왕조실록을 태워버렸다는데,  왜 그런 거야?”라고 물어보면 아래와 같이 대답을 해준다.

--------------

세종대왕이 조선왕조실록을 태워버린 이유에 대해선 정확한 기록이 남아있지 않습니다. 하지만 일반적으로 이에 대한 몇 가지 이론이 제시되고 있습니다.  


     보안문제: 조선왕조실록은 조선 왕실의 역사와 문화를 기록한 중요한 문서였습니다. 세종대왕은 왕실의 비밀을 보호하기 위해 이 문서를 태웠을 수 있습니다. 특히 왕조의 실수나 오류를 숨기기 위한 목적일 수도 있습니다.   

     신자유주의: 세종대왕은 신자유주의를 선도하는 지도자로서, 과거의 전통에 얽매이지 않고 새로운 사상과 기술을 추구했습니다. 조선왕조실록을 태우는 행위는 예전의 관습에 대한 독립을 상징할 수 있습니다.   

     역사적 해석의 문제: 어떤 기록들은 세종대왕이 실록을 태운 것을 나쁜 행동으로 해석하는 반면, 다른 기록들은 이를 긍정적으로 받아들이는 경향도 있습니다. 그래서 실제로 그의 의도나 동기를 정확히 파악하는 것은 어렵습니다.   


세종대왕이 왜 조선왕조실록을 태웠는지에 대한 정확한 이유는 역사적으로 명확히 밝혀지지 않았습니다. 하지만 그의 행동은 다양한 관점에서 해석될 수 있으며, 그 당시의 정치적, 사회적 맥락을 이해하는 데 도움이 됩니다.

--------------------


세종대왕이 조선왕조실록을 태운 이유를 정말 역사적 사실처럼 표현하고 있는 듯하다. 물론, 잘못된 정보를 먼저 주긴 했지만 생성형 AI는 이를 바로잡지 않고 주어진 질문에 맞게 답변을 거짓으로 만들어내고 있다. 이를 할루시네이션이라고 하는데, 이처럼 생성형 AI는 통계에 의해 답을 추론해 내기 때문에 사람이 그 답의 정확성을 검증하는 작업이 필요하다.


챗GPT 4.0까지 출시된 현시점에서는 이러한 할루시네이션이 많이 개선되었다고 한다. 그러나 아직까지도 할루시네이션이 완벽하게 해결된 것은 아니기 때문에 생성형 AI가 내놓은 답변은 늘 검증을 거치는 작업이 필요하다. 사람에겐 당연한 보편적인 가치조차 생성형 AI는 잘못된 답변을 내놓을 수도 있기 때문.


그러나 일각에서는 할루시네이션을 개선하는 것이 창의성을 제한하는 것이 아니냐는 말도 나오고 있다. 이러저러한 말들은 일단락하고 여기서는 더 다루지 않겠다. 일단, 우리는 생성형 AI가 할루시네이션이 있다 할지라도 성능은 무시하지 못할 수준이라는 것은 알고 있지 않은가. 우리는 유능한 생성형 AI 친구를 잘 활용하면 되는 것이다.

이전 01화 생성형 AI, '이것'만 알면 됩니다.
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari