brunch

라이킷 10 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 전율 Jul 07. 2024

문창과 학생의 좌충우돌 AI 정복기

글을 쓰는 게 왜 좋을까. 왜 하필 ai를 이기고 싶어서 이 개고생을 하는 걸까. ai를 이기는 방법을 과연 찾을 수 있을까.

"ai를 이길 방법을 찾는 것은 어리석은 일이다. 이제는 ai를 활용해야 살아남을 수 있다"

그래 맞지. 요즘 이런 글들을 너무 많이 본다. 심지어 나도 같은 말을 자주 사용하고는 했으니까.

그런데 그게 마음처럼 잘 안된다. 자꾸 한 글자 한 글자 직접 써 보게 된다. 미련이나, 감성 이런 것 때문이 아니다. 분명히 ai가 쓴 글은 묘한 위화감이 있다. '맞는 내용'인데 어색하고 불편한 문장으로 사람을 찝찝하게 한다.

여태 chat gpt를 연구하면서, 관련 서적들을 보고 책도 출간해 보며, 한국어 데이터가 AI에서 어떻게 활용될 수 있을지 끊임없이 연구했다. 그 호기심 하나로 관련 업무를 하는 회사에 입사했었다.

하면서 공통적으로 느낀 점은 딱 하나였다.

내가 사용하는 언어, "한국어"가 걸림돌이 된다는 점이다. 솔직히 말하면, "한국인"이 걸림돌이 된다.

걸림돌이라는 어감이 굉장히 세게 다가온다. 그런데, 이 단어는 쓰면서 그간의 분노와 안타까움, 슬픔의 감정을 꾹꾹 눌러 담아 한 단어에 쓴 것이다. 그러나 분명한 것은 "한국어" AI 가 시장에서 살아남으려면 누군가는 초반부터 이 점을 공략해야 한다.

왜 우리는 AI로부터 수준 높은 답변을 얻지 못하는 것일까?

한국인의 한국어 데이터에 대한 태도.

언어 데이터를 가공하기 위해서는 언어에 대한 이해도가 우선되어야 한다고 생각한다. 그러나 씁쓸하게도 AI 현장에서 적어도 내가 접했던 분야에서 "한국어"에 대한 대우와 인식 수준은 처참한 수준이다. 대기업이라고 해도 다를 바 없었다. AI에 들어가는 한국어 데이터를 가공할 때 정확한 표현과 의미 전달보다는 모델의 성향과 일관성 있는 답변, 그리고 어느 정도 수준의 맥락에 맞는 문장을 우선순위로 생각하는 것으로 느꼈다. 그렇게 되면 가장 큰 문제점은 항상 지적되는 문제가 반복된다는 점이다.

AI가 생성하는 답변 중 가장 오류가 많은 부분이 한국어의 다의어와 동음이의어의 구별, 목적어와 서술어의 호응관계, 접속 부사 오류, 문장 말미의 오류, 고유 명사 표기 오류 등이 있다.

그런데 실제로 이런 부분들을 현장에서 심각하게 생각하지 않아 보였다. 말이 그럴듯하고 모두가 알아들을 만한 수준이면 가공이 가능했다. 작업 시에도 이런 부분에 대한 가이드라인은 거의 존재하지 않고, 몇몇 표현들을 구체적으로 집어서 통제하는 것이 전부였다.

그러나 단어의 다의어나 동음이의어 등 사전적 의미나 정의에 대한 피드백을 전달할 경우, 되려 까탈스럽다는 반응이 대다수이고 반가운 피드백이라고 생각하지 않는다. 예민하고 민감한 사람으로 여겨질 수 있다.

이런 식의 작업이 반복된다면 결과는 뻔하다. 가공하는 데이터의 수준을 정하는 작업이 상당히 모호해진다. '말이 되는 어느 정도 수준'이라는 모호한 기준은 사람마다 각기 다른 의견을 낳게 되기 때문이다. 또한, 최종 기준이 정확한 표현보다는 모델의 성향에 초점이 맞춰져 있다는 것이 한국어 언어 데이터의 성능을 떨어뜨리는 결정적인 이유가 된다. 특히 이런 문제점들은 LLM보다 VLM에서 확연하게 드러난다.

다음과 같은 문제점을 해결하기 위해서는 언어 데이터를 다루는 태도부터 바꿔야 한다고 생각한다. 단순 데이터랑 언어랑 다르다는 것을 인지하는 것이 정말 중요한 작업이다. 표현을 절제 시키는 것보다 한국어 문법에 대한 기본적인 이해를 교육하는 시작해야 한다. 그냥 일정 수준에 데이터를 계속 넣고 평균값으로 오차를 맞추려는 것보다, 초장에 한국어라는 기본적인 틀에 대한 이해도가 높고, 그것을 기본적으로 중요하게 생각하는 사람들이 작업해야 이런 오류들이 빠르게 정정될 것이다. 또한 문법적인 피드백에 대해 소중히 생각하고 받아들일 수 있는 자세가 있어야 할 것이다.

chat gpt에 대한 의존도

빠른 업무 처리를 위해서 기본적으로 많은 직장인들이 chat gpt를 사용하고, 이는 글을 다루는 출판 분야고 창작 분야에서도 예외는 아니다. 그러나 chat gpt가 쓰는 글의 수준이 높아졌다고 해도, 아직 위화감은 여전히 남아있다. 특히 전문 분야일수록 그 양상은 더 심하게 두드러진다.

TTI 모델에 적용하는 프롬프트 작성법을 공부할 때 한국어로 chat gpt로 프롬프트를 작성하는 것이 애를 먹었는데, 연구해 본 결과 영어 -> 일본어 -> 한국어 순으로 번역하여 프롬프트를 입력하는 것이 가장 정확하게 반영되었다. 그 이유는 "한국어"에 대한 학습 데이터가 영어, 일본어에 비해 적었기 때문이다.

그런데 한국어 데이터를 가공할 때도 chat gpt를 사용한다면, 그것이 과연 올바른 사용 방법일까? 그에 대한 회의감이 든다. AI 업계에서 한국어 데이터를 다루면서 한국어의 문법이나 어휘 체계를 진심으로 생각하는 사람이 몇이 있을까?

심지어 이런 일도 있었다. 졸업 작품을 위해 열심히 쓰고 있고 시나 소설을 써야 한다고 말했을 때, 자신이 시를 잘 쓴다고, 챗 지피티 사용하면 몇 편이고 쓸 수 있으니 걱정하지 말고 주제 말해달라고 한 분이 있었다. 글을 전공 삼고, 생업으로 삼고 있는 입장에서 상당히 모욕적인 발언으로 다가왔다. 하지만, 정말 무해하고, 아무것도 모르는 순수한 표정으로 말하는데 그 모습이 날 더 무기력하게 만들었다. 말해봤자, 화를 내봤자 모를 것이 분명했기 때문에.

실제로 언어 데이터 분야 관련해 몇몇 분들을 만나 봤지만 대부분의 인상이 한국어나 글쓰기 자체에 대한 애정보다는 데이터의 활용도와 효율성에 초점을 맞춰 접근하는 분들이 많았다. 모델의 성능, 데이터양, 효율성, 속도에 이야기의 초점이 맞춰져 있었다.

물론 AI 업계에 한국어를 소중히 생각하고 다음과 같은 피드백을 소중히 생각해 주시는 분들도 많다는 것을 안다. 그러나 AI와 한국어의 미래를 생각한다면, 한국어 데이터를 다루는 인식부터 바뀌어야 된다고 생각한다. 한국어 데이터가 정교하지 못하면 AI를 정교하게 컨트롤하지 못하는 것과 다를 바 없으며, 가뜩이나 chat gpt랑 상대에서 비교도 안되는데 더더욱 영어에 밀려 버리는 상황이 될 수 있는 것이다.

벌써, 그 싸움은 시작된 것 같다. 일본이 네이버 라인의 데이터를 빼앗겠다는 말이 나왔을 때, 이미 언어 데이터 전쟁은 가시화되었다고 생각한다. 앞으로의 미래에 한국어를 지킬 수 있으려면, 우리도 수준 높고 질 좋은 한국어 데이터를 가지고 세계 무대에서 경쟁해야만 한다. 그럼에도 현실은 위와 같은 게 마음이 아프다.

그래도 언젠가 우리말로 프롬프트를 만드는 것이 세계 무대에서 경쟁력 있을 수 있도록 끊임없이 그 방법을 강구해 보고 싶다. AI 시대에 한국어를 지키는 방법을 나는 너무 알고 싶다.

------------------------------------------------------------------------------------------------------------------------

글 쓰는 게 종이 책에 쓰는 게 왜 나에게 중요한 일인지 묻는다면 솔직히 모르겠다고 답하고 싶다. 소설이, 시가 왜 좋냐고, 요즘에는 알아듣지도 못하게 쓰는데 읽는 이유가 뭔지 물어보면 말끝을 얼버무리다가 모르겠다고 대답한다.

그럼에도 내가 시를 좋아하는 것은 AI가 할 수 없는, 즉흥적인 감정이 전달하는 선명한 메시지나 에너지가 글을 통해 느껴진다고 해야 하나.

아무튼 그렇다. 그런 것들이 지금 나한테 소중하다.

keyword