급식체 변환부터 의사언어 번역기까지
단순한 호기심에 GPT가 어떤 공부를 했을지 궁금해졌습니다. 직설적으로 학습한 데이터와 유형을 검색하는 것은 좀 재미없다는 생각이 들어, 자연어처리 연구 분야에서 어떤 유형의 문제들을 다루어왔는지 찾아봤습니다.
웹사이트 Papers with Code에는 583가지 자연어처리 연구 주제를 분류하고 있습니다. 각각의 주제는 ‘전 세계에 흩어진 여러 연구자들이 같은 질문으로 연구 중’이라는 뜻입니다. 아마도 GPT가 학습한 방대한 내용에도 이런 유형들의 문제들이 작은 커리큘럼으로 포함되었을 것입니다.
이 가운데 일상에 밀착한 주제 7가지를 골라봤습니다. 전문용어로 생각되는 것들은 주관적인 통번역을 거쳤습니다.
91 papers with code • 22 benchmarks • 21 datasets
우리가 흔히 접하는 ‘표(테이블)’ 형태의 데이터로부터 설명문을 생성해내는 연구주제입니다. 저와 같은 데이터분석가의 생산성을 위해 꼭 필요한 연구이기도 하고, 동시에 일자리를 건드리는 연구이기도 합니다(GPT가 건드리는 일자리가 이것뿐은 아니겠지요).
데이터를 읽고 설명하는 것은 기계가 스스로 상상의 나래를 펼치거나 의도를 지나치게 주입하면 곤란할 수 있습니다. 무엇보다 정확하게 표현해야 합니다. 그리고 이 설명은 단순하지 않습니다. 무엇을 설명할지, 어떤 부분에 집중할지, 어떤 표현으로 전달력을 높일지 여러 세부 주제들을 동시에 해결해야 합니다.
65 papers with code • 2 benchmarks • 5 datasets
음성연구에 ‘성대모사’가 있다면, 자연어처리에는 ‘문체변환’이 있습니다. 예전에 SNL Korea에서 개그맨 권혁수가 10대들이 사용하는 ‘급식체’ 특강을 하면서 바이럴이 된 적이 있었는데요, 이렇듯 동일한 의미의 문장을 다른 발화자의 스타일로 바꾸는 것입니다.
‘편안한 말투’를 ‘화를 내며 말하는’ 형태로 바꿀 수도 있고, ‘남성적인 문체’를 ‘여성 화자의 스타일’로 바꿀 수도 있고, ‘어린 아이의 단어와 문장’을 ‘어른의 문법’으로 바꿀 수도 있습니다.
GPT4가 한국말도 제대로 바꿀수 있는지 궁금했는데, 지나치게 잘하네요 :)
1 papers with code • 0 benchmarks • 0 datasets
우리의 증상이 가벼운 감기를 넘어설 때, 의사의 소견을 듣더라도 모국어라도 외계어처럼 느껴질 때가 있습니다. 이런 간극을 해결하기 위해 의료 분야의 전문용어로 가득한 텍스트를 일반인이 이해할 수 있는 언어로 번역하는 연구분야입니다.
우리나라의 사례로는 네이버 클로바는 2021년 순천향대 중앙의료원과 ‘의료특화 AI’ MOU를 맺기도 했습니다(링크). 양 사간의 협력은 낯선 의료용어 발화에 대한 음성인식 문제를 풀어가는 것으로 시작합니다.
72 papers with code • 5 benchmarks • 13 datasets
쉽게 말하면 '대충 말해도 찰떡같이 알아차리는 방법'에 관한 연구입니다. 커머스 서비스라면 상품 구매를 원하는지, 더 비싼 구독을 원하는지, 아니면 구독을 중단하고 싶은지 등을 미리 파악할 수 있습니다. 만약 챗봇이라면 사람이 남긴 몇 개의 단어로부터 관련있는 주제를 파악해내고 유저가 궁금할만한 정보를 먼저 제안할 수도 있습니다.
7 papers with code • 0 benchmarks • 1 datasets
이야기의 기승전결이 완벽하지 않더라도 알아서 메꿔주는 연구입니다. 꼭 ‘결말’부가 아닌 본문의 빈 부분을 추정해서 매끄럽게 연결하는 것도 포함합니다. 만약 이야기 곳곳에 전문용어가 지나치게 많이 등장하거나 배경지식이 필요한 내용이 많다면, 독자가 잘 따라올 수 있도록 주석에 들어갈 법한 내용을 풀어줄 수도 있겠습니다.
소설이 아닌 일상에서도 이 연구의 쓰임새는 꽤 많습니다. 많은 사람들이 ‘지식의 저주’에 빠져있기 때문입니다. 내가 이미 잘 알기 때문에 상대방도 당연히 알거라 생각하는 것입니다. Story Completion 모델이 사람들 간 지식의 중재자로서 친절히 개입할 수 있으면 좋겠습니다.
16 papers with code • 1 benchmarks • 2 datasets
만약 강남역에서 헐레벌떡 뛰어나오는 사람이 찍힌 사진이 주어진다고 가정해보겠습니다. 다음과 같이 두 가지 버전의 설명문 작성이 가능합니다.
1. “강남역 2번 출구에 사람이 뛰고 있다. 옆에 나무도 있고 도로도 있고 자동차도 있다.”
2. “오늘도 지각이다”
사람은 이처럼 한 장의 사진에서도 맥락을 파악하고 이야기를 만들 수 있습니다. 하지만 인공지능에게는 좀 어려운 숙제였습니다. 그리고 그림이 여러 장 주어지면 그것들을 이야기로 꿰어낼 수 있도록 맥락을 부여하고, 마지막으로 문장을 생성하는 것은 또다른 차원입니다.
이미지에서 스토리를 입힌 문장을 만들어내는 것, 반대로 문장으로 적힌 이야기를 바탕으로 일관성있는 이미지 묶음을 만들어내는 것 모두 Visual Storytelling 연구에서 다루는 주제입니다
4 papers with code • 1 benchmarks • 1 datasets
'컨셉만으로 텍스트 생성하기’는 앞서 이야기한 ‘스토리 완성하기’와는 조금 결이 다릅니다. 스토리 완성하기 연구가 비어있는 맥락을 메꾸는 것이라면, 이번에 소개하는 연구는 몇 가지 주어진 단어로 그럴법한 문장을 만들어내는 것입니다.
이번에도 GPT4 에 업무를 할당해봤습니다. ‘아침, 커피, 빵, 지하철’ 네 단어로 문장을 만들어보라고 시켰습니다. 이제 GPT에게는 너무 쉬운 과업으로 보입니다.
아침 일찍 일어난 그는 커피를 한잔 내린 후, 따뜻한 빵을 꺼내어 한 입 베어물었다. 이제 출근 준비가 끝난 그는 발걸음을 옮겨 지하철을 타고 회사로 향했다.
이 글에서 발췌한 내용들은 다양한 연구 주제 중 일부에 불과합니다. 또한 자연어처리 외에도 음성인식, 이미지/비디오 생성 등 인공지능 연구가 펼쳐지는 필드는 무궁무진합니다. 지금까지 연구된 목차들을 한 번 훓어보며 ‘이런 유형들을 학습했으니 저런 질문들로 확장할 수 있겠네’ 하는 방식으로 브레인스토밍해보실 수도 있습니다. 여러분들도 이 사이트를 들러 근사한 아이디어를 탐색해보시기 바랍니다.