brunch

You can make anything
by writing

C.S.Lewis

by 백기락 Aug 14. 2024

할루시네이션을 줄이는 방법 - 강사

백기락의 PaiP 53.


  #할루시네이션 . #환상 #환각 이란 의미를 갖고 있는 단어입니다. #정신분석학 에서 주로 쓴다고 하더군요. 예전이라면 거의 사용하지 않았을 이 단어가 #인공지능 세계에서 굉~장히 중요한(?) 단어로 사용되어집니다. 바로 #생성형AI 가 갖고 있는 고질적인 문제이기 때문입니다.

  적어도, 현재의 생성형AI는 할루시네이션을 피하기가 힘듭니다. 일단, 내용을 검수하지 않은 거대 데이터셋에서, 수많은 #머신러닝 #딥러닝 모델로 학습을 하다 보니 내용 그 자체에 대해 확인하기가 매우 까다롭습니다. #브리태니커 백과 사전을 쓰면 되지 않을까? 라고 생각할 수도 있지만, 그거 하나만 학습해서 작동하는 게 아니다 보니 바로 잡는 게 거의 불가능하다 볼 수 있습니다. 게다가... 학습할 데이터가 곧 한계에 부딪힌다고 하네요. 그러면 더더욱... 잡아내기가 힘듭니다.

  #RAG 같은 기술로 보완을 하려 노력하지만, 결국 할루시네이션의 해결은 바로 #사람 의 역할이라고 생각합니다. 인공지능을 사용하는 사람이 직접 이 문제를 해결하지 않고서는 근본적인 한계를 넘어서기 힘듭니다. 그래서 오늘은 제가 사용하는 기법을 몇 가지 언급해 보려 합니다. 일단 강사로서, 생성형 AI를 다루는 것에 초점을 맞췄습니다.

첫째, 가능한 출발은 기존 데이터에서 시작합니다.

  저는 이십 년 넘게 많은 데이터를 쌓아 왔습니다. 수만? 아니 수십만 페이지의 자료들을 만들거나 모아 왔습니다. 적어도, 웬만한 강의는 제 데이터 안에서 7~80% 이상 해결이 됩니다.  생성형 AI의 능력을 무시하진 않지만, 적어도 수십 년 동안 제가 직접 모으고, 만들어온 자료가, 적어도 제 입장에선 가장 신뢰할만한 자료이기 때문입니다. 생성형 AI의 능력이 좋아지면서, 기존의 자료를 고쳐야 할 때가 생겨나지만, 전체 내용 중에서 그런 비중은 10%도 되지 않습니다. 적어도 데이터를 잘 모아온 분들이라면 십분 공감하실거라 생각합니다.

둘째, 잘 집필한 책을 몇 권 사서 읽습니다.

  책만큼 어떤 주제에 대해 잘 정리한, 그리고 나름 방대한 내용을 담은 도구는 존재하지 않습니다. 최신 생성형 AI가 아직 10만자까지 토해내진 못하거든요. 그 점에서 어떤 주제에 대해 장 정리된 책 몇 권을 읽는 건 굉장히 강력한 힘이 됩니다.

  한때 매달 5~70만원어치의 책을 사면서도 부족하다 느꼈던 시절도 있었습니다만, 지금은 책을 그닥 많이 사진 않습니다. 그래도 대한민국 평균의 몇 배는 되긴 하겠습니다만, 예전에 비하면 안사는 수준이 되었습니다. 생성형AI 덕분? 인지도 모르겠습니다만, 사실 그간 1만 여 권의 책을 샀기에, 새로 사야 할 책이 많지 않다는 점도... 한몫 하고 있습니다. 6천 여 권의 오래된 책을 정리하긴 했지만, 그 책들을 기반으로 수많은 자료가 만들어졌기에, 첫번째 이유와 결합하면, 새로운 내용은 그렇게 많지 않더라구요. 게다가 다음의 이유는 부족한 부분을 잘 해결해 주었습니다, 바로 ~

셋째, 검색은 여전히 강력합니다!

  #오픈AI 가 #검색엔진 #검색서비스 를 시작한다는 이야기가 들리더군요. 뭐... 써보긴 할텐데 그닥 기대하진 않습니다. 그 이유는, #MS 가 #Bing 검색에 어마어마한 돈을 쓰고도 구글을 따라집지 못한 것과 비슷합니다. 검색서비스의 품질은, 사실 기술력만 가지고 되지 않습니다. 지금도 최신 정보에 한계를 보이는 #챗GPT 수준으로 #구글 이나 #네이버 이상의 검색 서비스를 내놓는 건... 글쎄요... 전 그냥 네이버나 구글 씁니다. 중요한 주제에 대해 3가지 검색 서비스를 활용해서 검색해 보는 것은 매우 강력한 힘이 됩니다. 실제로 할루시네이션을 해결하는 방안으로 RAG 라는 검색 기반 접근법이 유력한 대안으로 떠오르는 것도, 그만큼 검색의 역사와 수준이 든든하기 때문이라고 이해하시면 됩니다.

넷째, 애당초 바로 믿지 말고 크로스체크해야 합니다!

  지난 해는 생성형AI를 활용해 품질은 높이는 데 성공한 해였습니다. 다만, 효율성은 매우 나빴습니ㅏㄷ. 바로 할루시네이션이 너무 심해서, 실제로 그대로 쓰질 못했기 때문입니다. 일일이 확인하는 과정 때문에 오히려 시간이 두 배쯤? 늘더군요. 올해는 그 비효율을 잡은 해였습니다. 제 결론은, 애당초 믿지 말자, 였습니다. 사용은 할건데 안 믿는다면? 체크해야겠지요? ^^ 여러 가지 방법으로 빠르게 점검한 후에야 그 정보를 신뢰하는 방법을 채택했습니다. 실제 점검을 해보면, 최신 AI 서비스가 얼마나 엉뚱한지 금방 깨닫게 됩니다. 생성형 AI 서비스로 금방 글과 이미지를 만든 다음에 이걸 활용한다는 분들 보면... 솔직히 황당하기 그지 없습니다. 이 세상에 가짜 뉴스가 얼마나 많이 넘치는지.. 그 이면에 생성형AI가 큰 역할을 하고 있을거라 확신합니다.

다섯째, 결국 작성자가 책임을 져야 합니다!

  생성형 AI가 만들어내는 화려함에 속지 마십시오. 어떤 회사도 여러분을 대신해서 그 결과에 책임을 지지 않습니다. 사용해도 된다, 는 게 책임을 진다는 건 아닙니다. 비즈니스 계계에서 신뢰와 책임은 매우 중요한 화두입니다. 여러분이 어떤 생성형 AI를 어떻게 쓰든 간에, 최종 책임은 사용자 본인이 져야 한다는 것을 잊지 않는 게 중요합니다. 그 책임이 얼마나 큰지 이해한다면, 생성형 AI의 한계가 더 분명하게 느껴질 겁니다. ^^

이렇게 적긴 했는데... 실제 작업할 때의 상황은 좀... 복잡합니다. 그건 세미나를 통해 보여드릴 수 있을 것 같아요. ^^ 다만, 치열하게 고민해보신 분이라면 이 정도만 적어도 '아하' 하는 부분이 있을거라 생각합니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari