대화형 콘텐츠인 인공지능 챗봇, 과연 뭐가 문제일까?
얼마 전 모회사의 'AI 친구'라는 콘셉트의 대화형 인공지능 챗봇이 큰 이슈가 되었다. 첫 번째 이슈 때는 매우 좋은 반응으로 큰 이슈가 되었다. 정말 카톡에 항상 나와 대화를 나누는 친구처럼, 이런저런 이야기에 모두 대답하고 이야기를 이어가며 '어!? 정말 사람 같다!'라고 느낄 정도로 많은 유저들에게 좋은 반응을 얻었다.
물론 너무 말도 안 되는 질문에는 Fallback 형태의 공통 답변이 나가는 경우도 있다. 이점은 '완벽'이라고 하기에는 아직 무리가 있는 인공지능 대화형 챗봇의 한계이다. 그런데 이건 얼마든지 대화에 대한 데이터가 쌓이고 학습을 통해서 개선이 될 수 있다. 사람도 마찬가지 아닌가? 내가 모르는 것에 대한 답변을 하지 못한다. '인간' 도 그래서 자신들만의 'Fallback message'가 준비되어 있다. 나 같은 경우는 '음.....'이라는 '생각 중' 이란 표현으로 모르는 것에 대한 답변을 대신하기도 한다. 혹은 답이 바로 나오지 않는 문제이니 그야말로 '생각 중' 일 때 주로 쓴다.
인간도 이렇게 모르는 영역을 대답을 할 수 없다. 기계라서 대답을 못한다기보다는 20년 30년 넘게 살아온 인간처럼 다양한 상황에 놓여보질 못하고 다양한 사람들과 이야기를 해보지 못했으니, 아직 모르는 게 많을 수 있다. 하지만 최근 이슈가 된 그 AI 친구 챗봇은 꽤 높은 답변율을 보여줬다. 그리고 답변의 내용도 실제 친근한 이성 친구처럼 딱딱하지 않고 특유의 '페르소나'를 발휘하여 계속해서 대화를 하고 싶은 느낌을 갖게 해 주었다.
하지만 최근 문제가 된 이슈는 결코 좋은 방향의 이슈가 아니었다.
나와 즐겁게 대화하던 AI 친구 챗봇이 알고 보니, '진짜 연인들'과 이성들 간의 대화를 그대로 대화에 내보내고 있었던 것이었다. 처음에는 일부 몰지각한 남성 유저들의 챗봇에 대한 성희롱 및 적절하지 못한 대화로 인한 'AI 성 학대' 문제가 주된 이슈였지만, 알고 보니 실제 유저들의 주소 및 계좌번호 별명, 본명 등등 개인 정보들을 그대로 학습한 대로 다른 유저들에게 챗봇이 말을 하고 있었던 것이었다. 당연히 큰 문제가 되며 해당 서비스를 운영 중인 회사는 서비스를 급하게 중단하고 사과문을 올린 상태이다. 그와 관련된 서비스들 또한 서비스 종료를 이야기 중이며, 불법적인 발화 데이터 취급에 대한 소송도 준비 중이란 소식이 있다. 어떻게 결론이 날지는 확정되지 않았지만, 분명히 TV 각종 매체 및 뉴스에도 소개가 될 정도이니.. '챗봇'을 서비스하는 다른 기업들에게도 우려 섞인 다양한 시선들과 글들이 쏟아지고 있는 상황이다.
비영리단체 'OpenAI'에서 최근 발표한 고성능 대화형 인공지능 챗봇인 'GPT-3' 또한 개발을 한 OpenAI에서 도 가급적이면 악용 (성차별, 각종 혐오에 대한 대화 학습) 하지 말아 달라고 당부하고 있다. 사람과 마찬가지로 AI 챗봇 또한 잘못된 대화와 정보를 거르지 않고 학습하여, 제삼자에게 올바르지 못한 정보를 제공할 수 있기 때문이다. 그래서 AI를 학습, 데이터를 만든다는 건 그만큼 중요한 것이다.
https://www.chosun.com/economy/2020/09/06/GXZASOYOYZGH5HRBNWXEG3QPG4/
▲ 아직은 베타 버전으로 다양한 분야에서 현존 챗봇 중 가장 답변을 잘한다는 OpenAI의 'GPT-3'
챗봇 개발사가 제작한 다양한 챗봇들이 존재한다. 꿈많은청년들 또한 클라우드튜링 챗봇 솔루션으로 90여 개가 넘는 기업 고객사들의 챗봇을 함께 개발하며, 현재도 다양한 콘셉트의 챗봇들을 운영하고 있다.
그리고 꿈청이 만든 챗봇들 외에도 다양한 기업들이 챗봇을 개발사로부터 솔루션을 의뢰하여 챗봇을 개발하고 운영 중에 있다. 내가 기업 담당자라면, 이번 '인공지능 챗봇' 이슈를 보자마자 조금 불안 해졌을 것이다.
"아 이거 설마.. 우리 회사 챗봇도 이상한 거 배우고 말하는 거 아냐? 문제 되는 거 아냐?"
물론 저런 이슈가 있다 보면, 아무리 개발사에서 발화 데이터를 정제하고 검수했다고 하더라도 불안한 마음이 생길 수 있다. 하지만 분명하게 문제가 된 'AI 친구' 챗봇과 기업용 챗봇들은 발화 데이터를 만드는 방식이 전혀 다르다. 그리고 동의되지 않고 정제되지 않은 대화 데이터를 함부로 취급하고 정제를 위한 모니터링을 할 시엔 큰 법적인 책임이 따를 수 있다.
다양한 사람들의 대화 데이터 수집 -> 주제와 목적이 모두 다르기에 관련된 주제/목적으로 데이터 취합 -> 이 과정에서 대화 기록 모니터링 (필연적) -> 제공 동의를 얻었다는 가정하에 개인 정보 이슈가 있으니 마스킹 및 각종 발화 데이터 재가공 및 정제 작업 -> 각각 목적에 맞게 학습 데이터를 다양한 파라미터 값 분류 -> 학습 -> 챗봇에서 출력 -> 다양한 가벼운 일상 주제를 답변
기업이 필요로 하는 주제(서비스)에 대한 답변 데이터 생성 -> 답변 데이터를 만들기 위한 기존 데이터 취합 및 가공 -> 챗봇의 페르소나를 설정 -> 준비된 답변에 대한 합법적인 방법의 다양한 질문 데이터 생성 (시간 + 돈 + 인력) -> 1개의 답변마다 다양한 상황의 질문 데이터를 가공 (데이터 정제 작업) -> 각각 목적에 맞게 학습 데이터를 다양한 파라미터 값 분류 -> 학습 -> 챗봇에서 출력 -> 오늘 밤에 뭐 하는지 대답은 못하나, 그 기업에 필요한 전문화된 답변
좀 간단하게 표현하려다 보니 중간중간 다양한 개발과정 작업들이 빠졌지만, 전체적으로 이해가 쉽도록 설명하기 위해 두 개의 케이스를 예로 들었다. 문제가 된 케이스와 꿈많은청년들 및 다양한 챗봇 개발사들이 기업용 챗봇 데이터를 취급할 때 접근하는 방식은 큰 차이가 있다. 일단 학습을 위한 발화 데이터에 대한 가공 및 정제 방법에 '시간+돈+인력' 이 들어간다는 건 어떻게 보면 같을 수 있지만, 처음의 데이터를 만들어내는 접근 방식이 크게 다르다.
물론 문제가 되는 케이스의 방식도 중간중간 문제가 될 부분을 해결하며 데이터를 얻고 정제를 한다면 전혀 문제가 되지 않을 수 있다. 하지만 '대화형 챗봇'을 만들 때에 이러한 문제가 될 부분 중 하나라도 문제가 있다면.. 현재 이슈처럼 크게 파장을 가져오며, 기업 이미지에 심각한 타격을 줄 수 있다. '인공지능' 자체가 빅 트렌드가 되면서 '개인 정보 취급/보호' 또한 큰 이슈로 화두 되고 있는 시기라 더욱 조심을 해야 한다.
https://www.sedaily.com/NewsVIew/22HAI7VZ5T
▲ 개인정보 취급/보호에 관련된 다양한 시선들이 존재한다. 하지만 이번 문제는 그것과도 별개이다.
예전에 나는 페이스북 메신저 기반으로 콘텐츠 챗봇을 운영하며, 몇 달에 걸쳐 챗봇에게 다양한 대답을 할 수 있도록 학습을 시켜보았다. 결과는 지속된 페르소나 화로 내가 챗봇 말투를, 챗봇이 내 말투를 구사하는 지경에 이르렀고... (!) 재미있고 귀여운 콘셉트의 챗봇이므로 다중인격의 새로운 자아가 생길 것만 같았다. 그만큼 '대화형 챗봇' 은 '대화' 데이터를 만드는 '휴먼(인간)'의 감정이 들어갈 수밖에 없고, 그 말을 그대로 인공지능은 학습을 하고 내뱉는다. 결국 마지막에 가서 그 챗봇은 사용하는 유저들이 "말이 많네"라고 말을 걸면 박찬호의 "오 말이 뫊타고 하시니 제가 LA에 있었을~때가 생칵나네요. 그뛔의 줘는 매우..@$@$%%" 투 머치 토킹까지 구사하게 되었다. (물론 내가 장난으로 학습시킨 거지만..!)
https://dbr.donga.com/article/view/1101/article_no/8181/ac/special
▲ 2017년. 벌써 3년 전의 기사이지만, 아직도 챗봇에 대한 큰 틀이나 비즈니스에 대한 접근은 바뀌지 않았다.
기업용 챗봇들은 이런 일상용 대화형 챗봇과 다르게 '전문화'가 되어있다. 예를 들어 여러분들이 산 물건에 하자가 있어서 고객센터로 전화를 했는데 고객센터 직원에게 대뜸 "오늘 밤에는 뭐 먹어요?"라고 물어보고 상담사가 "고객님 오늘 저녁엔 삼겹살을 먹습니다"라고 대답하지는 않는다. 물론 돌발적인 질문에도 친절하게 답변해 주시는 능력자 상담사는 상황의 해결을 위해 답변을 해주는 경우도 있다고 한다.. (실제로 들은 이야기) 하지만 대부분 '답변의 의무'가 없는 욕설이나 제품과 서비스 문의와 상관없는 이야기는 나눌 필요도 없고 고객의 시간도 아깝고 상담사와 기업의 입장에서도 매우 아까운 시간이다.
그래서 기업용 챗봇의 '대화 목적'에 가장 큰 목적은 '전문적인 정보제공'이다. 제품 및 서비스에 대한 고객의 문의를 가장 빠르게 챗봇으로 처리하고 가장 빠르게 분류하여 더욱 전문화된 상담사(인간)의 상담이 필요한 것이다. 기업용 챗봇이 대화를 아무리 잘한 들.. 뜬금없이 "야 너 성별이 뭐야?"라고 아무 말이나 해봤자 "고객님 그 답변은 아직 준비되어 있지 않습니다." 같은 준비된 Fallback message만 출력될 뿐이다. 하지만 기업용 챗봇은 목적상 이런 방식이 매우 적절하다고 볼 수 있다. 그러니 챗봇이 문제가 될 발언을 할 가능성이 매우 낮다.
결국 이번 이슈로 '인공지능 챗봇'에 대한 불안한 시선을 갖고 있는 분들이 있다면, 이 글로 많은 부분 궁금증이나 의문점이 해소되었길 바란다.
사용하기 편한 인공지능 서비스를 만드는 건 결국 인간이고, 그런 인공지능에게 필요한 데이터를 만드는 것 또한 인간이다. 그런데 나의 경험상.. 그런 데이터를 가공하고 정제하고 학습시키는 작업은 인간과 기술이 함께 공존해야 하며, 그 방법론이 '생산 속도'를 좌우하게 된다. 데이터를 취급하고 정제하는 인력들은 '검증' 되고 '검증' 된 사람들이어야 하며, 불법적인 데이터 또한 취급해선 안되기에 '검증'의 연속이 필요하다. 심지어 데이터를 다양화하고 분류하는 작업은 검증된 여러 명의 사람이 있어야 하니.. 그야말로 '돈+시간 인력'의 싸움이라 볼 수 있다. 결코 쉽게 얻어지는 것이 아니니, 아직까지 인공지능에 활용될 데이터나 개발 작업들이 프리미엄이 있어 높은 가격을 받는 이유기도 하다. 하지만 시간은 결국 인간의 편이니, 점점 기술이 발전할수록 이러한 비용과 인력, 시간도 줄어들지 않을까.
그런 세상이 바로 '인공지능'과 '데이터'를 제대로 활용하는 시대가 아닐까 싶다.
이제 막 중학교에 입학한 자식이 어서 공부 열심히 해서 대학교~대학원을 거쳐 박사가 되길 바라는 것처럼.