brunch

You can make anything
by writing

C.S.Lewis

by 남성준 Oct 06. 2024

AI의 신뢰성 문제가 실리콘밸리 큰 숙제

하이브리드 AI, RAG (검색증강생성), 복수 비서 모델 소개

생성형 AI를 비즈니스에 도입하는데 제일 큰 문제는 신뢰성이다. 너무 그럴듯한 결과를 생성해내는데 틀린 답을 종종 내놓는다. 어디에서 틀린 것인지 알 수가 없기에 믿을 수가 없다. 일반적인 질문에 3~5% 정도 틀린 답을 낸다고 하는데 최근 스탠포드 대학 연구에 의하면 법률 분야는 17%까지 틀린 답을 낸다고 한다. 의학 법률 같은 전문 분야는 전문가가 꼼꼼히 살펴보지 않으면 어디에서 틀린 답을 내는 지 알기 쉽지 않다. 내 전문 분야인 데이터 통계 분석도 생성형 AI가 종종 틀린 답을 낸다. 예를 들어 200개 행이 있는 데이터를 업로드 하고 데이터 행이 몇개인가 물으면 199개라고 틀린 답을 내놓는다. 그리고 이 질문을 똑같이 계속 하면 할 때마다 176개, 147개 등 매번 다른 숫자를 내놓는다. 변수를 새로 만들어 내기도 하고 행을 마음대로 없애기도 한다. 그러니 그 잘못된 데이터를 기반으로 계산된 통계 결과는 틀릴 수 밖에 없다. 생성형 AI는 글을 생성하는데 특화된 AI라 숫자 계산에는 허점이 많다. 이런 AI 환각 문제를 해결하기 위해 많은 기업과 학계에서 여러가지 방법을 개발하고 있다. 이 중 몇가지를 소개하고자 한다.

1. 하이브리드 AI

첫째, 하이브리드 AI로 내 회사 (Number Analytics)가 서비스 하고 있는 방법으로 기존의 검증된 전통적 룰 기반 분석과 생성형 AI를 합치는 방식이다. 기존 통계 분석 방법들은 결과는 정확한데 그 해석을 일일이 사람이 해야 해서 많은 시간과 노력이 들어갔다. 하이브리드 AI 데이터 분석은 룰 기반 전통적 통계 분석을 쓰고 그 통계 분석 결과를 생성형 AI에 보내어 해석 및 문서화를 진행한다. 직접 데이터를 보내지 않고 룰 기반 분석 결과만 생성형 AI에 보내어 해석하기 때문에 생성형 AI가 만들어 내는 환각 문제를 상당부분 해결할 수 있다. 미리 데이터 분석을 진행하여 각 변수마다 평균치는 얼마인지 어떤 변수가 있는지 다 정보를 AI에 보내기에 정확한 답을 내놓는다. AI는 이런 주어진 수치나 표를 해석하고 리포트를 생성하는 작업에 탁월한 성능을 가지고 있다.

예를 들어 5G 이동통신 만족도 설문 조사 데이터를 기반으로 데이터 분석을 NumberAnalytics.com 자체 룰 기반 통계 분석을 하고 이 결과를 ChatGPT가 해석한 보고서가 위의 이미지처럼 나온다. 정확한 통계 분석 결과 표와 그래프를 바탕으로 작성했으며 이를 바탕으로 주요 결과 해석 및 그 시사점까지 제시해준다. 만족도 숫자 뿐만 아니라 불만 사항 텍스트 데이터도 자동으로 전처리 하여 단어 빈도 분석 결과 표를 바탕으로 이를 요약하여 주요 불만 사항을 요약해준다. 이렇게 하이브리드 AI를 쓰면 생성형 AI와 기존 룰 기반 통계 방법의 장점을 결합하여 정확하고 빠르게 데이터 분석을 할 수 있다.

하이브리드 AI 결과 (룰 기반 통계 분석 + 챗GPT)

KPI와 주요 인사이트

성별 차이: 남성과 여성 고객의 평균 만족도 차이가 있으며, 여성 고객의 만족도가 더 높습니다.

연령대 효과: 젊은 층(18-24)의 만족도가 가장 높고, 나이가 많을수록 만족도가 낮아지는 경향이 있습니다.

NPS 그룹 분석: 비추천 고객이 많은 대해 서비스 개선이 필요함을 나타냅니다. 고객들은 속도와 요금에 대한 불만을 제기했습니다.

고객 피드백 요약

속도: "속도가 제법 빠른 편이고, 데이터 용량이 충분하다"

요금: "요금제는 비싸지만 안정성이 좋다"

편리성: "5G 서비스에 대한 편리함을 느끼지만, 지역에 따라 서비스 품질 차이가 있음"

불안정성: "인터넷 연결이 자주 끊기는 문제도 있음"

결론

이 보고서는 이동통신 서비스에 대한 고객의 다양한 의견을 반영하여, 브랜드 이미지 개선 및 고객 만족도 향상을 위한 데이터 기반의 전략 수립에 기여할 것입니다. 서비스 통신 품질의 일관성을 개선하고, 가격 정책을 재조정하는 것이 중요합니다."

2. RAG 검색증강생성

둘째, RAG (검색증강생성) 방법이다. 필요한 정보를 외부 데이터베이스나 웹싸이트에서 찾아 정보를 제공해준다. 예를 들어 세일즈를 담당하는 직원에게 잠재 고객사를 세일즈 데이터 베이스에서 찾아내고 그 대표의 최근 신문 인터뷰 내용을 인터넷 뉴스에서 검색해 요약해서 세일즈 이메일 초안을 만들어 준다. AI가 최신 정보를 검색하고 전문적 지식을 참조하여 틀린 답을 줄여준다. 환각 현상은 생성형 AI가 없는 정보를 요구할 때 많이 발생하는데, 없는 정보는 외부에서 찾아서 답을 해주기에 환각으로 인한 오류를 줄일 수 있다.

3. 복수 비서 모델

셋째, 최근에 각광받고 있는 복수 비서 모델 (Multi Agentic model)이라 불리는 방법으로 AI를 여러개를 써서 협업한다. 한번에 생성된 답을 내 놓는 것이 아니라 여러번 그 답이 맞는 지 다른 AI가 검수하거나 테스트를 진행해 틀린 답이 나오면 다시 일을 시킨다. 최근 OpenAI에서 발표한 ChatGPT 4o1이 대표적인 복수 비서 모델이다. 유명한 예로 strawberry 단어에서 r이 몇개인지 물으면 기존에 틀린 답을 내놓았는데, ChatGPT 4o1은 첫번째 비서가 내놓은 답을 두번째 비서가 테스트한다. 틀린 답을 내놓으면 다시 일을 시킨다. 그래서 테스트를 통과해야 답을 내놓는다. 그래서 아래 그래프에서 보듯이 수학, 코딩, 박사 수준의 과학 문제에서 탁월한 성능 향상을 이루어 냈다.

다른 해결책으로 여러 단계로 쪼개어 실행하기, 더 좋은 데이터로 학습하기, 사람이 피드백을 주기, 더 모델 튜닝을 잘하기 등 방법들이 있으나 지면제약상 자세한 내용은 생략하기로 한다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari