brunch

You can make anything
by writing

C.S.Lewis

AI 성능 향상을 위한 피드백 시스템

#Feedback #Generatvie AI #LLM

여섯 번째 주제는 ‘피드백 패턴’입니다. 생성형 AI의 성능을 유지하고 개선하기 위해서는 사용자가 제공하는 다양한 형태의 의견과 반응, 행동을 활용하거나 AI 전문가의 판단이 필요합니다. 이를 통해 AI의 강점과 약점을 파악하여 지속적으로 발전시킬 수 있습니다. 이번 글에서는 생성형 AI 중에서도 인간 언어 작업을 위해 특별히 설계된 LLM의 피드백 시스템에 대한 연구 사례를 살펴보고, AI의 성능을 어떻게 개선할 수 있는지 이야기해보고자 합니다.



생성형 AI에게 피드백이 필요한 이유

인공지능은 대규모 데이터셋으로 사전 학습(Pre-Training)을 합니다. 이 과정은 AI가 일반적인 지식을 배우는 것으로, 마치 우리가 학교에서 교과서를 통해 국어, 영어, 수학을 배우는 것과 비슷합니다. 초등학교, 중학교, 고등학교를 거치며 기초 지식을 쌓아가는 것처럼, AI도 대규모 데이터셋을 통해 기본적인 지식을 쌓습니다.

그러나 교과서의 기초 지식만으로 응용문제를 풀거나 다양한 실제 상황에 대응하기에 충분하지 않을 수 있습니다. 기초 지식을 쌓은 AI가 목적에 맞게 잘 작동하려면 피드백이 필요합니다. 제공받은 피드백으로 AI는 더 안전하고 유용한 답변을 제공할 수 있게 되며, 성능을 향상할 수 있습니다.




사용자의 피드백

사용자가 AI에게 줄 수 있는 피드백은 크게 두 가지로 나뉩니다. 직접적인 피드백과 간접적인 피드백, 이 두 가지 피드백은 AI의 학습과 성능 향상에 중요한 역할을 합니다.


1. 직접적인 피드백 

직접적인 피드백은 사용자에게 의도적으로 피드백을 제공받는 것을 의미합니다. 예를 들어, AI의 답변에 만족하지 않을 때 "좋아요" 또는 "싫어요" 버튼을 누르거나 버그 리포트를 작성하는 방법입니다. 이러한 피드백은 명확하고 직접적이지만, 사용자가 자발적인 행동을 해야 하기 때문에 참여율이 낮습니다. 직접적인 피드백 수집 방법은 기존의 웹이나 앱 서비스의 피드백 메커니즘과 매우 유사합니다.


직접적인 피드백 유형

피드백 버튼: "좋아요" 또는 "싫어요" 버튼으로 사용자에게 즉각적인 피드백을 받을 수 있습니다.  

버그 리포트: 사용자가 AI의 오류를 발견했을 때 보고할 수 있는 기능입니다. 예를 들어 "이 응답이 정확하지 않아요"와 같은 버튼을 통해 사용자가 불만을 쉽게 보낼 수 있게 합니다.  

추가 정보 입력창: 사용자가 문제를 신고할 때, 추가적인 정보를 입력할 수 있는 입력 양식을 제공합니다. 이를 통해 어떤 부분에서 잘못되었는지를 더 정확하게 파악할 수 있습니다.

설문 조사: 사용자에게 간단한 설문 조사를 보내 응답의 정확성, 만족도, 유용성 등의 평가를 받을 수 있습니다.  


활용 예시

Orq사는 직접적인 피드백을 포함한 Human in the Loop(HITL) 피드백 시스템을 사용하여 AI 성능을 개선하고 있습니다. 더 자세한 내용이 궁금하신 분은 해당 [링크]를 확인해 주세요.

Orq사의 Human in the Loop(HITL)


2. 간접적인 피드백

간접적인 피드백은 사용자의 행동을 통해 얻는 피드백입니다. 예를 들어, 사용자가 AI의 답변을 빨리 끊거나 같은 질문을 반복하면, AI가 잘못 답했다는 신호일 수 있습니다. 생성형 AI 중에서도 LLM의 특징은 사람의 말을 이해하는 능력이 뛰어나기 때문에 간접적인 신호를 감지할 수 있지만 일반적인 웹 서비스에서 구현하기 어려운 기능일 수 있습니다. 그리고 간접적인 피드백은 사용자가 자연스럽게 행동하는 동안 많은 데이터를 얻을 수 있지만, 미묘한 부분까지 해석하기는 어렵다는 단점이 있습니다.


간접적 피드백 유형

대화 중단(Termination): 사용자가 대화를 갑자기 중단하거나 취소함.

인터럽션(Interruption): 사용자가 시스템이 응답하는 도중에 말을 끊음.

대화 포기(Abandonment): 사용자가 대화를 완료하지 않고 떠남.

오류 교정 언어(Error-Correcting Language): 사용자가 다음 대화 턴에서 "아니..." 또는 "내가 말한 것은..." 등의 표현을 사용함.

부정적 감정 언어(Negative Sentiment Language): 사용자가 화가 나거나 실망감을 표현함.

재구성(Rephrase): 사용자가 이전 요청을 더 간단하게 다시 말함.

확인 언어(Confirmation Language): 사용자가 특정 행동을 다시 확인하라고 요청함.


활용 예시

Amazon Alexa AI 연구팀은 간접적인 사용자 피드백을 이용해 AI 성능을 개선하는 방법을 제안했습니다. 연구팀의 실험 결과, 여러 분야에서 자연어 이해(NLU) 성능이 크게 향상되었고, 오류가 줄어들어 사용자 만족도가 높아졌습니다. 앞으로는 더 많은 데이터를 개선하여 다양한 분야로 확장할 계획이라고 합니다. 더 자세한 내용이 궁금하신 분은 해당 [링크]를 확인해 주세요.




사용자 피드백의 한계점 및 개선방향

AI 성능을 더 효율적으로 향상하기 위해서는 다양한 방법이 필요합니다. 앞서 언급한 사용자 피드백 외에도, AI 전문가의 피드백은 AI 학습에 중요한 역할을 합니다. 이 모든 피드백을 활용한 강화 학습을 RLHF(Reinforcement Learning from Human Feedback)라고 합니다. RLHF는 AI가 사람의 피드백을 통해 더 똑똑해지도록 도와줍니다.


인간 피드백의 한계

RLHF는 AI 성능을 크게 향상하는 중요한 방법입니다. 특히, 사람들의 선호에 맞춘 답변을 생성하는 데 필수적입니다. ChatGPT와 같은 모델은 RLHF를 통해 탄생했다고 할 수 있을 정도로, 이 기법은 매우 중요합니다. 그러나 RLHF를 사용하려면 인간이 지속적으로 고품질의 학습 데이터를 만들어야 합니다. 이 과정은 많은 시간과 비용이 듭니다.


AI 피드백의 등장

Google Research의 최근 연구에 따르면, 사람 대신 AI 피드백을 사용해 AI를 더 효율적으로 학습시킬 수 있는 방법을 발표했습니다. 이것을 RLAIF(Reinforcement Learning from AI Feedback)라고 합니다. PaLM 2 같은 기존 LLM을 사용해 데이터를 생성하고 학습한 결과, 사람이 직접 제공한 학습 데이터와 거의 차이가 없었으며 더 안전하게 동작했습니다.

RLAIF는 초기 단계의 연구이지만, RLHF보다 더 효율적이고 저렴하게 AI 성능을 향상할 수 있는 잠재력을 가지고 있습니다.

그러나 RLAIF를 사용할 때는 몇 가지 주의할 점이 있습니다. 먼저, AI가 주는 피드백이 정확하고 믿을 만한지 자주 확인하고 개선해야 합니다. AI가 배운 데이터에 편향이 있을 수 있으니, 이 점을 주의해서 설계하고 모니터링해야 합니다. 또한 AI가 자동으로 피드백을 생성하는 과정이 안정적이고 신뢰할 수 있는지 확인해야 합니다. 마지막으로 AI가 모든 상황을 완벽하게 이해하지 못할 수 있으므로 복잡한 문제나 주관적인 판단이 필요한 경우에는 여전히 사람의 판단이 필요할 수 있습니다.




결론

생성형 AI UX 패턴의 6번째 주제인 '피드백'에 대해 자세히 살펴보았습니다.
피드백 시스템은 사용자의 다양한 의견과 반응을 수집하고 분석하여 AI 시스템을 학습시키고 개선하는 데 중요한 역할을 합니다.
직접적 또는 간접적 피드백과 같은 UX적 장치를 통해 사람의 피드백을 수집하거나, AI 피드백으로 더 저렴하고 빠르게 학습할 수 있게 도와줍니다. 하지만 여전히 AI 피드백은 정확성과 편향을 자주 확인해야 하고, 복잡한 부분에서는 여전히 사람의 판단이 필요하다는 문제가 남아있습니다.

이번 글에서는 피드백 시스템의 개념과 기본적인 원칙에 대한 설명에 초점을 맞추었습니다. 실제 피드백 시스템을 설계하고 구현할 때는 더 많은 고려 사항이 있을 수 있습니다.

스켈터랩스의 BELLA QNA는 이러한 피드백 시스템을 연구하여 더 나은 사용자 경험과 AI의 성능을 제공하기 위해 노력하고 있습니다. 조만간 새롭게 도입될 피드백 시스템에 대한 많은 기대와 관심 부탁드립니다. 스켈터랩스 디자인팀은 앞으로도 사용자 중심의 디자인으로 AI 서비스의 품질을 높이는 데 최선을 다할 것입니다.






참고자료  

https://pair.withgoogle.com/chapter/feedback-controls/

https://docs.orq.ai/docs/human-in-the-loop-feedback 

https://www.intercom.com/blog/podcasts/product-design-ai-chatgpt/ 

https://arxiv.org/abs/2309.00267?fbclid=IwZXh0bgNhZW0CMTAAAR2lIftrFuERzSSADzU5XLaJEhm6QIfsBK2HNgtpvqRhU7xB5my2IMhygUk_aem_AZ2JIWaXBOGZDokfZTxg-AYrrub8OCJ-UkuLW_STYcCXcg9KtMgRuPyuqnDrsY1udZzcfn4sx3eQdMJ60MMvS20q

https://ai-r.com/blog/not-all-sources-are-created-equal-explicit-vs-implicit-feedback-in-machine-learning 

https://openai.com/index/instruction-following/ 

https://www.robometricsagi.com/blog/ai-policy/human-vs-ai-in-reinforcement-learning-through-human-feedback  





스켈터랩스 블로그에서 대화형 AI에 대해 더 알아보세요.


[생성형 인공지능 UX 패턴 시리즈]



브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari