brunch

You can make anything
by writing

C.S.Lewis

by AI러 이채문 Dec 08. 2024

대규모 언어 모델을 위한 새로운 프롬프팅 기술

Directional Stimulus Prompting (DSP)

Directional Stimulus Prompting (DSP)는 대규모 언어 모델(LLM)이 더 정확하고 원하는 방식으로 출력을 생성하도록 유도하기 위한 프롬프팅 기법입니다. Li et al. (2023)은 정책 언어 모델(Policy Language Model, LM)을 사용하여 LLM의 출력을 안내하는 힌트(stimulus)를 생성하는 방법을 제안했습니다. 이러한 힌트는 요약, 대화 생성, 데이터 분석 등 다양한 작업에서 유용하며, LLM이 원하는 목표를 더 효과적으로 달성할 수 있도록 돕습니다.     


DSP의 주요 특징은 다음과 같습니다:


1. 가이드 힌트 제공: 작업과 관련된 키워드나 구문을 힌트로 제공하여 LLM의 출력 방향성을 개선.

2. 정책 언어 모델 훈련: 소형 정책 LM은 감독 학습(Supervised FineTuning, SFT) 및 강화 학습(RL)을 통해 최적화.

3. 정확도와 사용자 선호도 향상: LLM의 출력을 평가하고 이를 바탕으로 지속적인 성능 개선.               




DSP의 작동 방식     

DSP는 크게 세 단계로 구성됩니다:     


 (1) 힌트 생성

 정책 언어 모델(Policy LM)이 입력 데이터에서 작업에 적합한 힌트를 추출합니다.

 예시: 요약 작업의 경우, 입력 기사에서 주요 키워드(예: 날짜, 인물, 사건)를 추출하여 힌트로 제공합니다.     

 (2) LLM 출력 유도

 생성된 힌트를 입력 텍스트와 함께 LLM에 전달합니다.

 LLM은 힌트를 기반으로 더 정교한 출력을 생성합니다.  

   

 (3) 강화 학습을 통한 최적화

 LLM 출력은 인간의 피드백이나 사전 정의된 평가 메트릭(예: ROUGE 점수)을 통해 평가됩니다.

 평가 결과를 보상으로 활용하여 정책 LM을 강화 학습(RL)으로 훈련합니다.          

     



더 자세히 알아보기


이 이미지는 프롬프팅 방식에 따른 AI 모델의 요약 성능 차이를 비교하고 있습니다. 두 가지 방식을 분석해보겠습니다:


1. Directional Stimulus Prompting (방향성 있는 자극 프롬프팅):

- 힌트를 제공: "Bob Barker; TV; April 1; The Price Is Right; 2007; 91"

- ROUGE-1 점수: 48.39 (더 높은 성능)

- 키워드를 활용한 더 상세하고 정확한 요약 생성

- 중요 정보(날짜, 나이, 프로그램명 등)를 포함한 완성도 높은 요약


2. Standard Prompting (표준 프롬프팅):

- 단순히 "요약해달라"는 기본적인 지시만 제공

- ROUGE-1 점수: 34.48 (상대적으로 낮은 성능)

- 기본적인 사실은 전달하지만 세부 정보가 누락됨

- 더 일반적이고 간단한 요약 생성


주요 차이점:

- 점수 차이: 방향성 있는 프롬프팅이 13.91점 더 높음

- 세부 사항: Directional 방식이 더 많은 구체적 정보(91세, 2007년 등) 포함

- 정확성: 힌트가 있는 경우 더 정확하고 완전한 정보 전달

이는 AI 모델의 요약 작업에서 적절한 힌트와 방향성을 제공하는 것이 더 나은 결과를 산출할 수 있음을 보여줍니다.



DSP는 기존 표준 프롬프팅(Standard Prompting)보다 높은 성능을 보여줍니다. 아래는 요약 작업에서 DSP와 표준 프롬프팅의 비교 예입니다:   

  

 입력 텍스트:

 기사: "Bob Barker, 전설적인 TV 진행자, 2007년 은퇴 후 8년 만에 'The Price Is Right' 쇼에 복귀…"     

 DSP (Directional Stimulus Prompting):

 힌트: "Bob Barker; TV; April 1; 'The Price Is Right'; 2007; 91"

 출력: "On April 1, Bob Barker returned to the TV show 'The Price Is Right' after eight years. Looking spry at 91, he handled the first game of the show before stepping down in 2007."

 ROUGE1 점수: 48.39 �  

   

 표준 프롬프팅:

 출력: "Bob Barker, the former host of 'The Price Is Right,' returned to the show for the first time in 8 years..."

 ROUGE1 점수: 34.48 �     

DSP는 힌트를 활용하여 더 중요한 정보를 포함하고 높은 평가 점수를 기록합니다.    



           


DSP의 활용 분야     



 1) 요약 생성

 긴 문서를 자동으로 요약할 때 주요 정보를 강조하여 더 정확한 결과를 제공합니다. 

    

 2) 대화 생성

 대화에서 사용자의 의도를 더 잘 이해하고 응답을 적절히 구성합니다.     


 3) 데이터 분석

 분석할 데이터에서 핵심 내용을 추출하고 정리하여 효과적인 인사이트를 도출합니다.     


 4) 검색 및 정보 검색

 LLM이 검색 결과를 요약하거나 정리하는 데 사용됩니다.   



            


 5. DSP를 학습하려면?    

 


 학습 자료

 논문: https://arxiv.org/abs/2302.1152

 강화 학습 기반 NLP: https://openai.com    

 

실습 환경

 Hugging Face: DSP 실험을 위한 정책 LM 및 데이터셋 활용 가능.

 RL4LMs: DSP의 강화 학습 기반 구현을 위한 오픈소스 도구.     

 

필요 기술

 Python과 PyTorch 같은 딥러닝 라이브러리.

강화 학습(RL) 및 자연어 처리(NLP) 기본 개념.               


DSP는 LLM의 출력을 사용자의 의도에 맞게 정밀히 제어할 수 있는 혁신적인 프롬프팅 기법으로, 다양한 NLP 작업에서 성능을 극대화할 수 있는 잠재력을 보여줍니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari