brunch

LLM을 활용한 프롬프트 결과물 자동 평가

학습여정

"우리는 인공지능을 '사용'하는 것이 아니라, 인공지능의 논리 속에 '길들여지고' 있는지도 모릅니다. 먼저 알고 사용해 볼까요?”



문제 제기:

LLM 모델(GPT, Llama 등)이 계속 업데이트되면서, 특정 모델에 맞춰 공들여 만든 프롬프트가 새로운 모델에서는 제대로 작동하지 않을 수 있습니다.


모든 결과물을 사람이 일일이 확인하고 평가하는 것은 비효율적이며 확장성이 떨어집니다.



해결 방안:

LLM 자체를 평가 도구로 사용하는 것입니다.


즉, 하나의 LLM(또는 다른 LLM)을 사용하여 특정 프롬프트가 생성해 낸 결과물의 품질을 자동으로 채점하고 평가하게 만드는 방식입니다.



구체적인 방법 (소수샷 학습, Few-Shot Learning):

평가자 역할을 할 LLM에게 직접적인 평가 기준(Rubric)을 코드로 짜주는 것이 아닙니다.


대신, 몇 가지 채점 예시를 보여줍니다. 이 예시에는 입력(Input), 결과물(Output), 평가 설명(Explanation), 점수(Score)가 포함됩니다.


예를 들어, "이름, 연도" 형식으로 결과를 원할 때, 형식을 잘 지킨 결과물에는 10점을, 불필요한 설명이 붙은 결과물에는 5점을, 중요한 정보가 누락된 결과물에는 3점을 주는 예시를 보여주는 식입니다.


이렇게 몇 개의 '좋은 예', '나쁜 예', '평범한 예'를 학습한 LLM은 새로운 결과물을 받았을 때, 주어진 예시와 비교하여 스스로 평가 기준을 유추하고 점수를 매기게 됩니다.



기대 효과 및 활용:

자동화: 생성된 결과물의 품질을 실시간으로 자동 점검할 수 있습니다.


피드백 루프: 평가 점수가 특정 기준점(예: 10점 만점에 7점) 이하라면, 해당 결과를 사람에게 검토 요청하거나, 프롬프트를 다시 실행하여 더 나은 결과물을 얻도록 시스템을 구축할 수 있습니다.


효율성: 사람이 모든 결과물을 검토할 필요 없이, 품질이 낮은 결과물만 선별하여 확인할 수 있어 시간과 노력을 크게 절약합니다.



'평가자로서의 LLM' (LLM as a Judge)

이는 LLM에게 단순히 정보를 생성하고 요약하는 역할을 넘어, 결과물의 품질을 판단하는 '메타(Meta)' 역할을 부여하는 것입니다.


마치 학생이 문제를 푼 뒤, 스스로 혹은 다른 학생이 채점 기준표를 보고 채점하는 것과 같습니다.


이 접근법의 가장 큰 장점은 정교하고 복잡한 평가 기준을 자연어 설명과 예시만으로 학습시킬 수 있다는 점입니다.


'문체가 자연스러운가?', '핵심 논지가 명확한가?'와 같은 정성적인 평가도 가능하게 합니다.



프롬프트 엔지니어링의 확장: '평가 프롬프트'의 설계

이 기법은 프롬프트 엔지니어링이 단순히 '결과 생성'에만 국한되지 않음을 보여줍니다.


좋은 결과물을 얻기 위한 생성 프롬프트뿐만 아니라, 그 결과물의 품질을 측정하기 위한 평가 프롬프트를 설계하는 능력이 중요해집니다.


"당신은 프롬프트 디자이너의 의도를 파악하는 비평가입니다. 다음 결과물이 얼마나 기대치에 부합하는지 10점 만점으로 채점하고 그 이유를 설명하세요."와 같은 '페르소나 패턴'을 활용하면 더 정교한 평가자 LLM을 만들 수 있습니다.


→ Digitalian: 결국, 효율성, 즉 결론적으로 투입 리소스와 경제성 때문입니다. 그럼 여기서 두 가지 재미있는 질문이 떠오릅니다. 그 첫 번째는 대규모 언어 모델(LLM)의 프롬프트 출력을 평가하고 관리하는 ‘대상’은 누가 될까요? 인공지능 자체일까요? 인공지능을 관리하는 인간일까요? 아니면, 이 둘도 아닌 제3의 무엇일까요? 또 하나는, 이 LLM결과 평가 시스템의 로직을, 나의 인공지능 활용 질문 방법으로 차용을 하는 겁니다.


※ 본 요약은 Coursera의 Vanderbilt University ‘프롬프트 엔지니어링 특화 과정’ 학습 내용을 바탕으로 작성된 개인 학습 기록입니다. 공정 이용(fair use) 범위 내에서 작성되었으며, 강의 원문 및 자료의 직접 복제·캡처는 저작권에 의해 금지됩니다.- by Coursera Plus - "Learning Notes and Summaries by Digitalian”

keyword
매거진의 이전글프롬프트 패턴 예시 1