학습여정
"우리는 인공지능을 '사용'하는 것이 아니라, 인공지능의 논리 속에 '길들여지고' 있는지도 모릅니다. 먼저 알고 사용해 볼까요?”
LLM 모델(GPT, Llama 등)이 계속 업데이트되면서, 특정 모델에 맞춰 공들여 만든 프롬프트가 새로운 모델에서는 제대로 작동하지 않을 수 있습니다.
모든 결과물을 사람이 일일이 확인하고 평가하는 것은 비효율적이며 확장성이 떨어집니다.
LLM 자체를 평가 도구로 사용하는 것입니다.
즉, 하나의 LLM(또는 다른 LLM)을 사용하여 특정 프롬프트가 생성해 낸 결과물의 품질을 자동으로 채점하고 평가하게 만드는 방식입니다.
평가자 역할을 할 LLM에게 직접적인 평가 기준(Rubric)을 코드로 짜주는 것이 아닙니다.
대신, 몇 가지 채점 예시를 보여줍니다. 이 예시에는 입력(Input), 결과물(Output), 평가 설명(Explanation), 점수(Score)가 포함됩니다.
예를 들어, "이름, 연도" 형식으로 결과를 원할 때, 형식을 잘 지킨 결과물에는 10점을, 불필요한 설명이 붙은 결과물에는 5점을, 중요한 정보가 누락된 결과물에는 3점을 주는 예시를 보여주는 식입니다.
이렇게 몇 개의 '좋은 예', '나쁜 예', '평범한 예'를 학습한 LLM은 새로운 결과물을 받았을 때, 주어진 예시와 비교하여 스스로 평가 기준을 유추하고 점수를 매기게 됩니다.
자동화: 생성된 결과물의 품질을 실시간으로 자동 점검할 수 있습니다.
피드백 루프: 평가 점수가 특정 기준점(예: 10점 만점에 7점) 이하라면, 해당 결과를 사람에게 검토 요청하거나, 프롬프트를 다시 실행하여 더 나은 결과물을 얻도록 시스템을 구축할 수 있습니다.
효율성: 사람이 모든 결과물을 검토할 필요 없이, 품질이 낮은 결과물만 선별하여 확인할 수 있어 시간과 노력을 크게 절약합니다.
이는 LLM에게 단순히 정보를 생성하고 요약하는 역할을 넘어, 결과물의 품질을 판단하는 '메타(Meta)' 역할을 부여하는 것입니다.
마치 학생이 문제를 푼 뒤, 스스로 혹은 다른 학생이 채점 기준표를 보고 채점하는 것과 같습니다.
이 접근법의 가장 큰 장점은 정교하고 복잡한 평가 기준을 자연어 설명과 예시만으로 학습시킬 수 있다는 점입니다.
'문체가 자연스러운가?', '핵심 논지가 명확한가?'와 같은 정성적인 평가도 가능하게 합니다.
이 기법은 프롬프트 엔지니어링이 단순히 '결과 생성'에만 국한되지 않음을 보여줍니다.
좋은 결과물을 얻기 위한 생성 프롬프트뿐만 아니라, 그 결과물의 품질을 측정하기 위한 평가 프롬프트를 설계하는 능력이 중요해집니다.
"당신은 프롬프트 디자이너의 의도를 파악하는 비평가입니다. 다음 결과물이 얼마나 기대치에 부합하는지 10점 만점으로 채점하고 그 이유를 설명하세요."와 같은 '페르소나 패턴'을 활용하면 더 정교한 평가자 LLM을 만들 수 있습니다.
→ Digitalian: 결국, 효율성, 즉 결론적으로 투입 리소스와 경제성 때문입니다. 그럼 여기서 두 가지 재미있는 질문이 떠오릅니다. 그 첫 번째는 대규모 언어 모델(LLM)의 프롬프트 출력을 평가하고 관리하는 ‘대상’은 누가 될까요? 인공지능 자체일까요? 인공지능을 관리하는 인간일까요? 아니면, 이 둘도 아닌 제3의 무엇일까요? 또 하나는, 이 LLM결과 평가 시스템의 로직을, 나의 인공지능 활용 질문 방법으로 차용을 하는 겁니다.
※ 본 요약은 Coursera의 Vanderbilt University ‘프롬프트 엔지니어링 특화 과정’ 학습 내용을 바탕으로 작성된 개인 학습 기록입니다. 공정 이용(fair use) 범위 내에서 작성되었으며, 강의 원문 및 자료의 직접 복제·캡처는 저작권에 의해 금지됩니다.- by Coursera Plus - "Learning Notes and Summaries by Digitalian”