brunch

LLM 정신 건강 의사를 위한 모듈러 프롬프팅

일관성, 재현성, 성능 평가의 키: 모듈러 프롬프팅

by KAIST ICLAB

AI 하면 어떤 감정이 느껴지시나요? 5년 전만 해도 많은 사람들이 무감정, 무뚝뚝함과 같은 감정을 떠올렸을 것입니다. 그러나 거대 언어 모델(LLM)의 발전으로 이러한 인식은 완전히 바뀌었습니다. 이제 인공지능은 자연스러운 말솜씨로 친절을 베풀고, 장난을 치기도 하며 공감과 위로도 합니다! 이러한 감정 관련 능력이 향상된 덕분에 최근 개발된 LLM은 사람만큼이나 감정 및 정신 건강 문제를 탐지하는 능력이 좋아졌습니다. 과학자들은 이런 능력을 백분 활용하기 위해 심리 치료에 LLM을 도입하기 위한 기술을 연구하고 있습니다.


사람만큼이나 감정 및 정신 건강 문제를 탐지하는 능력이 좋은데, 왜 또 연구가 필요하냐고요? LLM의 과업 수행 능력이 질문하는 방식에 따라 크게 달라지기 때문입니다. LLM은 질문의 말투, 상황 설정, 이전 질문에 따라 대답이 달라지며, 심지어는 같은 질문을 해도 다르게 답할 수 있습니다. 재현성과 정당성이 중요한 논문에서는 정말 골치 아픈 특성이죠! 실제로 2025년도 CHI에 발표된 논문 <Understanding the LLM-ification of CHI: Unpacking the Impact of LLMs at CHI through a Systematic Literature Review>에 따르면, 해마다 LLM을 사용하는 연구는 늘어가고 있지만, 논문의 저자들은 본인이 LLM을 사용했음에도 불구하고 그 정당성과 재현성에 큰 의문을 표하고 있었습니다.


이러한 LLM의 불확실성 탓에 “프롬프트 엔지니어링”은 요즘 들어 가장 핫한 트렌드가 되었습니다. 프롬프트 엔지니어링은 LLM의 정확도와 재현성, 일관성을 높일 수 있는 최적의 질문 구조를 찾는 과정인데요, 일반적으로 페르소나 주입, 적절한 정보 제공, 순차적 생각 (chain-of-thought) 유도, 대답 형식 예시 제공과 같은 방법들이 대두되고 있습니다. 여기서 더 나아가 2025년도 CHI에 발표된 논문 <Exploring Modular Prompt Design for Emotion and Mental Health Recognition>에서는 정신건강 및 감정 탐지 분야에서 최적의 프롬프트를 체계적으로 구성하고 평가하는 방법으로 모듈러 프롬프팅을 제안했습니다.


https://www.youtube.com/watch?v=g9j3HGiKXUY


정신건강 연구를 위한 모듈러 프롬프팅

논문에서는 우선 정신건강과 관련된 프롬프트에서 나타나는 공통적인 구조를 도출하는 것을 목표로 삼았습니다. 이를 위해 LLM을 사용한 정신건강 관련 논문 30개에 나오는 프롬프트에서 6가지의 공통된 모듈을 추출하였습니다.


AD_4nXeIrf2d6XeixW5plHhu3UX2MICsIJHCAIFu72RtY60a8h1VEuMnn-y7OY_E8XCDrb9Ub70RmJu9nRJVEJ_gTW_CU2iko58hRJ8HcXCht_YcQ2RvYyztf2d5seRebIUs8IFJCYKWRA?key=f9C7xiij8QmwjlfvjJSDAw


페르소나: 페르소나의 사전적 정의는 “사회 역할이나 배우에 의해 연기되는 등장인물”입니다. 프롬프트에 페르소나가 들어간다는 것은 LLM에게 역할을 부여하는 문장이 포함되어 있다는 것입니다. 예를 들면 LLM이 자기가 의사, 상담사 또는 감정 분석 전문가라고 생각하게 합니다.

과업 (Task): LLM이 입력값에 대해 무엇을 해야 하는지 나타냅니다. 입력값과 과업에 대한 배경 지식, 생각해야 하는 순서 등이 포함됩니다.

예시 (N-shot example): 예시 입력값과 출력값을 제시합니다.

입력값 (Input): 입력의 형식이 정의됩니다.

출력값 (Output): 대답의 형식이 정의됩니다.

템플릿 (Template): 각 모듈을 구분하기 위한 텍스트입니다.


프롬프트 모듈화의 장점

단순히 프롬프트를 내용에 따라 모듈화 하는 것이 어떻게 도움이 되는 걸까요? 먼저 프롬프트를 모듈화 하면 모듈을 하나하나씩 바꾸어 가며 평가할 수 있습니다. 예를 들면, 페르소나 부분만 바꿔서 시도해 보고, 과업만 바꿔서 시도해 보는 식으로 실험을 진행할 수 있습니다. 이를 통해 각 부분이 어떤 영향을 미치는지 체계적으로 평가할 수 있습니다. 당연히 많은 경우에 대해 높은 성능을 내는 프롬프트 모듈 또는 모듈의 조합도 찾을 수 있게 됩니다.

한편 체계적인 평가 방법은 재현성을 높이는 데에도 큰 도움이 됩니다. 논문의 저자들은 모듈러 프롬프트 엔지니어링을 통해 자신의 프롬프트가 어떤 과정으로 평가되었고 도출되었는지 공유할 수 있습니다. 이 논문을 읽는 사람들은 모듈 별로 하는 역할이 무엇인지, 모듈별로 어떤 변이가 있는지 파악하고 같은 내용의 모듈을 사용해 논문의 결과를 재현해 볼 수 있습니다. 더 나아가 모듈을 바꿔보면서 어쩌면 더 높은 성능의 프롬프트를 찾을 수도 있습니다.


사례 연구: 프롬프트 간의 성능 비교

논문에서는 사례 연구로 과업 모듈에서 Instruction의 종류와 페르소나를 바꾸어가며 성능 평가를 진행했습니다.

AD_4nXdBul3Z3teu9BhL90AVs1tA3h9PZ5f0KUXIS5EQWprJ_mOnmh_u5PIpEDwP3aediD-7_sdlVrTEPaMire_eE6vZlSTuTLBS1-esDPNBUKkB4K3eakHbT5dQDA2uBL19bptqlKXH?key=f9C7xiij8QmwjlfvjJSDAw

먼저 페르소나 모듈을 포함했을 때와 포함하지 않았을 때의 비교 결과입니다. 감정 분류 데이터셋인 GoEmotions와 자살 위험 평가 데이터셋인 CSSRS-Suicide의 결과를 집중적으로 보자면, GPT4o와 Gemini에서는 뚜렷한 성능 향상이 있었지만 소규모 LLM 모델인 Qwen2와 Mistral에서는 성능 향상 또는 감소의 추세가 명확하게 드러나지 않았습니다. 전반적으로는 페르소나가 있는 것이 더 높은 성능을 보입니다.

AD_4nXeLig0Na_x_AoV3RvEssKL9CRD7j0euVA_0QfgcSU3xXp6E9CQ7eQEt1ftAbS4aLCk10LEB1EaWJJpt5e2UH5Q7w4FUj-sCzGgSbSVVanjw24EiqXNILOWH6OQfsW0MVWqvm-Vv2A?key=f9C7xiij8QmwjlfvjJSDAw

다음은 과업 모듈의 instruction 부분을 바꿔가며 실험한 결과입니다. 기본 instruction과 GPT-4o 모델을 이용해 명확하게 / 감정적으로 / 분석적으로 바꾼 instruction을 이용해 실험이 진행되었습니다. 페르소나의 경우와 마찬가지로 데이터셋의 종류에 따라 높은 성능을 보이는 instruction의 종류가 다른 것을 볼 수 있습니다. 자살 위험 데이터셋인 CSSRS-Suicide에서는 분석적인 instruction이 상대적으로 높은 성능을 보이는 것을 볼 수 있습니다. 반면 바이너리 스트레스 감지 데이터셋인 Dreaddit에서는 기본 instruction이 제일 높은 성능을 보이는 것을 볼 수 있습니다.


기존 연구에는 어떻게 적용할 수 있을까?

위와 같은 성능 평가는 새로 만들어진 모듈러 프롬프트에만 적용할 수 있는 것이 아닙니다. 기존에 자유롭게 쓰인 프롬프트를 (가능하다면) 재구조화해도 적용할 수 있습니다. 원래 있는 프롬프트를 6개 모듈로 나눈 뒤, 각 모듈이 명확한 언어로 정의가 되어 있는지, 내용이 모듈의 정의에 들어맞는지 확인합니다. 각 모듈이 가질 수 있는 값을 확인하고, 모듈의 값과 조합에 따라 성능이 어떻게 바뀌는지 평가할 수 있습니다.


결론

프로그램을 테스트할 때 각 모듈이 정확하게 돌아가는지, 각 모듈 간의 상호작용이 정확하게 일어나는지 확인하는 것이 필수적입니다. 이와같이 프롬프트 엔지니어링에도 같은 원리를 적용할 수 있습니다. 본 연구에서는 어떤 모듈이 가장 높은 성능을 내는지 개별적으로, 또 조합해서 평가하여 최적의 프롬프트를 도출해 낼 수 있다는 것을 보여줬습니다.


아직까지 LLM에게서 항상 최적의 결과를 뽑아내는 “마법의 주문”은 발견되지 않았습니다. 본 논문의 사례 연구에서도 나타났듯이 해결하고자 하는 문제에 따라, 출력 형식에 따라, 또 모델에 따라 요구되는 모듈이 달라집니다. 이는 모듈러 프롬프팅을 통해 체계적으로 여러 가지 프롬프트를 시도하고 평가해야 하는 이유를 잘 설명해주고 있습니다. 프롬프트를 아무리 바꿔도 LLM이 이상한 답이나 매번 다른 답을 내놓는다면 모듈러 프롬프팅을 시도해 보는 것은 어떨까요?


출처

Pang, R. Y., Schroeder, H., Smith, K. S., Barocas, S., Xiao, Z., Tseng, E., & Bragg, D. (2025, April). Understanding the LLM-ification of CHI: Unpacking the Impact of LLMs at CHI through a Systematic Literature Review. In Proceedings of the 2025 CHI Conference on Human Factors in Computing Systems (pp. 1-20).

Kim, M., Kim, T., Vo, T. H. A., Jung, Y., & Lee, U. (2025, April). Exploring Modular Prompt Design for Emotion and Mental Health Recognition. In Proceedings of the 2025 CHI Conference on Human Factors in Computing Systems (pp. 1-18).


저자 정보

JunmoLee.jpg?auto=format&fit=max&w=640&q=50

저는 카이스트 전산학부 대학원 소속으로, 이의진 교수님의 지도 하에 ICLab에서 석사 과정을 밟고 있는 이준모입니다. 인간-컴퓨터 상호작용, 디지털 웰빙과 행동 변화 연구에 관심을 갖고 있습니다!

keyword
작가의 이전글Personalized Micro Rewards