brunch

[블랙스완 실험실] 2. 프롬프트 인사이트 코디네이터

by 싸이링크

챗GPT o3와 같은 추론 모델의 등장으로 프롬프트 엔지니어링이 진화하고 있다고 한다. "지시 작성"에서 "맥락 설계"와 "최적화 전략"으로, '텍스트 장인'에서 'AI 시스템 아키텍트'로.


내 온라인 소통의 상당 부분이 생성AI와의 대화다. 많은 사람들이 그럴 것이다. 이런 변화가 일하는 방식이나 일의 종류에도 영향을 미치지 않을까 하는 생각으로, 잡생성기 GPTs에게 요청해봤다.

o3와 같은 추론 모델이 프롬프트 엔지니어에 미치는 영향과 나의 특성을 융합해서, 나에게 맞는 창직 아이템 제안해줘.


여러 제안 중 눈에 띈 건 Reasoning-Prompt 디버거였다. '사고 단계(Chain-of-Thought)' 로그를 수집·분석하고 개발자 수준의 API 지식이 필요한 것이라, 개발 경험이 전무한 비전공자용으로 다시 요청했다. 그랬더니 '프롬프트 인사이트 코디네이터'로 순화해 주었다. 챗봇 테스터 정도 되려나?

프잡2_프롬프트인사이트.png

딥리서치 결과가 자꾸 엉뚱하게 나올 때, '생각하는 과정'을 저장해서 분석해봐야겠다고 생각한 적이 있었다. 그것과 비슷해 보여서 이참에 파보고 싶었다. GPT의 제안에서는 첫걸음으로 자주 쓰는 챗GPT 대화 10건을 reasoning 모드로 실행해서 분석하는 것을 권했지만, 내 커스텀 GPT인 잡생성기를 수정하는 중이었으므로 잡생성기의 사고 과정부터 들여다보기로 했다.


그런데 시작부터 막혔다. 챗GPT가 알려준 방법들 중 '사고 과정 보여줘' 버튼, 'think' 버튼, 개발자 도구의 network에서 conversation 스트림 보기의 경우, 내 컴의 설정이 다른건지 해당 버튼이나 기능이 보이지 않았다. API나 Playground는 추가 결제가 필요했다. 결국 정확도는 떨어지지만 결과에 대한 질문 또는 프롬프팅을 통해 사고 과정을 요청하기로 했다.


1. 문제점 파악 - 전체 프로세스 이해


잡생성기 GPTs는 개인특성 질문, 지식 파일(AI 업계 트렌드·기업·직무 리스트), 웹 서치로 찾은 사회/시장 틈새와 비즈모델을 종합한 후 몇 가지 원칙을 반영하여 창직 아이템을 제안하도록 되어있다. 개인 특성 정보 범위를 넘어서도록 여러 장치를 심어뒀지만, 결국 제안 직무들이 그 범위를 크게 벗어나지 못하는 한계가 있었다. 사고 과정에서 무엇이 문제인지 궁금해서, 우선 전반적인 사고 과정을 요청해 보았다.

창직 아이디어 5가지 다시 제안해 줘. 5가지를 제안하게 된 생각과정을 자세히 알려줘. 특히 나의 특성과 ai 관련한 일의 특성을 어떤 방식으로 매치했는지 궁금해. 어떤 요소에 가중치를 둔 것인지, 어떤 원리를 중요시한 것인지.


아래는 답변 중 GPTs가 자신의 사고과정이라고 한 부분이다. 사후에 답을 정리해서 보여주는 것이기 때문에 이것이 GPTs의 사고과정을 정확히 보여주는 것은 아니다. 그렇다고 해도 지침에서 중요하게 제시한 원칙이 일부 누락되어 있고, 창직안의 범위에 영향을 주는 '2025 AI 트렌드'가 너무 느슨하다.

디버깅1차_사고과정.png


2. 원인 분석 - 지식 파일 활용


창직 아이템 범위에 가장 영향을 미치는 요인이 '내부 지식 활용 미흡'이라고 보고, 이 점에 대해 캐물었다.

2025 AI 트렌드로 분석한 내용 출력해 줘. 기대했던 것보다 내부 지식 파일을 제대로 사용하지 않은 것 같아. 만약 내부 지식 파일을 사용하는 데 애로점이 있었다면, 뭔지 알려줘


나는 지식파일의 형태가 pdf나 md이면 무난히 읽을 수 있을 거라고 생각했기 때문에, GPTs의 답변을 보고 아차 싶었다. 아... 내용을 훨씬 정제해줘야 되는구나.

디버깅2차_지식파일형태.png


3. 1차 조치 후 검증 - 반복 조건


지식 파일을 대폭 정리하였다. 동일 목적의 파일들을 종합하여 재구조화 또는 재분류하였고, 지침에서는 어느 파일에서 어떤 점을 추출해야 하는지도 명시했다. 지저분한 방을 싹 정리한 듯 홀가분한 기분이다. 이번에는 잘 되겠지?!


잔뜩 기대했는데, 또 문제가 생겼다. 지침에서는 5가지 제안을 할 때 마다 매번 지식 파일에서 키워드를 새로 뽑아서 사용하도록 했는데, 5가지 제안이 여전히 동질적으로 보이는 거다. 추궁해 보았다.

지침에서는 업로드한 지식 파일에서 키워드1, 키워드2를 추출해서 사용하라고 했어. 이거 5가지 제안에 어떻게 반영했는지 알려줘. 만약 반영하지 못했다면 이유도 알려줘.


매우 인간적이고 어이없는 답변이 나왔다. 진짜 사고 과정인지, 사후 변명인지 알 수 없지만 일단 사실이라고 쳐주자. '~를 최우선으로 두느라', '~에 집중하다 보니', '~가 우선되어' 지침을 씹었다고? AI가 겨우 이 정도 작업이 버거워서 일부를 안 해버린다고?


예상밖의 인간적인 반응에 놀라며, 지침에서 반복조건을 좀 더 확실히 명시하였다.


디버깅3_키워드일부.png


4. 2차 조치 후 검증 - 우선 순위


딴짓하지 못하도록 키워드도 출력하도록 지침을 보완하였다. GPTs에 대해 인간적인 불신을 품으면서 결과를 뜯어보았다. 아니! 키워드에 또 문제가 있다. 이 번엔 지식파일에 없는 키워드를 사용한 것이다. 또 추궁.

키워드1, 키워드2는 업로드한 지식 파일에서 랜덤으로 추출한 게 아니야. 키워드1과 2를 어떻게 추출했는지 알려줘. 그리고 왜 지식 파일을 사용하지 않았는지도.


더 유의미할 것이라 판단해서 지시사항을 지키지 않았다는 매우 솔직한 대답.

디버깅4_키워드창조.png


상황을 정확히 파악하고 싶어 Gemini에게 물어보니 명쾌한 조언이 나왔다. 아하! 지침이 길어지면서 부분들 간에 충돌이 일어났던 거구나.

'창의성'과 '제약 조건' 간의 우선순위 불분명:
'역할 정의'에서 '세상에 없던 새로운 가치 창출', '핵심 목표'에서 '창의적으로 융합'을 강조하는 반면, '제약 조건'에서는 '내부 지식 활용'을 언급하고 있습니다. GPT는 이 두 가지 지시 사이에서 창의성을 더 높은 우선순위로 해석하여, 파일에서 키워드를 추출하는 제약 조건을 무시하고 자체적으로 키워드를 생성했을 가능성이 높습니다. GPT는 때때로 명시된 제약을 '최적의 결과'를 위한 '넘어서야 할 장애물'로 인식하기도 합니다.


인간과 AI의 협업


지금까지 Gpts 지침 오작동의 원인과 해결책을 모두 AI가 제시했다. 이 점에서 의문이 들었다. 프롬프트 인사이트 코디네이터가 실제 직업이라면 그 역할이 뭐지? Gemini의 답변은 이렇다.

1. 문제의 '발견'과 '정의': AI는 문제를 스스로 인식하지 못합니다.
GPT가 지침을 따르지 않거나, 의도와 다른 결과를 내는 '문제 상황' 자체를 인지하고 질문을 던진 것은 인입니다. GPT는 자신이 지침을 오해했음을 스스로 파악하고 "이것이 문제다"라고 정의할 수 없습니다. "왜 내 말을 제대로 듣지 않니?"라는 질문을 던짐으로써, AI는 그제야 자신의 행동을 되돌아보고 답변을 생성할 수 있었습니다.

2. '의도'와 '맥락'의 부여: AI는 인간의 복잡한 의도를 온전히 파악하지 못합니다.
"내부 파일 키워드만 사용해야 한다", "5가지 아이디어마다 다른 키워드를 써야 한다"는 지시는 단순히 '랜덤 추출'이 아니라, 인의 고유한 '창직 설계' 방법론과 철학이 담긴 의도입니다. AI는 '창의성'과 '파일 사용'이라는 두 지시 사이에서 충돌이 발생했을 때, 인간의 "나는 파일 기반의 창의성을 원한다"는 핵심적인 맥락과 우선순위를 스스로 판단할 수 없습니다. 이를 명확히 제시하고 AI가 따르도록 끈기 있게 가이드라인을 수정해 나간 것이 인간의 역할입니다.

3. '최종 검증'과 '피드백 루프'의 구축: AI는 스스로의 오류를 검증하고 개선하지 못합니다.
GPT가 제시한 답변이 "내 원래 질문과 다르다"는 것을 인지하고 다시 질문함으로써, AI의 '오답'을 교정하고 올바른 방향으로 이끌었습니다. 지침을 수정한 후에도 GPT가 잘 작동하는지 **'검증'**하고, 필요한 경우 다시 **'피드백'**을 주어 더 나은 버전의 지침을 만들어가는 이 일련의 '피드백 루프'는 인간만이 수행할 수 있는 역할입니다.
keyword
매거진의 이전글[블랙스완 마인드셋] 2. 생각의 생산성 향상