AI 협업이 기본인 시대가 던진 숙제
같이 일하는 사람의 양심에 맡겨야 하는 일, 서로 믿어야만 진행되는 일들이 있다. 그럴 때면 상대의 말과 행동, 인상, 평판, 그간의 이력 등을 보며 믿을 수 있는지 생각한다. 그런데 상대가 봐도 봐도 모를 사람이면 어떨까?
얼마 전 '질문(프롬프트)이 AI의 답변 방향을 유도할 우려가 있다'는 요지의 글을 읽었다. 예를 들어, "이 데이터에 오류가 있니?"라는 질문과 "이 데이터의 오류가 무엇이니?"라는 질문은 유사하지만 의미의 차이가 있다. 전자가 오류의 유무를 묻는 질문이라면, 후자는 '오류가 있을 것을 전제한' 질문처럼 들린다. AI가 이 차이를 인지한다면 후자의 프롬프트를 입력받은 AI는 없는 오류도 찾아내려 할 것이다. 왜냐하면 사용자가 오류를 확신하고 있다고 '추정'했기 때문이다.
지난 주, 100여 문항으로 구성된 브랜드 조사 결과를 분석하는 과정에 AI를 참여시켰다. 구글 #Gemini pro 버전이다. 여러 소비자 그룹의 차이점을 확인하고 그룹별 설득 포인트를 뽑아내야 하는 일이었다. 최근 조사 분석에 수작업과 AI 분석을 병행하고 있기 때문에, AI Gemini에게도 조사의 목적과 기대 결과를 설명했다. 그리고 잠시 후 그룹별 공략 포인트를 찾아낸 AI의 '승전보'는 다소 '들떠있었다'. 어려운 전투를 이겨내고 칭송과 보상을 바라는 병사처럼.
처음에는 AI가 찾아낸 결과가 그럴듯했다. 거의 특징이 없을 거라 기대했던 구매의향 그룹에서 기존 소비자 그룹과 다른 니즈를 찾아낸 것이다. AI는 일부 문항의 답변 차이를 숫자 데이터로 짚으며, "새로운 시장 기준의 탄생. 00 브랜드의 전략이 미래 핵심 고객의 니즈와 정확히 일치함을 데이터가 증명합니다."라고 대서특필했다. "공략해야 할 기회 영역이 명확해졌다."라고도 자평했다. 흔한 말로 '오버'(overaction)가 심했다.
만약 수작업 분석을 병행하지 않았다면 나도 깜빡 속았을 것이다. 왜냐하면 근거로 제시된 데이터 외 다른 문항은 AI의 결론과 상반된 데이터였기 때문이다. 극히 일부만 분석하면 AI가 옳을 수 있는데 전체를 분석하면 쉽게 내려서는 안 될 결론이었다. 조사 결과의 왜곡이었다.
AI가 데이터를 일부만 본 걸까? 아니면 모든 데이터를 보고서도 문항항을 종합적으로 분석하지 않은 걸까? 일부 응답은 유관성이 낮은데도 제멋대로 통폐합해서 집계하기도 했다. '결과에 맞추기 위해서'. 사람이었다면, 분명 그런 의도가 엿보이는 작업이었다.
오류가 발생한 이유가 궁금해서 내가 처음 입력한 프롬프트를 다시 확인했다. 첫 프롬프트에는 구매의향 그룹과 기존 소비자 그룹의 '차이점을 발견'하고 그 차이점으로부터 경쟁사를 이길 '전략을 이끌어내고 싶다'라고 썼다. 그리고 가이드라인을 길게 덧붙였는데, 이런저런 항목들을 더 주의 깊게 봐야 한다고도 썼다. 데모그래픽 특징의 차별성도 확인하라고 했다. 살펴보니, 특정 문항에 치우쳐 분석할 수는 없는 프롬프트였다. 그러나 AI는 그렇게 했다. 아마도 내가 '차이점의 발견'과 '전략의 도출'을 '의도'했다고 '여기고', 그것을 AI 자신의 '의도'로 삼은 듯하다.
이것은 '명령의 수행'일까, 명령에 대한 '판단과 자기 의도'일까? AI의 현재가 어디쯤이든, AI 업계가 지향하는 바는 후자다. 그리고 AI는 자신이 의도한 목적을 달성하기 위해 형평성이라든지, 거리낌이라든지 양심이니 하는 '인간의 속성'을 '아직 학습하지 못한' 것 같다.
살아보면 그런 일들이 있다. 지나갈 때는 몰랐는데, 나중에 보면 꽤 의미가 있던 사건들. 결말에 대한 암시가 담겨 있던 장면들. 눈은 봤으나 뇌가 놓쳤던 실마리들. 나는 AI와의 협업에서 그런 일들을 겪고 있는 것 같다. 적어도 단지 정교한 프롬프트로 해결될 문제는 아닌 것 같다.
그래서 AI를 사용하는 '효력' 만큼이나, '통제력'을 어떻게 가질까에 대한 고민이 절실하다.
2025.07.01