Human-AI 협업이 기대만큼 성과를 내지 못한 이유

by 박진우
AI와 인간이 함께 일하면 더 좋은 성과를 내지 않을까?


많은 연구가 Human-only / AI-only / Human+AI를 비교했고,
AI가 설명(explanations)과 확신도(confidence)를 높이면

인간의 의사결정 품질이 더 좋아질 것이라고 기대했다.

그러나 최근 발표된 대규모 메타분석과 현장 실험은

이 기대가 부분적으로만 맞았고, 핵심은 다른 곳에 있다는 점을 보여준다.


AI가 평균적으로 도움 되지만, 이미 잘하고 있는 사람을 더 잘하게 만들지는 못한다.


증강은 있지만, 시너지는 없다.


Nature Human Behaviour에 게재된 이 메타분석은
106개 실험, 370개의 효과크기를 종합해
인간–AI 협업의 효과를 정량적으로 검증했다(Bansal et al., 2024).


핵심 결과는 두 가지다.

① Human augmentation은 일어났다.

- 인간+AI는 인간 단독보다 평균적으로 성과가 높았다.

② 그러나 Human–AI synergy는 없었다

- 인간+AI는 인간이나 AI 중 더 잘하는 주체(best-alone)를 평균적으로 이기지 못했다.


다시 말해, AI는 인간을 도와주기는 했지만,

이미 잘하고 있는 인간을 더 잘하게 만들지는 못했다.


20260127_210518.png

출처: Vaccaro, M., Almaatouq, A., & Malone, T. (2024). When combinations of humans and AI are useful: A systematic review and meta-analysis. Nature Human Behaviour, 8(12), 2293-2303.



인간이 강한 영역은 따로 있다.


메타분석 결과를 종합하면, 인간이 상대적으로 강한 영역에는 공통점이 있다.

이 영역에서는 판단의 질이 정확성보다 맥락, 의미해석, 책임에 의해 좌우된다.

대표적으로 다음과 같은 과제들이다.

- 가치 및 윤리 판단

- 관계적 비용이 성과에 포함되는 결정

- 문제 정의와 목표 재설정

- 전례 없는 예외 판단

- 장기적 신뢰와 정체성 축적 등의 역역에서 판단의 질은

이 영역에서는 정답을 맞히는 능력보다 판단을 내리는 행위의 의미가 더 중요하다.


반대로, AI가 이미 잘하는 영역에서 인간의 합류는 시너지를 만들지 못했다.


마찬가지로 AI가 이미 잘하고 있는 영역에서 인간의 합류는 시너지를 내지 못했다.

특히 Decide / Binary / Numeric처럼 정답형, 결정형 과제에서는

AI가 이미 인간보다 잘하는 경우가 많았고, 이때 인간의 개입은 오히려 성과를 떨어뜨렸다.


이때 인간이 ‘검토자’로 합류하면 오히려,

불필요한 개입이 늘고, 판단 일관성이 깨지며, 성과는 떨어진다.


즉, AI가 이미 잘하는 영역에서 인간의 개입은 ‘보완’이 아니라 ‘노이즈’가 되기 쉽다.


그래서 필요한 개념: P-AI fit


조직심리학은 오래전부터 알고 있었다.
사람과 직무가 맞지 않으면(Person–Job misfit),

아무리 정보와 훈련을 제공해도 성과는 오르지 않는다는 것을.

AI 협업도 마찬가지다.

같은 직무라도, 어떤 사람은 AI와 잘 맞고 어떤 사람은 그렇지 않다.


이것이 바로 P–AI fit(Person–AI fit)이다.

AI가 제공하는 설명과 확신도가 평균적으로 효과가 없었던 이유는

어떤 사람에게는 도움이 됐지만, 어떤 사람에게는 방해가 되었기 때문이다.


현장에서 관찰된 Human–AI 협업의 실제 모습


이 이론을 실제 조직에서 검증한 연구가 있다.
Harvard Business School 연구진이 P&G에서 수행한 대규모 현장 실험이다.

이 연구에서는 776명의 숙련된 실무자가 실제 신제품 개발 과제를 수행했다.


주요 결과는 다음과 같다.

(1) AI를 사용한 개인은, AI 없이 협업한 인간 팀과 동등한 성과를 냈다.

- 이는 AI가 전통적인 팀워크의 성과 효과를 ‘복제’할 수 있음을 의미한다.


(2) 팀 + AI는 평균 성과를 더 끌어올리지는 못했다.

- 팀에 AI를 더해도 평균 성과는 개인+AI와 유사했다.


즉, AI는 팀의 성과 효과를 대체했지만, 평균적인 의미의 시너지를 만들지는 못했다.


20260127_205317.png

출처: Dell'Acqua, F., Ayoubi, C., Lifshitz, H., Sadun, R., Mollick, E., Mollick, L., ... & Lakhani, K. (2025). The cybernetic teammate: A field experiment on generative AI reshaping teamwork and expertise (No. w33641). National Bureau of Economic Research.



AI는 ‘팀의 핵심 기능’을 수행할 수 있다.


HBS 연구의 진짜 가치는 '팀이 왜 필요한가'라는 질문에 대한 통찰을 제공했다는 데 있다.


(1) 전문성 통합: 기능 사일로를 붕괴시킨다.

AI가 없을 때, R&D는 주로 기술적 해결책을 제시하고, Commercial은 상업 중심 아이디어로 각자의 전문성 편향이 나타난다. 그런데, AI가 있을 때, 두 집단 모두 균형 잡힌 해결책 제시했다.

AI는 각자의 부족한 전문성을 보완할 수 있다.


(2) 초심자–전문가 격차를 줄인다.

해당 업무가 주업무가 아닌(non-core) 직원들은 AI 없이 혼자 일할 때 성과가 낮았다.

그러나 AI를 사용하자, 이들은 전문가가 포함된 팀 수준의 성과를 냈다.

AI는 단순한 생산성 도구가 아니라 전문성의 민주화(democratization of expertise) 장치로 작동했다.


(3) 사회적 기능: '정서적 팀 효과'까지 복제할 수 있다.

더 흥미로운 결과는 정서 영역이다.

AI 사용자는 긍정 정서가 증가하고, 불안이나 좌절과 같은 부정정서는 감소했다.

개인+AI의 정서 반응은 인간 팀과 유사하거나 더 긍정적이었다.

AI는 성과뿐 아니라 팀이 제공하던 정서적, 동기적 기능 일부를 수행했다.


그렇다면, 네이처의 메타분석과 HBS의 현장실험은 상호 모순일까?


겉보기엔 그렇다.

- 네이처 메타분석: 시너지 없음

- HBS 현장실험: AI는 팀원처럼 작동


그러나 두 연구를 P–AI fit 관점에서 보면 일관된 결과다.


핵심은 "누가, 어떻게 쓰느냐"다.

네이처의 메타분석이 밝힌 것은 AI가 이미 우위인 정답형 판단에

인간이 ‘검토자’로 끼어들면 성과는 떨어진다는 것이다.

HBS 현장실험이 보여준 것은 AI를 전문성 통합자와 아이디어 확장자로 두면

개인은 팀 수준의 성과를 낼 수 있다는 것이다.


두 연구 모두가 말하는 제한점도 같다.

평균적 의미의 시너지는 여전히 제한적이라는 것이다.

즉, AI가 ‘결정권자’가 될 때 문제가 되고,

‘전문성, 맥락, 정서의 보완자’일 때 강력해질 수 있다.


Practical Implications


(1) Human-in-the-loop를 기본값으로 두지 말라.

AI가 이미 잘하는 영역에서 인간을 최종 검토자로 두는 것은 성과 저하를 가져온다.


(2) Human-on-the-right-loop로 재설계하라.

- 인간: 문제 정의, 기준 설정, 예외 판단, 책임

- AI: 옵션 생성, 전문성 통합, 시뮬레이션, 초안


(3) 초심자와 전문가의 역할을 다르게 설계하라.

- 초심자: AI를 학습 및 확장 도구로

- 전문가: AI를 사고의 파트너, 반대 사례 생성기로


(4) 팀의 의미를 다시 정의하라.

- 팀은 더 이상 단순한 지식과 정보를 합치는 장치가 아니다.

AI가 그 기능을 수행할 수 있기 때문이다.

팀의 가치는 책임, 판단, 윤리적 조율에 있다.


AI는 팀을 없애지 못하지만, 팀이 왜 필요한지는 근본적으로 바꿔놓을 수 있다.


AI는 인간의 모든 영역을 완벽히 대체하지 않았지만,

과거 인간이 습관적으로 하던 협업의 이유를 상당 부분 대체한다.


이제 가장 중요한 질문은 “누가, 어떤 과제에서, 어떤 방식으로 AI와 일하게 할 것인가?”이다.


나는 그 답이 바로 P–AI fit이라고 생각한다.

그리고 P–AI fit의 핵심 축 중 하나가 바로 숙련도(초심자 vs 전문가)라고 생각한다.


20260127_203444.png




작가의 이전글첫인상은 결코 얼굴만이 아니다.