인간과 AI의 협업: 인간이 먼저인가, AI가 먼저인가

닭이 먼저냐 달걀이 먼저냐

by 도토리


기술이 점점 정교해지면서 "AI가 결국 인간보다 더 나은 결정을 내리게 될 것"이라는 전망도 자주 등장합니다. 실제로 AI는 특정 영역에서 인간보다 높은 정확도를 보이기도 합니다. 의료 영상 분석이나 패턴 인식 같은 분야에서는 이미 인간 전문가를 능가하는 성능을 보이는 경우도 있습니다.


하지만 Human–AI collaboration 연구에서는 조금 다른 이야기가 나옵니다. AI가 인간을 완전히 대체하는 구조보다 인간과 AI가 협업하는 구조가 더 높은 성과를 만든다는 것입니다. AI의 역할은 인간을 대신하는 것이 아니라 인간의 의사결정을 증강(augmented decision making)하는 것에 가깝습니다.

왜 그럴까요?


AI와 인간은 서로 다른 방식으로 판단한다

AI는 방대한 데이터를 분석하고 패턴을 찾는 데 매우 뛰어납니다. 수백만 개의 사례를 학습하고 그 안에서 통계적 규칙을 발견하는 능력은 인간이 따라가기 어렵습니다.

반면 인간은 맥락을 이해하는 능력에서 강점을 가집니다. 숫자로 표현되지 않는 상황을 읽고, 불완전한 정보 속에서도 판단을 내릴 수 있으며, 책임·윤리·사회적 관계 같은 요소를 함께 고려할 수 있습니다.

의료 진단을 예로 들면 이 차이가 선명해집니다. 구글 딥마인드가 개발한 AI 시스템은 안저(眼底) 사진 분석에서 당뇨병성 망막병증을 숙련된 안과의사와 거의 동일한 정확도로 탐지합니다. 하지만 "이 환자에게 당장 레이저 치료를 권할 것인가, 아니면 생활습관 교정을 먼저 시도할 것인가"라는 결정에는 환자의 직업·가족력·심리 상태·경제 상황이 모두 개입됩니다. 패턴 탐지는 AI가, 치료 방향 결정은 인간이 담당할 때 두 능력 모두 살아납니다.


그래서 최근 연구에서는 인간과 AI를 경쟁 관계가 아니라 상호 보완적인 인지 시스템(complementary cognitive systems)으로 설명합니다.


Human-in-the-loop: 인간이 개입하는 의사결정 구조

이러한 관점에서 등장한 개념이 휴먼 인 더 루프(Human-in-the-Loop, HITL)입니다. 휴먼 인 더 루프는 AI 모델의 학습, 데이터 검증 및 최종 의사 결정 과정에 사람이 직접 참여하여 AI의 정확도와 안전성을 높이는 인간 참여형 인공지능 시스템을 뜻합니다. AI가 분석을 수행하고 제안을 만들지만, 최종 판단은 인간이 내리는 구조입니다.


2021년 MIT 연구팀이 이와 관련하여 흥미로운 실험을 진행했습니다. 판사들이 피고인의 보석 여부를 결정할 때 AI 위험 예측 점수를 함께 제공했을 때, 판사 단독 판단이나 AI 단독 판단보다 Human-in-the-loop 구조에서 재범률 예측 정확도가 유의미하게 높아졌습니다. AI는 통계적 패턴을 제시하고 인간 판사는 법정에서 직접 관찰한 맥락을 더하는 방식이었습니다. 추천은 결정이 아니라 의사결정 과정의 한 단계로 작동한 셈입니다.


역할 분담의 두 가지 방식

Human–AI collaboration 연구에서 인간과 AI의 역할 분담은 크게 두 가지 방향으로 나타납니다.


첫 번째는 AI가 먼저 제안하고 인간이 판단하는 구조입니다.

추천 시스템, 의료 진단 보조, 금융 리스크 분석 등이 여기에 해당합니다. AI는 탐색 공간을 좁히고 인간은 그 안에서 선택합니다.

JP모건이 도입한 AI 계약 검토 시스템 COIN(Contract Intelligence)이 대표적입니다. 대출 계약서 한 건을 변호사가 검토하면 평균 360시간이 걸리는 작업을, COIN은 몇 초 만에 이상 조항 후보를 추려 제시합니다. 변호사는 수천 페이지를 처음부터 읽는 대신 AI가 플래그를 꽂아둔 지점만 집중 검토하고 최종 판단을 내립니다. AI가 계약을 "통과"시키는 게 아니라, 변호사의 주의를 어디에 쏟아야 하는지 알려주는 것입니다.


두 번째는 인간이 탐색을 시작하고 AI가 보조하는 구조입니다.

이 방식은 창작이나 지식 작업에서 자주 나타납니다. 사용자가 문제를 정의하고 방향을 잡으면 AI가 초안 생성, 대안 제시, 오류 탐지 등으로 작업을 보조합니다.

GitHub Copilot이 대표적인 사례입니다. Copilot은 개발자가 주석이나 함수명을 입력하는 순간부터 코드를 제안합니다. 중요한 점은 Copilot이 코드를 "완성"하는 것이 아니라 개발자가 이미 향하고 있던 방향을 더 빠르게 도달하게 해준다는 것입니다. 실제로 GitHub의 연구에서 Copilot 사용자는 그렇지 않은 개발자보다 동일한 작업을 약 55% 더 빠르게 완료했습니다. 창의성을 대체하는 게 아니라 실행 속도를 높이는 도구로 작동한 것입니다.


Human-AI teaming: 설계가 필요한 협업

최근 연구에서는 이러한 협업 구조를 Human-AI teaming이라고 부릅니다. AI를 단순한 도구가 아니라 각자의 강점을 살려 공동 목표를 달성하는 팀원으로 보는 관점입니다.

이 관점에서 기술 성능만큼 중요한 것이 협업 구조 설계입니다. AI의 제안을 사용자가 이해할 수 있는가, AI의 판단을 수정하거나 거부할 수 있는가, 인간과 AI의 역할이 상황에 따라 유연하게 나뉘는가. 이 요소들이 함께 설계되어야 협업이 제대로 작동합니다.

그래서 Human-AI interaction 연구에서는 설명 가능성(explainability), 사용자 통제권(user control), 신뢰(trust)를 핵심 설계 원칙으로 강조합니다. 예를 들어 같은 AI 모델을 사용하더라도 "이 환자의 재발 위험도는 72%입니다"라고만 제시하는 시스템과, "최근 6개월간 유사한 증상을 보인 환자 823명 중 72%가 재발했으며, 주요 요인은 X, Y, Z입니다"라고 설명하는 시스템은 임상에서 전혀 다른 방식으로 활용됩니다. 전자는 인간 판단을 대체하려 하고, 후자는 인간 판단을 증강합니다.


AI 시대 UX의 새로운 질문

AI 시스템의 성공 여부는 결국 기술 성능보다 협업 구조 설계에 더 크게 좌우됩니다.

AI 시대의 UX 설계는 단순히 "AI 기능을 추가하는 것"이 아닙니다. AI와 인간이 각자 무엇을 잘하는지 파악하고, 그 경계를 상황에 맞게 설계하는 일입니다.


그래서 앞으로 제품을 설계할 때 중요한 질문은 이것이 될지도 모릅니다.

AI가 무엇을 할 수 있는가가 아니라,

AI와 인간이 어떻게 함께 판단할 것인가.



참고문헌

Amershi, S., et al. (2019). Software engineering for machine learning: A case study. Proceedings of the 41st IEEE/ACM International Conference on Software Engineering (ICSE-SEIP).

Cai, C. J., et al. (2019)."Hello AI": Uncovering the onboarding needs of medical practitioners for human-AI collaborative decision-making. Proceedings of the ACM on Human-Computer Interaction (CSCW).

Campbell, M., Hoane, A. J., & Hsu, F. H. (2002). Deep Blue. Artificial Intelligence, 134(1–2), 57–83.

Dratsch, T., et al. (2023). Automation bias in mammography: The impact of AI on radiologist performance. Radiology, 307(4).

Green, B., & Chen, Y. (2019). The principles and limits of algorithm-in-the-loop decision making. Proceedings of the ACM on Human-Computer Interaction (CSCW).

Gulshan, V., et al. (2016). Development and validation of a deep learning algorithm for detection of diabetic retinopathy in retinal fundus photographs. JAMA, 316(22), 2402–2410.

Kalliamvakou, E. (2022). Research: Quantifying GitHub Copilot's impact on developer productivity and happiness. GitHub Blog.

Kasparov, G. (2017). Deep thinking: Where machine intelligence ends and human creativity begins. PublicAffairs.

Kleinberg, J., et al. (2018). Human decisions and machine predictions. The Quarterly Journal of Economics, 133(1), 237–293.

Peng, S., et al. (2023). The impact of AI on developer productivity: Evidence from GitHub Copilot. arXiv.

Silver, D., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529, 484–489.

Rezazade Mehrizi., et al. (2023). The impact of AI suggestions on radiologists' decisions: A pilot study of explainability and attitudinal priming interventions in mammography examination. Scientific Reports, 13.


작가의 이전글자율주행 시대, 어떤 UX가 중요한가