brunch

AI를 얼마나 신뢰하나요?

AI와 인간이 협업하면 항상 더 나은 결과가 나올까?

최근 Reddit에서 ChatGPT 덕분에 아내의 생명을 구했다는 글이 올라왔습니다.


아내가 낭종 제거 수술 후 열이 나고 몸이 안 좋아졌는데 병원에서는 그냥 기다리라는 답변이 왔다고 합니다. 남편이 혹시나 해서 증상을 ChatGPT에 넣어봤더니 "지금 당장 응급실로 가라"는 답변이 나왔고, 실제로 병원에 가보니 패혈증(sepsis) 이었다고 합니다. 그런데 이것 뿐만이 아니라 최근 이렇게 "AI가 질병을 발견해줬다"는 경험담이 해당 글의 댓글로 폭발적으로 달려서 화제가 되고 있습니다.

사람과 AI의 협업을 연구하는 저에게 이 주제는 단순히 스쳐지나갈 만한 일이 아닙니다. 최근 4월 옥스포드 대학의 연구(출처 참고)에서도 비슷한 실험이 있었는데,


- 사람과 AI가 협업해서 의사결정할 때는 35% 정도의 정확도

- 사람이 구글만 사용했을 때는 45% 정확도

- AI만 단독으로 판단할 때 90 ~99%의 정확도가 나왔습니다.


물론, 어떤 주제인지에 따라 협업의 정확도가 더 높다는 이전의 연구도 있었지만, 이 연구의 경우 사람이 AI와 함께 판단하면 오히려 구글보다 더 못한 결과가 나온다는 측면에서 흥미롭습니다.

왜 이런 결과가 나왔는지에 대해 3가지로 밝히고 있는데,
1. 사람이 AI에 정보를 불완전하게 입력함 → 증상을 빠뜨리거나 잘못 설명함.
2. AI의 좋은 조언과 나쁜 조언을 구분하지 못함 → 틀린 말도 그럴듯하니까 그냥 믿음
3. AI가 맞는 답을 줘도 무시함 → 불안하거나 신뢰가 안 가서 무시함.

2번의 과도한 의존(Overreliance)과 3번의 신뢰(Trust) 부분이 제가 현재 연구하는 주제와 너무나 밀접해서 계속 follow-up 하고 있습니다. 비슷한 연구를 하거나 조직 내에서 비슷한 고민을 하고 계신다면 함께 고민을 나눠보면 좋겠습니다. 관련 주제로 지속적인 공유 나누려 합니다.



Screenshot 2025-06-24 at 13.05.12.png


* 그런데 자료를 정리하면서 추가로 찾은 연구에서는 비슷한 의료 도메인 영역에서 50%보다 정확도가 떨어진다는 연구를 발견했습니다. 결국 어떤 표본으로 했는지, 당시 실험환경이라던지에 따라 실험 결과가 달라지는 것 같습니다. 그럼에도 불구하고 확실한 takeaway는 언제 어느 정도로 신뢰해서 결과를 사람이 받아들일 것인가에 대한 고민이 필요하다는 것으로 이해하면 좋을 것 같습니다.



[출처]

- Clinical knowledge in LLMs does not translate to human interactions: https://arxiv.org/pdf/2504.18919

- ChatGPT is truly awful at diagnosing medical conditions: https://www.livescience.com/technology/artificial-intelligence/chatgpt-less-accurate-than-a-coin-toss-at-medical-diagnosis-new-study-finds?utm_source=www.theneurondaily.com&utm_medium=newsletter&utm_campaign=chatgpt-md&_bhlid=d0818de976bb9a82fa251c7fa9023914b6de5256

keyword
작가의 이전글[AI에이전트]포르쉐 타고 마트에 가고 있진 않나요?