brunch

의료 AI의 '거짓말 탐지기'가 등장했다!

� FACTS Grounding 리더보드 완전 분석

by SeaWolf

"AI가 똑똑해지는 건 좋은데... 의료 정보를 물어봤을 때 헛소리하면 어떡하지?"


의료 AI를 개발하는 모든 분들이 한 번쯤은 이런 고민을 해보셨을 겁니다. 오늘은 이 고민을 해결해줄 획기적인 평가 시스템, FACTS Grounding 리더보드에 대해 알아보겠습니다.


FACTS Grounding이 뭐길래 난리야?

여러분, AI에게 "감기약 추천해줘"라고 물었더니 "아스피린 10알을 한 번에 드세요"라고 답한다면? � 끔찍하죠?

구글 딥마인드가 만든 FACTS Grounding은 바로 이런 상황을 막기 위한 'AI 거짓말 탐지기'입니다.


어떻게 작동하나요?

긴 의학 문서 제공 (32,000 토큰 ≈ A4 용지 40장!)


AI가 문서만 보고 답변


두 가지 기준으로 채점: � Quality Check: "질문을 제대로 이해했나?" � Grounding Check: "답변의 모든 내용이 문서에 있나?"


쉽게 말해, "책 안에 없는 내용은 절대 말하지 마!" 규칙을 얼마나 잘 지키는지 테스트하는 거죠.


FACTS-Grounding-Leaderboard-a-Hugging-Face-Space-by-MaziyarPanahi-06-05-2025_03_45_PM.png


의료 버전이 특별한 이유

원래 FACTS는 860개의 일반 문제를 다뤘는데, 의료 특화 버전은 이 중 236개의 의료 사례만 골라냈습니다.

왜 의료 분야가 중요할까요?


일반 AI 실수: "파리의 수도는 런던입니다" → � 웃고 넘어감

의료 AI 실수: "이 약은 임산부도 안전합니다" → � 생명 위험!


한 문장의 실수가 생명과 직결되는 의료 현장에서는 '팩트 체크'가 선택이 아닌 필수입니다.


한국 AI가 세계 2위를 차지했다고?


네, 맞습니다! 현재 리더보드를 보면:


종합점수 랭킹 (2025년 6월 5일 기준)

facts_leaderboard_table_large.png




VIDraft가 특별한 이유

한국어 의료 용어 완벽 대응 "속이 미식거려요" 같은 한국식 증상 표현 이해 건강보험 청구 코드 등 국내 의료 시스템 반영


데이터 보안 걱정 제로 국내 서버에서 운영 가능 환자 정보 해외 유출 걱정 없음


중소병원도 사용 가능한 효율성 27B 크기지만 최적화로 GPU 1-2장으로 구동 대형병원 뿐만 아니라 동네 병원도 도입 가능


실제로 어떻게 평가하나요?

프랑스 국립과학연구센터(CNRS) 팀이 운영하는 이 리더보드는 완전히 투명합니다.


Original Leaderboard by Google

https://www.kaggle.com/benchmarks/google/facts-grounding/leaderboard


Public Dataset

https://www.kaggle.com/datasets/deepmind/facts-grounding-examples/data


Technical Documentation

https://www.kaggle.com/code/andrewmingwang/facts-grounding-benchmark-starter-code/notebook


누구나 자신의 모델을 제출하고 평가받을 수 있어요!


이게 왜 게임체인저인가?

Before (기존 방식):

의사: "이 AI 믿어도 되나요?"


개발자: "음... 아마도요?"


의사: "�"


After (FACTS 도입 후):

의사: "이 AI 믿어도 되나요?"


개발자: "FACTS 점수 95점입니다. 모든 답변이 의학 문헌에 근거해요!"


의사: "�"


앞으로의 전망

FACTS Grounding은 의료 AI의 '운전면허 시험' 같은 존재가 되고 있습니다.

기대되는 변화들:

병원의 AI 도입 가속화 "FACTS 인증" = 신뢰의 증표


한국형 의료 AI 경쟁력 강화 Bidraft의 성공이 증명한 가능성


환자 안전 대폭 향상 검증된 정보만 제공하는 AI 시대


핵심 정리

FACTS Grounding = AI가 '아는 척' 못하게 하는 시스템


의료 특화 버전 = 생명과 직결된 정확성 검증


한국 VIDraft = 세계 2위의 쾌거!


투명한 평가 = 누구나 도전 가능


FACTS Grounding 리더보드 링크:

https://huggingface.co/spaces/MaziyarPanahi/FACTS-Leaderboard



마치며...

"측정할 수 없으면 개선할 수 없다"는 말이 있죠. FACTS Grounding 리더보드는 의료 AI의 신뢰성을 숫자로 측정할 수 있게 만들었습니다.

특히 한국의 Bidraft가 세계적인 경쟁에서 2위를 차지한 것은, 우리도 안전하고 정확한 의료 AI를 만들 수 있다는 증거입니다.

앞으로 더 많은 한국 연구팀들이 이 도전에 참여해, K-의료 AI의 위상을 높이길 기대합니다!


이 글이 도움이 되셨다면, 의료 AI 개발에 관심 있는 동료들과 공유해주세요!

keyword
작가의 이전글누구나 5분만에 전문 팟캐스트를 만들 수 있는 AI