: AI 심사에 대한 변론
공정성의 역설: 인간의 직관은 AI보다 신뢰할 수 있는가?
무승부가 던진 충격
하버드 대학교에서 진행된 '프레지던트 혁신 챌린지'의 심사위원 배정 실험 결과는 단순한 기술적 승리의 기록이 아니다. 인간 전문가와 AI 모델(HLSE)이 대결한 이 블라인드 테스트에서 양측은 통계적으로 유의미한 차이가 없는 품질 점수를 기록했다. 품질은 무승부였으나, 효율성에서 AI는 압도적이었다. 1주일이 걸리던 인간의 작업은 단 몇 분의 알고리즘 연산으로 대체되었다.
하지만 이 연구 결과가 나에게 던진 진짜 충격은 '효율성'이 아니다. 그것은 우리가 그토록 신성시해오던 인간 전문가의 '직관'과 '판단'이, 잘 설계된 데이터 모델과 별반 다르지 않거나, 어쩌면 그보다 못할 수도 있다는 합리적 자각이다.
인간의 판단은 과연 공정한가?
지난 20년여 년간 금융 현장에서 리스크 모델링을 수행하며 내가 목격한 것은 '인간 심사역의 비합리성'이었다. 흔히들 AI 윤리를 논할 때 모델의 불투명성과 데이터 편향을 지적하며 "기계가 인간보다 불공정할 수 있다"고 우려한다. 그러나 현장의 현실은 반대에 가깝다.
인간 심사역들은 '안전한 선택'이라는 이름 아래 구조적인 편향(Bias)을 보인다. 그들은 데이터가 가리키는 높은 성장 가능성보다 당장의 눈에 보이는 '담보'를 선호한다. 고소득 프리랜서 여성보다는 소득이 적더라도 매달 급여가 찍히는 직장인을 더 신뢰한다. 이는 리스크 관리라는 미명 하에 자행되는 '동조화(Herding)' 현상이며, 사실상 '게으른 판단'에 가깝다. 인간의 이러한 관성적인 선택은 혁신의 싹을 자르고, 금융 소외 계층에게 불리하게 작용한다는 점에서 결코 기계적 편향보다 낫다고 말할 수 없다.
오히려 개인신용평가 영역에서 AI 모델 도입 이후 승인이 보편화되고 객관화된 것은 시사하는 바가 크다. 기계는 감정에 휘둘리지 않으며, 학습된 데이터의 범위 내에서 냉정하게 차주(借主)의 상환 능력을 계산한다. 인간이 가진 선입견—성별, 직업 형태, 외모 등—을 배제하고 밀려오는 데이터 중에서 오직 실체에 집중할 때, 비로소 진정한 의미의 '공정성'이 확보될 수 있다.
모델은 알고리즘이 아니라 디자인이다
하버드 연구팀이 개발한 HLSE 모델의 성공 요인은 단순히 최신 알고리즘을 사용했기 때문이 아니다. 그들은 TF-IDF로 핵심 키워드를 잡고, 트랜스포머 임베딩으로 문맥을 읽어내는 '하이브리드 구조'를 설계했다. 이는 내가 모델링을 하며 지켜온 철칙인 "모델은 알고리즘보다 디자인이 중요하다"는 명제와 정확히 부합한다.
성공적인 AI는 맹목적인 데이터 학습의 결과물이 아니다. 해결하려는 문제의 본질(Domain Knowledge)을 꿰뚫어 보고, 어떤 변수와 어떤 방법론을 결합할지 결정하는 연구자의 '설계 능력'이 핵심이다. 하버드 연구진이 심사위원의 전문성과 스타트업의 사업 계획서를 정교하게 매칭하기 위해 구조를 짠 것처럼, 신용평가 역시 차주의 잠재력을 읽어내기 위한 정교한 모델 디자인이 선행될 때 비로소 인간을 뛰어넘는 성과를 낼 수 있다.
우리가 선택할 수 있는 알고리즘은 이미 많고 여전히 생성되고 있다. 중요한 것은 신용평가, 마케팅 추천, 인력 채용, 에너지 효율화 각각의 도메인에서 성과를 낼 수 있는 방식으로 모델이라는 도구를 포괄하는 프로세스를 만드는 것이다.
증명된 진실을 받아들이는 용기
스타트업 평가나 기업 신용평가와 같은 고도의 정성적 영역에서 여전히 AI에 대한 불신이 존재하는 것은, 기술의 한계 때문이 아니다. 그것은 어쩌면 우리의 직관이 알고리즘보다 우월하지 않다는 사실을 인정하고 싶지 않은 인간의 자존심, 혹은 기득권의 저항일지도 모른다.
하버드의 실험은 AI가 인간을 대체하는 것이 아니라, 인간이 불필요한 노동에서 벗어나 더 높은 차원의 가치를 창출하도록 돕는 도구임을 증명했다. 신용평가 뿐 아니라 다양한 산업 현장에서 이와 같은 사실은 드러났지만 받아들이고 싶지 않은 진실이다. 이제 우리는 AI가 보여주는 객관적인 지표를 겸허히 받아들이고, 인간이 가진 '안전 지향적 편향'을 극복하는 도구로써 이를 활용해야 한다. 혹은 AI가 편향을 만들어낸다면 인간이 그 편향을 완화하는 역할로 재편해야 할 것이다.
이미 전문가의 지위와 권한은 해체되기 시작했다. 다가오는 시대에서도 '전문가'라는 이름으로 사회에 기여하고 싶은 사람이라면 자신의 직관을 맹신하는 것이 아니라, 더 나은 도구를 통해 자신의 한계를 끊임없이 확장해 나가야 할 것이다. 이제는 인간의 선입견을 내려놓고, AI가 제시하는 데이터 기반의 진실과 공정성, 혹은 AI가 놓치는 사실을 마주하고 조정할 때다.
#논문출처 : Who is a Better Matchmaker?
Human vs. Algorithmic Judge Assignment in a High-Stakes Startup Competition
by Sarina Xi et al.