영혼 없는 칼잡이

데이터가 보여주는 민낯 : 비뚤어진 거울

by 김응석

우리는 흔히 데이터를 이용해서 수학으로 만들어진 알고리즘(f)이 인간보다 훨씬 객관적이고 공정할 것이라 믿습니다. 인간의 판단에는 감정과 편견이라는 노이즈(e)가 끼어들기 쉽지만, 차가운 숫자의 세계에는 오직 논리만 존재하고 보다 더 공평할 것 같다고 느끼기 때문입니다. 하지만 Y = f(X) + e라는 공식에서 우리가 간과한 치명적인 맹점이 있습니다. 바로 f를 만들어내는 재료인 X, 즉 데이터가 이미 편견을 가지고 있다면 어떻게 될까요?


비뚤어진 거울이 만든 뒤틀린 f

현대 사회의 많은 알고리즘은 과거의 데이터를 학습(Training)하여 미래를 예측합니다. 여기서 '학습'이란, 데이터 속에 숨겨진 X와 Y 사이의 패턴(f)을 찾아내는 과정입니다. 문제는 우리가 수집한 과거의 데이터(X)가 결코 완벽하거나 중립적이지 않다는 데 있습니다.

과거의 데이터는 그 시대의 불평등, 차별, 그리고 고정관념을 고스란히 담고 있는 '역사의 기록'입니다. 만약 과거에 특정 인종이나 성별에 대한 채용 차별이 존재했다면, 그 데이터를 학습한 함수는 "이 그룹에 속한 지원자는 탈락시키는 것이 효율적이다"라는 알고리즘 f를 도출해 냅니다. 알고리즘 입장에서는 그것이 통계적으로 오차(e)를 줄이는 가장 정확한 길이기 때문입니다.

결국, 편향된 데이터를 먹고 자란 인공지능은 차별을 '수학적이고 과학적인 진리'로 포장하여 재생산하게 됩니다. 알고리즘이 자칫 “효율성”이라는 이름으로 세탁되어 “정당성”을 부여하는 도구로 전락할 수 있습니다. 이것이 바로 'Garbage In, Garbage Out(쓰레기가 들어가면 쓰레기가 나온다)'의 AI 버전입니다.


지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
김응석작가님의 멤버십을 시작해 보세요!

데이터 사이언티스 김응석의 브런치입니다.

150 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 4개의 멤버십 콘텐츠 발행
  • 총 9개의 혜택 콘텐츠
최신 발행글 더보기
작가의 이전글맞추면 장땡 VS 이유가 중요해