과연 데이터에 기반한 의사결정과 통계적 사고가 이롭기만 할까?
편향
특정한 정보나 의견, 관점을 토대로 하여 공정성을 상실하고 한쪽으로 치우친 의사결정을 결정하게 만드는 사고를 의미한다.
통계나 데이터 또는 학술지에 관심이 많은 사람들은 편향이라는 용어에 대해서 익숙할 것이다.
그만큼 편향은 문제를 직면하고 해결하는 과정에 있어서 같은 정보를 인식하더라도 절망적인 상황으로 우리를 유도할 수 있는 가장 큰 위험 요소이다.
가장 유명한 사례로는 2차 대전 생존자 편향으로 잘 알려진 폭격기 귀환 편향이 있다.
군사분야 또는 데이터분석이나 수학과 관련된 책을 읽은 사람들은 다들 알만한 사례이다.
2차 대전 미군은 전투에 출격한 폭격기를 어떻게 보강해야 생존성을 높일 수 있을지 고심했는데,
위와 같은 자료를 바탕으로 귀환한 폭격기들의 총탄자국을 분석하여 해당 부분을 보강하는 방안으로 해결하려 했다.
사진과 같이 귀환한 폭격기 대부분은 날개 부분과 꼬리 부분에 피격이 집중되었고, 위 통계자료들을 분석한 관계자들은 대부분 이에 동의하며 날개와 꼬리를 보강해야 한다고 결론을 내리려 하고 있었다.
그러나 수학자 Abraham Wald는 귀환한 폭격기 대부분은 저 부위에 피격되어서 살아 돌아온 것이고, 그렇지 못한 폭격기는 저 부분을 제외한 곳에 피격을 당했기 때문에 귀환하지 못했다고 의견을 피력했다.
생존과 죽음이라는 부분에서 대부분은 파악하지 못한 본질을 그는 알아보아 올바른 해답을 도출해 냈다.
이는 생존 편향을 극복한 대표적인 사례로 유명하다.
또한 데이터 분석과 머신러닝을 배우는 사람들에게 익숙한 사례가 하나 더 있다.
그것은 바로 타이타닉 생존모델을 예측하는 문제이다. (영화 타이태닉의 그 타이태닉호 사건 맞다) 주로 Kaggle에 올라온 데이터를 바탕으로 탑승객이 가진 어떤 특성이 생존하는데 더 유리한지를 프로그래밍을 통해서 분석하는 과제이다.
많은 사람들이 분석한 주요 생존 요소는 다음과 같다.
나이가 많은 사람이, 남성보다 여성이 생존율이 높았으며 같이 탑승한 가족이 많은 사람일수록 생존율이 높았고, 1등급 승객이 생존율이 높았다는 것이 주요 결론으로 도출된다.
수치적으로는 맞긴 하다.
하지만 정말 의사결정 과정에서도 그러할까?
대부분의 사람들은 단지 수치적으로 정량적으로만 판단하면 그럴 것이라 믿을 것이다.
그리고 저런 요소가 마치 생존하는데 도움을 준다고 판단하게 된다.
하지만 삶과 죽음이라는 본질에 대해서 생각을 한다면 절대 저런 방식으로 우리는 의사결정을 하면 안 된다는 것을 안다.
왜냐하면 만약 우리가 재앙적 사고가 났을 때, 자신이 살아남기 위해서 1등급 객실을 구매하며, 최대한 나보다 나이가 어린 아들딸과 동생들을 같이 데리고 탑승해야 한다는 기괴한 발상이 나오기 때문이다.
기계와 수학이 도출한 수치는 저렇게 나오더라도 사람은 저 수치를 그대로 따라가서는 안 된다.
실제로도 데이터 자체를 읽어보면 가족 전체가 살아남지 못한 사례가 존재한다.
즉 우리는 죽음이라는 본질 앞에서 통계적 유의미함을 판단해서는 안 된다.
핵심적 의사결정을 하는 사람은 그 문제가 지니고 있는 본질을 바라볼 수 있으며 그러한 토대로 정량적 수치들을 이용할 수 있어야 한다.
로버트 맥나마라는 베트남전의 양상을 단지 미군병사의 교환비가 수치적으로 더 우월하기에 전쟁에서 승리할 것이라 판단했다.
당연히 결과는 그렇지 않았다.
이와 반대로 현 러시아군은 2차 대전과 같이 단지 적군의 총알보다 아군이 많으면 승리한다는 발상으로 전쟁을 수행하고 있다.
과연 러시아가 우크라이나를 상대로 전략적으로 목표달성을 할 수 있을까?
나는 이미 실패했다고 본다.
위 사례들을 통해 의사결정 과정에 있어서 편향의 위험성을 충분히 직감했을 것이다.
그러나 편향적 사고는 우리의 일상에서도 만연하다.
특히나 막대한 정보의 홍수로 인해서 사람들은 무의식적인 편향성을 가지게 되었다.
단지 단순한 편향만을 가졌다면 큰 문제가 되지 않지만,
특히나 요즘은 미디어 콘텐츠의 개인화 알고리즘으로 인해 보고 싶은 것만 보고 듣고 싶은 것만 듣게 되어 극단으로 치닫게 되는 위험한 상황까지도 발생하고 있다.
모순적이게도 사람들이 보는 시선은 각자 극단으로 치닫는 동시에 익명성이 존재하지 않는 공개적 상황에서는 또 다른 양상을 보인다.
많은 사람들이 커뮤니케이션이 중요하다는 학습된 커뮤니케이션 방법론에 의해 그저 나와는 다른 생각을 가지며 겉으로는 존중하지만 속으로는 인정하지 않는 상황 또한 자주 조장된다.
단지 나의 개인적 영역만 침범하지 않는다면 어떻게 되든 좋다는 식으로 직장 내에서 의사결정 하는 경우가 정말 많고 책임은 회피하려는 경향이 정말 많아졌다.
이러한 지금의 상황들은 인간의 본질적 가치에 근거한 옳고 그름을 구별하는 능력을 사람들로 하여금 상실하게 만들었다.
마이클 샌델의 <<정의란 무엇인가>> 가 17년 전에 나왔음에도
점점 사람들은 정보의 홍수에서 그리고 정보의 취사선택 과정에서 편향성이 극대화되었고,
무엇이 본질적으로 옳고 그름 인지 판별하는 사고과정을 상실했다.
그리고 앞으로는 이 심각한 문제가 적어도 대한민국에서는 더 심화될 것이라고 나는 보고 있다.
지금까지는 SNS의 발달로 인해 이러한 문제들이 발생하게 되었다면
앞으로는 생성형 AI가 그 자리를 차지하고 더욱더 가속화시키기 때문이다.
무차별 크롤링 학습을 토대로 답변을 주는 AI는 우리에게 매우 유용하지만 창조적 능력과 비판적 사고력을 개인 스스로 학습하게 하지 않는 잠재적 리스크가 매우 크다.
우리는 AI의 사용이 편향적 사고를 낳을 수 있다는 것을 꼭 명심해야 한다.
그렇다면 우리는 이를 눈뜨고 지켜보고만 있어야 할까?
전혀 그렇지 않다.
이미 현시대 현명한 사람들이 이미 그 과정을 능동적으로 어떻게 해결하는지 우리에게 보여주고 있다.
칸 아카데미를 설립한 살만 칸은 Chat-GPT의 등장에 있어서 이를 어떻게 활용할 지에 대해서 직원들과 심도 있는 회의를 벌였다.
만약 아이들이 생성형 AI에 의존하여 학습을 이어나간다면 독창성고 비판적 사고력, 창의력을 상실하게 될 것임을 가장 두려워했다.
하지만 그는 어쩔 수 없이 이미 벌어진 상황임을 인식하고 이렇게 말한다.
“이미 램프는 비었고 지니는 세상 밖으로 빠져나왔다.”
그는 이 말을 하면서 생성형 AI가 문제에 대한 답을 즉시 내놓는 것이 아닌, 우리에게 끊임없이 질문하는 형태로써 이용해야 한다고 적극 주장한다.
즉 사람들이 더 이상 인간적 가치를 상실하지 않고, 스스로 사고하며 편향에 매몰되지 않도록 AI를 설계해야 함을 주장하는 것이다.
물론 선택은 AI를 사용하는 개인에게 달려있음이 명백하다. 이미 많은 사람이 AI를 사용하고 있으니 말이다.
하지만 개인 고유의 인간성이 남아있다면 선택은 할 수 있다.
인터넷 웹의 무차별 데이터 학습을 통해 얻어진 AI의 답변을 곧이곧대로 믿을지, 아니면 인간의 사고력을 유지한 하나의 사람으로서 살게 되는지를 말이다.