전투기에 남긴 총탄 자국이 전하는 이야기

by 안철준

안녕하세요, 촌장입니다.


설 연휴는 잘 보내셨나요?

오늘은 데이터에 관한 이야기를 해보려 합니다. 연휴 동안에 키코 야네라스의 <직관과 객관>을 읽었는데, 꽤 흥미로운 이야기가 많더라구요.

책에서 소개하는 몇 가지 흥미로운 에피소드로 시작해 볼까요?

_upload_1771950673.png?u=1771950674



어떻게 전투기를 더 강하게 만들 수 있을까?

1943년은 한창 2차 세계대전이 치열했던 시기였습니다. 미국은 자국의 항공기를 더 보강하기 위해서 많은 연구를 하고 있었습니다.

그런데 전투기에서 어떤 부분을 보강해야 할지 판단하는 게 쉽지 않았죠. 모든 부분을 튼튼하게 만드는 것은 기체의 중량이 늘어나는 심각한 문제가 있었기 때문이죠. 가장 효과적인 보강 작업을 위해 과학자들과 엔지니어들은 좋은 아이디어를 냈습니다.

전투에서 귀환한 수백 대의 항공기를 점검해서 남아 있는 총탄의 흔적들을 기록한 데이터를 활용해 보자는 것이었죠. 그래서 피격이 집중된 부분을 잘 분석해서 그 부분을 보강한다면 충분히 효과적인 방법이 될 것이라는 판단이었습니다. 그들이 확인한 데이터는 아래의 그림과 같았어요.

_upload_1771950255.png?u=1771950255


꽤 타당하고 합리적인 분석이라고 생각했습니다. 지금의 우리가 봐도 말이 되는 얘기 아닌가요?

하지만 과학자들은 조금 더 깊은 논의를 한 끝에 이 데이터를 활용하는 것은 오히려 잘못된 판단을 끌어낸다고 결론 냈습니다. 귀환한 전투기에서 확인된 피격 자국들은 생환의 증거였기 때문이죠.

총탄의 자국들은 그 부분이 약하고 취약한 부분들이 아니라 오히려 해당하는 부분을 피격당하고도 귀환할 수 있었다는 역설인 셈이죠. 피격이 보이지 않는 부분들, 예를 들면 조정석이나 엔진 부위, 등은 오히려 치명적이어서 그 부분에 피격을 당한 전투기들은 모두 귀환하지 못하고 격추되었던 거였죠. 그래서 정말로 보강이 필요했던 부분은 피격의 흔적이 보이지 않는 바로 그 부분들이라는 결론입니다.

이러한 오류는 '생존 편향'이라고 불립니다. 귀환한 전투기의 총탄의 흔적들은 전체 피격 데이터를 대표하는 표본이 아니었던 거죠. 결정적으로 피격되어 격추된 전투기의 데이터는 여기에 포함되지 않았다는 겁니다.


저자는 이러한 데이터 오류가 흔하게 일어난다고 말하고 있습니다. 예를 들면 우리가 흔히 얘기하는 성공 신화에 대한 것도 이런 데이터 오류의 사례라고 합니다.

스티브 잡스, 마크 저커버그, 빌 게이츠, 리처드 브랜슨 등 엄청난 성공을 거둔 사업가들은 모두 대학을 자퇴한 사람들입니다. 모두 남성이기도 하죠.

그래서 이들의 성공 스토리를 바탕으로 성공의 방법을 논할 때, 대학을 졸업하는 것이 오히려 손해라는 생각이 들 법도 하죠. 대학은 고리타분하다. 놀라운 창의성과 더 큰 꿈을 가진 이라면 대학은 별로 중요하지 않고, 오히려 빨리 사회에 나와 성공의 길을 일찍 닦아야 하는 것으로 생각할 수 있죠.

하지만, 이것도 편향된 데이터로 잘못된 결과를 내놓은 섯부른 가정이라고 볼 수 있습니다. 저자는 이렇게 얘기합니다.


꿈을 좇기 위해 대학을 자퇴했다가 꿈도 학업도 이루지 못한 사람은 몇 명이나 될까? 아마 대다수일 테지만, 우리는 결코 알 수 없다. 스티브 잡스나 마크 저커버그와 같은 선택을 하다 실패한 사람들을 인터뷰한 이는 아무도 없기 때문이다.

<직관과 객관> 중에서


이처럼 우리가 비판적인 생각 없이 데이터를 인용할 때, 선택 편향에 속을 가능성이 높아집니다.

데이터를 잘 사용하여 올바른 결론을 유추해 내는 과정은 무엇보다 중요한 절차입니다. 하지만, 우리가 사용하려고 하는 그 데이터가 충분한 표본이 되느냐, 이 상황에 적합한 데이터인가를 더 꼼꼼하게 체크하는 것 역시 매우 중요합니다. 자칫 잘못하면 불필요한 날개 부위에다 잔뜩 강판을 대는 잘못을 저지를 수 있을 테니까요.



인간게놈 프로젝트는 왜 질병을 해결하지 못했을까?

다음 이야기로 넘어가 볼까요?

인간 게놈 프로젝트 기억하시나요? 1990년부터 2003년까지 전 세계의 과학자들이 약 30억 달러를 투입해서 진행된 이 프로젝트는 인간의 DNA 염기 서열을 규명해서 인간 유전자 지도를 완성하겠다는 거대한 인류의 도전이었습니다.

결국 이 프로젝트를 통해 인간 게놈의 약 99%를 99.99%의 정확도로 해독할 수 있는 완벽에 가까운 게놈 완성을 이뤄냈습니다.

세상은 인간 게놈 프로젝트 완성에 환호성을 질렀죠. 이제야 드디어 암, 희귀질환 등 유전과 관련된 모든 질병을 규명해서 근본적인 치료 방법을 찾아낼 수 있을 거란 기대에 들떴습니다.

_upload_1771950512.png?u=1771950513


하지만 인간 유전자 지도가 완성된 지 20년이 지났지만, 암의 정복은 아직도 요원하기만 합니다. 유전과 관련된 질병들을 규명하는 것도 그 진척이 더디기만 하죠. 왜 그랬을까요?

게놈은 우리의 생각만큼 그렇게 단순하지 않기 때문이었습니다. 특정 형질이나 질병을 단독으로 결정하는 유전자는 없다는 것이 밝혀졌습니다.

인간의 염기 서열 정보는 거의 100% 밝혀졌지만 실제로 생명체의 특징들을 규정하는 유전적 요인은 이런 DNA들의 복합적이고 복잡한 상호 작용의 결과로 발현된다는 것이 확인되었습니다. 각각의 정보를 아무리 정확히 안다고 해도, 수많은 연결성까지 규명해 내는 것은 결코 쉽지 않은 일인 거죠.

이렇듯 각기의 특성들이 모이고 연결되어서 또 다른 특징을 발현시키는 것을 '창발'이라고 합니다. 저자는 이렇게 말합니다.


우리는 창발적인 존재이다. 우리는 각각 고유한 기능을 지닌 부분들의 합이 아니라 오히려 국물을 우리듯 여러 요소가 어우러져 응축된 존재에 가깝다. 내향성을 결정하는 단일한 요소는 없다. 당신이 내향적인 이유는 유전자들의 상호 작용 방식 때문이다.

<직관과 객관> 중에서


우리는 세상을 단순하게 바라보려는 경향이 있습니다. 몇 가지 사안만 파악하면 많은 것을 해결할 수 있다고 믿고 싶어하죠.

하지만 실제로는 세상은 매우 복잡합니다. 수많은 요소가 섞여 영향을 주고받으면서 만들어지는 완전히 새로운 형태의 결과물들이 진짜 세상의 모습입니다.

얼마 전에 수요레터에서도 다룬 카오스 이론은 이런 복잡한 세상을 이해하고자 하는 과학적 노력의 일환이기도 합니다.

그렇지만 복잡함을 받아들이는 것과 세상을 이해하는 것 자체를 포기하는 것과는 엄연히 다른 이야기입니다.

복잡하다고 분석할 수 없는 것은 아닙니다. 가능한 한 더 실제에 가까운 근삿값으로라도 예측하고 도달하려 노력하는 과정을 통해 좀 더 합리적인 결정을 내릴 수 있게 됩니다.

그리고 세상의 복잡함을 받아들이는 것은 결정에 대한 겸손한 자세를 가지도록 만듭니다. 완벽한 예측보다는 근사치를 추구하는 태도는 세상을 좀 더 유연하게 바라보게 만듭니다. 이런 겸손과 유연함을 장착한 렌즈로 세상을 이해하려 노력해야 할 겁니다.



데이터와 통계가 전하는 이야기들

너무 길어질까 봐 사례는 이 정도로 끝낼까 합니다만, 또 다른 흥미로운 데이터의 소재에 대한 화두는 간단히라도 언급하고 싶네요.

스페인의 프로축구 선수들을 분석해 봤는데, 생일이 1월인 선수의 비율이 12월인 선수 비율보다 무려 2배나 높다는 분석 결과가 나왔다고 해요. 프로축구뿐 아니라 학업 성적이나 취업 등 다른 여타 사회적 성과의 지표들도 대부분 이런 경향을 보이더라는 거죠. 1월~2월 생일인 사람들이 11월~12월 생일인 사람들보다 더 성공한다는 얘기. 뭔가 좀 억울한 것 같기도 하고 또 뭔가 다른 꿍궁이가 있을 것 같기는 한데, 실제로 데이터는 사실이라고 하죠. 왜 그럴까요? 여기에 대해서도 아주 흥미로운 분석이 기다리고 있습니다.

책을 통해 이 내용은 확인해 보시길 바랍니다.

_upload_1771950614.png?u=1771950616


저자 키코 야네라스는 데이터 전문가입니다. 세상을 이해하기 위해 데이터는 너무도 중요하다고 강조하고 있죠.

책 전체를 아우르는 주제는 두 가지라고 볼 수 있어요. 하나는 우리를 둘러싼 세상은 복잡하다는 것. 그리고 우리의 직관은 그리 믿을 것이 못 된다는 것입니다. 이 이야기를 하기 위해 수많은 다양한 데이터 분석 이야기들이 책을 빼곡하게 채우고 있습니다. 중간중간 제법 어려운 확률과 예측 기법들이 나오기는 하지만 그런 세부적인 것들을 다 이해하지 않더라도 충분히 흥미롭게 들을 수 있는 사례들도 가득합니다. 확실히 데이터 저널리스트다운 흥미로운 전개들입니다.

어렵지만 데이터와 통계는 우리에게 훨씬 많은 이야기를 전해 줍니다.


통계는 모든 세부 사항을 포착할 수는 없지만, 통계가 없다면 훨씬 더 많은 것을 놓칠 것이다.

<직관과 객관> 중에서



오늘은 키코 야네라스의 <직관과 객관>이라는 책을 다뤄 봤습니다.

다음에 또 다른 흥미로운 주제로 찾아뵐게요.

끝까지 읽어 주셔서 감사합니다.



촌장 드림

keyword
작가의 이전글좌뇌는 어떻게 나를 쪼잔한 인간으로 만드는가?