Data Ocean

by 송창록

인간의 인식은 오류 투성이입니다. 또한 편향 투성이입니다. 그것도 저마다 다르게.


편향된 Data를 집어 넣으면, 인공지능도 편향됩니다. 편향된 Data는 인간지능이 만드니, 인공지능은 인간지능을 벗어날 수 없습니다. 객관적이라는 말은 엄밀하게 말해서 존재하지 않을 수 있습니다. 주관을 배제하라는데, 배제될 주관도 정의할 수 없습니다.


인간의 인식도 분포입니다. 인식의 한계 때문에 좁은 영역의 결과로부터 넓은 영역을 추정합니다. 표본이 모든 영역을 대표할 수 없다는 건 당연합니다. 표본 추출이 반복되어 횟수가 많아지면 표본이 보여주는 분포의 대표값이 모집단의 대표값에 가까워집니다. 전수 조사가 아닌 이상 모집단의 대표값은 영원히 알 수가 없습니다. 단지 추정일 뿐이고, 거기에 전수 조사 과정의 인간과 기계의 실수는 고려되지도 않습니다.


표본이 전체를 대변할 수 있다는 믿음. 이 믿음으로 인해 섣부른 결론을 내립니다. 표본은 표본일 뿐이라는 진실을 무시하고, 애써 표본이 전체를 대변한다고 ‘주장’하는 이유는 따로 있습니다. 과학적 방법론을 비과학적 주장의 근거로 삼는 행태를 경계할 일입니다.


Training Data Set의 결과가 좋으니 Main Data Set에서도 성공할 수 있다고, 조급한 결론을 자랑스레 내리는 Amateur Data Analyst를 본 일이 있습니다. 과학적 방법론을 다루는 사람이 오만과 편견에 찌들어 있습니다. 과학적 방법론을 과학에 사용하지 않고 정치에 쓰고 있는 꼴입니다.


Data Ocean에서 물 한 바가지 떠서 분석한 것을 가지고 대양의 변화가 예측 가능하다고 결론지으면 말이 됩니까. 대양의 변화는 태양과 달의 움직임에 연동하여 지구의 구조적 환경이 더해져서 벌어진 결과입니다. 시시각각 변하는 대양의 Turbulence에서 물 한 바가지는 시간 축의 한 Slice에 불과합니다.


시간과 공간의 규모로 대량 생산된 Data 앞에서는 누구나 겸허할 필요가 있습니다.

2019년 9월 16일 독서통신

작가의 이전글길없는 길