brunch

You can make anything
by writing

C.S.Lewis

by JejuGrapher May 02. 2022

달고나 48. 그때는 맞고 지금은 틀리다.

Data Scientists' Bad Habits

어떤 업계든 나쁜 습관이란 게 있다. 데이터 분석가 또는 과학자가 갖는 나쁜 습관을 정리하려 했다. 표현의 뉘앙스가 실패했음을 보여준다. 성공했으면 이미 몇 주 전에 글을 공개했을 거다. 여러 가지가 떠올랐지만 과연 그것들이 나쁜 습관인 건가?라는 의구심도 들었고, 아이템 간의 레벨 차가 컸고 또 포괄적이지 못했다. 그런 고민 끝에 <내로남불> 수준의 제목에 이르렀다.


문제와 데이터를 엄밀히 살피기 전에 알고리즘부터 제시한다를 제일 먼저 꼽았지만, 어쩌면 경험이 많은 전문가일수록 오히려 더 그런 경향이 있고 처음 가볍게 떠올린 알고리즘이 최종 답에 가까운 경우도 흔하다. 내가 이 문제를 딱 봤을 때 ‘이런 알고리즘을 적용하면 된다’라고 말하면 경험 많은 전문가의 소견이 되고, 어린 개발자가 ‘이런 알고리즘을 적용하면 될 것 같아요’라고 말하면 경험 없는 어린노무새끼가 겉멋만 들었다라며 질책하는 것은 이치에 맞지 않다. 경험이 많고 적음을 떠나서 늘 새로운 문제와 데이터를 접하면 그 본질을 우선 파악한 후 가장 적합한 솔루션을 찾아가는 게 정석인 건 맞지만, 무턱대고 알고리즘부터 적용하는 것이 그렇게 욕먹을 짓도 아니다. 때론 돈키호테가 문제를 더 잘 해결하기도 한다. 다만 면밀히 살피기 전부터 확정적으로 단정 짓지는 말았으면 한다.


오랜 시간을 투자한 분석 결과가 영 시원치 않을 때는 유혹을 받기도 한다. 결과를 살짝만 손보면 깔끔해질 것 같다. 데이터 마사지를 시도하는 사람들을 간혹 보게 된다. 없는 걸 추가하거나 있는 걸 제외하는 수준의 조작이 아니라면 강조를 위해서 마사지가 필요할 때도 있다. 경계가 모호할 뿐이다. 특히 시각화와 요약 테이블에서 그런 경우가 종종 있다. 예를 들어, 차트의 Y축이 0을 기준으로 하는 것이 가장 바람직하긴 하지만, 때론 차이를 명확히 보이기 위해서 중간값부터 시작해야 할 때도 있다. 그럴 때는 0이 기준이 아님을 명확히 해야 한다. 뿐만 아니라, 데이터 (테이블과 차트)를 읽는 사람도 그저 선의에 기반해서 으레 0부터 시작하겠거니라고 가정만 하지 말고, 주변의 수치를 면밀히 살펴야 한다. 사기가 아닌 강조 수준의 마사지는 가끔 필요하다. (일전에 모 종편이나 신문사의 방송/기사에 사용한 그래픽에서 이상하게 조정된 스케일이문제가 된 적도 있는데, 이건 강조(트릭)가 아니라 사기다.)


문제를 파악하기 전에 솔루션부터 고민한다거나 결과를 다소 조작하려는 것은 결국 ‘답정너’에서 시작하는 것 같다. 답을 정해놓고 문제와 데이터를 보기 때문에 처음부터 솔루션부터 찾게 되고 예상치에 맞게 결과를 바꾸려는 거다. 그렇다고 답정너가 무조건 나쁘다고 단정 짓지도 못하겠다. 때론 ‘답’이란 게 의지치의 반영이다. 예전의 넷플릭스 프라이즈의 10% 개선과 같이 답이 일종의 목표가 되니 어떻게든 그 목표치를 달성한 경우도 있다. 무어의 법칙이니 황의 법칙이니 하는 것도 처음에는 그저 현상이었지만 나중에는 의지치로 작동했었다. 그래서 '답정너'지만 유일한 답이 아닌 여러 가지 답들(즉 가능성과 가설)을 정해야 한다고 타협안을 낸다. 그냥 짧은 설명만 듣고 떠오른 생각이 좋은 솔루션일 수도 있으니 그건 그것대로 시도해 보고, 그게 틀렸을 때의 백업플랜을 포함해서 다른 가능성도 함께 시도해보고 더 나은 걸 찾아야 한다. 데이터 마사지도 처음부터 하나의 답을 정해놓고 시작하면 결과가 다를 때 유혹받는 거다. 마사지를 하다 보면 그 다른 결과가 함의하는 더 큰 인사이트를 놓칠 수도 있다.


우리네 삶에서 경험은 참 소중하다. 그런데 상황은 늘 변한다. 그때와 지금은 문제가 다르고 데이터가 다르다. 소중한 경험이 덫이 되면 안 된다. 그때는 맞았지만 이번에는 틀릴 수도 있으니 다른 가능성도 열어둬야 하고, 그때는 틀렸지만 지금은 맞을 수도 있으니 여건이 되면 재검토/시도해볼 가치도 있다. 데이터 과학의 기본 가정이 과거의 것이 비슷한 미래로 이어진다 (모델 학습 --> 예측)는 거지만, 데이터 과학자에게는 과거는 하나의 인스턴스일 뿐 미래의 다양한 가능성을 모두 내포하진 않는다. 결국 데이터 과학자의 가장 나쁜 버릇은 자만이다. 다른 대부분의 직군도 마찬가지지만 특히 데이터 과학자는 사고와 관점이 유연해야 한다.

매거진의 이전글 달고나 47. 프로젝트L 회고
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari