호기심 없는 코드질이 분석을 망친다.
데이터의 질감을 느낄 줄 알아야 한다.
존경하는 문병로 교수님이 중앙일보 칼럼에서 말씀하신 내용이다.
신입, 인턴 친구들과 일을 할 때 자주 발견되는 현상 중에 하나는, 숫자에 대한 기계적인 산출이다.
데이터 양이 조금 많다 싶으면, 코드를 열심히 짜고 숫자를 뽑아내는 데에 급급한 나머지 내가 뽑아내고자 하는 숫자가 무엇인지, 어떠해야 하는지 고민을 생략하곤 한다.
아주 위험한 습관이다. 이런 친구들이 뽑아온 숫자들을 보면, 기대치와 미묘하게 숫자가 다른 경우들이 있다. 아주 다르면 바로 확인이 돼서 괜찮은데, 미묘하게 다르면 어디서 잘못이 되었는지 어떻게 계산을 하였는지 하나하나 타고 내려가면서 모두 확인해야 해서 불필요한 시간을 잡아먹곤 한다.
대부분의 경우는 틀린 산식을 적용했기 때문이다. 그리고 틀린 산식은 데이터에 대한 이해가 부족하기 때문이다.
이럴 때 쓰는 특효약이 있다. 파이썬과 R 코드를 버리고 엑셀로 작업을 해달라고 한다. 작업이 무거우면 데이터를 일부분만 사용하거나 혹은 간단한 형태로 바꾸어서 해보라고 권한다.
엑셀을 통하면 데이터를 시각적으로, 이리저리 만져보면서 직관적으로 다루기 좋기 때문이다. 나조차도 파이썬이나 R로 대부분의 작업을 하지만, 새로운 형태의 데이터나 다루어보지 않은 데이터로 작업을 해야 할 때는 기본 감을 익히기 위해 엑셀로 하나하나 이리저리 만져보는 시간을 갖는다.
작업 효율화, 좀 더 복잡도가 높은 계산과 시스템화를 위한 작업은 그 이후에 해도 늦지 않다.
내가 다루는 데이터가 어떤 의미를 지니며 어떠한 성질과 특성을 갖는지 모르는 채 기계적인 데이터 분석법, 계산식을 돌리는 것은 눈을 감은 채 코드를 짜는 것과 같다.
데이터 분석을 위해 코드를 열심히 짜다 보면 무언인가 대단한 작업을 하는 것 마냥 착각에 빠질 때가 있다. 모델링을 하는 것도, 숫자에 의미를 부여하고 사용하는 것은 결국 사람의 몫이다.
마지막 결론도 문병로 교수님의 말씀으로 대체하고자 한다.
첨단 기법을 구사하는 것도 중요하지만, 그 이전에 데이터를 대하는 습관 형성이 필요하다. 무얼 궁금해해야 하는지를 아는 것은 쉬워 보이지만 많은 엔지니어들에게 가장 결여된 것 중의 하나다.
문병로 교수님의 칼럼이다. 교수님은 사석에서도 몇 번 만나 뵈었는데 인자함 속에 날카로운 인사이트를 품고 계신 분이다. 일독을 권한다.
https://news.joins.com/article/23409057