다양한 관점에서 생각하기
회사 북러닝 프로그램을 자주 신청해서 공부하는 편이다. 예전보다는 종류가 많지 않지만 관심 있는 분야에 대한 기본서나 개념을 정리할만한 내용이 있는 책들이 제법 있는 법이다. 요새 AI를 활용하는 게 유행이고, 데이터 기반의 의사결정이라는 말이 회사에서 자주 들리는 말이라 대략적으로는 알고 있었지만 제대로 내용을 파악해보고 싶어서 신청해서 읽었다. 내가 알고 있었던 것과 예전에 대학원에서 배운 내용이 복합적으로 생각하니 이해가 조금 되었다. 사실 책 한 권으로 이 분야를 전부 알 생각은 애초에 없었지만, 개괄적인 내용이 생각보다 잘 표현되어 있고, 비전공자들이 이해하기 좋게 풀어서 설명을 해주었다.
데이터 과학이란 무엇인가? 일반적으로 데이터를 활용한 무엇이라고 생각할 수 있을 것 같다. 예를 들면 디지털 마케팅에서 사용하는 각종 지표라고 생각하면 좋을 것 같다. 날짜별로 조회수를 측정하고, 조회수가 특히 많이 발생한 날짜에 어떤 이벤트가 있었는지 파악해서 연관성을 도출해 내서 그런 이벤트가 발생할 때 어떤 행위를 하면 좋겠다는 것을 파악할 수 있는 것들이라고 이해했다. 이 책에서 강조하는 내용은 데이터 과학은 대규모 데이터 세트에서 유용한 패턴과 통찰을 추출하여, 더 나은 의사결정을 내리는 것을 목표로 한다고 하였다. 요새는 모든 게 데이터로 이루어져 있고, 예전에는 정형화되어 있는 것만 데이터로 활용가치가 있었는데, 요새는 비정형화되어 있는 데이터도 여러 가지 도구를 통해 잘 추출해 내는 것 같다. 데이터 과학의 역사부터 현재까지 기초적인 개념까지 잘 설명되어 있어서 이해가 쉬웠다.
가장 인상 깊었던 부분은 데이터 과학의 미신 3가지였다. 첫째, 자동화된 공정에 우리 데이터를 맡기기만 하면 모든 문제에 대한 답을 주리라는 생각이다. 저자는 아무리 좋고 잘 정제된 데이터로 잘 분석을 하더라도 그 데이터를 제대로 해석하고, 추론하여 적절한 의사결정을 할 수 있도록 전문가가 개입되어야 한다. 나도 동감하는 부분이고, 예전에 비슷한 경험을 한 적이 있다. 예전에 비싼 SAP툴로 BI를 구축한 적이 있는데, 일일 매출이나 방문자 데이터들이 자세하게 나오는 툴을 구축해서 사용한 적이 있었다. 하지만 제대로 된 분석은 하지 않고 직관적인 데이터로만 보고 파악하다 보니 잘못된 예측으로 큰 도움을 받지 못했었던 기억이 있었다.
둘째, 모든 데이터 과학 프로젝트는 빅데이터가 필요하며 딥러닝 기술을 써야만 한다는 것이다. 데이터가 많이 있으면 좋다고 생각할 수 있지만, 그 프로젝트에 가장 적합하고 필요한 잘 정리되어 있는 데이터를 활용하는 게 좋다고 생각한다. 아무 관련 없는 데이터를 아무리 많다고 한들 내 프로젝트와 전혀 연관이 없다면 오히려 방해가 되는 경우가 있을 수 있다. 제대로 분석하기 위해서는 프로젝트와 관련이 있는 데이터를 잘 선별하여 가공하고, 나오는 결과에 대한 해석을 해야 한다.
셋째, 현대 데이터 과학 소프트웨어가 쓰기 편하니 데이터 과학도 하기 쉽다는 것이다. 요새 사용하는 소프트웨어 툴들이 매우 사용하기 편하게 제공해 주고 있다. AI로도 많은 데이터를 검색하고 분석할 수도 있으며 예전보다는 정말 편해진 것 같다. 예전에 대학원에서 논문 쓸 때만 해도 AI가 별로 발달되어 있지 않아서 R로 하나씩 데이터를 돌렸던 기억이 난다. 그에 비하면 요새는 Chat GPT에 데이터만 넣고 분석해 달라고 하면 회귀분석이든 통계든 파이썬으로 돌려준다. 왜 이제 나왔는지 아쉽기도 하다. 여하튼 사용하는 툴이 쉬워진다고 해서 데이터 과학이 쉬워진 것은 아니라는 내용이다. 데이터 분석을 통해 통찰력과 연관성 도출은 오롯이 사람의 몫이고 의사결정도 사람의 역할이라는 걸 강조하였다.
무엇보다 윤리적인 측면에 많은 공감이 갔다. 요새 문제가 많은 개인정보 유출, 가짜 뉴스 등 구분해야 할 데이터도 너무 많고, 지켜야 할 데이터도 많다. 예전에 데이터 법에 대한 수업을 들은 적이 있었다. 데이터가 넘쳐나는 세상이고, 어떤 데이터가 안전한지, 또는 어떤 데이터가 보호받아야 하는지 등에 대해서 고민이 많은 세상이다. 아무리 좋은 데이터라도 개인정보나 다른 사람에게 피해를 줄 수 있는 데이터면 사용하면 안 되고, 사용했더라도 법적으로 문제가 없는지를 확인해야 할 필요가 있다.
예전에 대학원 다닐 때 논문 쓰면서 통계 분석한 게 생각이 났다. 물론 데이터 과학으로 도출되는 데이터에 비하면 작은 일이지만 비전공자로써 데이터 분석과 통계를 내면서 연구 결과를 작성했던 게 매우 힘들고 생소했던 기억이 난다. 데이터를 아무리 정제해서 넣어도 원하는 데이터 분석이 원활하게 되지 않아서 수정을 몇 번이나 하고 결과를 도출했던 기억이 있다. 마케팅 업무를 할 때도 마찬가지이다. 도출된 결과만 보고 프로젝트를 진행했다가 로우데이터가 우리가 원했던 게 아니라서 잘못된 방향으로 진행해서 결과가 좋지 않았던 경험도 있었다. 결론은 데이터가 중요한 시대인 것은 맞지만 그 원하는 데이터를 적절하게 활용해서 목적에 맞게 결과를 도출해야지 의미 있는 의사결정이 가능할 것이다. 데이터를 막 사용할 때는 몰랐는데, 개념을 좀 알고 다시 뒤돌아 보니 앞으로 어떻게 활용하는 게 좋을지 다시금 생각을 하게 되는 것 같다.
- 데이터 분석을 한다고 늘 숨겨진 보석 같은 통찰이 나오는 게 아니며, 설사 좋은 결과가 나와도 조직이 그에 따른 실행 계획을 세우지 못할 수도 있다.
- 아무리 데이터 분석 기술이 좋아도 맞는 데이터에 적용하지 못하면 유용한 패턴을 발견할 수 없다는 것이 데이터 과학의 단순한 진리다.
- 알고리즘이 저마다 이런 자기만의 '고집'이 있기 때문에 모든 경우에 맞는 '최고의 알고리즘' 따위는 없다는 점을 강조한다.