이제 chatGPT에서 유료 구독자를 대상으로 code interpreter가 공개된다. code interpreter로 할 수 있는 데이터 분석의 범위가 상당히 넓다. 데이터 클렌징, 데이터 분석, 차트 생성, 회귀 분석에서 클러스터링까지 머신러닝까지 가능하다. 자연어로 프롬프트를 작성하면 데이터 분석결과를 내놓는 시대에 내가 살고 있다는 것이 신기하다.
이렇게 자연어만으로도 데이터 분석을 할 수 있게 된다면, 데이터 분석가는 필요없는 것일까? 실제로 어떻게 될지는 모르겠지만 내 예상은 아마도 여전히 필요할 것이다에 가깝다.
결국에는 어떤 데이터가 어디에 있고 그 데이터가 뭘 의미한다는 것을 알고 있고, 정리하는 사람은 필요하다. 내가 필요로 하는 테이블은 어떻게 어디에서 어떤 형태로 쌓이고 있는가? 많은 데이터 직군들이 여기에 시간을 많이 소비하고 있을 것이다. 그런 의미에서 데이터 전문 직종이 아닌데 sql을 배우는 것에 대해 나는 회의적인 편이었는데, 그 이유는 데이터 거버넌스가 제대로 되어 있지 않으면 결국 "이거 알고 싶은데 어떤 테이블 쓰면 되나요"를 외치며 돌아다니는 사람들만 늘어날 뿐이기 때문이다. 심지어 잘못 추출된 데이터를 보고 의사 판단을 할 수 있어서 데이터 분석가가 추가 검증을 해야 하는 순간도 생긴다. (이때 현타 옴) sql이 먼저가 아니라 환경이 먼저입니다.^^;; 제일 이상적인 환경은 sql을 배우지 않아도 자기가 원하는 데이터를 찾아볼 수 있는 환경이다. 그런 환경 만드려면 결국 정비가 필요하다... 그래서 최근에 나는 데이터 거버넌스에 관심이 많고 그런 주제의 책으로 스터디를 하고 있다. (스터디 열어주신 젠님 감사해요!)
앞으로도 여전히 데이터 분석가가 쓸모가 있을 거라고 생각하는 두번째 이유는, 의외로 사람들이 문제를 해결하기 위해 어떤 질문을 던져야 하는지를 잘 모를 때가 많다. 더 나아가면 어떤 것이 문제라고 정의해야 하는지 모를 때도 있다. 주니어 때는 요청 받은 것을 처리해내기에 급급했다. 사람들이 물어본 것에 대해 모두 대답을 해줘야 하는 줄 알았다. 그러나 돌이켜보면 이해관계자들의 질문이 모두 문제 해결에 유용한 것은 아니었다. 상황을 잘 모르기 때문에 한가득 요구 사항을 적는 사람도 있었고, 조금만 데이터를 까보면 더 이상 볼 필요가 없는 요청도 존재한다는 것을 깨닫게 되었다.
이해관계자이기 때문에 도메인과 관련된 중요한 질문을 던질 때도 있다. 하지만 아닐 때도 있다. 데이터 분석가의 책임은 이 사람들의 궁금증을 해결해 주는 게 아니라 문제를 같이 해결하는 것이기 때문에 더 분석해도 문제를 해결할 수 없는 주제는 날려버리고 정말 문제 해결에 필요한 것이 무엇인가?를 고민하는 게 훨씬 중요한 역량이라는 것은 올해 들어서 많이 느꼈다. 잘못 정의된 문제를 푸는 것은 비지니스에 어떠한 영향도 주지 못한다. 결국 내가 해야 하는 일은 유용한 분석을 만드는 일이다. 일을 처리해내기 급급해서 시야가 좁아질 때 나는 이 말을 떠올리려고 애를 쓴다. 안 그러면 그냥 시킨 일을 다 처낸다에 초점을 맞추기 쉽기 때문이다.
그래서 최근에는 이런 책을 읽었는데 도움이 많이 되었다.
아무런 의미 없는 질문에 대답하는 것은 어떠한 의미도 없다. "의미가 없다면 스윙은 없다" 이 말을 자주 되뇌이게 된다.
덧. 참고로 <의미가 없다면 스윙은 없다>는 하루키의 음악 평론집이다. 하루키가 어떤 의미로 이 문장을 썼는지 모르겠지만(아마도 재즈겠지?) 일을 하면서 이 문장을 정말 많이 생각했다.