연말이니까 향후 계획을 정리해보기
어느새 SQL 강의를 제작한지도 1년이 넘었고 그간 꽤 많은 피드백을 들을 수 있었다. 칭찬은 감사히 받아들였고 쓴소리는 더 겸손하라는 의미로 받아들였다.
피드백을 받으면서 더 개선하고 싶은 포인트들이 하나씩 내 개인 백로그에 쌓아뒀었는데, 올 한 해는 데이터 엔지니어로 하는 실무에 좀 더 집중하고 중간에 좀 더 큰 볼륨의 데이터를 다룰 수 있는 회사로 이직도 하게 되면서 따로 시간을 내기가 어려웠던 상황이었던 것 같다.
기존 SQL강의는 회사에서 본업이 아니신 분들도 쉽게 활용하실 수 있도록 돕는 것이 목표였는데, 그중에서는 SQL을 끝내고 다른 것을 배워서 역량을 더 확장하고 싶은 분들이나 아예 전직을 하고 싶어 하시는 분들이 계셨다.
나도 과거에 그랬고 약 3년간 데이터를 제대로 하기 위한 포지션을 잡기 위해 고군분투한 것을 상기하다 보니 "처음부터 제대로 된 경로를 설정할 수 있었다면 시행착오를 더 줄일 수 있었지 않았을까?" 하는 생각이 든다. 내가 알고 있는 것이 전부는 아니지만 지금 알고 있는 것들을 잘 정리해서 강의를 만든다면 위처럼 고민하고 있는 분들에게도 도움이 될 것 같아 지금은 강의하려는 분야를 좀 더 넓혀보려고 하는 중이다.
나는 SQL이 모든 데이터 핸들링의 기본이라고 생각한다. 이후에 pandas로 정제를 하건, R의 datatable로 정제를 하건 BI 대시보드에서 데이터를 다루건 모두 SQL의 쿼리 개념에 그 기반을 두고 있기 때문이다. 대규모 데이터를 다루는 분산처리 Spark에서도 핸들링할 때 dataframe을 쓰는데 이것도 결국 쿼리 개념을 상속받았다고 생각한다.
그 외의 NoSQL 데이터들은 조금 다른 영역이지만 주로 데이터 레이크에 저장하거나 RAW형태로 적재에 포커스를 맞췄을 때 주로 사용하게 되는 포맷인 것 같고 big query의 사용 경험을 보면 결국 나중에 자주 사용되는 데이터들은 Flattening 과정을 거쳐 관계형(2차원) 데이터로 내리게 된다. 그러면 다시 관계형 데이터를 핸들링하는 언어는 SQL이다.
내 결론은 결국 현재 데이터 핸들링의 중심 개념은 SQL의 원리라는 것이고, 그래서 데이터 핸들링이라는 기본기를 다질 수 있게 도와주는 여러 가지 개념들을 SQL이라는 포맷과 비교해서 따라오실 수 있도록 강의를 잘 만들면 시작하고 싶은 분들에게 좋은 초석이 될 것 같다는 것이다.
지금 내가 집중하고 있는 분야는 데이터 엔지니어링이다. 데이터가 흐르는 파이프라인을 잘 만들고 필요한 데이터를 품질 좋게 잘 수집하는 것만으로도 분석과 모델링의 많은 문제들이 해결되기 때문에 데이터 엔지니어링이 가장 기본이 된다고 생각한다.
데이터 핸들링을 하는 기본적인 방법을 다 다루고 나면 그 이후에는 엔지니어링 부분을 더 다루고 싶은 분들에게 특화된 내용을 다뤄보고 싶다. 배치가 돌아가는 전반적인 파이프라인에 대한 내용이지 않을까 싶은데 이는 지금 실무 하는 부분과도 일치하기 때문에 실무 경험을 공유할 수 있고 나에게도 내 지식을 정리할 수 있는 좋은 방법일 것 같다. 좋은 지식을 전하기 위해 실무에서 더 잘하는 사람이 되어야 하는 것도 필요할 것 같고..!
그 외의 다른 전문 영역들은 (Ex; 머신러닝 모델링, 그로스해킹, 추천시스템) 나보다 더 그 분야를 잘 아는 분들의 강의를 연계해서 추천하거나 내 주변분들을 동료 강의자로 포섭하여 로드맵을 완성할 수 있지 않을까.
코로나로 한해의 절반 정도는 재택근무를 하면서 비대면 기반의 업무방식이 가능하다는 것도 몸소 느꼈고, 비대면 방식으로 진행되는 강의가 충분히 괜찮구나 하는 것도 느낄 수 있었다. 이직한 회사에서도 조금씩 적응 중이니까 하나씩 지식을 잘 정리해가면서 천천히 만들어나가봐야겠다.
인프런에서 SQL강의를 진행하고 있습니다. 글을 재미있게 읽으셨다면 아래 링크에도 한번 오셔서 SQL 강의를 확인해보세요. 저에게 큰 힘이 됩니다. 강의 구경하러가기