Udacity MOOC(Massive Open Online Course)
Udacity라는 공개형 온라인 코스를 통해 실시간 데이터 처리가 가능한 Apache Spark와 현재 넷플릭스 기업에서도 사용하고 있는 실시간 데이터 피드 관리 플랫폼인 Kafka를 사용하여 현업 프로젝트를 수행해보려고 올해 1월 6일부터 시작하는 강좌를 구매했다. 본래 백만 원이 넘어가는 가격이었는데, 개인적으로 쿠폰 할인가를 받아서 이십만 원 정도로 2개월간의 코스를 수강할 수 있게 되었다. 이것이 내가 사이드 프로젝트로 진행하고자 하는 사이버 보안 관련 이상행위탐지의 예측 분석에 도움이 되기보다는 비정형 데이터에 해당하는 대용량의 스트리밍 데이터 전처리를 직접 맛보기 위해서 선택했다고 해야겠다.
본래 이 강좌 말고 Udacity에서 선택의 고민을 하게한 두 개의 후보군 강좌가 더 있었으나, 이 강좌가 가장 저렴했을 뿐만 아니라, Advanced(숙련된 실력)을 요구하는 과정이라서 이번에 파이썬 코딩도 제대로 갈고닦을 요량으로 아래 강좌를 택했다.
해당 과정은 파이썬 코딩 능력을 중급 수준 정도로 요구한다. 안 그래도 초급 수준의 파이썬 개발과정만 반복해서 환기시킨 상태라서 이 과정을 통해 데이터 처리 로직의 구현을 스스로 해낼 정도로 연습할 요량이다.
이전 직장에서 Kafka를 기반으로 한 스트리밍 플랫폼을 제공하는 Confluent의 미국지사 사람들이 회사에 직접 방문해서 시연을 한 적이 있었다. 그때 클라우드 기반의 Confluent 플랫폼에서 정액제로 제공하는 카프카의 비용편익에 대한 설명을 영어로 듣고 해당 내용을 다시 개인적으로 PT로 정리한 적이 있다. 당시 본부장님이 연봉 올리려면, 회사의 메인 아이템이였던 LDAP(Light Database Access Protocol)을 공부하기보다 Kafka를 공부하라고 권유한 적이 있었다. 현재도 데이터 스트리밍 처리 플랫폼을 구축 및 운영 가능한 경력직에게 연봉 5천 이상의 처우는 기본으로 해준다. Kafka나 Apache Spark와 같은 스트리밍 데이터를 메모리상에서 처리 가능한 플랫폼의 응용을 익히고자 하는 까닭은 연봉 때문만이 아니다. 데이터 과학자는 실리콘밸리에서 3억은 기본 몸값으로 책정해주고 있는데, 사실 기술에 따른 처우의 문제가 아니다.
빅데이터를 이제 기업에서 이해는 했고 제대로 활용하기 시작했다면, 경영의 패러다임이 바뀌어야 한다는 것을 깨달은 기업이 많을 것이다. 근래 출간된 넷플릭스 기업문화를 소개한 '규칙 없음'이라는 책과 같이 기업 문화의 패러다임은 한국에서 바뀌기를 기대하는 건 요원하다. 다만 기존에 사용하던 기업 내부에서 생산된 비교적 소규모의 정제된 데이터로써는 급변하는 환경의 변화와 경쟁에서 살아남기 힘들다는 거다. 기업 내부뿐 아니라 기업 외부환경을 포함한 모든 영역에서 생산된 '초대용량의 비정제된 데이터'를 경영에 활용할 수 있어야 기업의 지속 가능성이 확보된다고 말한다(이종석, 2019).
빅데이터를 기술의 입장에서 바라보지 않고, 경영의 입장에서 바라보아야 하는 근본적인 이유이다.
Reference
1) Explore our Programs and Courses | Udacity Catalog
2) 이종석 외 2. (2019.). 빅데이터 비즈니스 이해와 활용 (pp. 1-289). n.p.: 위즈하임.