연재를 시작하며
2015년 ‘헬로 데이터 과학'을 출간했을 때부터 일반인들에게 데이터의 가능성을 널리 알리고픈 동기가 있었다. 빅데이터보다 스몰 데이터, 복잡한 분석 기법보다 일단 주변의 데이터로 손쉽게 시작하는 데이터 사이언스를 이야기했다. 하지만 코드 없이 주로 엑셀을 사용해서 데이터 사이언스의 주요 개념을 설명하는 데이는 분명 한계가 있었다.
그리고 2023년, GPT-4와 각종 플러그인의 등장으로 드디어 코딩의 장벽 없이 일반인들도 자연어를 통해 데이터를 자유자재로 활용할 수 있는 가능성이 열렸다. GPT로 할 수 있는 수많은 일 가운데 데이터를 분석하고 결론을 도출하는 것은 어찌보면 자연어를 이해하고, 이를 SQL 및 파이썬 언어로 변환하는 LLM의 능력을 최대한 활용하는 방법이다.
현재 네이버 서치의 데이터 사이언스 팀을 이끌며 생성형 AI 모델에 기반한 검색 서비스를 만드는 일을 하고 있지만, 동시에 데이터 전도사라는 필자의 다른 소명이 강한 부름을 보내는 순간이었다. 또한 최근 DS 실무를 직접 수행할 기회가 적어지는 것에 대한 아쉬움이 있었는데, 이를 AI 기반에 분석 연습을 통해 대체해보려고 한다.
물론 GPT로 대표되는 생성형 AI 기술은 아직 초기이며, 앞으로 얼마나 진보한 제품이 나올지 감히 예측하기도 어렵다. 하지만 데이터를 다루기 위해 인간이 기계의 언어를 배우는 대신 기계가 인간의 언어를 배우는 패러다임 시프트는 이미 시작되었으며, 그 초입에서 일반 대중을 위한 믿음직한 참고서가 필요하겠다는 생각을 했다.
업무 틈틈히 작성하고 있는 이 원고가 언제 책의 형태로 완성될지는 모르겠지만, 예전 헬로 데이터 과학에서처럼 중간중간 결과물을 여러분과 공유하면서 작업을 진행하려고 한다. 데이터의 종류와 사용 목적은 하늘의 별 만큼이나 다양하니 이 글을 읽는 여러분께서는 다양한 의견과 아이디어를 부탁드린다.
본 책은 크게 아래 세 그룹의 독자를 대상으로 염두에 두었다.
DS에 관심을 갖는 일반인
DS 관련 직무를 준비하는 학생
DS 관련 업무에 종사중인 직장인
첫번째 그룹의 독자들은 이 책에서 생성형 AI가 어떻게 DS를 바꾸고 있는지 이해할 수 있으며, 본인의 일과 생활에 기본적인 분석을 바로 적용할 수 있는 아이디어를 얻어갈 수 있을 것이다. DS 관련 직무를 준비하는 학생들은 생성형 AI를 활용해 어떻게 DS의 기본 개념을 이해할 수 있는지, 그리고 면접 등을 준비할때 유용한 가이드를 제공한다. 마지막으로, 현직 종사자 분들을 위해서 스스로의 업무를 고도화하기 위해 생성형 AI를 어떻게 활용할지에 대한 가이드를 제공하고자 한다.
본 주제에 대한 책을 쓰는 데에는 다양한 방법이 있으며, 제대로 된 책을 쓰기 위해서는 적절한 목표를 설정해야 할 것이다. 본격적인 내용을 시작하기 전에 이 책이 초점을 명확하게 하고자 한다.
지금은 생성형 AI 혁명의 초입이며, AI 기반 데이터 분석 도구는 계속 진화할 것이다. 따라서 이 책은 특정 도구보다는 자연어로 데이터를 분석하는 일반적인 방법론에 초점을 맞추었다.
DS의 방대한 영역을 모두 다루기보다, 기본적이지만 활용도가 높은 방법론을 중심으로 DS 주요 영역의 학습과 문제해결에 GPT를 활용하는 것에 초점을 맞추었다.
데이터를 분석하는데 있어서 코딩이 필요한 경우가 있겠지만, 시중에 좋은 코딩 참고서가 많으니 이 책은 그런 부분을 직접 다루기보다 관련 자료를 제공하고자 한다