ChatGPT와 LLM을 어떻게 봐라봐야 할까
처음 ChatGPT가 나왔을때 테이블 형테의 데이터를 프롬프트에 넣고 질문을 하면 적절한 대답을 해주는 것으로 놀라움을 주었는데, 최근에 이를 활용한 파이썬 라이브러리가 (pandas-ai) 나왔다. 아래 데모를 보면 기본적인 분석 질문에 대한 대답 및 차트 생성 등을 해주는 것을 볼 수 있다.
물론 이는 앞으로 올 것들의 서막에 불과하다. ChatGPT는 원래 분석을 위해 튜닝된것도 아님을 기억하자. LLM 자체의 발전, 이런 모델들의 파인 튜닝, 이런 모델들을 워크플로우에 통합하는 분석 솔루션들의 등장까지 고려하면 향후 몇년 안에 우리가 생각하는 데이터 사이언스의 모습은 크게 바뀔 것으로 예상된다.
미래를 정확히 예측하기는 어렵지만 큰 방향성을 전망해보면 다음과 같다.
데이터 추출 및 분석 업무에 대한 기술적인 장벽이 훨씬 낮아질 것이다. SQL문으로 데이터를 추출하거나 간단한 차트를 그리는 등 요구사항이 문장 하나로 요약될 수 있는 1차적인 업무는 자연어로 처리하게 될 것이다.
일상적으로 반복되는 분셕의 여러 영역에서 점차 자동화가 진행될 것이다. 예를 들어 몇 년 안에 AB테스트 결과 리포트를 작성하거나 주간 KPI를 요약 보고하는 등의 업무는 AI가 1차 Draft를 작성하고 이를 분석가가 검토 & 완료하는 형태로 진행될 것이다.
물론 이런 일이 현실화되기 위해서는 다양한 기술적 진보가 필요하다. LLM 자체의 개선도 필요하지만, 데이터를 인간이 아닌 AI가 효율적으로 접근할 수 있도록 저장하는 등 데이터 스텍 전체가 이에 맞게 진화해야 할 것이다.
또한 이런 변화에 제대로 대응하기 위해서는 분석 조직에 속한 개발 팀의 역할이 더 중요하다. 분석 인력만으로 플랫폼 개발 및 고도화에 대응하는 것은 한계가 있기 때문이다. 물론 일반적인 분석 시나리오에 효율적으로 대응하는 솔루션의 등장도 활발해질 것이다.
결과적으로 경영진을 포함해 조직의 모든 구성원이 일상적으로 데이터를 활용하게 될 것이다. 분석가의 업무는 기계적으로 할 수 없는 새로운 영역을 개척하고, AI기반의 분석 솔루션을 다른 사람들이 활용할 수 있도록 지원하는 형태로 바뀔 것이다.
현직 데이터 사이언티스트나 관련 팀 입장에서 생성형 AI가 가져올 변화에 어떻게 대응해야 할까? 만약 현재 업무가 단순 데이터 추출이나 리포팅에 그친다면 미래에 대한 고민이 필요한 시점이다. 기술적으로 더 깊이를 갖추어 새로운 분석 영역을 개척할 수 있거나, 도메인에 대한 이해를 바탕으로 분석의 완성도를 높일 수 있어야 할 것이다.
현직은 아니지만 향후 데이터 관련 커리어나 업무에 관심이 있다면? 앞으로는 Python이나 SQL을 다루는 기술적인 능숙함보다, 해당 도메인에 대한 깊이있는 이해와 주어진 문제에 대해 올바른 질문을 던지고 주어진 결과를 해석해서 결론을 내고 이해당사자를 설득하는 종합적인 문제 해결력이 더 중요해질 것이다. 따라서 본인의 장점을 살리면서 기술적인 역량을 추가하려는 접근 방법이 필요하다.
학생이라면 지금 무엇을 공부해야 할까? 물론 아직은 기술 전환의 과도기이고, AI가 모든 것을 해결하지는 못할테니, 본격적인 데이터 관련 직무를 위해 기술적인 배경을 갖추는 것은 필요해 보인다. 물론 몇년 안으로 AI가 어디까지 발전할지는 필자도 예측할 수 없지만, 인간이 자연어로 명령하면 LLM이 이를 해석/번역하여 결과를 보여주는 능력은 계속 향상될테니 두고 볼 일이다.
지금까지 AI가 어떻게 데이터 사이언스 업무를 바꿀지 생각해 보았다. 필자가 작년에 썼던 데이터 사이언스 자동화에 대한 글을 떠올려 보면 분석의 자동화와 대중화라는 트렌드는 원래 있었으며, AI의 발달은 이를 가속화시키는 역할로 이해할 수 있다. 최근 달라진 점이 있다면 그 속도가 생각보다 훨씬 빠를 수도 있다는 정도일 것이다. 물론 최근에 발견된 생성형 AI의 잠재력이 현실화되는데에는 몇년의 시간이 필요할 것이 (라고 조심스럽게 예측해본다).
모든 혁신에는 위기와 기회의 양면이 존재한다. 그리고 이런 변화를 기회로 만들기 위해서는 개인과 조직의 노력이 필요하다. 생성형 AI의 가능성과 이를 활용한 솔루션은 하루가 다르게 진화하고 있으므로, 이런 기술 동향에 촉각을 곤두세우고 관련 업무에 적극 도입해야 할 것이다. 그리고 이런 변화의 노력을 기울이는 개인과 조직에게 생성형 AI는 조직 전체의 Data Literacy를 높이고 생산성을 향상시키는 촉매 역할을 할 것이다.
필자가 이끌고 있는 DnA팀에서는 이를 변화에 발맞추기 위해 내부 스터디를 진행하고 있으며, 내부 해커톤을 통해 조만간 생성형 AI의 가능성을 함께 탐험해볼 생각이다.