데이터 사이언티스트의 일은 어떻게 바뀌고 있는가
몇 년 전까지만 해도 데이터 사이언티스트(Data Scientist)의 코어 스킬은 비교적 명확했다. SQL, Python, 그리고 Statistics.
당시 Job Description (JD)을 보면 빠지지 않던 키워드들이었고, 데이터를 잘 뽑고, 정제하고, 통계적으로 의미 있게 해석할 수 있으면 충분히 경쟁력 있는 데이터 사이언티스트로 평가받을 수 있었다.
하지만 최근 몇 년 사이 JD의 분위기가 확실히 달라졌다는 걸 체감했다. LLM, GenAI, AI Agents, Prompting, RAG, Evaluation, Guardrails...
AI의 발전과 함께, 데이터 사이언티스트라는 직무 자체도 분명하게 진화하고 있다고 느낀다. 그 과정에서 요즘 가장 자주 떠올랐던 질문은 이것이었다.
앞으로 데이터 사이언티스트로 일하려면 어떤 역량을 더 준비해야 할까?
현업에서 일하며 체감한 변화들을 중심으로 AI 시대에 데이터 사이언티스트에게 더 중요해졌다고 느낀 것들을 정리해보았다.
요즘 가장 자주 언급되는 개념 중 하나는 Agentic AI이다. 단순히 질문에 답하는 모델이 아니라, 목표를 설정하고, 계획을 세우고, 여러 도구를 호출하며, 결과를 만들어내는 시스템을 의미한다. 과거에는 모델 하나의 성능이 가장 중요한 평가 기준이었지만, Agentic AI 환경에서는 여러 컴포넌트가 연결된 전체 의사결정 흐름이 핵심이 되었다.
어느 단계에서 판단이 이뤄졌는지
실패가 발생했다면 그 원인이 무엇인지
모델, 프롬프트, 툴 중 어디에서 문제가 생겼는지
이제 데이터 사이언티스트는 모델의 정확도 뿐만 아니라, 이 시스템이 신뢰할 수 있는 결정을 내리고 있는지를 구조적으로 설명해야 한다. 모델 하나를 잘 만드는 사람이 아니라, 의사결정 시스템 전체를 설계하고 평가하는 사람이 더 중요해졌다고 느꼈다.
전통적인 머신러닝 시대에도 블랙박스 모델은 늘 존재했다. 그래서 Explainability와 Interpretability가 중요했고, SHAP value나 feature importance 같은 기법들이 널리 사용되었다. 하지만 LLM은 기존 모델과는 차원이 다른 블랙박스였다.
왜 특정 답을 했는지 명확히 설명하기 어려웠고
같은 질문에도 맥락에 따라 다른 답을 내놓았으며
Hallucination이라는 새로운 리스크까지 동반한다
이런 환경에서는 “왜 이렇게 판단했는가”를 완전히 이해하는 것만큼, 위험한 판단을 하지 않도록 통제하고 감시하는 (Guardrail) 것도 중요하다. 그래서 요즘의 LLM governance는 주로 다음에 집중하고 있다.
어떤 답변과 행동을 허용하고 차단할 것인지
모델이 비정상적인 패턴을 보이고 있는지
그 이상 신호를 어떤 지표로 모니터링할 것인지
데이터 사이언티스트에게 중요해진 역할은 단순히 모델을 설명하는 사람이 아니라, 모델을 안전하게 운영하고 책임지는 것까지 확장되었다.
또 하나 크게 달라졌다고 느낀 점은 코딩 환경이다. 요즘은 대부분의 IDE에 코딩을 도와주는 LLM이 자연스럽게 탑재되어 있고, 현업에서도 그러한 LLM의 도움을 받으며 코딩하는 것이 이미 일상이 되었다.
이전에는 누가 더 빠르고 정확한 문법으로 코드를 작성하는지가 중요했다면, 이제는 그런 부분은 LLM이 대부분 해결해준다. 그 결과 같은 프로젝트도 훨씬 빠르고 효율적으로 끝낼 수 있게 되었고, 한 사람이 동시에 더 많은 프로젝트를 맡아 진행하는 것도 가능해졌다.
누가 SQL을 더 잘 외우는지, 누가 Python 문법을 더 정확히 알고 있는지가 차별점이 되기는 점점 어려워졌다. 대신 현업에서 여전히 중요한 역량은 존재한다.
정의되지 않은, 애매한 문제를 보고 처음부터 끝까지 구조화하고 디자인하는 능력
LLM은 코드를 써줄 수 있지만, 어떤 문제를 풀어야 하는지를 대신 정해주지는 못했다. 그래서 항상 이러한 질문들을 던지며 접근해야한다:
이 문제를 해결하기 위해 어떤 데이터가 필요한가
모니터 단위는 유저인지, 이벤트인지, 세션인지
연구 대상(population)은 누구인지 (Segmentation)
어떤 실험이나 테스트가 이 문제에 적절한지 (A/B Testing, Experimentation)
결과가 나왔을 때, 그것이 정말 우리가 원한 변화인지 어떻게 검증할 것인지 (Evaluation Metrics)
그리고 그 결과가 비즈니스에 어떤 임팩트를 주는지
문제를 올바르게 정의하고, 이 질문들에 알맞은 tool을 이용해 논리적으로 방향을 설계할 수 있는지가 요즘 데이터 사이언티스트를 가르는 가장 큰 차이점이라고 느낀다.
AI의 발전으로 데이터 사이언티스트의 일은 더 다양해졌지만 그만큼 더 흥미로운 역할이 된 것 같다!