인재는 있는데 왜 현장에 없는가
"데이터 사이언티스트를 찾고 있는데, 찾지 못한다"는 말이 계속된 지 10년이 지났다.
한국고용정보원의 직업 수급 전망에 따르면, 데이터 사이언티스트·AI 엔지니어 직종의 구인 배율은 2~3배 수준에서 지속적으로 상승하고 있다. 과학기술정보통신부 추정에 따르면, 2020년 시점 AI 인재(≒데이터 사이언티스트) 부족 수가 약 1만 명 이상이었던 것에 비해, 2025년에는 3만 명 이상, 2030년에는 5만 명 이상까지 부족 수가 확대될 것으로 전망되고 있다.
숫자만 보면 '희소 직종으로 안태'처럼 보인다. 그러나 실태는 더욱 복잡하다. 동시에 "생성 AI로 데이터 사이언티스트의 일은 없어진다"는 목소리가 들려온다.
ChatGPT에 데이터를 넘기면 분석해준다. AutoML이 피처 엔지니어링을 수행한다. 코딩은 GitHub Copilot이 보완해준다. 그렇다면, 데이터 사이언티스트란 어떤 존재이며, 지금 어디에 있고, 앞으로 어디로 향하는가.
한국데이터산업진흥원(K-DATA)은 2013년경부터 데이터 사이언티스트 직종을 공식적으로 정의하고 육성 지원을 시작했다. 초기 정의의 핵심은 '데이터 사이언스 역량과 데이터 엔지니어링 역량을 기반으로, 데이터에서 가치를 창출하고 비즈니스 과제에 답을 내는 프로페셔널'이었다.
이 정의는 2025년 현재도 변하지 않았다. 그러나 이 정의가 실제로 가리키는 것은, 10년에 걸쳐 크게 변질되었다.
2013~2016년경의 데이터 사이언티스트의 코어는 '머신러닝 모델을 구현할 수 있는 사람'이었다. Python으로 회귀 모델을 쓸 수 있고, scikit-learn을 사용할 수 있으면, 그것만으로 희소 인재였다. 카카오·네이버·삼성SDS 등 IT 대기업이 스카우트 경쟁을 벌이던 시절이다.
2017~2021년경이 되면 '딥러닝'의 보급으로, 컴퓨터 비전이나 자연어 처리를 할 수 있는 인재로의 수요가 급증했다. TensorFlow나 PyTorch를 사용할 수 있는지가 차별화 요인이 되었다. 카카오·네이버의 AI 연구소 설립, 현대차·삼성전자의 AI 조직 확대가 이 시기에 집중되었다.
그리고 2022년 이후, 생성 AI의 등장이 모든 전제를 바꿨다.
2025년, 한국데이터산업진흥원과 각 유관 기관은 데이터 사이언티스트 역할 정의와 역량 체계를 대폭 개편했다. 개편의 배경에는 세 가지가 있다.
첫째, 생성 AI에 의해 종래의 '분석' 영역이 대폭 자동화되어 차별화포인트가 사라졌다는 것이다. 이에 따라 데이터 사이언티스트의 역할 일부가 실질적으로 대체되었다.
둘째, 기업의 AI 도입 성공 요인이 '가치 창조·조직 변혁으로의 도달'로 여겨지게 되었다는 것이다. 기술 구현보다 비즈니스 접목이 성패를 가른다.
셋째, LLM·AI 에이전트의 등장으로 가치의 원천이 '구조 설계', '의미(컨텍스트) 설계'쪽으로 이동했다는 것이다.
생성 AI는 데이터 사이언티스트의 일의 일부를 확실히 침식하고 있다. 기초적인 탐색적 데이터 분석(EDA)의 많은 부분은 AI에 맡길 수 있게 되었다.
'이 데이터의 분포를 확인해', '이상값을 검출해', '상관계수를 계산해' - 이것들은 이제 자연어로 지시할 수 있다.
코딩 보완도 마찬가지다. 반복적인 Python 코드를 작성하는 시간은 극적으로 단축되었다. 피처 엔지니어링의 시행착오도, AI가 후보를 제안해준다. AutoML 툴의 진화로, 일정 수준의 모델 선택과 하이퍼파라미터 튜닝은 자동화가 진전되고 있다.
그렇다면, 무엇이 남는가?
현장에서 일하는 데이터 사이언티스트로서, 내가 실감하는 것은 **「물음의 설계는 빼앗기지 않았다」**는 것이다.
애초에 무엇을 풀어야 할 문제로 정의하는가——여기가 가장 고도하고, 가장 중요하며, 가장 AI가 서툰 영역이다.
삼성전자 반도체 공정 현장에 들어가 「수율(yield)을 올리고 싶다」는 오더를 받았을 때, AI에 「물음을 설계해주세요」라고 프롬프트를 쳐도 의미 있는 답은 돌아오지 않는다. 공정의 흐름을 이해하고, 엔지니어의 작업 동선을 파악하고, 어떤 센서 데이터가 실은 기록되어 있지 않은지를 현장에서 확인하고, **「실은 문제는 수율 자체가 아니라, 특정 장비 세대 간의 공정 편차다」**라고 재정의하는——이 프로세스는 데이터 사이언티스트가 현장에 발을 딛어야 처음으로 할 수 있는 일이다.
'생성 AI의 진화로, 데이터를 가치로 바꾸기 위한 의사결정과 스테이크홀더와의 커뮤니케이션이야말로 생성 AI로는 대체할 수 없는 역할이며, 앞으로 점점 중요해진다.'
즉, 데이터 사이언티스트에게 요구되는 무게중심이 '기술 구현'에서 '구조 설계'로 이동했다. 코드를 쓰는 사람에서, 어떤 코드가 필요한지를 판단하는 사람으로. 모델을 만드는 사람에서, 어떤 모델을 어떻게 사용할지를 설계하는 사람으로 바뀌고 있다.
지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.
오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠