데이터 사이언스 자동화의 추세와 전망, 인간의 역할

AI의 시대, 데이터 사이언티스트 및 엔지니어의 역할은 무엇인가?

Mar 7. 2022

최근 CACM에 데이터 사이언스 자동화에 대한 아티클이 나왔다. 최근 쓴 커리어 관련 글에서 비슷한 주제를 언급하기도 했고, 평소에 관심있는 주제라 아티클 내용 소개 및 저의 의견을 적어볼까 한다.

데이터 사이언스 자동화?

분야를 막론하고 자동화는 반복적인 일을 기계에게 맡기고 이를 통해 비용을 아끼고 좀더 생산적인 업무에 집중하는 것을 가능하게 한다. 데이터 사이언스 업무에도 반복되는 부분이 많고, 최근 치솟는 연봉이나 채용의 어려움을 감안하면 분명 자동화에 대한 큰 인센티브가 존재한다.

하지만 자동화가 모든 문제에 적용되는 해결책은 아니다. 자동화를 위한 솔루션이 아예 존재하지 않거나, 자동화에 따른 비용이 효용을 넘어서는 경우도 존재한다. 이처럼 비용 혹은 기타 문제로 자동화가 불가능하거나 구현 범위가 제한되는 경우도 있다. 다음과 같은 조건을 만족해야 자동화가 가능하거나, 자동화에 따른 혜택을 누릴 수 있을 것이다.

일반적인 자동화의 조건

또한 '자동화'라는 용어가 인간의 노력을 기계가 100% 대체한다는 의미는 아니다. 데이터 사이언스의 자동화는 가장 루틴한 부분부터 자동화된 알고리즘 및 시스템이 차근차근 개발되고, 이를 통해 데이터 사이언티스트 및 엔지니어의 업무가 더 효율화되는 과정에 가깝다. 따라서 오히려 지루하고 반복되는 작업이 줄어들고, 그 자리를 좀더 창의적인 문제해결이 채울 것이다.

데이터 사이언스 자동화의 영역별 차이

이를 염두에 두고 데이터 사이언스의 각 영역을 살펴보자. 앞서 소개한 아티클에서는 데이터 사이언스를 아래 네가지 축으로 분류하고 있다. (아래 사분면의 X/Y축은 위에서 소개한 기준 1/2에 해당한다.) 그리고 저자의 설명에 따르면 분명한 정답이 (레이블 및 평가 척도) 존재하며 비교적 도메인의 영향을 덜 받는 모델링이 가장 자동화가 쉬운 부분이며, 정답을 정의하기 어려우며 도메인 지식이 필요한 탐색적 분석이 자동화가 어려운 부분이라고 한다.

자동화의 관점에서 살펴본 데이터 사이언스의 네 영역

영역별 자동화에 대한 전망

위에서 소개한 영역별로 자동화의 진행 상황 및 전망을 생각해보자. 먼저 각 분야별로 위 아티클 저자의 전망을 소개한다. (기계번역 결과라 일부 매끄럽지 못한 부분 양해를 구한다)

위 그림에서 우리는 모델 구축 이 자동화가 가장 직접적인 영향을 미칠 것으로 예상할 수 있는 곳임을 알 수 있습니다. 이는 실제로 자동화된 기계 학습(AutoML)의 성공 사례입니다. 그러나 이러한 영향의 대부분은 지도 학습을 기반으로 하는 모델링 접근 방식에서 발생했으며 자동화는 다른 종류의 학습 또는 모델링 작업에 대해 훨씬 덜 개발되었습니다.

데이터 엔지니어링 작업은 일반적인 데이터 분석 프로젝트에서 인간 노력의 80%를 차지하는 것으로 추정됩니다. 결과적으로 자동화가 이러한 인간의 노력을 줄이는 데 중요한 역할을 할 수 있다고 예상하는 것은 당연합니다. 그러나 데이터 엔지니어링 작업을 자동화하려는 노력은 모델 구축 을 자동화하려는 노력에 비해 현재까지 성공률이 낮습니다.

데이터 탐색에는 데이터 세트가 주어진 관련 질문 식별, 데이터 구조 해석, 도메인에서 제공하는 제약 조건과 데이터 분석가의 배경 및 의도 이해, 데이터 윤리, 개인 정보 보호 및 공정성과 관련된 문제 식별이 포함됩니다. 배경 지식과 인간의 판단은 성공의 열쇠입니다. 결과적으로 데이터 탐색이 자동화가 어려운 부분인 것은 놀라운 일이 아닙니다.

마지막으로 리포팅 및 의사결정 (Exploitation) 은 실행 가능한 통찰력과 예측을 결정으로 바꿉니다. 이는 조직에 상당한 영향을 미칠 수 있으므로 일정 수준의 감독과 사람의 개입이 종종 필수적입니다. 예를 들어 새로운 AI 기술은 결과 보고 및 설명을 자동화하는 데 새로운 기회를 제공할 수 있습니다.
Source: Automating Data Science (CACM March 2022)

여러분은 저자의 의견에 동의하는가? 필자는 대체로 동의하지만 의견이 다른 부분도 있다. 아래는 각 영역별 자동화에 대한 필자의 전망이다. 아래 영역명 옆에 '자동화 전망'은 자동화의 효용과 비용을 고려했을때 얼마나 자동화가 가능할지에 대한 예측치로 '하'에서 '상'으로 갈수록 자동화가 용이하고 그 범위도 넓을 것으로 본다는 의미다.

데이터 엔지니어링 (자동화 전망: 하)

기계가 여러 원본 유형의 데이터와 다양한 요구사항을 수합하여 복잡한 데이터 파이프라인을 만들 수 있을까? 세상에 존재하는 다양한 데이터와 조직별로 다른 요구사항을 고려할때, 필자 역시 데이터 엔지니어링이 완전히 자동화되는 세상은 가까운 미래에는 오지 않을 것이라고 생각한다. 또한 데이터 파이프라인은 보통 수년 단위의 수명을 가지며, 망가졌을때 데이터 유실 및 비즈니스 영향이 아주 크다. 자동화해서 싸게 만드는 것 보다는 노력을 들여 제대로 만들어야 하는 부분이다.

따라서 데이터 엔지니어링에서의 자동화는 전체적으로 인간의 개입을 없애는 방향보다는, 부분적으로 반복적이고 루틴한 영역을 자동화하는 방향을 진행될 것으로 보인다. 위 아티클에서는 데이터 병합시 스키마 매칭의 문제를 해결해 주는 FlashExtract라는 연구의 사례를 들고 있는데, 이외에도 원본 데이터 및 처리 결과에서의 오류 발견, 자동화된 메타데이터 생성 등 실무에서 자동화의 효과를 볼 수 있는 다양한 영역을 생각해볼 수 있다.

자동 스키마 추출 사례 (FlashExtract)

탐색적 분석 (자동화 전망: 중)

탐색적 분석은 주어진 데이터셋을 검증하고, 다양한 관점에서 문제에 대한 가설 및 패턴을 추출하는 단계다. 이 영역 역시 세상에 존재하는 데이터셋과 문제만큼이나 다양한 접근 방법이 있으니 완전한 자동화는 힘들것이다. 특히 발견가능한 수많은 패턴 중에 어떤 패턴이 다음 단계에 유용할지는 도메인 지식이 필요한 부분이다. 하지만 데이터의 유형 및 발견 대상이 되는 패턴의 종류에 대한 몇가지 가정을 한다면 상당 부분 자동화가 가능하다.

예를 들어 테이블 형태의 데이터라면 데이터의 검증은 개별 컬럼의 분포 및 이상값을 보는 것으로, 데이터에서의 패턴 발견은 컬럼간의 상관도 계산 및 관계에 대한 시각화를 해보는 것을 시작할 수 있다. 이 부분에 대한 자동화 만으로도 시간과 노력을 절감할 수 있으며, 이미 파이썬 및 R 기반으로 기본적인 EDA를 자동화하는 다양한 솔루션이 있다. 아래 그림은 pandas-profiling 라이브러리에서 자동 생성된 리포트에 대해 다양한 분석을 수행하는 과정을 보여준다. (Source: Medium)

pandas-profiling과 같은 자동 EDA 툴은 분석가의 노력을 많이 줄여준다.

예측 모델링 (자동화 전망: 상)

위 아티클 저자도 밝혔지만 흔히 데이터 사이언스의 가장 '섹시한' 부분으로 생각하는 (따라서 많은 사람들이 하고싶어하는) 예측 모델링은 역설적으로 가장 쉽게 자동화될 수 있는 부분이다. 충분한 양의 클린 데이터와 목적 함수가 주어진다면 가능한 모델 및 하이퍼파라메터를 탐색해서 최적의 예측 모델을 만드는 것은 현재 기술로도 충분히 가능하며, AutoML등의 이름으로 이 과정을 더 효율화하려는 연구도 계속 진행중이기 때문이다.

단 검색 및 추천과 같은 온라인 서비스 환경에 모델을 적용해본 사람이라면 예측 모델을 만드는 것이 생각보다 쉽지 않다는 것을 잘 알고 있을 것이다. '충분한 양의 클린 데이터'라는 조건에 부합하는 상황도 생각보다 많지 않고 (보통 사용하는 클릭 데이터는 richness bias / position bias등 상당한 노이즈를 안고 있다), 실무에서 필요한 요구사항을 모두 만족시키는 모델은 특정 목적함수의 최적화로 만들어지지 않는 것이 보통이다. (관련해서 아래 필자의 글 참조)

02화 온라인 서비스 분석이 어려운 이유

이전 글에서 IT4U라는 가상의 기업 사례를 통해 이 책에서 다루고자 하는 문제의 다양한 측면과 해결 과정을 살펴보았다. 쉽지 않은 과정이었지만 실무에서는 이보다 더 도전적인 문제에 봉착하

https://brunch.co.kr/@lifidea/45

따라서 많은 경우 개별 요구사항에 맞는 모델을 만들어 이를 조합하는 방식으로 최종 예측결과를 만들게 되며, (관련 LinkedIn Blog Post) 이 과정에서 개별 모델을 어느 단위로 나누고 그 결과를 어떻게 조합할지는 모델러의 영역이며, 실제로는 이 과정에서 다양한 오프라인 (레이블 기반) / 온라인 (실사용자 로그 기반) 평가가 필요하다. (예: 문서 추천 결과에 너무 저품질 (e.g. clickbait) 결과가 많으니 품질 피쳐를 추가하자)

요약하면 실서비스에 들어가는 모델을 만드는 일은 '요구사항 수집 >> 모델 개발 >> 오프라인 평가 >> 디버깅 및 조율 >> 온라인 평가'의 사이클이 반복되는 과정이며, 이 과정에서 모델링 팀과 분석 팀이 타이트하게 협업하는 것이 필수적이다. 따라서 모델링의 전 과정이 자동화되기는 어렵겠지만, 이 가운데 실제 '모델 개발'은 현재도 오랜 시간이 걸리지 않으며, 앞으로 더 자동화될 여지가 많은 영역이다. (Time Series 모델링의 자동화 사례는 Automatic Statistician이라는 시스템을 참고하자; 아키텍쳐 설명 부분 아래 그림에 발췌)

리포팅 및 의사결정 (자동화 전망: 중)

데이터 사이언스 조직의 결과물은 실 서비스에 직접 반영되어 차질없이 운영되거나 이해당사자의 의사결정에 영향을 줄 수 있도록 대시보드 혹은 리포트 형태로 전달되어야 한다. 이중 리포팅은 많은 분석가들이 업무 시간의 상당 부분을 투자하며, 특히 그 결과를 전달받는 의사결정권자의 위치가 높을수록 더 많은 수고가 들어가는 경향이 있다. (문서 포맷도 더 신경을 쓰고, 결과도 높은 분이 놀라시지 않게 윤색해야 하니 말이다.)

하지만 필자는 이처럼 경영진을 위한 리포팅에 많은 시간과 노력이 들어가는 것은 데이터 기반 조직으로서의 성숙도가 떨어지기 때문이라고 생각한다. 잘 문서화된 대시보드나 사용성이 좋은 분석 도구가 잘 갖추어져 있어 조직의 누구나 제품이나 서비스의 현황에 대해 손쉽게 파악할 수 있다면 정기 리포팅에 많은 노력을 투자할 필요가 있을까? 차트나 수치를 만져서 경영진이 듣고 싶은 이야기만 듣도록 하는 것이 조직의 미래에는 오히려 해가 되지 않을까?

이야기가 잠깐 옆으로 샜는데, 리포팅 업무 가운데 조직 구성원에게 현재 서비스의 현황을 전달하는 업무는 자동화될 수 있을 것이며, 서비스의 건강에 영향을 끼치는 여러 이슈 역시 자동화된 이상탐지 등으로 조기에 발견될 수 있을 것이다. 하지만, 이런 다양한 데이터 소스에서 경영진이 서비스의 개선 및 전략 수립을 위해 알아야 할 방향성을 찾아 설득력 있게 전달하는 일은 먼 미래에도 데이터 사이언티스트 고유의 업무로 남을 것이다.

맺음말

지금까지 데이터사이언스 자동화의 전망과 방향성을 정리해 보았다. 정확한 타임라인을 예측할수는 없지만 데이터 사이언스의 중요성과 전세계적으로 이루어지고 있는 연구개발 투자와 노력을 고려할때 매년 수많은 혁신이 등장하여 업계를 바꿔놓을 것이라는 점은 분명해 보인다. 데이터 사이언스 업계 종사자로서 꾸준히 신기술을 따라잡고 이를 통해 담당 업무를 개선하려는 노력을 기울여야 하는 이유가 여기에 있다.

이외에도 시사점을 몇가지 정리하면 1) 신규 개발 보다는 운영 및 유지보수 업무에서 자동화 기회가 훨씬 많다는 점 2) 종류에 관계없이 데이터 사이언스 업무 자동화에 코딩 및 머신러닝이 필수라는 점 3) 영역을 관계없이 완전 자동화보다는 업무의 부분적인 효율화를 통해 생산성을 높이는 방향으로 진행될 것이라는 점을 들고 싶다. 앞서 소개한 CACM 아티클에는 관련 레퍼런스도 많으니 꼭 읽어보기를 바란다.

keyword

Jin Young Kim IT 분야 크리에이터 소속 Naver 직업 데이터분석가

헬로 데이터 과학 저자

Head of Data Science & Director @ Naver Search US (한국/미국에서 분석가/엔지니어 채용중입니다!) 헬로 데이터 과학 /데이터 지능 팟캐스트

팔로워 5,477

매거진의 이전글바닥부터 제대로 만든 네이버 서치 AB Test 플랫폼차이를 만드는 분석을 위한 체크리스트매거진의 다음글