brunch

You can make anything
by writing

C.S.Lewis

by 삼더하기일 Jan 09. 2023

진짜 데이터 과학자라면 겪는 고충 ① 八方美人

팔방미인 - 여러 방면에 능통한 사람을 비유적으로 이르는 말

진짜 데이터 과학자라면 겪는 고충


빅데이터 분석가, 데이터 과학자, 데이터 사이언티스트, 데이터 전문가, 인공지능 개발자, 머신러닝 엔지니어 등 빅데이터와 인공지능이 발전하며 수많은 이름의 직업이 생겨났습니다. 그리고 이러한 수많은 직업들은 모두 데이터 과학자라는 넓은 범위 안에서 세부 분야로 발전해나가고 있습니다. 어느덧 데이터 과학자는 많은 사람들에게 친근한 단어가 되었으며 동시에 많은 사람들이 데이터 과학자가 되기를 원하고 있습니다. 하지만 데이터 과학자가 되는 것은 쉽지 않습니다. 물론 어떤 집단에서 데이터 과학자의 타이틀을 따기는 쉽습니다. 다만 데이터 과학자로서의 역량과 마음가짐을 모두 갖춘 진짜 데이터 과학자는 아직 너무도 희귀합니다.


그리고 이러한 진짜 데이터 과학자들은 어쩔 수 없이 데이터 과학자만의 고충을 가지고 있습니다. 어떤 일을 하던 각 직업마다의 고충은 있을 겁니다. 이는 데이터 과학자 역시 마찬가지입니다. 특히 진짜 데이터 과학자라면 말 몇 마디만 나누어도 쉽게 그 감정을 공유할 수 있는 공통된 고충이 있습니다. 이번 진짜 데이터 과학자라면 겪는 고충 시리즈에서는 진짜 데이터 과학자들이 겪는 고충이 무엇이 있는지에 대해 이야기해보도록 하겠습니다. 이를 통해 빅데이터/인공지능 분야에 친숙하지 않은 사람들도 데이터 과학자에 대해 깊은 이해를 가지는 것, 데이터 과학자가 되고 싶어 하는 사람들에게 진짜 데이터 과학자의 이야기를 전달하고자 합니다.


진짜 데이터 과학자가 되기 위해서는 너무도 많은 역량이 필요합니다.


진짜 데이터 과학자라면 겪는 고충 1편의 주제는 팔방미인(八方美人)입니다. 팔방미인은 여러 방면에 능통한 사람을 비유적으로 이르는 말을 뜻하는 사자성어입니다. 여러 방면에 능통하다는 이 팔방미인의 뜻은 데이터 과학자의 현실과 직결됩니다. 데이터 과학자들은 정말 많은 분야에 능통해야 합니다. 이 사실은 데이터 과학자들을 더욱 멋있어 보이게 만들 수도 있지만, 실제 데이터 과학자들에게는 어쩔 수 없이 고충으로 작용할 수밖에 없습니다. 데이터 수집부터 시작하여 관리, 모델 구축, 활용 가이드 전달 등 데이터 과학자의 역할은 매우 많고 이 역할을 수행하기 위한 역량도 다양하게 요구됩니다.


데이터 과학자에게 주어진 여러 가지 역할



진짜 데이터 과학자들은 모두 팔방미인이 되어야 한다는 고충을 생각해 보았을 때, 여기서의 팔방미인은 크게 두 가지 측면에서 생각해볼 수 있습니다. 바로 데이터 과학자에게 너무도 많은 역할이 요구된다는 것과 그 역할을 수행하기 위해 너무도 많은 역량이 요구된다는 것입니다. 먼저 데이터 과학자에게 요구되는 역할에 초점을 맞추어 생각해 보면, 데이터 과학자라는 폭넓은 업무를 맡게 되면 조직 내의 데이터 전반에 걸친 모든 업무에 관여도를 가지게 됩니다. 데이터를 열심히 활용하고자 하는 조직이라면 데이터 엔지니어링 업무부터 시작해서 인공지능 모델 생성 등 정말 많은 역할이 요구되게 됩니다.


사실 데이터 엔지니어링 업무, 인공지능 모델 생성 업무라고 하면 다양한 역량이 필요하다는 느낌이 많이 오지 않을 수 있습니다. 하지만 데이터 엔지니어링, 인공지능 모델 생성, 데이터 분석 등 조직에서 데이터가 관여된 업무는 모두 그 세부 업무가 너무나도 많습니다. 데이터 수집, 데이터의 저장 및 관리, 데이터 전처리, 데이터 분석, 모델 생성, 모델 관리, 분석 결과 생성, 활용 가이드라인 생성까지 이 모든 역할들이 다 데이터 과학자의 역할이라고 할 수 있습니다. 많은 조직들이 데이터 엔지니어, 데이터 분석가, 머신러닝 엔지니어 등으로 해당 업무를 분할하고 있기는 하지만 현재 수준에서 데이터 과학자라고 불리는 사람들이 이 모든 업무에 관여해야 하는 것은 어쩔 수 없는 현실 중 하나입니다.


데이터 과학자가 유지해야 하는 여러 가지 역량


이렇게 많은 역할이 데이터 과학자에게 기대되는 만큼 데이터 과학자라면 정말 다양한 분야의 역량을 갖추고 있어야 합니다. 일반적으로 데이터 과학을 공부한다면 프로그래밍 역량, 수학/통계학 역량, 도메인 지식 역량을 3대 역량이라 부르고 이 역량들을 지속적으로 학습해야 함을 강조합니다. 하지만 이 3가지 역량을 모두 갖추는 것은 절대 쉬운 일이 아닙니다. 프로그래밍은 지속적으로 작업을 하지 않으면 그 실력이 떨어지는 안타까운 성격을 가지고 있고, 수학/통계학에 일정 수준 통달하기 위해서는 너무도 많은 기반 지식과 학습 시간이 필요합니다. 이 3가지 역량 중 한 가지에만 통달하는 것도 힘든 것을 생각하면 진짜 데이터 과학자에게 너무 가혹한 역량이 요구된다는 것을 짐작할 수 있습니다.


아쉽게도 데이터 과학자에게 요구되는 역량은 위의 3대 역량으로 끝나지는 않습니다. 데이터 관리 및 추출을 위해서는 기본적으로 데이터베이스에 대한 이해도가 선행되어야 합니다. 또한 인공지능 모델을 설계하고 구축하기 위해서는 머신러닝/딥러닝에 대한 전문 지식이 따로 필요합니다. 이는 일반적인 통계학/수학과는 결이 다른 영역의 지식입니다. 그리고 데이터 문제를 인식하고 분석 과제를 수행한다면 현업 부서와의 소통을 하게 되고 과제가 종료된다면 결과를 설명해야 합니다. 이는 사용자 친화적으로 커뮤니케이션을 할 수 있어야 한다는 뜻이며 그에 맞는 결과물을 만들어내어야 한다는 의미입니다. 이는 모두 프로그래밍, 수학/통계학, 도메인 지식으로는 설명될 수 없는 분야입니다.


팔방미인을 유지하기 위해 데이터 과학자에게 필요한 것



지속적인 반복 학습


이렇게 데이터 과학자는 정말 많은 역할과 그에 따른 역량을 요구받게 됩니다. 그래서 학부와 대학원을 통틀어 데이터 과학자가 되고자 하는 학생들은 정말 많은 공부를 합니다. 다만 이러한 공부는 어떤 회사에 데이터 과학자로 취업을 한다고 끝나는 것이 아닙니다. 현직 데이터 과학자로 근무하는 사람일지라도 지속적인 학습은 필요합니다. 한 번 배운 사실을 영원히 잊지 않는 것은 사실상 불가능에 가까우며 필요한 업무에 따라 잊은 내용, 최신 트렌드에 대한 학습이 지속적으로 요구되기 때문입니다. 결국 인간은 망각의 동물이기 때문에, 다양한 역량을 유지하기 위해서라도 반복적인 학습이 필수일 수밖에 없습니다. 


이는 데이터 과학자에게 엄청난 고충이자 부담일 수밖에 없습니다. 조금만 달리 표현하면 데이터 과학자는 평생을 공부해야 하는 직업입니다. 갓 취업을 하고 사회초년생이 된 사람을 생각하면 많은 축하를 받고 마냥 행복하기 마련입니다. 물론 이는 데이터 과학자도 마찬가지입니다. 그러나 적어도 사람들이 직장을 얻었을 때 생기는 기쁨 중에는 다시는 취업을 위한 공부를 하지 않고 나의 삶에만 집중해도 좋다는 후련함이 있을 것입니다. 하지만 안타깝게도 데이터 과학자에게는 이 말이 해당되지 않습니다. 이제 다시는 학생 때처럼 공부하지 않아도 되고 그렇게 공부를 하지도 못합니다. 이 사실이 진짜 데이터 과학자들에게는 꽤나 큰 부담을 가져다줄 수밖에 없습니다.


도메인 지식 (Domain Knowledge)



진짜 데이터 과학자가 팔방미인을 유지하기 위해서는 정말 많은 공부가 필요합니다. 하지만 아쉽게도 단순히 공부로 해결이 되지 않는 문제도 있습니다. 그 대표적인 사레가 바로 도메인 지식입니다. 도메인 지식은 데이터 및 인공지능 모델이 적용되는 분야 자체에 대한 지식을 의미하며, 일반적으로는 비즈니스 전반에 대한 지식을 뜻하기도 합니다. 일반적으로 도메인 지식은 학생 신분에서 역량을 상승시키기 힘든 영역 중 하나입니다. 학생에게는 식품 산업, 의류 산업과 같이 특정한 도메인이 있을 리 만무하며 동시에 도메인 지식이라는 것이 공부로 그 역량 상승이 보장되지는 않기 때문입니다.


이러한 도메인 지식은 데이터 과학자로 일하는 데 꽤나 중요합니다. 많은 현업 부서와 커뮤니케이션을 해야 하기 때문입니다. 데이터 분석이나 인공지능 모델 생성을 요구하는 부서들이 어떤 문제가 있고 그 문제는 비즈니스 차원에서 어떻게 파생되었는지를 알아야 합니다. 그리고 도메인 지식이 있어야 현 조직에 필요한 정확한 솔루션을 제시해줄 수 있고 머신러닝/딥러닝 모델 등의 활용 방안 역시 생각할 수 있습니다. 속한 조직의 상품은 어떤 것이 있고, 그 상품들의 판매 전략은 무엇인지, 조직의 전반적인 비즈니스 방향성이 무엇인지에 따라 데이터 니즈는 달라질 수밖에 없습니다. 결국 진짜 데이터 과학자는 기술적인 역량뿐 아니라 데이터를 제대로 활용하기 위한 도메인 지식과 같은 장치들에게도 어쩔 수 없이 책임감을 가질 수밖에 없습니다.


못하는 것이 있을 순 있습니다. 다만 많은 것을 잘해야 합니다.


이번 진짜 데이터 과학자라면 겪는 고충 1편에서는 데이터 과학자는 팔방미인이어야 한다는 고충에 대해 알아보았습니다. 원론적으로 생각했을 때, 데이터 과학자들은 완벽해야 합니다. 못하는 것이 있어서는 안됩니다. 하지만 현실적으로 사람이 완벽할 수는 없습니다. 그렇기 때문에 데이터 과학자들은 각자 특정 역량에 특화되어 있는 경우가 많습니다. 하지만 아무리 현실적으로 완벽하기 힘들다고 할지라도 데이터 과학자들은 완벽을 추구해야 합니다. 수많은 역량 중 특정 데이터 과학자가 못하는 분야가 있을 수는 있습니다. 하지만 그 외의 수많은 모든 것은 잘해야 합니다. 겉치레뿐인 데이터 과학자가 아닌 진짜 데이터 과학자라면 어쩔 수 없이 겪어야 하는 부담이자 고충 중 하나입니다.


매거진의 이전글 쉽게 만나는 여러 가지 빅데이터 ③ AI 허브 (完)
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari