데이터 엔지니어, 데이터 분석가, 데이터 과학자
최근 추세를 보면 확실히 빅데이터 관련 직무로 취업을 원하고자 하는 사람들이 점차 늘어나고 있는 듯하다. 하지만 빅데이터 직무라고 할지라도 당연히 모든 사람들이 똑같은 일을 하고 있지는 않는다. 데이터 엔지니어링, 데이터 과학, 데이터 큐레이션 등 데이터나 빅데이터라는 단어 뒤에 많은 단어들이 새로 붙어 그 안에도 다양한 직무가 있음을 암시하고 있다. 사실 실제로 일을 해보지 않는 이상 이 직업들이 정확히 어떤 차이를 가지고 있는지에 대해서는 알기 어렵다. 그렇다 보니 데이터 분야 취업을 목적으로 하는 사람들에게는 구체적으로 빅데이터 직무가 어떻게 형성되고 있는지 파악하고자 하는 니즈가 있는 것 같다.
빅데이터 분야 안에는 어떤 직무들이 있는 거예요?
기본적으로 빅데이터라고 부르는 분야는 상당히 넓다. 우리가 일반적으로 생각하는 머신러닝이나 데이터 분석을 통한 인사이트 도출은 물론 데이터 수집과 이용 단계까지 생각하면 어쩔 수 없는 일이다. 그리고 빅데이터 분야 속 직무를 완전하게 구분 짓는 것 역시 어렵다. 기본적으로 일이라는 것이 명확한 기준에 의해 '이건 이 사람이 하는 일', '저건 저 사람이 하는 일'식으로 구분하기 힘들기 때문이다. 여기에 정말 다양한 산업에서 빅데이터를 활용하려는 니즈가 있다는 점도 빅데이터 직무 구분 짓기의 어려움을 높인다. 산업과 업종이 다르면 당연히 데이터를 활용하려는 방식이 달라지게 되고 이는 데이터 직무의 차이를 유발하기 때문이다.
그럼에도 불구하고, 빅데이터 속 직무를 구분 짓는 것에는 어느 정도 합의되어 이야기되는 부분이 있다. 크게 나누었을 때 데이터의 수집 및 관리를 목적으로 하는 것과 데이터 자체를 분석하는 것을 목적으로 하는 직업을 구분해 볼 수 있다. 여기에 조금 더 세부적인 기준을 세우자면 서술적 분석을 하는 사람인지 예측적 분석을 하는 사람인지에 따라 더 세밀화시켜보는 것도 가능하다. 그래서 흔히 사람들은 데이터 엔지니어, 데이터 분석가, 데이터 과학자라는 빅데이터 분야 대표 직업 3개를 정의해놓고 그에 따라 빅데이터 분야 직무 나누기를 시도하고는 한다.
데이터 엔지니어, 데이터 분석가, 데이터 과학자가 대표적으로 이야기되는 빅데이터 직무입니다.
데이터 엔지니어, 데이터 분석가, 데이터 과학자의 3가지 직무로 빅데이터 직무를 구분하는 것이 많은 인기를 끌고 있다. 하지만 솔직한 의견으로 이런 구분 방식을 좋아하지는 않는다. 위에 나온 3가지 직무가 서로 100% 다른 업무를 진행한다고 볼 수 없기 때문이다. 애초에 구분 방식이 조금 모호하다. 특정 사람이 하는 일을 보고 이 사람은 데이터 분석가 혹은 데이터 과학자라고 단정지어 말하기 힘들다. 이 때문에 이러한 직무 구분이 크게 의미를 가진다고 생각하지 않는다. 그래도 이런 구분 방식을 사람들이 많이 이용하고 있으며 이 개념을 이해하면 데이터 분야 자체를 이해하는데 도움이 되기에 이번 시간에는 소개를 한 번 해보려 한다.
기본적으로 데이터 엔지니어링을 하는 사람을 엔지니어, 분석을 하는 사람을 분석가, 데이터 사이언스를 하는 사람을 과학자라고 부른다. 인공지능 역시 빅데이터를 떼놓고 이야기할 수는 없기에 인공지능 전문가도 같이 포함하고 싶으나 일반적으로는 빅데이터 직무로 포함을 안 시켜 이번에는 그림 자료에만 넣어두도록 하겠다. 앞서 언급하였듯 데이터 엔지니어, 데이터 분석가, 데이터 과학자로 구분되는 빅데이터 분야 직무는 그 기준이 완전하지 않다. 3가지 직무 모두 빅데이터 자체가 가장 메인이라는 점에서 인공지능 전문가와 어느 정도 차별적이지만 그 안에서도 데이터 분석가와 데이터 과학자, 데이터 과학자와 인공지능 전문가는 특히 그 경계가 모호하다.
데이터 관리를 담당하는 데이터 엔지니어
그러면 데이터 엔지니어부터 각 직무에 대해 상세하게 살펴보도록 하겠다. 데이터 엔지니어는 기본적으로 데이터 관리를 담당한다. 여기서 말하는 데이터 관리에는 데이터 수집, 저장, 유지, 보수 등의 일을 포함한다. 결국 데이터 엔지니어는 다른 조직 내 구성원이 우리가 가진 데이터를 잘 활용할 수 있도록 온전한 데이터셋을 빠르게 전달하도록 하는 것이 가장 주된 목표라고 할 수 있다. 그렇기에 하둡, 맵리듀스 등 데이터 시스템에 대한 이해가 필요하며 관계형 데이터베이스, SQL처럼 데이터의 저장과 추출 방식에 대해서도 잘 알고 있어야 한다. 개인적으로 회사가 데이터를 활용하기 위해 가장 중요하면서도 먼저 구축해야 하는 분야가 데이터 엔지니어링 분야라고 생각한다.
데이터를 통해 인사이트를 도출하고자 하는 데이터 분석가
데이터 분석가의 경우 말 그대로 데이터 분석을 하는 사람들이다. 데이터가 주어지고 우리 조직이 이루어야 하는 목적이 정해진다면 그 목적을 이루기 위한 방법 생성을 돕기 위해 데이터를 분석한다고 보면 된다. 물론 흔한 경우는 아니지만 목적 없이 데이터를 분석하다가 특별한 패턴을 발견하고 그 결과를 비즈니스 적으로 활용하는 경우도 있다. 우리가 일반적으로 생각했을 때 '빅데이터로 분석해보니 이런 재미난 현상이 있었다고?'라는 결론을 만들어내는 사람들이다. 기본적으로 데이터 분석을 통한 활용 측면에 가장 초점을 맞추고 있기 때문에 데이터의 서술적 분석에 초점을 맞추고 있는 직무이다. 서술적 분석을 포함한 분석 종류를 잘 모른다면 이 글을 살펴보기 바란다. (https://brunch.co.kr/@8d1b089f514b4d5/7)
그리고 데이터 분석가의 경우 데이터 속에서 패턴을 찾고 그 패턴이 정말 신뢰할 수 있는 수준인지 아닌지 판단해야 하기 때문에 통계학적 지식이 많이 필요하다. 그리고 당연히 데이터를 분석하기 위해 Python이나 R 등 어느 정도의 프로그램을 다룰 줄 아는 코딩 능력도 필요하다. 마지막으로 데이터 분석가에 있어 가장 중요하다고 생각하는 역량은 시각화 능력이다. 시각화라 함은 보통 데이터를 그래프 형태로 바꾸어 표현하는 것을 의미한다. 어떤 데이터를 추려서 어떻게 해당 데이터를 가공하고 이를 디자인적으로 어떻게 표현하느냐에 따라 이를 활용하는 사람이 데이터를 받아들이는 방식이 달라진다.
데이터를 통해 미래를 예측하고자 하는 데이터 과학자
데이터 과학자 역시 그 기저에는 데이터 분석가와 마찬가지로 데이터를 통해 가치를 발굴하고자 하는 목적이 있다. 다만 수행하는 분석 방식에 있어서는 데이터 분석가와 조금 차이를 보이는데 데이터 분석가가 과거 또는 현재 데이터를 통해 어떤 데이터 간 패턴이 있는지를 파악했다면 데이터 과학자는 발견한 패턴을 바탕으로 미래를 예측하는데 노력을 기울인다. 흔히 말하는 머신러닝, 딥러닝 기술을 활용한다고 보면 된다. 조금 바꿔 말하면 예측적 분석을 주되게 수행하는 직무라고 생각하며 된다. 데이터 과학(Data Science)이라는 것 자체가 원래는 그런 의미가 아니지만 보통 머신러닝을 이용한 예측 분석의 의미를 많이 나타낸다.
데이터 분석가와 마찬가지로 데이터 과학자 역시 기본적인 통계 분야에 대한 역량과 코딩 역량을 어느 정도 갖추고 있어야 한다. 그리고 개인적 의견으로 데이터 과학자에게 가장 중요한 역량이라고 한다면 머신러닝과 딥러닝의 생태계 및 알고리즘에 대한 이해다. 흔히들 모델링을 진행한다라고 말을 하는데 모델링을 함에 있어 우리 데이터의 어떤 점을 보완해야 하고 우리 데이터와 분석 목적에 맞는 모델링 방식이 어떤 것이 있을지 판단할 줄 아는 것이 매우 중요하다. 물론 이것 자체가 인공지능 기술을 활용하는 것이기 때문에 앞서 잠시 언급하였던 인공지능 전문가와도 어느 정도 필요한 역량이 비슷하다 볼 수 있다.
이렇게 직무를 나누어볼 수는 있지만,
다 섭렵하겠다는 마음가짐이 좋은 것 같아요!
이번 시간에는 빅데이터 직무의 가장 대표적인 데이터 엔지니어, 데이터 분석가, 데이터 과학자가 무엇인지 간단히 알아보았다. 한 가지 중요한 점은 데이터 엔지니어 정도를 제외하고 데이터 분석가와 데이터 과학자의 차이가 정말 미묘하다는 점이다. 그리고 데이터 분석가가 할 일이라도 데이터 과학자가 하게 되기도 하고 그 반대의 경우 역시 흔하게 발견할 수 있다. 또 한편으로는 데이터 분석가로 불리는 사람이 과학자로, 데이터 과학자로 불리는 사람이 분석가로 불리는 것도 부지기수이다. 결국, 이 분야의 전문가가 되기 위해서는 이 직무 중 어느 것 하나만 잘하면 되겠지라고 생각하면 안 된다. 모든 분야를 다 섭렵하고자 하는 야망, 욕심이 있어야 빅데이터 분야의 업무를 능숙하게 다루는 인재가 될 것이라 생각한다.