brunch

You can make anything
by writing

C.S.Lewis

by 삼더하기일 Jan 16. 2023

진짜 데이터 과학자라면 겪는 고충 ② 千變萬化

천변만화 - 한없이 변하여 변화가 무궁함

[이전 글]

https://brunch.co.kr/@8d1b089f514b4d5/73


진짜 데이터 과학자라면 겪는 고충


지난 진짜 데이터 과학자라면 겪는 고충 1편에서는 팔방미인에 대해서 이야기해 보았습니다. 진짜 데이터 과학자라면 수많은 역량을 동시에 함양해야 해 말 그대로 팔방미인에 되기를 강요받는다는 고충이 그 내용이었습니다. 이 때문에 데이터 과학자는 어쩔 수 없이 여러 역량에 대해 학습을 해야 함은 물론 데이터 과학자가 되고 나서도 지속적으로 공부를 해야 하는 부담과 고충이 있었습니다. 하지만 비단 데이터 과학자가 지속적으로 공부를 해야 하는 것은 꼭 팔방미인이 되기 위해서만은 아닙니다. 데이터 과학자는 여러 다른 이유로도 꾸준한 공부가 반드시 수반되어야 하는 직업입니다.


데이터 과학자가 지속적으로 학습을 해야 하는 이유 중 가장 큰 것을 하나 뽑으라면 트렌드의 변화를 이야기하지 않을 수 없습니다. 데이터 과학은 그 어떤 분야와 비교해보더라도 트렌드가 중요한 분야 중 하나입니다. 이는 어쩌면 빅데이터/인공지능 분야 자체가 트렌드로서 떠올랐기 때문에 생긴 일일수도 있습니다. 어쨌든 데이터 과학 분야에서 트렌드는 반드시 좇아야 할 대상이고 그 트렌드는 시시각각 변하기 마련입니다. 천변만화, 한없이 변하여 변화가 무궁한 분야가 바로 데이터 과학 분야입니다. 그렇기에 데이터 과학자는 언제나 자신이 모르고 있는 새로운 트렌드를 좇아야 하는 입장에 처해있습니다.


머신러닝/딥러닝 기술 트렌드 변화


데이터 과학자가 좇아야 하는 트렌드를 논할 때 인공지능 기술 즉, 머신러닝과 딥러닝 기술을 이야기하지 않을 수 없습니다. 최근 인공지능은 머신러닝, 딥러닝 두 가지 기술을 필두로 빠른 발전 속도를 보이고 있습니다. 인공지능이 머신러닝과 딥러닝 기술을 기반으로 빠르게 발전한다는 것은 머신러닝과 딥러닝 기술에서 새로운 모델이나 알고리즘이 지속적으로 등장하고 그것이 다시 인공지능의 발전을 이끌고 있다는 것을 의미합니다. 아무리 데이터 과학자라는 트렌디한 이름을 등에 업고 있다한들 그 안에서 구식의 방법론만 고집할 수는 없습니다. 진짜 데이터 과학자는 언제나 새롭고 유용한 기술을 받아들일 준비가 되어있어야 합니다.


최신 모델과 옛날 모델을 활용하는 것의 차이점



머신러닝/딥러닝 기술은 각 모델이나 알고리즘 간 우위를 비교하기 쉽습니다. 특정 데이터를 기반으로 인공지능 모델을 구축하였을 때, 다른 알고리즘으로 구축한 인공지능 모델과 그 성능을 비교하는 것 자체가 매우 쉽기 때문입니다. 그래서 인공지능 분야는 늘 새롭고 우수한 모델을 만들어내려는 연구가 정말 활발합니다. A라는 모델보다 B라는 모델의 성능이 우수하다면 그 B라는 모델을 이기기 위한 C라는 모델을 다시 만들어내기 위한 노력이 끊임없이 일어나는 분야입니다. 그리고 아쉽게도 C라는 모델이 새롭게 등장한다면 기존 인공지능 모델인 A와 B는 더 이상 활용을 할 이유가 없어집니다.


보통 머신러닝, 딥러닝 모델은 특정 데이터셋에 대해서 숫자로 그 정확도를 표현할 수 있습니다. 어떤 인공지능 모델은 정확도가 90%, 어떤 모델은 95%와 같이 그 정확도가 정량화되어 표시되고 있습니다. 그리고 당연히 인공지능 모델이 실제로 활용되기 위해서는 높은 정확도를 기록하고 있는 모델을 선택해야 합니다. 이때 최근 99%의 정확도를 지닌 새로운 모델이 출시되었다고 한다면, 그 이전의 모델들을 사용하는 것만으로도 시대에 뒤처진 데이터 과학자가 되고 맙니다. 적어도 '새로운 모델이 출시한 줄 몰라서 옛날 모델을 이용했다'는 말은 하면 안됩니다. 데이터 과학자가 천변만화로 인해 고충을 느낄 수밖에 없는 이유입니다.


데이터 과학자가 좇아야 하는 머신러닝/딥러닝 트렌드란?


그렇다면 데이터 과학자가 좇아야 하는 인공지능 분야에서의 머신러닝/딥러닝 트렌드란 무엇일까요? 가장 먼저 떠올릴 수 있는 것은 앞서 이야기한 것과 같이 새로운 모델과 알고리즘에 대해 지속적인 트랙킹이 있어야 한다는 점입니다. 앞서서는 간단하게 90%, 95% 정도로 인공지능 모델의 성능을 이야기했지만 실제 현업에서의 인공지능 성능은 그렇게 간단하지 않습니다. 텍스트, 이미지, 숫자 등 데이터의 종류에 따라서 앞도적인 성능을 보이는 모델이 탄생할 수도 있으며 회귀, 예측, 생성, 강화 등 인공지능 모델의 목적에 따라서 앞도적인 성능을 보이는 모델이 탄생할 수도 있습니다. 이때 이상적으로 데이터 과학자는 각 상황에 대비하여 가장 트렌디하고 우수한 모델 정보를 이해하고 있어 상황별 최적의 모델을 사용할 준비가 되어있어야 합니다.


다만, 데이터 과학자가 좇는 머신러닝/딥러닝 트렌드는 비단 최신 모델이나 알고리즘에 대한 학습이 전부인 것은 아닙니다. 하나의 인공지능 모델을 구축하기 위해 기술적으로 필요한 요소는 매우 많고 그중에 대표적인 사례가 알고리즘일 뿐입니다. 데이터 과학자는 데이터 전처리, 피처 엔지니어링, 학습 프로세스 및 파라미터 설계 등 여러 기술적인 작업을 진행해야 합니다. 그리고 당연히 각 작업마다 새로운 방법론이 등장할 수도 있습니다. 새로운 알고리즘에 등장에 비해 그 빈도가 작을 뿐 각 작업 단계마다 새로운 방법론이 등장하는 것도 데이터 과학 분야에서는 비일비재합니다. 그리고 데이터 과학자는 이 모든 요소에 대해 트렌드를 체감하고 있어야 합니다.


빅데이터 활용 트렌드 변화



활용 가능한 데이터의 변화 추적


천변만화로 인해 데이터 과학자가 겪어야 하는 고충 중 최근 알고리즘 및 모델에 대한 지속적인 학습은 어느 정도 인공지능 분야에 국한되어 있는 이야기이긴 합니다. 하지만 데이터 과학 분야를 빅데이터와 인공지능 분야로 단순하게 구분하여 생각할 때 빅데이터 분야에서도 분명 최근 변화와 트렌드에 대한 추적은 필요한 부분입니다. 그리고 그 대표적인 예가 바로 활용 가능한 데이터의 변화를 추적해야 한다는 점입니다. 일반적으로 데이터는 불변합니다. 하지만 우리가 실제로 활용 가능한 데이터로 그 범위를 축소시키면 데이터는 가변적입니다. 언제는 활용 가능했던 데이터가 사용 불가능으로 바뀌기도 하며 그 반대의 경우도 흔하게 발생합니다.


그렇기 때문에 데이터 과학자는 늘 본인이 활용할 수 있는 데이터의 변화를 추적해야 합니다. 데이터 활용에 변화를 일으키는 원인은 생각보다 다양합니다. 법률이 바뀌며 개인정보 이슈로 인해 보유하던 데이터를 삭제해야 할 수도 있으며, 새로운 공공데이터나 마이데이터와 같은 사업의 등장으로 활용 가능한 데이터가 갑자기 늘어날 수도 있습니다. 단언컨대 데이터는 데이터 과학 분야에서 가장 중요한 존재입니다. 보유한 데이터에서 정책이나 환경의 변화로 인해 이슈가 생길 수 있는 부분은 무엇인지, 목적을 이루기 위해 새롭게 수집하거나 구매 가능한 외부 데이터 요소는 무엇이 있는지 데이터 과학자는 늘 주의를 기울여야 합니다.


빅데이터 최근 활용 사례 탐색



마지막으로, 데이터 과학 분야에서의 업무는 시시때때로 변하고 있습니다. 데이터 과학의 등장 초기만 하더라도 단순한 인공지능 모델 생성 혹은 통계 분석 기법 정도를 적용하면 어느 정도 의미 있는 데이터 활용 결과로 인정을 받곤 했습니다. 하지만 최근 경향은 절대 그렇지 않습니다. 점차 데이터를 활용하는 목적과 그에 따른 분석 방법이 고도화되고 있습니다. 이제는 꿈과 같은 활용성을 지니기 위해 남들이 상상도 하지 못하는 방식으로 데이터를 이용하고 분석하여 참신한 결과물을 안겨다 주어야 하는 것이 데이터 과학자들에게 하나의 숙제로 자리 잡고 있습니다. 이렇게 새로운 방식으로 데이터를 활용하고 분석한다는 것은 데이터 과학자들에게 부담이 되지 않을 수 없습니다.


이때 데이터 과학자들에게 한 가지 희망이 있다면 바로 산학을 막론하고 다양한 조직에서 새로운 데이터 활용 및 방법론을 많이 공유해주고 있다는 점입니다. 그래서 다양한 빅데이터 활용 사례를 지속적으로 탐색하고 이해하는 것은 데이터 과학자에 있어서 본인의 업무 발전을 위해 정말 소중한 단서가 되곤 합니다. 하지만 반대로 말하면, 빅데이터의 활용 방식조차 천변만화하고 있는 상황에서 그 활용 사례들을 모두 추적하여 데이터 활용 방식의 트렌드를 이해하고 있어야 한다는 점 그 자체로 데이터 과학자는 고충을 겪을 수 있습니다. 이는 어찌 보면 기술적인 변화를 따라가는 것보다 더욱 막연하며 동시에 힘든 여정이 될 수 있는 길입니다.


트렌디한 직업이라면 트렌드를 늘 따라가야 합니다.


데이터 과학자를 두고 21세기에 가장 트렌디하거나 가장 섹시한 직업이라는 칭호를 붙여주고 있다는 점은 쉽게 찾아볼 수 있습니다. 말 그대로 데이터 과학자는 가장 트렌디한 직업 중 하나입니다. 하지만 트렌디한 직업을 선택했다는 것은 끊임없이 트렌드를 추구해나가야 한다는 것을 의미합니다. 그것이 이번 진짜 데이터 과학자라면 겪는 고충 2편에서 이야기한 천변만화의 핵심입니다. 진짜 데이터 과학자라면 지속적으로 발전하는 기술 현황을 잘 파악하는 것은 물론, 데이터 분야 전반에 걸친 이슈 사항들을 확인해야 합니다. 어찌 보면 이것은 데이터 과학자가 지속적으로 공부해야 하는 또 다른 이유 중 하나라고 볼 수 있습니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari