3) 최고의 성능을 만들어내기
회사에서의 빅데이터 vs 학교에서의 빅데이터
지난 회사에서의 빅데이터 vs 학교에서의 빅데이터 1편과 2편에서는 각각 학교와 대비되는 회사에서 빅데이터를 다룰 때의 특징을 살펴보았습니다. 다시 그 기억을 되새겨보면 학교에서 데이터를 다룰 때와 달리 회사에서는 사내 시스템을 이용해 모든 데이터 처리를 다 진행해야 했으며, 데이터 셋을 만드는 것 자체에 매우 많은 시간을 소요했습니다. 이는 분명 학교에서는 겪지 않아도 되는, 회사에서 빅데이터를 다루는데 드는 고충이라고 할 수 있습니다. 하지만 학교에서 빅데이터를 다룬다고 마냥 나쁜 점이 없는 것은 아닙니다. 학교에서 데이터를 다루려면 또 다른 차원의 애로사항이 분명 존재합니다.
보통 빅데이터를 다루는 학교라고 하면 특히 대학원을 이야기하는 경우가 많습니다. 그리고 일반적인 학부 생활과 차별화되는 대학원 생활의 특징은 바로 연구 활동을 진행한다는 점입니다. 연구 활동이라는 것은 일부 기업 내 연구소를 제외한다면 사실상 이 세상 속 대학원에서만 이루어지는 정말 독특한 활동입니다. 그리고 연구를 진행하기 위해서는 연구를 위한 법칙들이 몇 가지 존재합니다. 빅데이터 분야라고 해도 이는 예외가 아닙니다. 특히 빅데이터 분야 중 가장 높은 인기를 끌고 있다고 볼 수 있는 머신러닝 및 딥러닝 분야는 분야만의 암묵적이면서도 독특한 몇몇 규칙이 존재합니다. (https://brunch.co.kr/@8d1b089f514b4d5/2)
2등도 불만족스러운, 꼭 1등을 위한 결과를 만들어 내야 합니다.
머신러닝과 딥러닝을 포함한 인공지능 분야로 범위를 좁혔을 때, 모든 연구자의 연구 목적은 이전에 존재하는 그 모든 모델보다 더 우수한 새로운 모델을 개발하는 것 일라고 볼 수 있습니다. 얼핏 보기에도 느낄 수 있지만 이는 절대 쉬운 일이 아닙니다. 이미 빅데이터와 인공지능 유행이 시작된 지 꽤 긴 시간이 지났기 때문에 이 세상에는 너무도 많은 인공지능 모델이 존재하고 있습니다. 그리고 새롭게 연구를 통해 그 모델보다 우수한 새로운 모델을 내놓을 수 있다는 것은 분명 엄청난 가치가 있는 일입니다. 한편, 이전에 존재하는 모델에 못 미치는 성능을 보여주고 있다면 아쉽게도 그 논문은 학술지에 실리기까지의 과정이 매우 험난할 확률이 높습니다.
가치 있는 연구가 필요한 연구자
모든 학술지와 연구자들은 늘 가치 있는 연구를 추구합니다. 여기서 가치 있는 연구란 무엇일까 생각해보면 문제가 매우 심오해집니다. 다만 본질을 생각해 보았을 때, 가치가 있는 연구란 해당 분야 자체에 발전을 가져다주거나 사회에 적용할 요소가 많은 결과물을 도출하는 연구라고 할 수 있습니다. 이를 잘 생각해보면 연구의 가치 측면에서 기존 모델보다 성능이 떨어지는 모델을 절대 긍정적으로 바라볼 수 없습니다. 이미 더 좋은 인공지능 모델이 있는 상황에서 새로운 모델을 사회에 적용할 이유가 없으며, 성능 향상을 도출하지 못한 것이면 분야 자체에 대한 기여도도 확보되었다고 보기에는 어렵기 때문입니다.
그래서 특히 딥러닝 분야에서는 SOTA(State-of-the-art)라는 용어를 자주 사용하곤 합니다. SOTA는 현존하는 인공지능 모델 중 가장 우수한 성능을 나타내는 모델을 의미합니다. 결국 연구자들 입장에서 SOTA를 차지할 수 있는 새로운 모델을 발표하는 것은 가치 있는 연구를 위해 누구나 바라는 일입니다. 물론 이 세상 모든 연구 중 단 한 개의 연구만이 가치가 있는 것은 아닙니다. 딥러닝 분야의 경우 생성, 분류, 회귀, 군집화, 차원 축소 등 매우 다양한 종류로 구분이 되며 그 안에서도 데이터에 따라 1등을 차지할 수 있는 구석은 생각보다 많이 있습니다. 이 분야의 많은 연구자들은 이 중 어느 한 곳에서라도 학술적인 기여를 하기 위해 노력을 꾸준히 기울여오고 있습니다.
1등도 좋고, 2등도 좋고, 3등도 좋은 직장인
물론, 이 세상에 존재하는 모든 모델 중 최고의 성능을 만들어낸다는 것은 비단 학교에서만 가치가 있는 일은 아닙니다. 당연히 회사에서도 가장 우수한 성능의 모델을 새롭게 발표하는 것은 매우 긍정적인 일입니다. 그렇기에 구글, 네이버 등 거대 IT기업들은 많은 연구 인력을 활용해 꾸준하게 연구를 진행하고 있습니다. 하지만 일반적인 회사의 상황을 생각해 보았을 때, 반드시 1등 만을 추구할 필요는 없습니다. 100개의 경쟁사가 있다면 1등은 당연히 좋고 2등도 좋고 3등도 좋습니다. 1등에 대한 가치는 유사할 수 있어도 기본적으로 학교와 회사에서 모델의 성능을 바라보는 것에는 근간에 깔린 분위기에 많은 차이점이 있습니다.
이 지점에서 직장에서는 빅데이터를 다룰 때는 어느 정도 수준의 성능을 추구해야 할까에 대해 고민해볼 필요도 있습니다. 다시 한번 말하지만 회사에서도 역시 모델의 성능은 우수할수록 좋습니다. 하지만 인정받을 수 있는 임계치는 생각보다 낮게 형성되어 있을 수 있습니다. 사실 빅데이터를 활용한 인공지능이 효과를 보는 것은 그리 어렵지 않습니다. 대부분 인공지능 모델은 이를 활용하지 않을 때 보다만 더 우수한 성능을 보여준다면 충분히 사업적으로 활용이 가능합니다. 무작위 사업 활동과 대비했을 때, 성과가 향상된다는 것만 보여주면 회사에서의 빅데이터는 충분히 그 가치를 증명해낼 수 있습니다.
학교와 회사에서의 예외 케이스
학교에서 1등이 아니어도 좋을 때
많은 빅데이터, 특히 머신러닝과 딥러닝 분야 연구자가 1등을 위해 노력을 기울이고 있는 것은 분명한 사실입니다. 다만 그렇다고 1등이 아닌 경우 무조건 그 가치가 없다고는 볼 수 없습니다. 여기에는 매우 다양한 예외 케이스도 존재합니다. 빅데이터 분야에서는 데이터의 수를 늘리거나 종류를 다양화하는 방법, 기존의 알고리즘을 개선하는 방법, 새로운 알고리즘을 만드는 방법, 기존 알고리즘을 합치는 방법 등 다양한 방법들을 SOTA 모델 생성을 위해 사용합니다. 이때 우리는 기존의 알고리즘을 개선해서 인공지능 성능을 개선하는 것도 분명 가치가 있는 일이라는 것에 주목할 필요가 있습니다.
예를 들어, 매우 창의적인 아이디어를 적용해 새로운 알고리즘을 지닌 모델을 생성한다면 이는 SOTA가 되지 않더라도 인정을 받을 가능성이 충분히 있습니다. 새로운 알고리즘을 만들었다면, 새롭게 생성된 그 초기 알고리즘은 향후 개선될 여지가 매우 많을 수 있기 때문입니다. 즉, 언제든지 지금의 SOTA를 새롭게 갈아치울 수 있는 가능성을 보여줌을 의미하는 것일 수도 있습니다. 또한 인공지능이 아닌 일반 데이터 분석 연구라면, 그 결과를 수치적으로 측정하기 힘든 경우도 많습니다. 이 때는 SOTA를 따지기보다는 새로운 인사이트를 도출했는지 혹은 기존 학술 이론들에 어떤 변화를 가져오는지 등에 집중을 해 그 연구의 가치를 따져야 합니다.
회사에서 더 성능에 집중해야 할 때
앞서 회사에서는 학교에 대비했을 때 확실히 인공지능 모델의 성능에 부담이 덜하다고 했습니다. 이는 분명한 사실입니다. 하지만 이것이 언제나 진리인 것은 아닙니다. 회사에서는 매출과 비용을 모두 따져 좋은 인공지능 모델을 정의하는 경우가 많기 때문입니다. 이러한 이유로 무작위 확률보다 좋은 인공지능 모델이라는 것은 하나의 최소 기준일수 밖에 없습니다. 비즈니스와 시장 상황, 경쟁사의 행보 등 그때그때 상황에 맞게 요구되는 성능이 다르다는 점이 회사에서 빅데이터의 큰 특징이라고 할 수 있습니다. 투입되는 비용 및 시간이 매우 작은 경우라고 상상을 하면 사실 회사에서 데이터를 통해 낸 성과에는 매우 쉽게 만족을 할 수도 있습니다.
하지만 때로는 무작위보다 더 좋은 성능을 지니고 있다고 하더라도 그 성능이 너무 미비해 지출되는 비용이 아까울 수 있습니다. 그리고 때로는 회사의 매출 자체가 너무 떨어져 인공지능 모델을 통해 기하급수적인 성능 향상을 기대해야 하는 경우도 있습니다. 이 경우에는 이 세상의 모든 모델보다 더 성능이 좋은 SOTA를 구축하는 것과는 비교도 안 되는 압박감이 작용할 수도 있습니다. 물론 회사에서의 빅데이터 vs 학교에서의 빅데이터 2편에서 설명했듯 그 차별점을 데이터 셋 생성에서 가져갈 수 있다는 점에서 이를 학교에서의 압박감과 동일 선상에 놓고 비교하기에는 한계가 있기도 합니다.
이상을 추구하는 학교 내 빅데이터
회사에서의 빅데이터 vs 학교에서의 빅데이터 1,2편에서 살펴본 회사에서의 빅데이터 특징을 종합하면 회사에서는 다소 빅데이터를 다룸에 있어 현실을 추구한다는 점이었습니다. 이때 이 문장의 반대를 생각하면 학교에서의 빅데이터의 특징을 간추려 이해할 수 있습니다. 학교에서는 늘 그 누구보다 뛰어난 모델 생성을 목적으로 합니다. 모델 생성을 목적으로 하는 연구가 아니라면 적어도 새로운 인사이트 혹은 기존 이론에의 기여가 반드시 있어야 합니다. 결국, 그 누구도 발견 혹은 발명하지 못한 새로운 미지의 영역을 찾아간다는 점이 학교에서의 빅데이터 그 첫 번째 특징이라고 할 수 있습니다.