활용하면서 성장할 수만 있다면
일단 시작해야 성장하는 일은 주변에 많습니다. 예측도 그런 영역입니다. 일단 시작해야 더 잘할 수 있습니다. 문제는 시작을 제대로 된 방식으로 하는 것이죠. 많은 사람과 기업들이 제대로 시작하려는 것에서 저항하면서 많은 난관과 기회를 동시에 만들고 있습니다.
머신러닝은 예측의 현재를 만들었고 미래를 만들어 가고 있는 중입니다. 이미 많은 기업에서 머신러닝을 통해 예측 활동을 하고 있습니다. 당장 다음 달 매출 예상부터 쿠폰을 발행할 때 누구에게 어떤 카테고리와 브랜드로 발행해야 전환율이 더 높은지 기존에 주먹구구로 하던 일들을 가설과 실행, 피드백의 사이클을 계속 돌면서 더 나은 결과로 만들어가고 있습니다.
하지만 최근 본 기사 중에서 놀랐던 것은 여전히 많은 기업이 머신러닝이 무엇인지 모르고 향후 도입할 의사도 없다는 조사였습니다. 마치 양극화가 곳곳에서 일어나듯 기술의 활용도 그런 것 같습니다. 아예 모르고 있거나 모르는 상태에서 비싼 돈을 내고 아무것도 만들지 못하면서 아예 기술 자체에서 멀어지고 있는 게 아닌가 하는 생각이 들었습니다.
곰곰이 생각해보면 이런 기반에는 완벽주의가 자리 잡고 있는 것 같습니다. '처음부터 높은 정확도로 짠 하고 만들어 내야 한다', '유명 기업의 누가 와서 최신 알고리즘으로 만들어서 어디 알릴 수 있는 수준으로 만들어야 한다'는 생각들이죠. 실제 들었던 말들입니다. 데이터를 다루면서 예측을 하면서 이런 관념들은 업무 곳곳에서 조각들을 드러냅니다.
간단하고 비교적 단순한 알고리즘은 어떨까요? 사실 어지간한 데이터 분석 수업에서 듣는 알고리즘들은 이미 알려진 지 30년 이상 지난 것들이 많습니다. 최신 알고리즘의 이론적 바탕이 되는 내용이기에 항상 무엇을 배우든 다루어지고 있죠. 그렇다고 이런 알고리즘을 쓰는 게 뒤떨어지고 잘못된 선택을 하는 것일까요?
이유가 있으면 됩니다. 이 알고리즘으로 이 일을 한 이유가 타당하다면 되는 것입니다. 너무 복잡한 알고리즘은 설명하는 것만 해도 벅차서 설명력이 좋은 알고리즘을 썼다거나 회사 인프라 리소스가 부족해서 이걸 사용할 수밖에 없었다거나 실제 복합적인 알고리즘도 써 봤는데 결과 차이가 미미했다거나 타당한 이유가 있으면 되는 것입니다.
오히려 중요한 것은 성과 그 자체입니다. 기존에는 아무 사람에게나 막 날리던 쿠폰을 이런 예측 방법을 사용해 발행량을 제한해 고객 피로도를 줄이고 사용률을 높이면서 오히려 주문 수가 증가했다든지 하는 성과 말이죠. 어떤 알고리즘을 처음 써 봤다, 도입했다. 이런 이야기를 하고 나서도 그래서 얼마나 퍼포먼스가 나아졌는지 비즈니스에 임팩트가 있었는지 물어보면 말을 못 하고 다른 이유로 빠져나가는 이야기들을 들으면 정말 우리가 목적과 수단을 혼동하고 있지 않은지 되돌아보게 됩니다.
단순한 방법이지만 사람이 암묵지로 하고 있는 것을 모두가 알아볼 수 있게 설계된 코드로 누구나 재연할 수 있는 구조로 만들었고 어떤 가설로 만든 그걸 통해 실제 해 봤고 해 본 내용을 토대로 가설을 다시 수정하고 다음번에는 적용한 내용으로 다시 해 보는 사이클을 계속 돌고 있다면 거기서 성과는 만들어지는 것입니다. 인내심이 부족한 관리자를 만나면 더 빨리 더 자세히 가설을 세우고 학습하고 있고 조금이나마 나아지는 모습을 일단 보여주면 할 수 있는 일은 다 한 것입니다.
같은 방법을 사용하지만 누군가는 그런 방식으로 계속해서 커리어에 한 줄 이상 남길만한 무언가를 만들고 누군가는 '유명하지 않아서' , '단순해서', ' 몰라서' 한 두 번 해보는 혹은 하는 걸 보는 시늉 정도만 하고 덮어버려서 거기서 양극화가 만들어집니다. 저도 여러 직장에서 일하면서 같은 방법을 사용했지만 어디서는 학습 사이클이 돌아가면서 초기 대비 8배 이상의 전환율 상승을 이룬 사업 모델을 만들기도 했고 어디서는 시작부터 냉대를 받으면서 기존 대비 2배 정도 더 나은 결과를 만들었지만 중단된 경우도 있었습니다.
복잡하고 고도화된 방법도 써야 합니다. 하지만 일단 단순한 방법으로 성과를 조금 만들고 이 방향이 맞다고 생각한 이후에 해도 결코 늦지 않은 게 제 경험이었습니다. 콜럼버스의 달걀처럼 단순해 보이지만 시작하면 뒤는 발전적으로 따라옵니다. 넷플릭스가 초기 매년 대회를 통해 고객 취향을 알아맞히는 추천 모델을 발전시켰지만 대회가 시작한 지 몇 년 지나자 단순한 알고리즘 대비 10% 정도 더 우수한 차이를 내는 모델이 우승했는데 너무 모델이 복잡하고 무거워 실무에서는 당시 사용할 수도 없었고 대회는 중단되었다는 이야기를 책에서 읽은 적이 있습니다. 10%도 엄청 큰 숫자의 차이지만 10% 정도는 양보하고 속도를 택할 수도 있었던 것이죠. 물론 지금은 인프라의 발전으로 엄청 복잡한 모델도 실무에서 사용할 수 있게 되었지만 말이죠. 하지만 10%의 알고리즘 성능 개선보다 더 중요한 것은 더 좋은 데이터를 확보하는 것임을 생각해본다면 복잡한 것만 지향하는 것이 그렇게 실리적이고 장기적인 눈은 아닐 수 있습니다.
간단한 머신러닝을 무시해서는 안됩니다. 더 나은 방법을 아는지 모르는지는 중요한 차이일 수 있지만 더 나은 방법을 안 썼다고 무시받아서는 안됩니다. 다만 본질적인 성취를 위해 계속 나아가고 있는지를 보고 현재 상황에 맞는 전략적 선택을 하고 있는지 생각하면 됩니다.