당신도 CDS가 될 수 있다고 설명하는 방식
최근 마감한 또 다른 기술 콘텐츠는 '시티즌 데이터 사이언티스트(Citizen Data Scientist, 이하 CDS)'를 다뤘다. 이 또한 인공지능 관련 주제이지만 납품처는 달랐다. 기존에 글을 납품하던 인공지능 회사가 아닌 다른 IT 솔루션 기업에 납품한 글. 이곳은 사업 포트폴리오가 다양한데 AI 관련 제품도 있다. 난 마케팅 메시지까지는 잘 모른다. 일단 CDS에 대한 일반적인 내용을 다룬 글을 요청받았다. 그쪽 제품군도 언급하긴 하는데 기존에 글을 납품하는 AI 기업만큼 큰 비중으로 쓰지는 않아도 됐다. 한두 마디 언급하는 정도.
주제를 지정받았기 때문에 내가 이 주제로 글을 쓴 이유는 크게 설명할 게 없다. 대신 CDS 개념은 이야기해도 좋을 듯. CDS는 직역하면 '시민 데이터 과학자'라고 표현할 수 있지만 사실 '시민'과는 큰 관련이 없다. 전문 데이터 사이언티스트가 아닌 사람, 데이터 사이언티스트로 정식 훈련을 받지 않은 현업 담당자를 아우르는 의미로 '시티즌'이란 수식어를 붙였을 뿐이다. 2015년 가트너에서 이 개념을 제시하면서 알려졌는데 글을 쓰면서 느낀 점은 가트너 정의도 되게 명쾌하다는 느낌은 들지 않았다.
가트너 정의와 여러 업계 전문가들의 정의를 종합하면- CDS는 ‘데이터 분석 전문가는 아니지만 머신러닝 같은 데이터 사이언스 기술을 지원하는 소프트웨어로 데이터를 분석하고, 새로운 인사이트를 발견하며, 예측 모델을 만들어 비즈니스 결과를 개선하려는 사람’이다. 통계학이나 코딩 기술을 몰라도 관련 소프트웨어를 사용해서 자신의 담당 업무와 관련된 데이터를 분석할 수 있다. 비즈니스 담당자, 인적자원관리(HR)·재무·마케팅 담당자, 소프트웨어 개발자, 엔지니어 등이 CDS가 될 수 있다.
요즘은 데이터 사이언티스트가 아닌 사람도 데이터를 분석하고 머신러닝 모델을 구축하도록 지원하는 소프트웨어가 많다. 많은 기능이 자동화돼 있다. 데이터 사이언티스트를 대체할 정도는 아닐 수 있지만- 보완재 역할은 할 수 있다. 데이터 사이언티스트는 수도 적고, 연봉도 높다. 기업에서 모시기 쉽지 않은 고급 인력이다. 데이터 사이언스 중요성은 나날이 높아지는데 모든 기업에서 이를 모시는 건 물론, 모든 부서에서조차 이분들 모시기가 하늘에 별따기다. 그러니 협업 담당자가 소프트웨어 힘을 빌려 일부 업무를 볼 수 있어야 한다.
글이 아직 발행되지 않아서 자세한 내용을 언급하지는 않으려 한다. CDS 자체에 대한 내용은 그 글을 보는 게 더 나을 수 있으니. 내 글이 아니라도 여기 찾아보면 CDS 관련 콘텐츠가 나온다. 난 SAS 콘텐츠가 참 잘 쓰였다고 생각했다. 쉽고 깔끔하며 알차게 이 개념을 서술하다니. 누가 썼는지 얼굴이 궁금할 정도였다. 그러면서 '난 이보다 더 잘 쓸 수 있을까? 그러고 싶은데' 답 안 나오는 고민을 했다. 노력은 했지만 더 좋은 콘텐츠인지는 모르겠고 최선의 글을 썼다. 요즘은 브랜드 콘텐츠를 보면서 많이 배운다.
내 글 개요는 이렇게 구성했다. 서두-본론 1(CDS 개념, 사례, 관련 소프트웨어)-본론 2(CDS가 떠오르는 5가지 이유)-본론 3(CDS 적임자 요건, 유의사항, 데이터 사이언티스트 미래와 보완재로써 CDS 의미)-마무리. 참고로 서두는 이 글을 쓰는 이유를 시의성과 아울러 압축해서 담았다. CDS가 기술 민주화와 맥이 닿아있다고 생각했다. 이에 내가 생각하는 기술 민주화 흐름을 그레이스 호퍼 사례부터 시작해서 언급했다. 이런 흐름이 이제 데이터 분석에도 나타나고 있다는 식으로 설명했다.
본론 1에서 개념을 설명할 때는 두 가지 버전을 담았다. 하나는 개념을 최대한 온전하게 풀어낸 정의라고 해야 하나. 어떤 사람들이 CDS가 될 수 있는지 예시를 들면서 분명하게 이해할 수 있도록 쓰고자 했다. 또 다른 개념은 가트너에서 정의한 개념을 썼다. 공식적인 정의로 많이 쓰이고 있으니 언급할만했다. 본론 1에서 사례는 CDS를 도입한 사례였다. 찾기 쉽지 않았는데 이를 다룬 어느 기술 기업 콘텐츠가 도움됐다. 윔블던 테니스 경기에서 선수들을 분석하고, 모 백화점에서 웹사이트 제품 추천 기능을 개선할 때 활용한 사례가 있었다.
본론 2에서는 CDS가 떠오르는 이유를 분석할 때- 데이터 사이언스 자체 중요성, 데이터 사이언티스트 수급이 불안정한 현실, 각 협업 담당자에게 데이터 사이언티스트 역량이 요구되는 현실, 관련 소프트웨어 시장, 현업 담당자를 CDS로 키우는 게 데이터 사이언티스트에게 비즈니스 도메인을 가르치는 것보다 더 쉽고 효율적(?)이라는 점을 제시했다. 본론 3에서는 누구나 소프트웨어에 힘입어 CDS가 될 수 있지만 아무나 될 수 있는 건 아니란 점에서 필요한 자질을 다뤘다. 보안 측면에서 기업이 유념할 점도.
아울러 본론 3은 CDS가 데이터 사이언티스트를 보완할 수 있지만 대체할 수 없는 까닭을 전망과 연결 지어서 썼다. AI가 사람 일자리를 잠식하는 것처럼 CDS도 그러는 것 아니냐고 생각할 수 있지만 아직 그렇지 않다는 전망이 우세하다. 그러나 불확실한 미래를 근거 없이 단정 지어 말하고 싶지 않아서 기술이 더 발전하면 데이터 사이언티스트 의존도가 더 낮아질지도 모르겠다는 식으로 마무리했다. 이미 소프트웨어 기능 상당수가 자동화돼 있고, 그 비중은 더 늘어날 것이다. 기술도 계속 발전할 테고.
글 작성순서는 다음과 같다. 자료조사-초고-퇴고 1-퇴고 2-퇴고 3-퇴고 4-마무리-퇴고 5-발송. 글을 정말 많이 뜯어고쳤다. 새로운 곳과 첫 작업이기도 하고, 익숙지 않은 개념인 데다, 일단 퇴고하는 데 고칠 게 너무 많았다. 글 구조도 많이 바꿨다. 넣었다가 뺀 내용도 있고, 넣었다가 뺐다가 다시 넣은 내용도 있다. 평소 다른 글보다 퇴고 시간이 더 길었다. 샤워하다가 문득 깨달음이 왔는데 그걸 반영해서 글을 고쳤더니 최종본이 좀 더 나았다. 일상 틈새가 이렇게 중요하다. 생각지 못한 아이디어를 얻을 수 있으니.
참고자료는 이렇다. 책, 연구기관과 정부부처 보고서와 글, 기술 기업 글, 국내외 매체 기사, 사전 등. 책은 서두 쓸 때 참고했는데 일전에 읽은 '세상을 연결한 여성들' 내용을 참고했다. 기술 민주화를 이야기할 때, 그레이스 호퍼 사례를 언급하려고 이 책을 활용했다. 보고서는 정보통신산업진흥원과 과학기술정보통신부-한국데이터산업진흥원 자료를 봤다. 정통진흥원 자료는 서두에 서비스로써 AI 민주화를 다룰 때 참고했다. 과기부와 데이터산업진흥원 보고서는 데이터 사이언티스트 부족률 수치를 참조했다.
연구기관 글은 가트너, 포레스터 글을 봤다. 가트너에서 CDS 개념을 제시하면서 알려졌다 보니 관련 글이 여럿 있었다. CDS 소프트웨어 자동화 이야기나 전망 등. 개념도 상세히 풀었고. 내겐 선생님이다, 선생님. CDS 개념과 관련 소프트웨어, 전망 등을 가트너 글에서 많이 참고했다. 기술 기업 글은 워크데이나 bmc, 캡테라, 아벤가 등에서 쓴 CDS 관련 자료를 참조했다. CDS 개념, 사례, 관련 소프트웨어, 자질, 전망 등을 골고루 활용했다. 납품 기업, 다른 기업 홈페이지도 참고했다. 납품 기업 홈페이지에서는 소프트웨어 기능을 참조했다.
국내외 매체는 컴퓨터월드(이상 국내), 포브스, CIO 등을 봤다. 이들 자료는 개념, 사례, 전망 등을 조사하는 데 활용했다. CIO 콘텐츠가 얼마나 좋은지 새삼 확인하고. 사전은 시사상식사전, 두산백과, IT용어사전을 봤다. 개념을 설명하기 위해 사전을 참조했다. 컴파일러, 코볼, 비즈니스 프로세스 등. 사전을 찾아보면서 느낀 점은 우리가 일상에서 흔히 사용하고 있지만 의미를 정확히 이해하지 못하고 관성에 기대서 쓰는 용어가 많다는 거다. 비즈니스 프로세스가 특히 그랬다.
작업하면서 느낀 점은- 보험 AI 글 작업이 끝나자마자 이 작업에 착수해서 기억이 혼재되는 것 같다만. 첫째, 개념과 작동방식이 생각보다 많이 어려웠다. 스스로 부끄러운 부분이기도 한데 처음에 CDS라고 했을 때, 난 단순히 직무 수준 이야기로 이걸 받아들였다. 일반 기술 콘텐츠와는 결이 다르고 어쩌면 비즈니스 콘텐츠에 더 가깝지 않을까란 생각도 했다. 그렇지 않았다. 이건 몹시도 기술 콘텐츠였다. 소프트웨어 힘을 빌려도 결국 기술을 다루는 이야기고, 기술로 이런 편의도 구현할 수 있는 거니까.
CDS를 이야기하려면 기존 데이터 사이언티스트 이야기를 해야 한다. 이들이 어떻게 일했고, 수급현황은 어떤지. 기존에는 어떤 한계가 있었는지. 소프트웨어는 어떻게 기능하는지. 소프트웨어 트렌드는 어떤지. 이를 활용한 사례도 결국 기술 이야기고. 개념이 익숙지 않은 내게 쉬운 이야기는 결코 아니었다. 공부하고, 조사할 게 많았으니. 관념적으로, 추상적으로는 이해해도 글로는 구체적이고 선명하게 풀어내야 한다. 결국 이해도 분명하게 해야 한다. 이 난관을 예상치 못하고 역시나 작업에 들어가서 큰 코(?) 다쳤다.
둘째, 내용을 이해하는 것뿐만 아니라 글로 풀어내는 과정도 역시 어려웠다. 한글 자료보다 영문 자료가 많고 이를 주로 참조했다. 내용을 번역하는 데 어색한 문장이 너무 많았다. 퇴고를 많이 한 이유도 이런 점 때문이었다. 영문 자료를 참조해서 글을 썼는데 우리가 평소 쓰는 표현이 아닌 게 너무 보였다. 그런 걸 충분히 안 고쳤다니. 퇴고하면 할수록 계속 고칠 게 보였다. 시간이 지나서라도 이를 발견하고 어떻게든 계속 고칠 수 있어서 다행이지만. 끝나갈 기미가 안 보이고, 글이 쉽게 잘 읽히지 않아서 자괴감을 느꼈다.
셋째, 앞서 언급했듯 글 구조도 내용도 많이 바꿨고 이 과정에서 자괴와 우울에 빠졌다. 퇴고를 할 때마다 내가 최선이라고 판단한 것들이 달랐다. 그러니까 최선인 줄 알았는데 최선이 아니었다. 이렇게도 바꾸고, 저렇게도 바꾸고. 구조를 이랬다, 저랬다. 보통은 퇴고 1에서 최대한 많이, 완성도 높게 고치고 여기서 대부분 작업을 완성하는데- 이번에는 이를 퇴고 2까지 가서도 계속했다. 퇴고 2쯤 돼야 겨우 완결구조를 갖췄는데 본론 2 특정 부분과 본론 3이 마음에 들지 않아서 퇴고 4쯤에 다시 고쳤다.
고치는 거 당연한데 이게 자괴와 우울까지 느낄 일이냐고 할 수 있다. 내가 무서웠던 건 내가 내 판단력을 온전히 신뢰하기 어려울 때가 있다는 거다. 글을 보내면 그쪽에서 읽고 검수하겠지만- 그전에 내 선에서 최대한 완성도를 높여야 한다. 누가 봐줄 수 있는 상황이 아니고 내가 책임져야 하는데 나도 전문가는 아니니까. 나도 조사하고, 공부하고, 배우고, 겨우 이해해서 글로 소화하는 마당인지라. 내가 오판하면 누가 이걸 거르고 바로 잡아줄 수 있지? CDS 글을 쓰면서 그런 부담이 많이 들었다. 도움을 요청할 사람이 없다.
넷째, 그저 내가 할 수 있는 거라곤 글 쓸 때마다 오판하지 않게 해 달라고, 오판한 게 있다면 이를 바로 깨닫게 해 달라고, 주술 호응 맞춰서 글을 쓰고, 한번 읽으면 쉽게 이해할 수 있는 문장으로 글을 쓸 수 있게 도와달라고, 글 사실관계를 정확히 확인해서 글 쓰게 해 달라고, 영문자료는 정확하게 이해하고 해석하게 해 달라고, 글과 문장 흐름이 유려하고 자연스럽게 글 쓰도록 해 달라고, 글 쓰는 사람으로서 윤리를 저버리지 않게 해달라고 강박적으로 기도하는 것뿐이다. 다행스럽게도 어떻게든 헤쳐나가게 된다.
다섯째, 또 다행스러운 게 있다면- 평소에 이것저것 보고 듣고 경험한 걸 글로 정리한 게 기술 콘텐츠를 쓸 때 도움이 됐다는 거다. 서두가 특히 그랬는데- 기술 민주화로 야마를 잡는 데 그동안 해온 것들이 많이 도움됐다. 내가 '세상을 연결한 여성들'을 읽은 것, 노코드를 활용한 협업 소프트웨어 글을 쓴 것, AIaaS 글을 쓴 것, 노션 CEO 이반 자오 인터뷰를 읽은 것, 지난해 SK 세미나를 들은 것 등이 그랬다. 특히 SK 세미나에서 기존 데이터 사이언티스트 한계를 들은 게 CDS 배경을 이해하는 데 유용했다.
돌아보면 쓸모없는 경험은 없고, 모두 어떻게든 하나의 선으로 연결돼서 도움된다는 생각이 들었다. 각 글을 쓰기 위해 내가 공부하고 조사하고 투자한 시간이나. 온오프라인으로 세미나를 들으러 다닌 시간이나. 순전히 개인적 관심사에서 어떤 책을 읽었던 시간이나. 새삼 느낀 점은- 평소 보고 듣고 생각하고 느낀 점을 꾸준히 기록해야 한다는 거다. 이번 글 서두를 쓸 때, 전에 브런치에 썼던 글이 많이 도움됐다. 지난 1년 동안 내가 브런치에 쓴 글로 내가 도움받는 상황이 올해 들어 하나둘 생기고 있다.
본의 아니게 많이 고민하고, 역시나 작업 과정이 괴로웠던 글이라서- 이 글을 마치고 나서 기분이 엄청 좋았다. 산책하는 데 투스텝 할 것 같고, 세상을 다 가진 기분. 피드백도 괜찮았다. 그냥 해준 말일 수 있지만. 마감한 뒤 아드레날린이 솟구치는 기분을 난 '마감뽕'이라고 부르는데 이것도 길어야 이틀이다. 또 다른 마감이 다가오고 있고 걱정스럽다. 그게 지나면 또 다른 마감이 있는데 이건 왠지 더 어려운 주제 같고. 그게 지나면 또 뭐가 오고. 각기 다른 일이 뫼비우스 띠를 이루고 있는 느낌. 벌써 6월. 나는 제대로 걸어가고 있는 걸까.