빅데이터를 알고 싶은 초심자를 위한 안내서

SQL, 엑셀, 파이썬?, 내 업무에 빅데이터를 어떻게 활용하면 좋을까요

May 13. 2018

"세상은 지금
IT(정보기술) 시대에서
DT(데이터 기술) 시대로
가고 있다"

알리바바 마윈 대표가 2015년부터 각종 공식석상에서 말했던 빅데이터 시대, 이제는 먼 이야기가 아닙니다. 데이터는 앞으로 미래 시대의 쌀과 같은 존재로 AI, 4차 산업혁명 등 각종 화려한 이야기들 속에서 빠지지 않는 중요한 소재입니다.

미래 공상 과학 영화 속에서 현실로 만들 수 있는 신기술은 바로 빅데이터라는 분석이 있는 반면, 10년 뒤 유망 직업 1순위는 데이터 전문가라는 말이 있지요. 10년 후 당신의 직업에 가장 영향을 줄 기술에도 빅데이터는 인공지능과 함께 상위를 다투고 있습니다.

주변에서도 많은 빅데이터 전문가 양성을 위한 교육들이 근 1~2년 사이에 어마어마하게 많아지고 있습니다. 패스트 캠퍼스, DS스쿨들이 그 예입니다.

또한 회사 내 교육에서 빅데이터 관련 교육이 우후죽순처럼 생기고 있지요.

자, 이쯤 되면 궁금한 게 있습니다.

미래를 대비하기 위해서는 빅데이터를 꼭 다루어야 한다고 세상은 말하고 있습니다.

데이터 관련 수업들도 계속 생겨나고 있지요.

빅데이터 중요한 건 알겠어.
근데 왜 해야 하고,
어디서부터 뭐 어떻게 해야 하는 거야?

정작 빅데이터가 중요하다 정신없이 여기저기서 호들갑을 떨고 있지만, 정작 가장 중요한 총개론이라고 할 법한 것이 무엇인지를 잘 모를 때가 많습니다.

당장 [데이터 사이언티스트]라고 하면 미래를 위해 보장받은 구원된 사람들처럼 보이고, 나는 지금 있는 자리에서 대체 뭘 잘해야 할지 마음만 엄청 급합니다.

필자 또한 이러한 고민 속에서 약 1년간 헤맸습니다. 그리고 이 글은 바로 이 고민을 하시는 분들을 위한 "빅데이터 초심자들의 안내서"로 작성에 용기 내 보았습니다.

직간접적으로 약 100여만 원 이상을 데이터 강의에 쏟아부으면서 깨달은 피 같은 제 경험담입니다.

이 글은 아래와 같은 분들에게 권합니다.

빅데이터를 전문적으로 다루는 회사가 아닌 일반 회사원들

빅데이터가 뭐가 먼지 모르시는 분

빅데이터 강의를 들으려 하는데 엑셀, SQL, 파이썬, R 등이 구분이 안 되시는 분

엑셀조차도 이용이 버벅 거리는데 마음이 급하신 분

빅데이터를 위해 어떤 역량이 필요한 지 궁금하신 분

앞으로 제가 작성하는 글들은 어느 정도 초심자들의 이해를 돕기 위해 필자가 정리한 내용이니 오히려 정확한 정의보다는 맥락을 집어 나가며 적은 글이 다소 있을 수 있습니다. 이 부분 너그러운 마음으로 이해해 주시고 댓글로 소통해 주시면 감사하겠습니다.

내가 아는 언어의 한계가 곧 내가 사는 세상의 한계다 - 철학자, 루트비히 비트겐슈타인

(출처: unsplash)

1. 빅데이터에서 가장 중요한 것은 적재

적재라는 것은 데이터를 쌓는 것입니다.

흔히 우리가 생각할 때 데이터에서 착각하기 쉬운 것은 데이터가 이쁘게 어딘가 쌓여 있을 것이라는 것입니다.

그래서 데이터를 가지고 이쁘게 만들 의욕만 앞서게 되는 실수를 범합니다. 우선 잘 쌓여 있는 데이터 적재를 하는 것이 첫 단추입니다.

우리들이 생각하는 것 이상으로 데이터 적재는 이쁘게 쌓여 있지 않습니다. 만약 기업들이 데이터를 모을 생각을 하지 않는다면 결국 모두 흩뿌려져 있습니다.

사실 데이터 작업에서 가장 중요한 작업이 바로 적재입니다. 가장 많은 시간이 소요되고 전문 집단(개발자&기획자)의 의견이 중요한 부분입니다.

회사의 의사결정과 데이터 적재에 따른 환경적 상황에 따라 적재 방식에 대한 논의를 별도로 해야 할 정도로 적재에 대한 개념은 상당히 중요합니다.

무엇을 적재 할 것인가 고민하는 것도 중요합니다. 이러한 데이터 적재가 잘 되어 있는 곳이 바로 은행, 카드사와 같은 금융 회사이며, 일반 산업으로 보았을 때 온라인 커머스가 바로 그러한 예라고 볼 수 있습니다.

현재 O2O로 혁신을 부르짖고 있는 한국의 거대 제조업과 유통사들이 가장 힘들어하는 난관이 바로 이러한 데이터 적재에 대한 개념입니다.

의사결정을 위한 기본 data 적재는 가장 기본이자 중요한 것입니다. (출처: Red Stack Tech)

2. 양 보다 질 - 가설 설정이 중요

빅데이터라고 하면 도구를 사용할 생각에 많이 들뜨게 됩니다. 제가 그랬습니다.

인공지능이니 파이썬이니 머신러닝이니 전문 사이언티스트나 개발자가 들으면 어이가 없겠지만 새로운 도구를 아는 것만으로도 우쭐해지고 마치 토르의 망치나 아이언맨 갑옷과 같이 천하무적의 장비를 가진 듯한 착각에 빠지게 됩니다.

제가 데이터 사이언티스트 분과 함께 밥을 먹으며 어떤 도구를 앞으로 배워야 할지, 그리고 앞으로 커리어를 어떻게 가져가야 할지 고민을 나눈 적이 있었습니다. 그때 그분께서 제게 해 주셨던 말이 인상적이었습니다.

"도구는 사실 중요하지 않아요.
데이터는 가설 설정이 생명이에요.
어떤 변수로 어떤 결과를 보고 싶은지
그 뒤에 최고 효율의 도구를 선정하면 되는 거예요."

결국 탄탄한 가정과 가설 속에서 그것을 가장 효과적으로 도울 수 있는 적절한 도구 선정이 필요하며, 그 도구를 다룰 때 전문가 집단이 필요하면 그 집단에게 요청을 하면 되는 것이라고 생각하시면 됩니다.

마치 개발자와 디자이너와 이야기할 때 그들의 업무 용어와 배경을 알면 좀 더 업무 협업에 도움이 되듯 그때 빅데이터에 대해 조금씩 알아가는 것이 중요한 것이지요.

결국 어떤 도구를 사용하느냐 보단, 내가 발 딛고 있는 비즈니스의 어떤 데이터를 어떤 변수를 통해 보고 싶은지 가설이 중요합니다.

이것은 결국 내가 몸 담고 있는 업계와 직결되는 통찰력이 필요하다는 것입니다. 결국 마윈이 말했던 데이터의 인문학이 필요하다는 것이지요.

이러한 통찰력을 키우면 똑같은 날짜 데이터를 보더라도 다르게 볼 수 있습니다. 주말/평일, 월마다 추이, 계절마다 추이, 출근시간/출근이 아닌 시간, 요일별 추이, 작년/전월 대비 등의 데이터를 한 개 데이터 소스로 뽑아 볼 수 있지요.

올바른 가설 설정은 반드시 중요합니다. (출처: Funnys Ads Biz1)

3. 빅데이터 작업에 필요한 도구들

사실 일반 부서의 기준에서 많은 도구를 사용할 일이 많지 않습니다.

다만 다양한 도구를 적절한 상황에 사용하면 좋겠지만 그럴 수 있는 기회는 흔치 않습니다. 그러한 전제 조건하에서 여러분들의 눈높이에서 도움이 될 수 있는 수준의 도구에 대한 설명을 드리겠습니다.

사실 각 도구는 제가 크게 갈무리를 하기 위해 그렇게 설명한 것 일뿐, 칼로 자르듯 정의를 내리기에는 무리가 있습니다. 이점을 참고하시어 읽어주시면 감사하겠습니다.

엑셀: 기본 중의 기본, 가장 발달된 소통 방식

제 스스로에게도 되뇌지만, 이 글을 읽으시는 분들께도 조금 힘이 빠지는 말씀을 드리려고 합니다.

엑셀에 있는 기능을 잘 알고 다룰 줄 알아도 여러분이 계신 회사에서 꽤 데이터를 수준급으로 다룰 수 있는 수준이 되십니다.

빈도도 감히 말하건대 약 80% 이상이 될 것이며, 아래 설명드릴 도구들을 사용할 빈도와 활용 정도 또한 10%도 체 안될 것입니다.

또한 엑셀은 저희 같은 직장인들에게 가장 친숙한 도구로 보고를 올리거나 유관부서와 데이터로 소통하기에도 무리 없는 가장 일반적이지만 그렇기에 무시할 수 없는 위대한 도구입니다.

Hive, My SQL, 쿼리, BI

우선, 위의 단어들은 수평적인 정의가 아님을 밝힙니다. 어느 정도 어떤 작업을 지칭할 때 많이 나오는 단어이기에 묶어 두었습니다.

바로 데이터 추출입니다.

데이터 적재 방식은 각 회사마다 다른 방식으로 데이터를 모으고 있습니다. 그중 하나가 바로 Hive, My SQL이며 데이터를 뽑아내기 위해 명령어 값을 넣는 작업을 "쿼리를 짠다"라고 합니다.

데이터를 어느 정도 적재 할 수 있는 회사의 경우, 엑셀의 기본기를 익히신 후 데이터 추출에 대한 능력을 키우신다면 어느 정도 회사 내 업무를 진행하는데 무리가 없으실 수 있습니다.

R

R의 경우, 대학원 출신이시거나 학부생이셨어도 많이 들어보셨을 법한 친숙한 용어입니다. 주로 통계를 기반으로 한 작업을 많이 이 도구를 통해 다룹니다.

사실, 회사에서는 엑셀로 커버할 수 있는 방식이 상당히 대다수입니다. 하지만 자료 양이 상당히 많은 경우, 이를 가시화하여 보거나 보다 고차원적으로 통계로 돌려 볼 때 유용한 도구입니다.

파이썬

파이썬의 경우, 요즘 많이 뜨고 있는 머신러닝 도구라고 불리는 방식입니다. R과 같이 통계 자료를 볼 수도 있고 다른 웹사이트를 크롤링할 수도 있는 등 다양한 기능을 가지고 있습니다.

무엇보다 내가 염두하고 있는 몇몇 개의 변수를 추출하여 이를 알고리즘을 통해 기계 학습을 시킬 수 있다는 장점을 가지고 있습니다.

4. 데이터 주의 사항

데이터를 받고 가장 많이 하는 실수가 바로 원본을 훼손하는 것입니다. 그렇게 되면 데이터를 다룰 때 실수가 있어도 돌이키기 힘들게 됩니다.

꼭 별도로 사본을 만들어 저장을 한 뒤, 작업을 하는 것이 반드시 중요합니다. 그런 습관을 들여놓지 않으면 데이터를 다루는데 가장 아마추어적인 실수를 하게 됩니다. 데이터를 통째로 날리거나 원본 데이터를 찾을 수도 없게 되지요.

또 많이 실수하는 방식 중 하나가 의사결정권자가 데이터 원본을 중요하게 생각하지 않고 자신의 가설을 위해 원본 데이터를 훼손한다는 점입니다.

주로 전통 기업에서 있는 고위 직급자가 이런 실수를 범하는 경우가 많으며, 자신이 원하는 숫자가 아닐 경우 그 숫자를 훼손하는 경우가 있습니다.

데이터는 이렇게 알아두면 어느 정도 갈무리가 되지만, 그것을 모르고 무작정 배우기 위해 달려들면 쉽지 않습니다.

다음 시간에는 빅데이터를 활용할 수 있는 이런저런 상황들에 대해 설명드리도록 하겠습니다.

모쪼록 빅데이터를 처음으로 공부하고 업무에 반영하려고 하시는 여러분들께 조금이라도 도움이 되었으면 합니다.

여러분들의 좋아요와 공유, 댓글은 작가에게 큰 힘이 됩니다.

오명석

2번의 창업(여행, 플랫폼), 외국계 대기업 영업, 국내 대기업 전략을 거쳐
현재는 모바일 커머스 회사의 영업 전략을 담당하고 있다.

약 10여 년 안 되는 기간 동안 국내외, 큰 조직과 작은 조직들을 거치며

주로 조직 운영, 전략, 기획을 했으며, 이 외 전시, 의전, 영업, 인사 등 다양한 업무를 담당했다.

현재는 커머스 회사에서 유통의 트렌드를 분석, 사내 강사로 활동 중이며 영업전략으로 MD 및 파트너 조직 운영과 제도 기획 업무를 진행하고 있다.

자기계발과 직장생활, 스타트업과 유통 트렌드에 관심이 많다. (강연 문의: peter1225.oh@gmail.com)

이외 독립적이고 주체적인 삶에 대한 관심이 많아 400여 명의 사회인 독서모임 '성장판'의 공동 운영진(글쓰기 코칭), 30대를 위한 모임 '월간 서른' 공동 매거진 집필진으로 활동하고 있다.

keyword

매거진의 이전글생산적인 시간 활용에 필요한 신념 7가지성장을 가로막는 마음의 소리들매거진의 다음글