구독수 줄이기 위한 데이터 과학 스페셜 1

2017년 10월 7일

by yangpa

네, 저 데이터 과학이 본업입니다 모르셨죠 <- 일 년에 한두 번 하는 재방송 타임입니다 쿨럭.

저희 플젝 런칭이 미뤄진 것을 기념하야 (...) 빅데이터는 어떻게 해야 하는가에 대한 시리즈로 나갑니다. 배신감 느끼고 떠나실 구독자분들이 벌써 보이기도 하고, 제발 페미짓 좀 그만하고 예전에 잘 올리던 IT 글이나 올려라 하던 사람들이 너무 좋아할 거 같긴 하지만(설마 아직까지 구독하고 있을까 ㅡㅡ?).


빅데이터. 밑도 끝도 없죠. 이에 대해서 글을 몇 번 썼습니다. Okky 에 칼럼으로 쭈우욱 정리되어 있으니 가서 보셔도 됩니다 (링크 여기: https://okky.kr/articles/tagged/%EC%96%91%ED%8C%8C)

이번 시리즈에서는 데이터 엔지니어링 부분부분을 얘기합니다. 데이터 과학...은 사실 별로 없고요. 어쨌든.

사람들이 빅데이터 4차 산업 하면 뭔가 엄청난 인공지능이 세계를 장악할 거 같고 그런데, 우리 화장실의 치약을 봅시다. 그 치약도 누가 기획했을 거고 디자이너들이 미팅해서 시안 냈을 거고 또 미팅미팅하면서 결재 받았을 거고 모델 떠서 공장으로 넘겼을 거고 프로토타입 뽑았을 거고... 등등, 간단해 보여도 간단한 거 없습니다. 데이터도 마찬가지입니다. 뭐 자동적으로 샤샤샥! 처럼 보이는 거 그거 아니에요. 하나하나 다 디자인하고 연구하고 결재 받고 한 거잖아요

빅데이터 어쩌고 할 때 보면 '이런 자료를 가지고 이렇게 분석해서 이런 결과를 도출했습니다!' 이러는데요, 그 자료 그냥 모아지는 거 아닙니다. 요즘엔 괜찮은 데이터를 쉽게 구할 수 있다 하지만 보통은 데이터 디자인부터 시작해야 합니다. 그리고 데이터 모으면 절대로 안 깔끔해요. 아니 요리 하나 하려고 해도 재료 사와서 다듬어야 하는데 설마 데이터가 알아서 후드리찹찹 셀프 준비되어 나오겠습니까.


자, 그럼 이걸 부분부분 나눠봅시다.


1. 데이터 디자인 - 어떤 데이터를 보낼 것인가 결정

2. 데이터 보내는 기능 개발 - 데이터 모으는 객체에 데이터 모으고 보내는 프로그램 개발하고 깔기

3. 데이터 컬렉션 - 서버를 설치해서 객체들이 데이터 보내면 샤샥 받아 처리할 수 있게 함

4. 데이터 저장 - 받은 데이터를 데이터베이스에 넣는 부분.

--- 요기까지가 데이터 엔지니어링이고요


5. 데이터 다듬기. 요리도 하기 전에 고기는 핏물 빼고 면은 불려놓고 뭐 그래야 할 수 있죠. 데이터도 대강 다듬어 두어야 할 수 있습니다. 아주 잘게 다듬어야 할 수도 있고요.

6. 데이터 탐색하기. 여기서부터 데이터 과학 본격 시작입니다. 무슨 데이터가 있는지 보고 원하는 지표를 뽑을 수 있는지 등등 봅니다.

-> 이후부터 데이터 모델 만들고 테스팅하고 기계학습 돌리고 뭐 등등 여러 가지 합니다. 저는 1-4번 전문 팀이라 그 쪽 얘기를 주로 하겠습니다.


빅데이터 하는데, 실제로 데이터 분석은 한지 아주 오래되었습니다. 최근에 달라진 거라면 엄청나게 많은 데이터 생성 및 컬렉션이 가능해졌고, 대용량 연산이 가능해지면서 예전에는 불가능했던 모델도 돌릴 수 있고 그렇습니다.

그리고 중요한 것. 보통 빅데이터 할 때는 데이터 분석입니다. 실제 오래된 모델의 데이터 백엔드/웨어하우스는 그냥 그대로 돌립니다. 예를 들어 온라인 뱅킹 들어가면 은행 계좌 내용이 쭉 뜨죠. 그런 시스템을 위한 데이터 백엔드는 빅데이터 분석 부서랑 완전 다르다는데 돈 겁니다. 데이터가 아주 정확해야 하고 엄청 빠른 반응속도가 필요한 시스템과 빅데이터 처리 시스템하고는 보통 분리되어 있습니다. (일반화해서) 빅데이터 시스템은 처리하는 양이 많고 데이터 처리는 밀리세컨드 레벨 실시간보다는 분 단위, 혹은 시간 단위, 아니면 하루 지난 데이터까지도 씁니다. 다시 말하자면 웹로그 분석해서 트렌드가 뭔지 발견하는 시스템은, 사용자 로그인 정보가 저장되어 있어 로그인할 때 바로 반응하는 시스템과 아주 본질적으로 다를 가능성이 높습니다. (작은 팀이라면 같이 쓸 수도 있겠습니다만). 그러므로 빅데이터 시스템이 꼭 엄청 첨단을 달리고 빠르고 그렇진 않습니다. 보통 처리양이 워낙 많기 때문에 밀리세컨드, 나노세컨드 레벨의 반응과 은행의 정확성까지 맞추려면 (외환 거래 시스템 레벨) 천문학적으로 비싸집니다.

...얘기가 길어졌는데 어쨌든. 다음 글은 데이터 디자인입니다.


IT 관련 칼럼: https://okky.kr/articles/tagged/%EC%96%91%ED%8C%8C

keyword
매거진의 이전글빅데이터의 한계 / 왜 아직 인간을 필요로 하는가