brunch

매거진 Freak Ideas

You can make anything
by writing

C.S.Lewis

by 괴짜분석가 Jul 04. 2019

데이터에 대한 얘기들

"데이터"라는 단어는 어느 한 분야의 소유물이 아니기 때문에 다양한 분야의 분들에게 좋은 말씀을 많이 들을 수 있었고 많은 인사이트를 얻었던 것 같습니다. 이런 얘기들을 정리해서 공유하면 많은 분들께 좋은 인사이트를 드릴 수 있을 것 같아 열심히 기억을 더듬으며 글을 적었습니다. 여러 분야에 계신 분들께 들은 얘기라 서로 충돌할 수도 있고, 읽으시는 분의 관심사에 따라 저와 다르게 받아들일 수도 있으니 이런 부분 고려하고 봐주시면 좋겠습니다.

분명히 밝히자면, 아래의 모든 내용은 제가 아니라 훌륭한 분들 (대부분 교수님 혹은 관련 업계 종사자)에게 직간접적으로 들은 내용이며 저는 그저 기억을 더듬으며 정리하고 주석을 달았습니다. 원래 명언은 유명한 사람이 하고, 명언 정리는 저처럼 배우는 과정에 있는 초심자가 하는 거니까요. 만약에 내용이 좋다면 제 덕이 아닌 훌륭한 말씀 해주신 덕입니다.



데이터란 무엇일까요?


데이터는 발자취다

사람이 눈길을 지나가면 발자취가 남죠. 데이터 역시 무언가 남긴 발자취입니다. 기술의 발달로 이런 발자취를 더 자세하게 더 많이 모을 수 있다는 점에서 다방면에서 활용이 가능해졌습니다. 그러나 한 편으로는 이런 당연한 속성이 간과된 체로 "데이터 = 마법"으로 알려지는 부작용도 있는 것 같습니다. 세상의 문제 중에는 발자취만 가지고 풀 수 없는 것도 있으니, 가능한 것과 불가능한 것을 구분할 필요가 있겠습니다.

회사에서 데이터를 통해 뭔가 하려고 하는데 데이터가 이미 알던 것과 일치해서 딱히 뭘 해야 할지 모르겠다는 얘기를 들은 적 있습니다. 이는 데이터가 가진 속성이니 당연한 얘기이고, 데이터 수집을 넘어 무엇을, 어떻게, 왜 모으는지 고민해야 하는 이유인 것 같습니다.


데이터는 신호와 소음이 같이 있다

주식 시장, 부동산 시장에서 나오는 정보도 모두 데이터입니다. 데이터 그 자체로 온전한 것이라면 사람들은 대체로 옳은 선택을 할 수 있었겠지만, 일반인은 물론이고 수많은 전문가들도 쓴 맛을 보는 것이 이런 시장입니다. 여러 이유가 있겠으나 대표적인 문제는 데이터에 신호와 소음이 같이 있기 때문입니다. 신호를 잘 캐치하는 게 중요하겠지만, 쉽지 않을 것 같습니다.


데이터는 변한다

데이터는 발자취이고, 발자취를 남기는 주체가 변한다면 데이터 역시 변하겠죠. 따라서 어떤 모델링을 할 때 현재 시점에서 잘 맞았는지만 보면 후에 변할 것에 대응하지 못합니다. 주기적으로 모델을 변경하거나, 변할 것조차 반영해서 모델링을 하거나 두 방법 중 하나로 해결해야겠습니다.


빅데이터는 실패하지 않게 하고, 스몰데이터는 성공하게 한다

여기서 말하는 빅데이터는 일반적으로 쓰이는 빅데이터의 의미와 조금 다릅니다. 아마도 정량적 방법에 더 가까운 의도로 말씀하신 것 같고, 스몰데이터는 정성적 방법에 가까운 것으로 보입니다. 최근 몇 년 동안, 정말 많은 스타트업들이 인공지능으로 무언가 해결하겠다는 얘기를 많이 했고, 대체로 망했습니다. 이 기사의 필자인 엄태웅 님은 첫 번째 원인으로 AI로 ㅇㅇ을 만든다 할 때, ㅇㅇ보다 AI에 집중했기 때문이라고 말합니다. 실패하지 않게 하는 기술을 가지고 성공할 것을 기대했다는 의미입니다. 카카오톡, 토스 같이 성공한 회사가 처음부터 빅데이터로 무엇을 하겠다, 인공지능으로 무엇을 하겠다 생각하며 나왔을까요? 사람들의 작은 불편함을 관찰하고 모바일로 채팅하게 하자, 송금을 간편하게 하자 같은 아이디어에서 출발했을 겁니다. 그렇게 성공한 후에는 실패하지 않기 위해 빅데이터 기술을 발전시키고 적용시키고 있죠. 우리 회사의 상황에 따라 써야 할 데이터는 다를 수 있습니다.


빅데이터는 10대의 섹스와 같다. 모두가 얘기하지만 아무도 제대로 모른다

저는 빅데이터로 뭘 했다는 말을 들으면, 우선 느낌조차 안 옵니다. 빅데이터가 무엇인지 잘 모르겠으니까요. 이 점을 재밌게 비유한 것 같아 가져왔습니다. 우리는 이런 기사와 같이 빅데이터를 남발하는 얘기를 쉽게 볼 수 있습니다. '통신 빅데이터로 실제 인구수를 추정했다' 이런 얘기인데, 여기서 "빅데이터" 대신 "데이터"를 쓰면 의미가 조금이라도 달라지나요? AI라는 용어 역시 마찬가지입니다. 구글에 ai speaker를 검색하면 smart speaker로 리다이렉트 해서 결과를 보여줍니다. 한국을 제외하면 일반적으로 smart speaker라고 하니까요. 아마도 이런 것은 마케팅의 결과겠죠.

다시 빅데이터로 돌아오자면, 확실히 빅데이터는 라지 데이터와 다른 말인 것 같긴 합니다. 데이터가 엑셀로 안 열리면 빅데이터일까요? 관계형 데이터베이스 대신 하둡 베이스로 가면 빅데이터일까요? 단순히 용량이 많으면 빅데이터라고 할 수 없을 것 같습니다. 누군가는 (행동 데이터 기준으로) 어떤 상품을 구매했다만 모으던 것을 어디서 어떤 걸 보고 어떤 경로로 이동했고 등등 더 깊이 보는 걸 빅데이터라고 말씀하시던데, 일리 있는 것 같습니다. 하지만 여전히 뭐가 빅데이터인지 잘 모르겠습니다.


데이터 사이언스는 50% 과학, 50%는 아트다

데이터 사이언스라는 말 자체는 얼마 안 되었기 때문에 정확한 경계와 정확히 무엇을 하는 일인지 헷갈릴 때가 많습니다. 데이터 사이언스는 데이터로 하는 과학이라는 말도 있긴 하지만, 세상에 존재하는 모든 과학은 기본적으로 데이터로 분석하고 검증하기 때문에 정확히 와 닿지 않았습니다.

그렇다면 50% 과학, 50% 아트(예술의 아트보다는 Liberal arts의 아트입니다)라고 생각하면 어떨까요? 종종 수학이나 과학 과목을 왜 좋아하냐는 질문에 '답이 명확하게 떨어져서 좋아해요!'라는 대답을 듣게 되죠. 이게 과학입니다. 반대로 아트는 명확한 답이 없는 영역을 의미하겠죠. 데이터사이언스는 절대 기술만으로 이뤄져 있지 않기에 기술만 익히고 생각하는 것은 잘못된 접근법일 수 있습니다.

100% 과학이 아니기 때문에 이론이 중요한만큼 도메인에 대한 이해, 노가다, 설득과 타협, 선택과 개념 정의, 답이 없는 것에 대한 결단력 등도 중요하겠습니다.



데이터의 활용


평균만 보지 말고 분산도 봐라

평균은 정말 좋은 요약 정보지만 지나치게 압축시킨 정보입니다. 따라서 더 많은 정보를 보기 위해서는 다양한 관점에서 봐야 하고, 그중 하나가 분산이기 때문에 이렇게 말씀하신 것 같습니다. 마침 이 글을 쓰는 오늘 읽은 책 내용에 좋은 예시가 있어 가져와보겠습니다.

팩트풀니스 책에서 가져왔고 다음에 리뷰하겠습니다. 평균만 비교하면 남학생과 여학생 수학 점수 차이, 미국과 멕시코의 소득 차이가 존재하죠. 그러나 분포를 찍어보니 남학생과 여학생 성적에 겹치는 부분이 많고 미국과 멕시코는 상대적으로 적습니다. 이 분포를 통해 차이는 전혀 없다!라고 말할 수는 없겠지만 지능이 대체로 비슷하다고 할 수 있겠죠.

비슷하게 A라는 직업이 평균적으로 B보다 더 많은 돈을 번다면, B 일을 하는 사람이 A로 이직해야 할까요? 만약 A가 프리랜서 아나운서이고 B가 방송사 아나운서라면 어떨까요? 프리랜서 아나운서 중 잘 나가는 분들은 방송사에서 일할 때보다 훨씬 많은 돈을 벌겠지만 더 적게 버는 분들도 많을 겁니다. 개인의 선택이겠지만 프리랜서가 더 리스크가 크기 때문에 평균적으로 버는 돈만 비교하는 건 문제가 있어 보입니다.


쉬운 모델부터 써라

사람 욕심이란 게 더 최신 기술, 더 있어 보이는 것을 하고 싶습니다. 그러다 보면 문제의 본질에 맞지 않게 과한 작업을 하게 되고 소중한 시간을 날리죠. 그리고 사실 기초통계학 < 머신러닝 < 딥러닝 같은 말도 안되는 상하 개념은 존재하지 않습니다. 문제와 해결하려는 방향에 맞는 모델만 존재할 뿐이죠. 위 짤과 같은 상황이 없게 조심하자구요.


정확히 맞는 모델은 없지만, 확실히 틀린 모델은 있다

아마도 "All models are wrong, but some are useful"이라는 문구를 응용하신 것 같습니다. 저 같은 초보가 만든 모델도 얼추 괜찮을 것 같지만, 이런 착각을 미연에 방지하는 팩트 폭행입니다.


어느 회사도 데이터를 완벽하게 모으지 않았다. 경쟁사의 데이터가 없기 때문이다

저는 이것이 포커 게임 같다고 느껴졌습니다. 포커에서 내 패, 그리고 오픈된 카드만 보고 필승의 전략을 짤 수 있을까요? 당연히 아닙니다. 그러나 계산을 통해 확률을 계산하며 배팅하죠. 데이터를 아무리 열심히 모아도 내가 가진 패로만 전략을 짜는 것은 불가능합니다. 상대의 패와 히든카드를 모르기 때문이죠. 그렇지만 데이터를 잘 모으고 잘 해석하는 과정을 통해 확률을 계산하고 배팅하는 것은 가능하다고 생각합니다. 그런 의미에서 늘도 열심히 일하시는 회사원님들 파이팅입니다.


데이터로 인사이트를 얻었으면 실험해 봐야 한다

모델링을 했고 해석을 통해 X가 높아지면 매출이 높아진다는 결과를 얻었다면, 'X를 높여 매출을 올리자' 같이 생각하기 쉽습니다. 저 역시 그렇게 안일하게 생각했고요. 그러나 모델이 이런 경향성으로 값을 추정했다는 것과 현실이 그러하다는 것은 같은 뜻이 아닙니다. 따라서 가벼운 실험을 통해 실재로도 이런 경향성이 있는지 확인하고 큰 규모의 투자를 하는 것이 맞을 것 같습니다.


변수를 설명하지 못한다면 빼라

다소 극단적인 얘기지만, 생각해 볼만한 말씀입니다. 저의 경우 이탈 예측 모델링을 할 때, 고객 고유 번호가 중요하게 나온 적 있습니다. 말도 안 되는 것이 고객 고유 번호는 식별자일 뿐 의미가 없거든요. 알아보니 서비스에 가입한 순서대로 번호가 부여되어 일찍 가입한 사람일수록 낮은 번호를, 늦게 가입한 사람일수록 높은 번호를 받았습니다. 변수를 다 넣는 실수를 하는 바람에, 서비스를 오래 이용하면 이탈한다는 내용이 고객 고유 번호가 중요한 것처럼 된 거죠. 성능이 떨어지더라도, 사용한 변수들에 대해 설명하기 어렵다면 빼는 게 맞을 수도 있겠습니다.


우리는 더 나은 알고리즘을 가진 게 아니라 더 많은 데이터를 가졌을 뿐이다

이 분 구글 엔지니어 출신이신데, 사실 구글이 더 좋은 알고리즘을 다수 가지고 있지만 겸손 + 데이터의 중요성을 강조하기 위해 이런 말씀을 하신 것 같습니다. 데이터는 정말 중요하고, 정제된 데이터는 더욱 중요한 것 같습니다.


엄청난 주장에는 엄청난 근거가 필요하다

무려 칼 세이건이 말해서 더 유명해진 격언입니다. 그래서 세이건 기준이라고 불립니다. 원문으로는 "Extraordinary Claims Require Extraordinary Evidence" 라고 하며 줄여서 ECREE라고도 합니다.

제가 통계학을 처음 배울 때 그리고 통계학을 처음 배우는 분들에게 얘기 들을 때 영가설이 너무 유리하다(?)라는 생각을 하게 되는데요, 아마도 이런 철학이 기반에 있기 때문일 것입니다. 대체로 영가설은 통설적으로 그럴 것이라 예측하는 가설을 두고 대립가설을 그렇지 않은 걸 두는데, 통설을 뒤집을 정도로 강한 주장이라면 강한 근거가 필요하기 때문에 영가설이 유리해 보이는 것이죠.

최근 들어 이 말이 더 중요해보이는 이유는 데이터분석의 대중화 때문이기도 합니다. 대중화 된다는 것은 파이가 커진다는 점에서 좋기도 하지만, 동시에 (저를 포함해) 이론적 기반이 부족한 분들도 많이 유입되어 잘못된 분석으로 잘못된 주장을 하는 경우가 많다는 단점도 있습니다. 로또 번호를 딥러닝으로 예측할 수 있다던지, 랜덤표본인데 사전선거와 본선거 결과 차이가 커 선거가 조작되었다던지 같은 잘못된 주장들이 계속해 나오고 있습니다...

개인적으로 데이터분석은 배우고 활용하기 굉장히 쉽다고 생각합니다 (그래서 많은 분들이 데이터 역량을 기르려 하는 것이고). 하지만 동시에 엄청난 근거를 제시할 정도의 역량을 갖추기는 굉장히 어렵다고 생각합니다.

혹시 지금 엄청난 주장을 하려고 한다면 엄청난 근거부터 가져와 주세요.


사용 목적에 맞는 평가 방법을 고려할 필요가 있다

제 첨언보다는 원글 자체가 좋으니 링크의 글을 참고해주시면 좋겠습니다. 평가방법, 종속변수 자체에 대해 고민하는 것도 중요하다는 내용입니다.


클릭 수는 '불쾌감'을 측정해주지 않는다

역시 링크로 대체하겠습니다. "데이터 드리븐"만을 주장하며 데이터가 왜 그렇게 나오는지, 어떤 상황인지 생각하지 않는다면 단편적이고 잘못된 결론을 낼 수 있다는 내용입니다. 약간 첨언하자면, 성능이라는 것도 하나의 지표를 활용하는데 모든 지표는 각각의 장단 혹은 부작용이 있습니다. 따라서 지표 결과 좋으니까 데이터 드리븐으로 잘 만들었다고 생각하면 안 되고, 부작용에 대해 생각해봐야 합니다.

 

소속 집단에 대해 편견을 가지면 그 사람을 제대로 알 수 없다

나중에 관련된 글을 쓰고 싶은 주제입니다. 데이터 / 통계를 활용한다는 건 사실 집단에 대해 이해한다는 것입니다. 그래서 데이터 / 통계를 통한 결론은 해당 집단에 대한 결론이 되어야지 그 집단의 개인에 대한 결론이 될 수 없습니다.

말이 좀 어렵죠? 쉽게 예를 들어보겠습니다. '남자는 여자보다 힘이 쎄다'라는 것은 남자 집단과 여자 집단을 비교할 때 남자 집단이 쎄기 때문에 사실입니다. 하지만 여자A는 여자이기 때문에 남자B보다 약하다는 그 집단의 개인에 대한 얘기라 잘못된 말입니다. 우리는 집단에 쓰는 명제를 개인에게 쓰는 오류를 아무렇지 않게 일으키곤 합니다. 아마도 대부분의 성차별적 발언들도 이 오류에서 나오는 것 같고요.

물론 때로 이런 편견이 빠른 추론에 유리한 것이 사실입니다. 무거운 상자와 가벼운 상자가 있을 때, 남자에게 무거운 상자를 들게 하고 여자에게 가벼운 상자를 들게 하면 반대로 한 것보다 대부분 효율적이겠죠. 일종의 휴리스틱인 셈입니다. 누군가는 요즘 시대에 인구통계학적 정보가 더 이상 중요하지 않다고 하지만, 저는 이런 이유에서 여전히 효과적이라고 생각합니다.

하지만 어떤 사람에 대해 궁금하다면, 얘기하고 싶다면 그저 그 사람에 대해 알아보는 방법밖에 없습니다.



기타


어떠한 좋은 제어 테크닉도 좋은 디자인을 이길 수 없다

링크 내용은 레이블을 잘하는 게 중요하다는 내용이긴 합니다. 이 얘기를 하는 과정에 로봇의 디자인이 제어 테크닉보다 중요하다는 얘기를 하십니다. 제어 테크닉에는 머신러닝, 딥러닝 같은 알고리즘도 들어갈 수 있기 때문에 어느 정도 관련 있다 생각했습니다. 로보틱스뿐만 아니라 게임, 앱, 공정 등 다양한 상황에서 인사이트 있을 내용이라 생각해 가져왔습니다. 예를 들어 쇼핑몰을 운영한다 할 때, 우리 쇼핑몰의 구매 전환율을 높이기 위해 구매 가능성이 일정 수준 이상인 고객을 예측하는 모델링으로 쿠폰 지급하는 방법이 제어 테크닉이라면, 쇼핑몰 디자인을 개선하거나 구매까지 걸리는 프로세스를 단축시키는 게 디자인인 것이죠. 저는 데이터분석을 좋아하지만 제가 쇼핑몰 사장이라면 디자인 개선 작업에 더 투자할 것입니다.


모델을 인문학적으로 설명하는 것은 처음에 모델과 친해질 때는 좋겠지만,
제대로 반영하지 않는다

인문학적이라는 단어를 '비유적 표현', '쉽게 표현한 것' 정도의 의미로 사용하신 것 같습니다.

아인슈타인이 얘기했다고 알려진 것 중에 '당신이 아는 것을 할머니가 이해하도록 설명하지 못한다면 제대로 이해한 게 아니다' 이런 말이 있죠. 아인슈타인이 한 얘기가 아닐 거라고 생각하지만 (대부분의 명언은 멋진 말에 유명한 사람 끼워 맞춘 거지, 실제로 그 사람이 한 말이 아닙니다), 실제로 했다면 아인슈타인은 자기 이론을 제대로 이해하지 못했던 것 같습니다. 할머니가 아니라 당대 철학자들사람마다 시간은 사람마다 상대적으로 간다라고 잘못 이해했으니까요 (원래 알던 얘기인데 적절한 출처를 찾지 못해 나무위키 링크를 달았습니다ㅠㅠ).

머신러닝 모델도 마찬가지입니다. 대표적인 것이 앙상블에 대한 설명인데요, 앙상블에 대해 설명할 때 '약한 모델들을 합쳐 강력한 모델을 만드는 거다' 이런 식으로 얘기하는 것을 많이 봤습니다. 이것은 아마도 weak learner를 언급한 AdaBoost 논문의 내용이 워낙 흥미로워서 이렇게 구전된 것 같습니다. 캐글 같은 곳에서는 앙상블의 앙상블도 많이 하는데, 여기에 사용되는 하위 앙상블 모델들은 이미 그 자체로 충분히 좋은 모델들입니다. "약한 모델"이라고 퉁치기에는 너무 좋은 모델들인데 이걸 또 앙상블 한다면 설명과 안 맞죠. 앙상블은 기본적으로 특성이 명확한 여러 모델들을 통해 좋은 성능을 내자는 아이디어이고, 이 설명 역시 인문학적 설명이기 때문에 정확하지 않습니다. 잘 활용하려면 비유보다는 제대로 이해해야 한다는 얘기이고, 꼼수 부리지 말고 공부하라는 의도로 이렇게 말씀하신 것 같습니다.


나도 유클리디안 거리 쓴다

거리 계산법은 정말 다양하고 데이터에 맞게 잘 활용하는 게 중요하다고 배웠습니다. 그런데, 교수님도 회사랑 프로젝트할 때는 유클리디안 거리를 종종 쓴다고 하셨습니다. 어려운 얘기 하면 사장님들이 주무신다고... (농담이겠죠?) 어쨌든 현실에서는 이런 타협도 필요한 것 같습니다.


나도 아직 100% 이해한 건 아니다

종종 인터넷에서 '내가 그거 해봤는데 안 됐다. 하지 마라'와 같이 얘기하시는 분들을 봅니다. 또는, '내가 이거 아는데, 너 틀렸어. 공부 똑바로 해' 식으로 공격하시는 분들도 봅니다. 그런데 권위 있는 교수님이 나도 잘 모른다는 얘기를 서슴지 않고 하는 것이 놀라웠습니다. 지적 겸손함을 갖추고 계속해서 정진하려는 태도가 중요한 것 같습니다.



유머


일반인에게 normal은 평범하다는 뜻이지만,
통계학자에게 Normal은 아름답다는 뜻이고,
standard Normal은 미친 듯이 아름답다는 뜻이다.
마음에 드는 이성이 나타나면 "Normal하시네요"라고 말하자

농담이니까 따라 하지 마세요!


킬러 로봇을 두려워하는 것은 화성에서 인구 과잉에 대해 걱정하는 것과 같다

그 유명한 앤드류 응의 얘기입니다. 아주아주 먼 미래에는 가능할 수도 있는 일이지만 지금은 아무 의미 없는 논쟁이니 생산적인 얘기를 하자는 내용입니다.




*온라인을 통해 접한 분들의 경우 되도록 해당 글의 링크를 남겼으며, 오프라인으로 들은 내용은 별도로 출처를 적지 않았습니다.

* 제가 뭐 되는 사람이라 알려주는 게 아닌, 감명 깊게 들은 내용들을 공유하려는 의도로 만들었습니다.

* 제가 부족해 다른 글도 생각날 때 조금씩 수정하지만, 이 글의 경우 좋은 얘기를 듣는 대로 계속해서 업데이트하겠습니다.

* 분량 조절을 위해 이미 유명한 얘기들은 가져오지 않았습니다.

매거진의 이전글 XAI
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari