brunch

You can make anything
by writing

C.S.Lewis

by 플래터 Apr 29. 2024

의사결정을 위한 최소한의 빅데이터

[데이터 천재들은 어떻게 기획하고 분석할까?]를 읽고


총평 ★★★☆☆ 3.0 / 5.0   

빅데이터의 사용처, 활용 방식과 그 뒤에 자리한 기본적인 개념과 원리를 이해하기에 좋은 책

반대로 실무에서의 구체적인 사례나 노하우를 알려줄 것 같은 제목-‘어떻게 기획하고 분석할까?’-와 달리 이론과 개념만 있고, 실무자보다는 의사결정자에게 컨셉 정도를 알려주는 책


왜 읽었지?

24.04 DA로의 전환을 앞두고 데이터의 여러 활용 용도, 사례 등을 탐색하고자

이전에 이미 이런 책들을 몇 권 두루 읽고 기본 컨셉도 이해하고 있지만 제법 시간이 지난 탓에 리마인드가 필요하다고 판단함


이런 분들에게 추천해요   

사업, 제품, 서비스에 빅데이터의 적용 또는 활용 가능성을 염두에 둔 실무자 또는 의사결정자

교양 또는 호기심 차원에서 빅데이터에 대해 알아보고 싶은 누구나


인상 깊은 내용   


1. 활용과 의사결정은 기술과 지식의 바깥 영역. 데이터는 이를 도울 뿐이고 그래서 높은 수준의 커뮤니케이션 역량이 필요하다. 의사결정자에게 빅데이터가 필요한 이유는 개념을 알아야 결정할 수 있기 때문

“… 이때 부딪히는 문제는 인사이트를 찾아내는 데이터 사이언스 기술 밖의 영역에 있다.” (28p)

“결국 분석을 통해 도출한 인사이트를 가지고 지향하는 바는 더 나은 의사결정이다.” (47p)

”의사결정자는 빅데이터 분설의 메뉴판을 읽을 수 있어야 한다.” (53p)


2. 시각화의 핵심은 복잡한 것을 단순하게 보여주는 것. 분석가를 비롯한 기술 전문가의 커뮤니케이션의 핵심은 어려운 것을 추상화하여 비유하고, 복잡한 것을 단순화하는 것. 

핵심을 강조하고

불필요한 건 축약하거나 덜어내고

그러면서도 왜곡하거나 오도하지 않고


3. 비즈니스 데이터란 결국 사용자의 흔적, 단서, 파편이 담긴 기록이다. 데이터를 다룬다는 건 결국 사용자, 고객을 이해하는 행위이다. 

”비즈니스 데이터라는 것은 상품과 서비스에 대한 거래 기록이다.” (89p)

”구매내역에서는 육하원칙에서 왜(why, 구매 이유)를 뺀 나머지 다섯 가지 (What, When, Where, How, Who)가 기록되어 있기에 구매 이유를 추정할 수 있다.” (89p)


4. 데이터 분석 역량과 효용을 높이기 위한 조언

”데이터를 분석하기 전에는 무엇보다 전체 구조를 탐색해야 한다.” (109p)

”’데이터를 보는 눈’을 기르려면 다양한 데이터셋 data set을 경험해봐야 한다,” (110p)

“데이터 분석이 미지의 무언가를 한방에 깨우쳐주는 마법이라는 착각에서 벗어나야 한다.” (259p)

“내가 가진 질문이 구체적이고 도메인 지식이 심층적일수록 결과의 효용도 높아진다. 따라서 유의미한 텍스트 데이터 분석을 위해서는 끊임없이 의심하고 지속적인 탐구를 해야 할 필요가 있다.” (259p)


5. 분류와 예측

오차ε : ”아무리 좋은 X들이 있다 하더라도 X만 갖고는 Y를 정확하게 표현할 수 없는 경우가 많다는 뜻이다. (…) 그래서 항상 이 뒤에는 미지의 수 ‘ε(epsilon)’이라는 게 존재한다. 이를 우리 말로는 오차 error라고 한다. (129p)

손실함수 loss function : 실제 Y값과 모델에서부터 나온 Y값의 차이를 표현한 함수 / ε = Y - f(x) → 오차 → 이를 함수로 표현

비용함수 cost function : 손실이 클 때도 있고 작을 때도 있는데 이를 다 더하면 0이 되어 의미가 사라짐. 그래서 오차를 제곱한 스케일로 더해 표현한 게 비용함수 cost function

선형회귀의 목표 비용함수가 0이 되는 게 가장 좋지만 그런 경우는 없으니, 최대한 각 변수의 파라미터(W, parameter)의 최선의 조합을 찾아 실제 Y와 유사한 f(x)를 찾는 게 목표

즉, 이 모든 개별 값을 가장 잘 설명하는 단 하나의 직선을 찾는 것이 선형회귀의 목표


6. 군집화

          “데이터는 서로 다른 n개체에 대하여 p개의 특징을 관측한 것이다. (…) 이를 수학적으로 표현하면 데이터는 n X p 행렬이라 할 수 있다. 결국 데이터란 변수들의 모임이고 (…)” (150p)  

          내가 아는 기준보다 더 다양하고 새롭게, 정확하게 고객을 세그멘테이션 하여 마케팅 등에 활용할 수 있음  

          유사도와 거리 : 하나의 군집 내에서는 유사해야 하고 & 다른 군집끼린 서로 달라야 군집화가 잘 된 것. 이때의 유사함은 유사도 similarity라고 부르고, 점(관측치)과 점 사이의 거리로 정의한다

          매칭 계수 : 의견이 일치한 것을 바탕으로 한 유사도 > (a+d) / p  

          자카드 계수 : 의견이 불일치한 것을 제외한 유사도 > d / (b+c+d)  

          둘 다 공통으로 좋아한 것(a)은 서로의 유사함을 판별하는 근거가 될 수 있지만, 둘 다 싫어한 것(d)은 일치하더라도 둘의 유사함을 설명하기에 부적절할 수 있음. 이때엔 부정일치(d)를 제외하고 계산


7. 텍스트 데이터 분석

데이터 증가의 80% 이상은 비정형 텍스트 데이터

고객이 남긴 리뷰 등의 데이터를 통해 실제 고객이 인지하는 브랜드 등을 파악할 수 있음

벡터화 : 텍스트 데이터를 처리 가능한 형태로 수치화하는 작업

불용어 제거 : ㅋㅋ, ㅎㅎ 등 별도의 의미값을 지니지 않는 걸 제거

어근화 : 동사, 조사 등 파생 형태를 기본 형태로 통일

토큰화 : 전체 텍스트를 기본이 되는 단어로 자름

품사 태깅 : 단어의 품사(동사, 명사, …)를 태깅

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari