데이터 분석 공부로 배우는 사고 과정 3가지? -1-

21.09.13 - 일주일에 커리어/자기 계발 글 하나 발행 - 28편

by 오미셸 Michelle

Sep 14. 2021

안녕하세요, 미셸입니다 :)

(우선 어젯밤에 너무 늦게 글 초안을 완성하여, 구독자님의 브런치 알림이 너무 늦은 시간에 울릴까 오늘 아침 일찍 발행하는 점 양해 부탁드립니다~!)

지난 한 주는 어떻게 보내셨나요?

오늘은 오랜만에 데이터 분석 자체에 대한 글인데요,

이번 주에는 Udacity 데이터 분석 포트폴리오를 1차적으로 마무리 중이기도 하고,

최근 데이터 분석적으로 사고하는 사고방식이

분석가나 엔지니어 분들이 아닌 일반 분들에게도

일상생활 속 여러 이점을 줄 수 있을 것 같다고 느꼈거든요,

이를 바탕으로 오늘은 제가 어렵지만 재밌게 데이터 분석을 공부 중인 이유이자, 데이터 분석 공부를 통해 배우고 있는 사고 과정이자 현업 분들께 주워 들어 배운 내용들에 대해 정리해보고자 합니다.

직무 관련 내용이지만, 교양 차원에서 도움 되는 내용 쏙쏙 발견하실 수 있으면 좋겠네요 :)

https://youtu.be/dh99mAcZlDQ

썸네일이 참 자극적이죠? 제가 데이터 분석 공부를 하면서 발견한 영상으로 개인적으로 공감도 많이 했고, 여러 생각의 씨앗도 얻어 영감도 많이 받은 영상입니다. 데이터 마이닝 소프트웨어와 비즈니스 인텔리전스 솔루션 제공사인 마이크로 스트레티지의 CEO이자, 최근에는 비트코인 투자에 관한 다소 과감한 발언들로 유명했던 CEO 마이클 세일러는 지금 다시 대학생이 된다면 3가지를 꼭 배우겠다고 말했습니다.

통계학, 코딩, 커뮤니케이션 능력이 그 3가지 중추인데요, 영상 자체는 결국 이 3가지 능력으로 플랫폼에 올라타라고 결론이 나지만, 우선 이번 글에서는 저는 앞서 언급된 3가지 능력에 초점을 더 맞추고 싶습니다.

영상에서도 나오지만 우선 특수한 기술 스택인 코딩은 제외해볼게요. 그렇더라도 통계학이나 커뮤니케이션 능력은 비 기술자에게도 무척 중요합니다. 우선 통계학으로는 현실을 통계적으로, 구조적으로 인식하는 감각이 중요하기 때문입니다. 사실 우리가 받아들이는 정보들의 90% 이상이 노이즈인데, 그 노이즈가 노이즈임을 알기 위해서는 내가 인식하고 있는 사건들의 경중이 똑같은 가중치로 나에게 중요하지는 않다는 걸 아는 통계적 사고가 필수적이구요, 또 커뮤니케이션 능력이 중요한 이유는 혼자서는 아무것도 할 수 없는 세상이자 글로벌한 플랫폼에서 교류할 수 있는 세상에서 나의 이야기를 잘 전달하며 슬기롭게 타인과 협력하는 과정은 필수적이기 때문이라고 해요.

그리고 저 또한 이런 사고 과정의 중요성이자 유용성을 처음으로 가장 즐겁게 배웠던 책은 '팩트풀니스'라는 책이었는데요, 여러 경험과 이런 책들을 기반으로 지금의 데이터 분석 공부에까지 흥미를 갖게 된 것인데, 제가 데이터 분석 공부를 통해 배워가고 있는 분석 방법론이자 사고 과정 역시 위에서 언급한 통계적 사고 방식의 일환으로 실생활에 지혜로 활용할 수 있을 것 같더라고요.

1. 좋은 질문이 모든 분석적 사고 과정들의 출발입니다.

그리고 이런 상황이다 보니 데이터 분석 공부를 하다 보면 자연스레 '질문하는 방법'에 대해서도 고민하게 됩니다. 데이터 분석을 잘해나가기 위해서는 '호기심'과 '논리적 사고'가 꼭 필요하다고 여러 잡 디스크립션에서도, 소프트 스킬이나 역량으로도 많이 언급이 되는데요, 저는 그게 왜 그렇게 중요한가 싶었는데, 정말 '같은 데이터를 두고도 다양한 각도로 들여다보며 질문하는 방법'이 황금 같은 능력이겠더라고요.

언제나 그렇듯 일상에는 여러 문제들이 있죠. 그리고 이런 문제들에 데이터적으로 접근해 풀어나가는 과정이 결국 데이터 분석이 나아가는 방향 같아요, (기업이 컨설팅을 의뢰하면 데이터 분석 컨설팅이 되고, 자사 서비스의 문제를 풀어나가면 소속 데이터 분석가가 되고, 개인적으로 토이 데이터로 호기심을 풀면 사이드 프로젝트가 되고요.)

그 문제 풀이 중 예를 하나 들자면, 한 브라질 병원에서 어떤 환자들은 진료 예약은 걸어두고 자꾸 나타나지 상황이 있습니다. 사실 이게 그렇게 큰 문제야? 싶기도 하지만, 누군가는 나타나고, 누군가는 나타나지 않고, 그러다 보면 진료 대기줄이 밀리기도 하고, 애꿎은 환자들이 불편을 겪기도 하고, 병원 입장에서는 비용 문제로 환산되기 쉽습니다. 이러다 보면 대체 어떤 환자들이 자꾸 노쇼를 하는 건지, 병원에서는 그럼 그 환자들을 위해 어떤 구조적인 문제를 개선하면 좋은 건지 시스템을 정비해 나가고 싶겠죠.

(캐글 데이터 중 하나인 '브라질 병원 노쇼(No-show) 데이터'로 구상해보고 있는 예시입니다. 캐글(Kaggle)은 취업 준비생들이나 대학생들 사이에서도 유명할 뿐만 아니라, 데이터 분석, 머신러닝 등 현업 분들이 기업 실무 데이터로 공모전에도 참가할 수 있는 컴피티션 성지고요.(Kaggle))

그리고 이때 우리는 이런 환자들에 대해 알아가기 위해서, 여러 질문들을 던져볼 수 있어요. 단, 쪼개서요.

'당뇨병, 고혈압, 신체장애 여부 등 어떤 특정한 병력을 가진 환자들이 더 노쇼율이 높은 걸까?'

'아니면 특정 성별이 더 영향을 많이 미치는 걸까?'

'그게 아니라면 연령대가 노쇼율과 상관이 있나?'

'또 그게 아니면 진료 예약 시간과 진료 확인 문자 발송 시간이라도 상관성이 있는 걸까?'

이렇게 데이터나 문제에 대해서 들여다보는 각도를 여러 방식으로 두며 질문하는 것 자체를 '다양한 시각'이자 '좋은 질문'이라고 하는 것 같더라고요. 그리고 심지어는 데이터 과학에서 좋은 질문을 던지는 것 자체가 데이터 분석 툴을 배우고 프로그래밍을 배우는 것보다 더 중요하고 어려운 일이라고도 하던데, 저는 이런 질문 던지기 능력이 우리가 일상 속에서 개인적인 문제를 마주하는 데에도 매우 유용하고 중요하다는 인상을 받았습니다.

잘 아시다시피, 아인슈타인 님도 위처럼 올바른 문제 정의의 중요성을 역설했었죠. 게다가 이런 문제 접근적인 방법은 EDA 프로젝트 하나를 설계하는 데에도 엄청 중요하게 느껴졌어요.

사실 위에서는 '왜 환자들이 노쇼를 하는가?'였지만, 우리가 우리 일상에서 겪는 문제에도 좋은 질문으로, 더 구체적인 질문으로 접근할 수 있어요.

1. 왜 이 일이 일어나게 되었는가?

2. 그 원인에는 어떤 면면들이 있는가?

3. 각각의 면면들은 얼마나 기여했는가?

4. 이 문제를 해결하려면 어떻게 해야 하는가?' 등…

이처럼 여러 질문에서부터 쪼개어 출발해서 단계적으로 추적해 나가면서 문제를 해결해 나가는 거죠. 그런데 우리는 주로 이렇게까지 '다양한 측면에서 하나의 문제를 들여다보기'나 '같은 문제도 쪼개어서 접근하기'는 잘하지 않고, 이런 분석적인 사고 과정 자체를 배운 적도 잘 없죠. 그리고 사실 그렇기 때문에 더더욱 중요한 부분인 것 같아요.

예를 들어, '데이터 과학에서 가장 어려운 일'이라는 에세이에서는 '왜 우리 시스템이 느린 거죠?' 혹은 '우리 고객들은 어떤 배경들을 가지고 있죠?'라는 너무 커다란 질문들은 좋은 질문이 아니라고 합니다. 대신 더 정확하게, 질문으로 얻는 답으로 어떤 일을 할지 목적성을 갖는 질문이 더 좋다고 해요.

'우리 고객들 중 최고의 고객들에게 특정한 장소에서 홍보를 하기 위해 그들이 관심을 갖는 가장 빈번한 사회적인 원인들을 찾는다면 무엇일까요?'처럼 말이죠.

그리고 요즘처럼 복잡성이 높아지고 많은 우연적인 요인들이 하루하루 세계를 형성해 나가는 때에 이렇게 '쪼개어서 생각해보고, 왜 그럴까?'라는 좋은 질문을 던지는 능력은 얼마나 중요한 능력일까요? 그래서 우선 첫 번째로 소개드리는 사고 과정은 '쪼개어서 생각해보고 좋은 질문 던지기'입니다. 하나의 똑같은 현상이나 문제에 대해서도 오버 조금 보태어 360도로, 360가지 다른 질문으로, 360가지 방법으로 들여다보는 거예요.

저는 조금씩 이런 사고 과정을 연습해 나가고 있는 덕분에 요새는 질문 게시판에 질문을 올리면서도 굉장히 세세하게 '목적성을 가진 질문'을 올릴 수 있게 되었는데요, 뭘 모르는지 알기 위해서 적어도 지금 제가 알고 있는 부분이라도, 내가 생각하고 있는 과정이라도 세세하게 쪼개어서 생각하고 전달/질문하는 것도 중요하겠더라고요.

좋은 질문일지는 싶지만, (지금 보니 급한 마음에 문법도 틀려가며 작성해 놨네요ㅋㅋㅋ) 그래도 찰떡 같이 좋은 답변은 받았던, 세세하게 했던 질문이라 가져와 봤어요.

갑자기 영어라 당황스러우시죠. 그래도 이때 질문했던 것들을 요약하면, 제가 헷갈리고 있는 건 분명 있는데 뭘 헷갈리는 중인지도 사실 헷갈리고, 제가 이해하고 있는 논리가 맞는지 조차 모호했던 상황이었어요. 더 정확히는 부트스트래핑이라는 개념으로 샘플 데이터들을 반복 추출하고 모든 추출 가능한 샘플들로 CTR을 추정하는 상황이었는데, 정확한 모집단의 값과 샘플들을 반복 추출해서 추정할수록 결국 모집단의 값에 근사한 값으로 모집단을 추정할 수 있다는 개념이 다르다는 것, 그리고 이러한 상황들을 기반으로 '중심 극한 정리'라는 개념이 나올 수 있다는 것 등 개념 각각은 알아도 이 개념들이 서로 연결되기 때문에 저의 헷갈림이 발생 중이라는 전체 숲을 보지 못하고 있던 때였죠.

그래서 질문을 던질 때에는 '왜 A라는 행위를 하나요? 저는 ~~ 이유 때문이라고 생각하긴 하는데, 이게 사실은 상황에는 ~~ 하게 적용되어야 할 것 같기도 하구요. 제 논리가 맞나요? 만약 맞다면 ~~ 하게 예측할 수 있는 것 같은데 맞는 건가요?'라고 굉장히 사고 과정을 쪼개어서 던져 보았어요.

그랬더니 답변을 해주시는 멘토분은 제가 개념 개념들을 연결 지어서 이해하지 못하고 있다는 걸 알아차리셨고, 아래처럼 길고도 구체적이고, 단계적인 답변도 주실 수 있더라고요.

너무 만족스러웠던 답변이라 예시로 첨부하긴 하였는데, 직무 특수 내용이라 굳이 읽어보지 않으셔도 됩니다.

아무튼 이런 사고 과정은 경제 현상 하나에 대해서 생각하거나, 좋은 일이나 나쁜 일 하나에 대해서 생각할 때도 그 기반이 될 수 있는 여러 변수들에 대해 구조적으로 생각하기에도 큰 도움이 되는 것 같아요. 어떤 프로젝트 하나를 준비해야겠다 구상할 때도 굉장히 세세한 질문들을 기반으로 여러 스텝 별로 다르게 접근해서 생각을 뻗쳐 나가야겠다고도 생각하게 되었거든요. 그리고 이렇게 '쪼개어서 질문하기'는 누구나 충분히 일상 속에서 연습하고 실천할 수 있는 부분 같아요.

그리고 이 밖에도

2. 가설 설정 > 테스트 진행 (수치 검증) > 결과 분석 > 다시 가설 세우기...

3. 데이터 수집 환경/구조의 중요성 & 현실 데이터와 수집 데이터의 한계에 대한 인식...

크게 2가지가 더 있어요.

하지만 오늘은 우선 1편이고 말씀드린 것처럼 좋은 질문을 던지는 게 가장 중요하고 어려운 단계였던 지라 다음 편에서 2가지를 더 살펴볼게요 :)

그리고 오늘 하루는 어떤 문제를 마주하시든, 함께 요런 다양한 질문들을 던져보시면서 열어가시면 또 재미있지 않을까 싶네요.

그럼 오늘도 읽어 주셔서 감사합니다 :)

아래는 작가의 셀프 TMI

keyword