brunch

You can make anything
by writing

C.S.Lewis

by B면 May 28. 2023

개발일지[1] 타이타닉 생존률 분석

스파르타코딩클럽 내일배움단 - 마케터, 기획자를 위한 실전 데이터 분석

1주차


[수업목표]

익숙한 엑셀을 통해 데이터 분석 구조에 대해 이해할 수 있다

파이썬과 라이브러리 개념에 대해 이해할 수 있다

각 데이터 간의 상관관계 분석을 할 수 있다


1. 가설

2. 가설의 유효성 검증

3. 만약 가설이 틀렸다면? 유의미한 데이터 찾아야 함


1) 가설

경찰 요구: 부유한 사람들의 생존율이 높았다. 관계가 있는지 확인해 달라!

확인할 내용:

1. 요금과 생존은 관계가 있는지

2. 관계가 있다면 왜 있는지

가설: 요금과 탑승 등급은 각각 모두 생존율과 관계가 있다.


2) 데이터 분석

step1. 데이터 전처리(정리)

빈 데이터가 있을 수 있으니 데이터 전처리 해야함

<전처리 방법>

1. 전체 열 선택

2. 필터링

3. 데이터가 빠진 행을 지움 / 임의로 데이터 추가하지 않고 모수에서 제거함


step2. 데이터 분석

프로그램을 활용해서 쌓아둔 데이터들을 정리하고 시각화하는 단계

1. 스프레드시트 부가기능 설치: XLMiner Analysis ToolPak

2. Correlation (상관관계 분석)

3. 인풋/아웃풋 레인지 설정

    인풋: 데이터가 나와있는 영역

    아웃풋: 상관관계 분석된 내용을 받을 영역

4. 나온 결과물 표를 차트로 변경

5. 확인하고 싶은 계열만 선택

    (이번 가설에서는 survived만 봄)


step.3 인사이트

상관관계 분석은 음/양수와 관련 없이 값이 클수록 영향이 크다고 봄

- 양수: 변수의 증가에 따라 같이 증가하는 것 / 비례

- 음수: 해당 변수가 증가하면 다른 변수는 감소하는 것 / 반비례

- 생존과의 상관관계: 성별 > 탑승등급 > 요금

분석 결과:  성별과 생존은 영향이 있다.


<탑승등급과 요금의 상관관계 분석 시각화 자료>

요금과 탑승등급은 관계가 있다. 

-> 근데 이건 당연한 거 아닌가..?

탑승등급은 생존과 관계가 있었고, 탑승등급은 요금의 영향을 받으므로

생존은 요금=탑승등급=부유함과 관련있다고 볼 수 있다.


3) 결론

Q. 경찰의 가설처럼 부유함은 상관관계가 있었나?

A. 

가설: 요금과 탑승 등급은 각각 모두 생존율과 관계가 있다. => O

하지만 성별이 더 높은 상관도를 보여줌



데이터 분석의 기본 Process

1. 문제 정의 및 가설 설정

2. 데이터 분석 기본 세팅

3. 데이터 분석

4. 분석 결과 시각화

5. 최종 결론



파이썬이란?

1-5) 파이썬 기초지식 엿보기


* 파이썬: 컴퓨터 언어의 번역팩

    사람들이 직관적으로 쓰기 편한 언어 중 하나!


파이썬 코드들의 모음집과 같은 라이브러리를 활용하면 엑셀보다 더 데이터 분석할 때 유용함!

라이브러리 1. pandas = 데이터 분석 2. matplotlib = 시각화




1주차 숙제

피마 인디언들을 포함해 세계인의 당뇨병 조기 발견 및 치료를 위해 우리 국제 보건 기구는

“당뇨병 발병에 가장 큰 영향을 미치는 요소는 글루코스(혈당) 수치라고 가설”을 내림.



1. 문제 정의 및 가설 설정

당뇨병 발병에 가장 큰 영향을 미치는 요소는 글루코스(혈당)이다.


2. 데이터 분석 기본 세팅

당뇨병 데이터 세트에서 당뇨병 발병에 가장 큰 영향을 주는 변수를 찾아낼 것

Pregnancies: 임신 횟수
Glucose: 포도당 부하 검사 수치
BloodPressure: 혈압(mm Hg)
SkinThickness: 팔 삼두근 뒤쪽의 피하지방 측정값(mm)
Insulin: 혈청 인슐린(mu U/ml)
BMI: 체질량지수(체중(kg)/키(m))^2
DiabetesPedigreeFunction: 당뇨 내력 가중치 값
Age: 나이
Outcome: 클래스 결정 값(0 또는 1)


3. 데이터 분석

- 전처리 후 프로그램 세팅

- Correlation 상관관계 분석 완료


4. 분석 결과 시각화

- 일단 차트 만듦

- 보고 싶은 변수만 남기고 계역 삭제해야 하는데.. 왠지 outcome 같아서 두니까 요지랄.. ㅠ 해설영상 틀어버림 하

- 행/열 전환하면 되는 거였음


5. 최종 결론

Glucose(혈당)이 가장 상관도가 높았다.


가설: 당뇨병 발병에 가장 큰 영향을 미치는 요소는 글루코스(혈당)이다. (O)

참으로 떨어짐.



1주차 후기

기본 조건: 나는 어찌저찌 회사는 다니고 있지만 엑셀 함수나 데이터나 뭐나 아무것도 모르는 사람.

그래도 나름 개발자한테 데이터 요청하고, 추출해 준 데이터를 읽고 해석하는 능력(?)은 있다고 생각하고 있다.


1.

왕초보용 강의이기 때문에 이걸 왜!해야하는지, 이렇게 하는 건 왜! 그런 건지 등 디테일한 설명은 없어서 아쉬웠다. 어쩌면 내가 못 들은 걸 수도 있겠지만? 그랬다...!


2.

데이터를 기반으로 한 의사결정이 중요하긴 하지만

사실 데이터라는 것이 해석한 사람의 의도에 따라 결과가 다르게 느껴질 수도 있는 것 아닌가?

타이타닉 사례에서도 가장 크게 영향을 준 것은 성별이었는데, 가설이 맞음을 증명하기 위해 가장 높은 영향을 미치던 변수는 제외하고 가설의 옳고 그름만 따졌다.

그래서 역시 .. 데이터 뽑고 분석하는 것보다 거기에서 인사이트를 뽑는 게 일할 때는 더 중요하다는 생각이 들었다.


3.

그래도 긍정적인 부분은,

항상 엑셀에서 차트만 뽑아서 비교하곤 했는데 XLMiner 같은 프로그램을 알게 됐다는 점!


이러나 저러나 기획자로서 일할 때 뇌피셜보다는 가공된 데이터라도 데이터를 보고 증명하고 싶기 때문에

열심히 듣고 개발일지도 남겨야겠다는 마음으로 1주차 공부 마침.



브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari