개발일지[1] 타이타닉 생존률 분석

스파르타코딩클럽 내일배움단 - 마케터, 기획자를 위한 실전 데이터 분석

by B면

May 28. 2023

1주차

[수업목표]

익숙한 엑셀을 통해 데이터 분석 구조에 대해 이해할 수 있다

파이썬과 라이브러리 개념에 대해 이해할 수 있다

각 데이터 간의 상관관계 분석을 할 수 있다

1. 가설

2. 가설의 유효성 검증

3. 만약 가설이 틀렸다면? 유의미한 데이터 찾아야 함

1) 가설

경찰 요구: 부유한 사람들의 생존율이 높았다. 관계가 있는지 확인해 달라!

확인할 내용:

1. 요금과 생존은 관계가 있는지

2. 관계가 있다면 왜 있는지

가설: 요금과 탑승 등급은 각각 모두 생존율과 관계가 있다.

2) 데이터 분석

step1. 데이터 전처리(정리)

빈 데이터가 있을 수 있으니 데이터 전처리 해야함

<전처리 방법>

1. 전체 열 선택

2. 필터링

3. 데이터가 빠진 행을 지움 / 임의로 데이터 추가하지 않고 모수에서 제거함

step2. 데이터 분석

프로그램을 활용해서 쌓아둔 데이터들을 정리하고 시각화하는 단계

1. 스프레드시트 부가기능 설치: XLMiner Analysis ToolPak

2. Correlation (상관관계 분석)

3. 인풋/아웃풋 레인지 설정

인풋: 데이터가 나와있는 영역

아웃풋: 상관관계 분석된 내용을 받을 영역

4. 나온 결과물 표를 차트로 변경

5. 확인하고 싶은 계열만 선택

(이번 가설에서는 survived만 봄)

step.3 인사이트

상관관계 분석은 음/양수와 관련 없이 값이 클수록 영향이 크다고 봄

- 양수: 변수의 증가에 따라 같이 증가하는 것 / 비례

- 음수: 해당 변수가 증가하면 다른 변수는 감소하는 것 / 반비례

- 생존과의 상관관계: 성별 > 탑승등급 > 요금

분석 결과: 성별과 생존은 영향이 있다.

<탑승등급과 요금의 상관관계 분석 시각화 자료>

요금과 탑승등급은 관계가 있다.

~~-> 근데 이건 당연한 거 아닌가..?~~

탑승등급은 생존과 관계가 있었고, 탑승등급은 요금의 영향을 받으므로

생존은 요금=탑승등급=부유함과 관련있다고 볼 수 있다.

3) 결론

Q. 경찰의 가설처럼 부유함은 상관관계가 있었나?

가설: 요금과 탑승 등급은 각각 모두 생존율과 관계가 있다. => O

하지만 성별이 더 높은 상관도를 보여줌

데이터 분석의 기본 Process

1. 문제 정의 및 가설 설정

2. 데이터 분석 기본 세팅

3. 데이터 분석

4. 분석 결과 시각화

5. 최종 결론

파이썬이란?

1-5) 파이썬 기초지식 엿보기

* 파이썬: 컴퓨터 언어의 번역팩

사람들이 직관적으로 쓰기 편한 언어 중 하나!

파이썬 코드들의 모음집과 같은 라이브러리를 활용하면 엑셀보다 더 데이터 분석할 때 유용함!

라이브러리 1. pandas = 데이터 분석 2. matplotlib = 시각화

1주차 숙제

피마 인디언들을 포함해 세계인의 당뇨병 조기 발견 및 치료를 위해 우리 국제 보건 기구는

“당뇨병 발병에 가장 큰 영향을 미치는 요소는 글루코스(혈당) 수치라고 가설”을 내림.

1. 문제 정의 및 가설 설정

당뇨병 발병에 가장 큰 영향을 미치는 요소는 글루코스(혈당)이다.

2. 데이터 분석 기본 세팅

당뇨병 데이터 세트에서 당뇨병 발병에 가장 큰 영향을 주는 변수를 찾아낼 것

Pregnancies: 임신 횟수
Glucose: 포도당 부하 검사 수치
BloodPressure: 혈압(mm Hg)
SkinThickness: 팔 삼두근 뒤쪽의 피하지방 측정값(mm)
Insulin: 혈청 인슐린(mu U/ml)
BMI: 체질량지수(체중(kg)/키(m))^2
DiabetesPedigreeFunction: 당뇨 내력 가중치 값
Age: 나이
Outcome: 클래스 결정 값(0 또는 1)