스파르타코딩클럽 내일배움단 - 마케터, 기획자를 위한 실전 데이터 분석
[수업목표]
익숙한 엑셀을 통해 데이터 분석 구조에 대해 이해할 수 있다
파이썬과 라이브러리 개념에 대해 이해할 수 있다
각 데이터 간의 상관관계 분석을 할 수 있다
1. 가설
2. 가설의 유효성 검증
3. 만약 가설이 틀렸다면? 유의미한 데이터 찾아야 함
경찰 요구: 부유한 사람들의 생존율이 높았다. 관계가 있는지 확인해 달라!
확인할 내용:
1. 요금과 생존은 관계가 있는지
2. 관계가 있다면 왜 있는지
가설: 요금과 탑승 등급은 각각 모두 생존율과 관계가 있다.
step1. 데이터 전처리(정리)
빈 데이터가 있을 수 있으니 데이터 전처리 해야함
<전처리 방법>
1. 전체 열 선택
2. 필터링
3. 데이터가 빠진 행을 지움 / 임의로 데이터 추가하지 않고 모수에서 제거함
step2. 데이터 분석
프로그램을 활용해서 쌓아둔 데이터들을 정리하고 시각화하는 단계
1. 스프레드시트 부가기능 설치: XLMiner Analysis ToolPak
2. Correlation (상관관계 분석)
3. 인풋/아웃풋 레인지 설정
인풋: 데이터가 나와있는 영역
아웃풋: 상관관계 분석된 내용을 받을 영역
4. 나온 결과물 표를 차트로 변경
5. 확인하고 싶은 계열만 선택
(이번 가설에서는 survived만 봄)
step.3 인사이트
상관관계 분석은 음/양수와 관련 없이 값이 클수록 영향이 크다고 봄
- 양수: 변수의 증가에 따라 같이 증가하는 것 / 비례
- 음수: 해당 변수가 증가하면 다른 변수는 감소하는 것 / 반비례
- 생존과의 상관관계: 성별 > 탑승등급 > 요금
분석 결과: 성별과 생존은 영향이 있다.
<탑승등급과 요금의 상관관계 분석 시각화 자료>
요금과 탑승등급은 관계가 있다.
-> 근데 이건 당연한 거 아닌가..?
탑승등급은 생존과 관계가 있었고, 탑승등급은 요금의 영향을 받으므로
생존은 요금=탑승등급=부유함과 관련있다고 볼 수 있다.
Q. 경찰의 가설처럼 부유함은 상관관계가 있었나?
A.
가설: 요금과 탑승 등급은 각각 모두 생존율과 관계가 있다. => O
하지만 성별이 더 높은 상관도를 보여줌
1. 문제 정의 및 가설 설정
2. 데이터 분석 기본 세팅
3. 데이터 분석
4. 분석 결과 시각화
5. 최종 결론
1-5) 파이썬 기초지식 엿보기
* 파이썬: 컴퓨터 언어의 번역팩
사람들이 직관적으로 쓰기 편한 언어 중 하나!
파이썬 코드들의 모음집과 같은 라이브러리를 활용하면 엑셀보다 더 데이터 분석할 때 유용함!
라이브러리 1. pandas = 데이터 분석 2. matplotlib = 시각화
피마 인디언들을 포함해 세계인의 당뇨병 조기 발견 및 치료를 위해 우리 국제 보건 기구는
“당뇨병 발병에 가장 큰 영향을 미치는 요소는 글루코스(혈당) 수치라고 가설”을 내림.
1. 문제 정의 및 가설 설정
당뇨병 발병에 가장 큰 영향을 미치는 요소는 글루코스(혈당)이다.
2. 데이터 분석 기본 세팅
당뇨병 데이터 세트에서 당뇨병 발병에 가장 큰 영향을 주는 변수를 찾아낼 것
Pregnancies: 임신 횟수
Glucose: 포도당 부하 검사 수치
BloodPressure: 혈압(mm Hg)
SkinThickness: 팔 삼두근 뒤쪽의 피하지방 측정값(mm)
Insulin: 혈청 인슐린(mu U/ml)
BMI: 체질량지수(체중(kg)/키(m))^2
DiabetesPedigreeFunction: 당뇨 내력 가중치 값
Age: 나이
Outcome: 클래스 결정 값(0 또는 1)
3. 데이터 분석
- 전처리 후 프로그램 세팅
- Correlation 상관관계 분석 완료
4. 분석 결과 시각화
- 일단 차트 만듦
- 보고 싶은 변수만 남기고 계역 삭제해야 하는데.. 왠지 outcome 같아서 두니까 요지랄.. ㅠ 해설영상 틀어버림 하
- 행/열 전환하면 되는 거였음
5. 최종 결론
Glucose(혈당)이 가장 상관도가 높았다.
가설: 당뇨병 발병에 가장 큰 영향을 미치는 요소는 글루코스(혈당)이다. (O)
참으로 떨어짐.
기본 조건: 나는 어찌저찌 회사는 다니고 있지만 엑셀 함수나 데이터나 뭐나 아무것도 모르는 사람.
그래도 나름 개발자한테 데이터 요청하고, 추출해 준 데이터를 읽고 해석하는 능력(?)은 있다고 생각하고 있다.
1.
왕초보용 강의이기 때문에 이걸 왜!해야하는지, 이렇게 하는 건 왜! 그런 건지 등 디테일한 설명은 없어서 아쉬웠다. 어쩌면 내가 못 들은 걸 수도 있겠지만? 그랬다...!
2.
데이터를 기반으로 한 의사결정이 중요하긴 하지만
사실 데이터라는 것이 해석한 사람의 의도에 따라 결과가 다르게 느껴질 수도 있는 것 아닌가?
타이타닉 사례에서도 가장 크게 영향을 준 것은 성별이었는데, 가설이 맞음을 증명하기 위해 가장 높은 영향을 미치던 변수는 제외하고 가설의 옳고 그름만 따졌다.
그래서 역시 .. 데이터 뽑고 분석하는 것보다 거기에서 인사이트를 뽑는 게 일할 때는 더 중요하다는 생각이 들었다.
3.
그래도 긍정적인 부분은,
항상 엑셀에서 차트만 뽑아서 비교하곤 했는데 XLMiner 같은 프로그램을 알게 됐다는 점!
이러나 저러나 기획자로서 일할 때 뇌피셜보다는 가공된 데이터라도 데이터를 보고 증명하고 싶기 때문에
열심히 듣고 개발일지도 남겨야겠다는 마음으로 1주차 공부 마침.