도서 | 데이터과학 입문 요약
데이터과학 입문의 도서를 공부하며 정리하는 글입니다.
개인적인 견해는 들어가지 않습니다.
데이터과학자의 기본 스킬세트
통계학
선형대수
약간의 코딩스킬
기본이 충족되면 추가적으로, 데이터 준비와 변환, 모형화, 코딩, 시각화, 커뮤니케이션 등
통계적 추론
-> 확률과정을 통해 생성된 데이터로부터 의미와 정보를 추출할 수 있도록 해주는 절차,방법을 찾는 학문이다.
-> 통계적 추론이 데이터 과학의 적절한 출발점이라고 생각한다.
데이터 자체만으로는 그것이 만들어진 세계와 과정을 이해할 수 없다.
-> 그래서 통계적 추정량( 수학적 모형, 함수) 로 단순화 시켜야 한다.
빅데이터, 모집단, 표본
대상이나 단위의 집합 -> 모집단
모집단에 대한 추론을 할 수 있는 측정을 위해 n개 단위로 구성된 부분집합 -> 표본
왜곡된(편중된) 부분집합이 생기지 않도록 주의해야 한다.
단순히 갯수를 세는 것에도 왜곡될 수 있는만큼, 복잡해질수록 많은 문제가 발생한다.
목표가 무엇인가에 따라 얼마나 많은 데이터가 필요한지가 달라진다.
웹서비스의 (SNS 등) 의 모든 데이터에 접근한다고 해도 데이터로부터 발견한 어떤 추론도 해당 집단 이외의 사람들에게까지 적용시키면 안된다.
-> 빅데이터의 숨겨진 편의성에 따라 뉴저지에 허리케인이 지나갈때, 뉴욕시민이 쇼핑을 하면서 더 많은 빈도의 허리케인 트윗을 남겼다면 데이터로는 허리케인이 강하지 않았고, 그들은 허리케인이 몰아치는 와중에 쇼핑을하고 파티를 했다고 오해할 수 있는것이다.
새로운 유형의 데이터
전통적인 데이터 : 숫자, 범주형, true | false
텍스트 : 이메일, 트윗, 뉴스
기록 : 유저데이터, 시간기록 데이터, 로그파일
위치데이터
네트워크 데이터
센서 데이터
이미지
빅데이터는 절대적 기준(용량)이 없다.
데이터 처리에 시간이 오래걸리는 정도의 자원이 빅데이터라면, 70년대의 빅데이터는 우스운 수준일 것이다.
빅데이터는 쉽게 처리할 수 없을때 적용
데이터가 방대하여 한대의 컴퓨터로는 처리할 수 없으며 추가적인 도구,방법이 필요한 것
빅데이터는 문화적 현상
많은 데이터가 생활의 일부를 이루며, 기술발전으로 가속화되는지를 알 수 있다.
빅데이터는 4V
용량(volume), 다양성(variety), 속도(velocity), 가치(value)
빅데이터를 규정하는 방식중 하나.
당신이 하고자 하는 것을 이 안에서 구하라.
빅데이터 혁명 (쿠키어 & 메이어-쉔버거 논문 중)
작은 표본보다는 대용량 데이터의 수집과 활용
데이터의 난삽함을 수용
원인 파악의 포기
빅데이터는 진실을 추적하고 있기에 N = 전체가 가능하게 한다고 주장
하지만, 빅데이터에 수집되지 않은 ( 피수집자들에 의해서든, 우연히든) 데이터가 있기 마련. 그리고 그들의 데이터가 중요할 가능성이 충분히 있음
데이터는 객관적이지 않다
N != 전체 이기때문에 데이터가 객관적이라는 인식은 틀렸다.
데이터는 인과관계를 무시한 채, 결과만을 보여주는 경향이 있다. 주의해야 한다.
확률분포
통계적 모형의 토대
모형 적합
관찰된 데이터를 사용하여 모형의 모수를 추정
모형을 적합하여 함수모형(수식) 을 표시하여 x값에 알맞은 모수를 구할 수 있는 추정량을 계산할 수 있다.
과적합
표본데이터에서만 발생하는 규칙을 (모수, 실제 사례에서는 발생하지 않는) 실제 사례에서도 동일한 규칙을 가질 것이라는 착각을 과적합( overfitting ) 이라고 함
탐색적 데이터분석 (EDA - Exploratory Data Analysis)
데이터 과학 과정의 핵심적 부분이라고 지칭함
- 기본도구
도표
그래프
요약 통계
EDA의 기본적 분석
평균
최솟값
최댓값
사분위수
이상값 발견(outlier)
EDA에는 시각화가 포함되지만, 데이터 시각화와는 구별되어야 한다.
EDA는 연구의 초기단계, 데이터 시각화는 커뮤니케이션을 위한 마지막 단계에서 행해짐
EDA를 분석과정의 한 부분으로서 포함하여 데이터에 대한 이해를 돕도록 하는 것을 권한다
데이터과학의 과정
정제된 데이터가 갖춰지면 EDA를 수행해야 한다.
EDA를 하는 동안 중복값, 결측값, 이상한 값, 부정확한 값들로 미정제되어 있는 것을 알 수 있다.
그 다음, 알고리즘을 사용해 모형을 설계한다.
결과를 해석, 시각화하며 의견을 나눈다.
단, 피드백 루프(데이터 셋이 서비스에 통합되고 사용자와 상호작용으로 더 많은 데이터를 생성함)를 위한 모형도 있을 수 있다.
피드백 루프
비가 내릴 것인지 예측할 수는 있지만, 내리게 할 수는 없다.
하지만, 어떤 책이 인기있을 거라는 증거를 제시하는 추천 시스템은 그 책이 인기 있게 해주는 피드백 루프가 될 수 있는 것이다.
데이터과학의 과학적 방법론과의 연계
질문하라
배경연구를 하라
가설을 설정
실험으로 가설을 검증
데이터를 분석, 결론을 이끌어내라
결과를 전달하라