도서 | 데이터과학 입문 요약
데이터과학 입문의 도서를 공부하며 정리하는 글입니다.
개인적인 견해는 들어가지 않습니다.
어떤 절차를 달성하기 위한 단계나 법칙의 모임
정교하고 효율적인 프로그램 설계, 데이터 처리, SW공학의 기본
정렬
탐색
그래프 기반 계산
1. 데이터 변환, 준비, 처리 알고리즘
정렬, 맵리듀스, 프리젤(pregel) 등
이들은 데이터 공학이라고도 할 수 있음
2. 모수 추정을 위한 최적화 알고리즘
확률적 경사감소법, 뉴턴의 방법, 최소제곱법
3. 기계학습 알고리즘
예측, 분류, 군집화에 사용한다
모수의 해석
통계학: 선형회귀 모형(알고리즘)을 통해 모수( 현실의 현상들 )를 파악하려고 한다.
기계학습 : 모수의 해석에는 집중하지 않고, 예측력을 최적화 하기 위해 미세조정을 할때만 관심을 갖는다.
신뢰구간
통계학 : 모수와 추정량에 대해 신뢰구간, 사후확률을 계산하고, 모수의 변동성 & 불확실성에 관심이 있다.
기계학습 : K-means, K-NN은 신뢰구간이나 불확실성 등은 따지지 않는다.
명시적인 가정의 역할
통계학 : 데이터 생성과정이나 분포에 대한 가정을 명시적으로 밝히고 난 뒤에 모수추정.
데이터과학자는 통계학 + 컴퓨터 과학의 다문화적 융합이므로 양쪽 모두에서 가치를 찾는다.
데이터 과학자는 어떠한 SW공학자보다 통계학을 잘 알고, 어떠한 통계학자보단 SW공학을 잘 아는 사람이다.
조시 윌스
선형회귀
가장 대표적인 통계적 기법
결과변수, 예측변수 사이에 선형관계가 있다는 가정을 사용하여, 선형구조로 모형화 하는 것
반응에 대한 결과값이 y = f(x) 의 수식처럼 정형화 되어있는 모형
x와 y간 관계의 계수를 파악 가능하다.
예시
1인당 서비스 이용료를 받는 회사가 있을때, ( 이용자 , 수익) 구조가
( 1, 25 ), ( 10, 250 ), ( 100, 2500 )이라면 어떤 선형 구조가 이루어져 있을 것인가?
-> y = 25x 라는 것을 알 수 있다.
선형회귀 - 모형적합
동일한 x에 대해 y가 다양하고, 이를 하나의 선으로 통일하기 위해 같은 x선상에 있는 y 값들이 최소 제곱 추정법 을 통해 평균적으로 모든 점과 가까운 직선거리를 찾아본다.
최소 제곱 추정법으로 구한 함수( y = β1 + β2 𝑥 ) 의 a,b 들을 추정하기 위한 모형을 세가지 방법으로 늘려볼 수 있다.
1. 오차에 대한 가정을 모형에 도입
모형 (함수) 대로 𝑥에 따른 y를 예측할때, 새로운 관찰데이터에 포함된 변동성은 표현하기 어렵다.
모형에 이 변동성을 포함시키려면 모형을 확장해야한다. -> y = β1 + β2 𝑥 + e
여기서 e를 잡음, 오차항 이라고 한다.
더 세부적인 계산 원리 -> 평균 제곱 오차
더 이상의 증명은 생략
2. 더 많은 예측변수를 추가
결과가 1개이고 예측변수도 1개인 단순 선형회귀 확장
-> 예측변수가 추가된 다중선형회귀
y = β1 + β2 𝑥2 + β3 𝑥3
3. 예측변수를 변환
일반 선형이 아닌 다항식이 들아건 모형이 더 나을 수도 있다.
하지만 다항식은 선형회귀는 아닌것이다. 이를 선형이라고 하기 위해서는 로그를 취하거나 경계값을 만드는 둥의 방법이 있다.
선형회귀는 다른 변수들을 다 알고 하나의 변수에 대해 예측할 때 사용한다.
선형회귀는 둘 혹은 여럿 간의 관계를 설명, 이해하고자 할 때 사용한다.