지금까지 데이터 사이언스에 대해 철학적 표현과 스토리텔링으로 설명했다면, 이제는 실무적인 관점에서 설명해보려 한다.
[예측을 잘하려면....]
예측을 한다는 것은 결국 과거 데이터와 가설을 기반으로 이루어지며, 모델 성능은 정밀도, 재현율과 같은 다양한 지표를 통해 평가를 진행한다.
예를 들어, 모델이 내가 한 번도 먹어보지 않은 음식을 좋아하는지?? 그리고 싫어하는지?? 예측하기 전에, 내가 좋아하는 음식과 싫어하는 음식이 명확하다면 예측 정확도가 크게 향상된다.
[MBTI...??]
MBTI처럼 보이는 네 가지 값으로 모델 예측에 평가를 TP, TN, FP, FN으로 나눌 수 있다.
T/F (True/False) : 예측이 실제와 일치했는가?
P/N (Positive/Negative) : 모델이 예측한 값은 무엇인가?
TP : 모델이 내가 좋아하는 것을 맞혔다 → 정답
TN : 모델이 내가 싫어하는 것을 맞혔다 → 정답
FP : 모델이 내가 싫어하는 것을 좋다고 예측했다 → 오답, 비용 발생
FN : 모델이 내가 좋아하는 것을 싫다고 예측했다 → 오답, 기회 손실
일반적으로 모델이 TP/TN을 많이 맞힐수록 수학적 성능은 높다.
하지만 실무에서는 FP/FN에 더 주목해야 한다. 모델 예측이 실제 비즈니스에 끼치는 영향이 발생하기 때문이다.
[정답보다 중요한 오답!!!]
사용자가 좋아하는 것을 예측하여 알맞게 쿠폰을 발행하는 예측모델을 활용하여 웹 서비스를 한다고 가장해 보자.
FP 예시
내가 싫어하는 것을 좋아한다고 예측
→ 쿠폰을 보내도 구매가 일어나지 않아 ***비용 낭비***
FN 예시
내가 좋아하는 것을 싫어한다고 예측
→ 쿠폰이 발송되지 않아 ***매출 손실***
즉, TP/TN은 모델 성능을 좌우하는 수학적 지표지만,
FP/FN은 비용과 리소스, 매출 등 비즈니스 관점에서 핵심 지표가 된다.
[내가 진짜로 원하는 게 뭐야??]
이처럼 데이터 사이언스를 한다는 것은 모델을 리서치하여 구현하는 것보다 비즈니스 데이터를 잘 이해하여 과거에 쌓여진 데이터를 positive와 negative를 잘 구분하여야 한다.
내가 특정 음식점에 다녀갔다고 해서 무조건 좋아하는 것은 아닐 것이다.
재 방문을 하였는지? 재 방문 의사가 있는지? 확인되어야 한다. 하지만 현실의 데이터는 우리가 원하는 만큼 친절하게 구분되어 있지 않다.
그렇기 때문에 데이터 사이언스는 모두가 납득할만한 가설을 세우고 실제 과거 데이터를 토대로 내가 좋아하는 것? 과 싫어하는 것? 이 무엇인지를 명확하게 아는 것이 예측 모델을 구현하고 개발하는 것보다 더 중요한 할 수 있다.