데이터는 발자취다
데이터는 신호와 소음이 같이 있다
데이터는 변한다
빅데이터는 실패하지 않게 하고, 스몰데이터는 성공하게 한다
빅데이터는 10대의 섹스와 같다. 모두가 얘기하지만 아무도 제대로 모른다
데이터 사이언스는 50% 과학, 50%는 아트다
평균만 보지 말고 분산도 봐라
쉬운 모델부터 써라
정확히 맞는 모델은 없지만, 확실히 틀린 모델은 있다
어느 회사도 데이터를 완벽하게 모으지 않았다. 경쟁사의 데이터가 없기 때문이다
데이터로 인사이트를 얻었으면 실험해 봐야 한다
변수를 설명하지 못한다면 빼라
우리는 더 나은 알고리즘을 가진 게 아니라 더 많은 데이터를 가졌을 뿐이다
엄청난 주장에는 엄청난 근거가 필요하다
사용 목적에 맞는 평가 방법을 고려할 필요가 있다
클릭 수는 '불쾌감'을 측정해주지 않는다
소속 집단에 대해 편견을 가지면 그 사람을 제대로 알 수 없다
어떠한 좋은 제어 테크닉도 좋은 디자인을 이길 수 없다
모델을 인문학적으로 설명하는 것은 처음에 모델과 친해질 때는 좋겠지만,
제대로 반영하지 않는다
나도 유클리디안 거리 쓴다
나도 아직 100% 이해한 건 아니다
일반인에게 normal은 평범하다는 뜻이지만,
통계학자에게 Normal은 아름답다는 뜻이고,
standard Normal은 미친 듯이 아름답다는 뜻이다.
마음에 드는 이성이 나타나면 "Normal하시네요"라고 말하자
킬러 로봇을 두려워하는 것은 화성에서 인구 과잉에 대해 걱정하는 것과 같다