도서 | 데이터과학 입문 요약
데이터과학 입문의 도서를 공부하며 정리하는 글입니다.
개인적인 견해는 들어가지 않습니다.
데이터 과학자의 출현
그들은 다음을 포함한다.
통계학 (전통적 분석)
데이터 변환 ( 파싱, 스크래핑, 포멧팅 )
시각화 ( 그래프, 도구 )
코스마 (통계학자)
제대로 된 통계학과라면 어디나 데이터과학으로 간주된 모든것을 수행하고 있다고 주장
데이터과학 -> 통계학의 이름을 바꾼 것 뿐, 통계학자들의 의지에 반하는 침략적 행동
데이터과학에서 사회과학자의 역할
데이터과학자는 통계학자 + SW공학자 + 사회과학자 를 모두 포함한다.
데이터 과학의 문제는 여러 학문 분야를 관통한다는 것.
사회과학적 문제를 풀어야한다면, 사회과학자가 필요하다.
정량적 분석 능력 + 프로그래밍 스킬이 있는 사회과학자 -> 훌륭한 데이터 과학자의 잠재력 보유
데이터과학 직업들
데이터과학자 채용공고의 공통점으로 보아, 데이터과학자가 ( 컴퓨터과학, 통계학, 커뮤니케이션, 데이터시각화) 에 대해 전문가 이면서도 해박한 영역 전문성을 갖고 있기를 요구함.
누구도 전부 잘할수는 없다.
그래서, 서로 다른 프로필과 전문성을 가진 사람들로 팀을 구성하는 것이 바람직
데이터과학자에게 원하는 프로필
컴퓨터과학
수학
통계학
기계학습
영역 전문성
커뮤니케이션과 프레젠테이션 스킬
데이터 시각화
사고실험 : 데이터과학을 정의하는 데 데이터과학을 활용할 수 있겠는가?
텍스트 마이닝 모형
검색엔진이 찾아낸 대중이 작성한 모든 문서를 토대로 정의?
정답이 있지도 않고, 대중이 반드시 옳은것이 아니기에 확실성이 높지 않다.
검색엔진이 찾아낸 대중이 작성한 모든 문서를 토대로 정의?
정답이 있지도 않고, 대중이 반드시 옳은것이 아니기에 확실성이 높지 않다.
군집화 알고리즘
데이터 과학자의 일을 어떻게 묘사하는지 보면 어떨까?
이와 관련하여 할란 해리스가 발표한 연구가 있음.
데이터과학자는 정말 어떤 직업인가?
데이터과학자들이 돈을 받고 하는일이 무엇인가.
1. 대학에서
데이터과학 강의를 수강하는 사람의 전공 : 통계,응용수학,컴퓨터과학,사회학자,저널리스트,정치학,의생명정보학,뉴욕시청 직원, 사회복지 직원,환경공학, 수학,비즈니스 마케팅, 데이터과학자
대학에서는, 사회 ~ 생물학처럼 전범위에 걸쳐 훈련된 과학자.
대량의 데이터를 분석, 현실세계의 문제를 해결.
동시에 데이터의 구조, 크기, 무정형성, 복잡성과 같은 성격 때문에 발생하는 전산화의 문제들을 처리하는 업무
2. 산업에서
* 최고 직위의 포지션의 경우
회사의 데이터 전략을 세워야 함
데이터 수집,기록을 위한 공학+인프라+프라이버시 문제까지 어떤 데이터가 사용자에 대한것인지, 의사결정을 위한것인지, 제품 반영을 위한 것인지 모든 사항을 기획
공학자, 과학자, 분석가로 구성된 팀을 관리
CEO, CTO, 제품 책임자등. 기업의 리더들과 커뮤니케이션
* 일반 직원으로서 데이터 과학자
데이터에서 의미를 추출, 해석하는 방법을 아는 사람
인본주의적이어야 함.
통계학, 기계학습의 도구, 방법 모두를 알아야 함
데이터 수집, 정제, 변환에 많은 시간 소모
집념 + 통계학 + SW공학 스킬이 요구됨
시각화, 데이터 감각을 포함한 탐색적 데이터 분석이 필요
패턴을 발견, 모형을 만들고, 알고리즘을 고안해야함
실험을 설계하고 데이터 주도 의사결정을 하는 데 있어 중요한 역할을 수행한다.
명료한 해석, 시각화로 팀원,공학자, 리더와 커뮤니케이션 해야함