‘Data Engineering’ 은 ‘분석에 용이한 데이터 가공 및 머신러닝’이므로 빠른 데이터 처리와 머신러닝을 위한 분산환경이 선행돼야 합니다. 이를 위해, 분산처리의 장점을 가지고 있는 Spark와 양질의 데이터과학을 보유한 Python을 PySpark로 구현하였습니다.
‘Spark의 분산 환경’과 ‘Python의 데이터과학 라이브러리’의 훌륭한 조화를 통해, 이 포스트를 시작으로 데이터 처리, 탐색 및 머신러닝을 시도할 것입니다.
스파크 클러스터 모드 구축방법은 http://blog.naver.com/rlawlgy43에서 확인하실 수 있습니다.
각각의 포스트는 코드 및 알고리즘을 포함할 것입니다. 그러나 데이터 탐색 및 머신러닝과 같이 '비즈니스 인사이트 창출'에 중요한 과정은 실제적인 데이터과학의 논리를 포함한 사고실험까지 작성하겠습니다. 앞으로 연재할 글들을 통해, 독자 여러분이 데이터과학의 업무를 체험해보시길 바랍니다.
- CentOs6 32bit
- Oracle VM Virtual Box
- JDK 1.8.0
- python 3.5.3 | Aanaconda 4.4(32bit)
- Spark2.1.0
- Client Mode
Application Running Server : 192.168.56.101
Master server : Cluster Manager로써 Standalone을 사용
Worker1 server : 192.168.56.102
Worker2 server : 192.168.56.104