brunch

매거진 Spark+Python

You can make anything
by writing

C.S.Lewis

by 보나벤투라 Nov 08. 2017

Start Pyspark

  ‘Data Engineering’ 은 ‘분석에 용이한 데이터 가공 및 머신러닝’이므로 빠른 데이터 처리와 머신러닝을 위한 분산환경이 선행돼야 합니다. 이를 위해, 분산처리의 장점을 가지고 있는 Spark와 양질의 데이터과학을 보유한 Python을 PySpark로 구현하였습니다.

  ‘Spark의 분산 환경’과 ‘Python의 데이터과학 라이브러리’의 훌륭한 조화를 통해, 이 포스트를 시작으로 데이터 처리, 탐색 및 머신러닝을 시도할 것입니다.

스파크 클러스터 모드 구축방법은 http://blog.naver.com/rlawlgy43에서 확인하실 수 있습니다.

  각각의 포스트는 코드 및 알고리즘을 포함할 것입니다. 그러나 데이터 탐색 및 머신러닝과 같이 '비즈니스 인사이트 창출'에 중요한 과정은 실제적인 데이터과학의 논리를 포함한 사고실험까지 작성하겠습니다.  앞으로 연재할 글들을 통해, 독자 여러분이 데이터과학의 업무를 체험해보시길 바랍니다. 



1. 개발환경

- CentOs6 32bit

- Oracle VM Virtual Box

- JDK 1.8.0

- python 3.5.3 | Aanaconda 4.4(32bit)

- Spark2.1.0


2. 분산처리 환경

- Client Mode

Application Running Server : 192.168.56.101 

Master server : Cluster Manager로써 Standalone을 사용

Worker1 server : 192.168.56.102

Worker2 server : 192.168.56.104

$SPARK_HOME/sbin/start-all.sh 이후, PySpark를 실행시켜야 합니다.
PySparkShell을 클릭합니다.
Spark application 실행 서버에 SPARK_EXECUTOR_MEMORY=2G 설정해준 결과입니다.
PySparkShell을 통해 완료된 Job들을 확인할 수 있습니다.


작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari