brunch

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 유윤식 May 20. 2019

PySpark: 그래프 프레임(1)

설정 / 데이터 업로드

스파크(Spark:2.2.1)는 이전에 설치했고,

파이썬(Python:3.5)도 이전에 설치했고,

스칼라(Scala:2.11)도 이전에 설치했고,

쥬피터(Jupyter notebook)도 이전에 설치했고,

준비는 다 되어 있고, 약간의 설정을 Linux bash_profile 에 추가하자.

>> source ~/.bash_profile 해주시고,

pyspark 에서 데이터-프레임을 사용하려면,

위 사이트를 참조해서,

이런 결과 화면을 볼 수 있는데,

위에서 언급한 것과 같이

1. Spark: 2.2.1

2. Scala: 2.11

을 사용하고 있으므로,

>> pyspark --packages graphframes:graphframes:0.6.0-spark2.2-s_2.11

요렇게 실행하면,

Pyspark 를 Jupyter notebook 에서 즐길 수 있다.

실제 실행하면,

뭔가 막 돌아가기는 한다.

간단한 예제는 다음 글에서 천천히 진행해 보려고 한다.

아직 공부중...

끝.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari