설정 / 데이터 업로드
스파크(Spark:2.2.1)는 이전에 설치했고,
파이썬(Python:3.5)도 이전에 설치했고,
스칼라(Scala:2.11)도 이전에 설치했고,
쥬피터(Jupyter notebook)도 이전에 설치했고,
준비는 다 되어 있고, 약간의 설정을 Linux bash_profile 에 추가하자.
>> source ~/.bash_profile 해주시고,
pyspark 에서 데이터-프레임을 사용하려면,
Ref: https://spark-packages.org/package/graphframes/graphframes
위 사이트를 참조해서,
이런 결과 화면을 볼 수 있는데,
위에서 언급한 것과 같이
1. Spark: 2.2.1
2. Scala: 2.11
을 사용하고 있으므로,
>> pyspark --packages graphframes:graphframes:0.6.0-spark2.2-s_2.11
요렇게 실행하면,
Pyspark 를 Jupyter notebook 에서 즐길 수 있다.
실제 실행하면,
뭔가 막 돌아가기는 한다.
간단한 예제는 다음 글에서 천천히 진행해 보려고 한다.
아직 공부중...
끝.