brunch

You can make anything
by writing

C.S.Lewis

by 유윤식 Jul 24. 2018

Python: Spark-Kafka-Sql(3)

# 서울시지하철, # 승하차, #위치, # ELK

데이터를 다루는 연습을 해야겠다.


목표는 서울시 지하철 승하차 인원 정보와 위치정보 데이터셋을 JOIN 하여

Elasticsearch 에서 검색 / 데이터 검증을 해보고,

Kibana 를 통해서 데이터 시각화를 하는 것이다.


Spark-SQL 은 강력한 RDBMS 기능을 제공한다.

두 데이터셋은 '역명'을 통해서 JOIN 할 수 있다.

위치정보 데이터셋은 역명과 코드명, 위치정보(좌표계)를 담고있다.


우선 결과를 얻게되면 이렇다.



붉게 표시된 부분이 Join 통해서 추가한 부분이다.


코드는 생각보다 매우 간단하므로

짧은 클립 영상으로 보여준다.



근래에는 PySpark 에서만 작업을 주로 진행해온 부분들을

조금씩 Scala 에서도 진행해보고 있다.


사실상 Spark, Kafka  같은 오픈소스들이 Scala 기반에서 프로젝트가 진해되다보니,

Scala 를 써서 만드는 부분에서 약간의 Advantages 를 가져갈 수 있다.


다음부터는 두 언어에서 모두 실습을 해보고 사내 프로젝트에 적용 할 수 있는 방안을

찾아보는 걸로.


간단한 Join Query 이지만, Json 데이터셋을 통한 Real-time 로직을 구성하면 뭔가 더 큰 그림을 머릿속에 그려볼 수 있다.


일단 해보는게 중요하다.

그래야 다음 그림에서 어떤 색을 칠해야 할 지, 조금더 감이 잘 온다.


마지막으로 Kibana 에서 확인한 보습이다.

내가 2호선을 타고 다니니, 일단은 2호선만 보겠다.


끝!


Enjoy Coding, Don't forget Sharing.

작가의 이전글 Python: Spark-Kafka-Sql(2)
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari