Python: Spark-Kafka-Sql(3)

# 서울시지하철, # 승하차, #위치, # ELK

Jul 24. 2018

데이터를 다루는 연습을 해야겠다.

목표는 서울시 지하철 승하차 인원 정보와 위치정보 데이터셋을 JOIN 하여

Elasticsearch 에서 검색 / 데이터 검증을 해보고,

Kibana 를 통해서 데이터 시각화를 하는 것이다.

Spark-SQL 은 강력한 RDBMS 기능을 제공한다.

두 데이터셋은 '역명'을 통해서 JOIN 할 수 있다.

위치정보 데이터셋은 역명과 코드명, 위치정보(좌표계)를 담고있다.

우선 결과를 얻게되면 이렇다.

붉게 표시된 부분이 Join 통해서 추가한 부분이다.

코드는 생각보다 매우 간단하므로

짧은 클립 영상으로 보여준다.

근래에는 PySpark 에서만 작업을 주로 진행해온 부분들을

조금씩 Scala 에서도 진행해보고 있다.

사실상 Spark, Kafka 같은 오픈소스들이 Scala 기반에서 프로젝트가 진해되다보니,

Scala 를 써서 만드는 부분에서 약간의 Advantages 를 가져갈 수 있다.

다음부터는 두 언어에서 모두 실습을 해보고 사내 프로젝트에 적용 할 수 있는 방안을

찾아보는 걸로.

간단한 Join Query 이지만, Json 데이터셋을 통한 Real-time 로직을 구성하면 뭔가 더 큰 그림을 머릿속에 그려볼 수 있다.

일단 해보는게 중요하다.

그래야 다음 그림에서 어떤 색을 칠해야 할 지, 조금더 감이 잘 온다.

마지막으로 Kibana 에서 확인한 보습이다.

내가 2호선을 타고 다니니, 일단은 2호선만 보겠다.

끝!

Enjoy Coding, Don't forget Sharing.

keyword

유윤식 직업 개발자

망각의 동물이기 때문에 작성하는 공부/업무 다이어리