brunch

라이킷 3 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 유윤식 Sep 08. 2019

PySpark: SQL(with @Partition)

#SQL 기본기

PySpark SQL을 사용하면

데이터 가공을 조금 편하게 할 수 있다는 장점이 있다.

PySpark를 하다보면 다양한 Function을 사용하는데,

Ref: https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#module-pyspark.sql.functions

spark.apache.org

spark.apache.org

참고 사이트를 보면 확인 할 수 있다.

그 중에서 Windows, Partition에 관한 SQL 구문을 사용하는 경우가 많다.

>>> from pyspark.sql import Window

>>> window = Window.partitionBy("name").orderBy("age").rowsBetween(-1, 1)

>>> from pyspark.sql.functions import rank, min

>>> df.select(rank().over(window), min('age').over(window))

이걸 SQL로 바꾸면

"""select rank() over (partition by name order by age),

min(age) over (partition by name order by age)

from table1"""

비슷비슷.

더 자세한 사용법은,

Ref: https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html

Introducing Window Functions in Spark SQL

In this blog post, we introduce the new window function feature that was added in Spark 1.4.

databricks.com

Way to Go!

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari