brunch

You can make anything
by writing

C.S.Lewis

by 유윤식 Mar 05. 2022

Python: multi-core pandas

pandas가 느려서... modin[dask]의 힘을 빌려...

Pandas 는 파이썬에서 데이터 관련 작업을 할 때, 꼭 필요한 라이브러리다.


근데,


메모리를 크게 필요로하는 작업에서는 아주 취약하다.

느리고,

메모리도 많이 차지하고...


최근에는 PySpark 에서 Pandas 사용이 가능하도록 적용하는 작업을 해봤는데

단독으로 Pandas 사용에서는 역시나 너무 느리고 또 느리다.


왜 느릴까?

Pandas 작업은 싱글코어에서 이루어진다.

당연하겠지만 데이터를 MR로 다루는 작업은 꽤 고난도이기도 하고

예상치못한 예외에 취약하다.


싱글코어로 작업을 하게되면 안정성은 높다. 근데 느리다.


대안은?

https://modin.readthedocs.io/en/stable/

이걸쓰면 해결된다.

Stable 버젼이 나와있어서 이젠 실무에서도 활용해 보려고 한다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari