pandas가 느려서... modin[dask]의 힘을 빌려...
Pandas 는 파이썬에서 데이터 관련 작업을 할 때, 꼭 필요한 라이브러리다.
근데,
메모리를 크게 필요로하는 작업에서는 아주 취약하다.
느리고,
메모리도 많이 차지하고...
최근에는 PySpark 에서 Pandas 사용이 가능하도록 적용하는 작업을 해봤는데
단독으로 Pandas 사용에서는 역시나 너무 느리고 또 느리다.
왜 느릴까?
Pandas 작업은 싱글코어에서 이루어진다.
당연하겠지만 데이터를 MR로 다루는 작업은 꽤 고난도이기도 하고
예상치못한 예외에 취약하다.
싱글코어로 작업을 하게되면 안정성은 높다. 근데 느리다.
대안은?
https://modin.readthedocs.io/en/stable/
이걸쓰면 해결된다.
Stable 버젼이 나와있어서 이젠 실무에서도 활용해 보려고 한다.