첫 번째 한 것은 잘 모르니 대입정보 119 PDF 파일을 통째로 파일 첨부해서 이걸 이용해서 대입 정보에 대한 답을 달라고 훈련시켰다. 결과는.... 버벅버벅 거리며 답을 제대로 하지 못했다.
이유는 한국의 많은 문서들처럼 AI가 좋아하지 않는 형태의 표들이 많기 때문이다. 가뜩이나 한글을 영어로 변환해서 GPT는 이해할 텐데, 아래와 같은 표처럼 되어 있을 경우, 열별로 같은 종류의 데이터가 들어가야 이해하는 AI로서는 헷갈리만 하다.
그래서 데이터 분석을 하려면 사람이 이해하기 쉬운 WIDE FORM이 아닌 AI가 이해하기 쉬운 LONG FORM으로 변환해야 한다.
이유는 알았는데, PDF파일에서 어떻게 복잡한 테이블을 추출하고, 그걸 다시 LONG FORM으로 바꿀 수 있을까?
나는 R을 이용하여 이 작업을 수행하였다. R은 데이터 전처리 부분에 있어서는 파이썬보다 훨씬 우수한 "dplyr"패키지가 있기 때문이다. 최근엔 파이썬에서 R의 dplyr 를 가져다 쓰고 R 문법으로 분석하는 파이썬 패키지가 생겨날 정도이니... (헤들리 위컴의 천재성에 다시 한번 감사^^)