중국어, 데이터로 분석하기
중국어에는 HSK라는 시험이 있다. 기본적으로 중국어를 익힐 때 이 HSK 기준으로 공부를 한다. HSK는 외국인을 대상으로 꼭 필요한 어휘와 표현, 문법을 단계별로 제시한다. 그래서 이번에 수집한 데이터를 분석할 때의 기준을 HSK 어휘로 잡아보고 싶었다.
HSK는 이미 한국의 유명한 출판사들이 꽉 잡고 있기 때문에 자료를 찾는 것은 어렵지 않다. 하지만 HSK 측에서 아무리 기본 자료를 제공하고 있다고 하더라도 출판 과정에서 저자의 선택이 들어가는 경우가 꽤 많으며 명확하게 그 기준을 따라 작성한 것인지 아무도 모르고 또한 대부분 PDF로 제공하기 때문에 OCR로 작업한다고 해도 정제 과정이 오래 걸릴 것으로 예상됐다. 그래서 나는 교재가 아닌 HSK 업무를 맡고 있는 중문고사복무왕(中文考试服务网)에서 제시하는 어휘를 직접 수집하는 것을 목표로 잡았다.
하지만 중국 사이트는 스크래핑이나 크롤링으로 수집하지 못 하도록 만든 구조가 많아서 예비로 먼저 외국인을 대상으로 만든 사이트인 my-hsk.com에서 단어를 수집했다. 이 사이트에서는 어휘를 PDF로 제공하기도 하지만 사이트에 텍스트로 단어 목록을 제시하고 있기 때문에 파이썬으로 수집이 가능했다.
코랩을 사용했으며 6급 단어 모두 정상적으로 수집되었다. 성공의 기쁨이란... 뜻이 영어로 되어 있는 건 좀 아쉬웠지만 이것 또한 추후에 추가하면 될 것이라 생각한다.
이번에는 중문고사복무왕(中文考试服务网)의 어휘 수집을 시도했다. my-hsk.com 수집때와 같은 방식으로 시도했지만 계속 실패했다. 지속적으로 났던 문제는 크롬 드라이브 버전 문제라고 하는데 그 문제를 해결하고서도 결국 HTML 구조에서 해당 어휘를 찾을 수 없어서 실패가 뜬다. 한번은 다른 방식으로 다시 코딩해서 한 시간만에 수집했다고 파일이 떳지만 엑셀 파일에는 아무 텍스트도 없었다. 예상대로 중국 사이트의 구조 문제가 아닐까 싶다.
그래서 마지막으로 기본 수집은 유료 수집프로그램으로 진행하고 페이지별 단어를 엑셀로 다운로드하여 모든 엑셀을 선택해서 코랩으로 합치기를 시도했다. 이때 다운로드 받은 파일이 무려 1,110개.....무식한 방법이지만 시간이 없는 내게는 이게 가장 빠른 방법이었다.
비록 앞부분 페이지별 수집은 노동이 좀 투입되었지만 11,092개의 어휘가 정상적으로 엑셀로 수집되었다. 사실 조금의 노동이라고 했지만 코드도 함께 시도하면서 10개 단어를 제공하는 페이지 하나하나를 수집했기 때문에 10시간 정도가 어휘 수집에 투자된 셈이다.
역시나 한국어 의미가 없어서 google translator로 바로 번역하는 것을 시도해 봤지만 번역된 결과가 만족스럽지 않아 나중에 다시 google API를 활용하든, 다른 파일에서 대조되는 단어를 불러오기를 하든 한번 시도해 볼 생각이다.
코드를 잘 짜는 사람은 더 쉽게 수집할 수 있겠지만 이것도 경험이고 이것도 자산이다라는 생각으로 팔이 움직이지 않을 때까지 열심히 반복적으로 수집했다. 어제 데이터 수집하고 딱 이 말이 생각났다. 데이터는 미친 짓이다.
나중에 다시 확인해 보니 내가 수집한 자료는 등급표준 자료...HSK 어휘와는 또 달랐다.
11092개 등급별로 나눠진 표준 어휘 비록 HSK 어휘는 아니지만 반드시 유용하게 엄청 잘 써먹으리라....