아이와 함께 원서 읽기
고등학생 때 여러 친구들이 영어 단어를 외우기 위해서 몇몇 출판사에 나온 단어 모음집을 봤던 기억이 있다.(아... 그 때가 벌써 30년 전...ㅠ.ㅠ)
요즘 학생도 영어 단어를 외워야 하는데, 어떤 책을 보고 있을지 약간 궁금했는데... 눈에 띄는 책이 있었다.
영어 단어도 빅데이터를 이용해서 외운다?
빅보카라는 책인데, 빅데이터 분석을 통해서 자주 쓰는 단어를 추출했다고 한다.
일단, 신박한 아이디어에 감탄하고...@.@
난 시험 볼 일이 없으니, 저 책으로 공부할 필요는 없고...^^
빅보카라는 책의 개념을 내 원서 읽기에 접목시켜 보면 어떨까?
내가 읽은, 혹은 읽을 원서에 나온 단어를 빈도 순으로 정리해보고 모르는 단어를 추려나가면 그나마 수월하게 읽을 수 있지 않을까?
라는 생각을 해보니, 괜찮을 것 같다.
바로 도전!
1) Gutenberg Project라는 사이트를 방문한다
2) 저작권이 만료된 원서를 고른다.
3) 찾은 원서의 text 파일을 다운 받는다.
4) 책 내용을 제외하고는 다 삭제하고, 원서에서 숫자나 이상한 기호 등은 다 날려버린다.
5) 이제 단어만 나열된 텍스트 파일을 이용해서 빈도 순으로 추출한다. R 프로그램을 사용하는 방법은 잘 모르지만, 우연히 Word Cloud 만들기라는 내용을 접한 적이 있는데, 그 방법을 이용하면 될 것 같다. 단어만 남은 텍스트 파일을 two.txt로 저장하고, R script를 돌려본다.
뭔가, 이상한 것이 있는지 경고 문구가 막 보이지만, 결과물이 나오기는 한다. 단순히 빈도 순에 의해서 추출한 단어수는 모두 9621개로 나온다. 엑셀 파일을 열어보면
가장 많이 나오는 단어은 'the'
2번 이상 나온 단어는 모든 5412개
딱 한 번만 나온 단어는 4208개(저 이상한 외계어는 빼고...-.-;)
이제 빈도순으로 정리된 9600개의 단어 중에서 아는 것은 제외하고 모르는 단어만 추려서 찾아보면 됨