책을 기계에 집어넣으면, 기계가 책을 드르륵 읽고 “이 책은 초등학교 0학년 수준입니다!”, 이렇게 말해주면 좋겠다는 생각을 했습니다. 특히 영어책의 난이도를 그렇게 알 수 있다면, 아이들이 공부하는 데 큰 도움이 되겠다 싶었구요.
15년 전 한참 그런 공부를 했습니다.
방법은 있었습니다. 일단 전부는 아니라도 책을 전반부, 중반부, 후반부로 대략 나누어 각각 1페이지씩 뽑아 스캔을 해서 긁어 붙였습니다. 당시엔 OCR(광학 문자 인식)이라고 부르는 그런 기술이 지금처럼 깔끔하지 않아 직접 많은 부분을 타이핑하기도 했구요.
표본집단에 대해 설문조사를 하는 것처럼, 책 일부를 대표성을 지니는 텍스트로 만들어 난이도를 계산하는 방식이었습니다. 계산법을 쉽게 설명하면, 단어가 길고(음절 수로 계산) 문장이 길면(한 문장의 단어 수로 계산) 어려운 책으로 평가하는 방식입니다. 이것을 ‘Readability Formula’라고 하는데, 가독성(可讀性)이라고 하면 흔히 활자의 색깔이나 크기에 관한 의미로 사용되는 경우가 많아, ‘쉬울 이’자를 써서 ‘이독성(易讀性) 공식’이라는 번역어가 사용되었습니다.
1950년대부터 많은 학자가 이러한 공식을 연구해 왔고, 15년 전 버전의 MS Word에도 글의 이독성을 측정하는 기능이 탑재되어 있었습니다. 그렇게 여러 공식을 사용해서, 서점의 영어 도서 코너에 가면 볼 수 있는, ‘뉴베리상 수상작’이라고 하는 금색, 은색 딱지가 붙어 있는 아동, 청소년 소설 수십 권의 난이도를 수치화하여 제시했고, 당시로선 컴퓨터로 언어를 연구하는 신선한 융합 연구였습니다.
지금은 스마트폰으로 사진만 찍어도 즉시 텍스트 변환이 가능하고, 혹시 코딩이 필요하면 AI가 순식간에 해 주니, 참으로 격세지감을 느낍니다. 이제는 ChatGPT가 휴머노이드 로봇과 함께 어렵지 않게 책의 난이도를 말해 줄 수 있을 것 같습니다. 굳이 그런 목적의 것을 만들지 않아서 그렇지, 이미 기술은 완성된 셈입니다.
아무튼 그런 연구의 성과를 바탕으로 이후 언어 정보학이라는 공부를 계속하게 되었습니다. 당시에도 기계번역의 수준이 점점 높아지면서, 영어 번역 아르바이트도 급격히 줄었고, 학생들도 구글 번역기를 점점 더 많이 활용하기 시작했습니다. 한국어를 영어로 직접 번역하기보다, 한 ->일 ->영 번역을 하면 더 좋은 품질의 번역이 된다는 소문도 있었구요. 이제는 정말 AI와 함께라면 딱딱한 학술 번역쯤은 누구나 쉽게 할 수 있게 되었습니다.
AI의 출현으로 영어 첨삭이나 글쓰기 관련 직업은 곧 사라질 것 같기도 하지만, AI를 효율적으로 사용하기 위한 근본적인 방법을 알고 있는 것 같기도 해서, 지금은 AI와 공진화(共進化)를 하려고 계속 노력하고 있습니다. 위협은 여전히 느끼고 있지만요.