brunch

매거진 언어학

You can make anything
by writing

C.S.Lewis

by Noam Jan 27. 2017

텍스트 수준 알아보기

리딩(Reading)에 대한 소고 2

적을 알고 나를 알면

지난 글(영어로 리딩 하기? https://brunch.co.kr/@noam/8)에서 영어 리딩에 대한 사례를 통해 두 가지의 소결론을 냈다. 내게 맞는 글을 찾기, 나를 잘 안다는 것. 아마 이 두 큰 원칙은 영어공부뿐만이 아니라 삶의 여러 문제에 적용할 수 있는 틀이다. 이 경우 공부의 대상이 되는 영어 텍스트에 대해 잘 탐색해야 하고, 공부를 하는 주체인 '나'에 대해서 제대로 파악해야 한다. 손자병법에 나온 '적을 알고 나를 알면 전쟁에서 물러섬이 없다'는 격언을 공부에서도, 삶에서도 확인할 수 있다.


여기서 우리가 만나는 문제는 단순하다. 어떻게 하면 나의 적, 정복해야 할 대상, 영어 텍스트를 알아볼 수 있을까. 즉, 이 녀석이 얼마나 어려운 대상인지 우리는 어떻게 파악할 수 있을까. 오늘 이 글에서는 '내게 맞는 글을 찾기(2)'를 통해 내가 선정한 텍스트가 얼마나 어려운지 알아볼 수 있는 방법을 알아볼 것이다. 그리고 이 방법을 통해서 (주제에 대해서는 몰라도) 적어도 수준에 어울리는 글을 찾을 수 있을 것이다.




내게 맞는 글을 찾기(2): 객관적 지표 찾기

특정 텍스트가 있다. 이 텍스트가 얼마나 어려운지 판단을 내리는 것은 어렵다. '어렵다'는 것은 가치판단이 들어가고, 그 가치를 판단하는 기준은 각자마다 다르기 때문이다. 예를 들어, 학습자가 전혀 알지 못하는 영역의 텍스트를 공부한다면 시작하자마자 벽에 부딪힐 것이다. 새로운 개념을 만나고, 용어를 접하며 학습자가 주로 알고 있던 단어와는 전혀 다른 뜻의 쓰임새를 만날 수도 있다. 새로움이란 긴장감을 유발하는데, 긴장감은 흥분도 주지만 두려움도 동시에 준다. 즉, 어떤 텍스트의 주제 혹은 영역이 가져다주는 어려움은 객관적으로 측정하기 거의 불가능하다.


하지만 객관적으로 측정할 수 있는 요소들도 있다. 예를 들면, 단어의 수준(단어를 얼마나 자주 접할 수 있는가), 통사적 복잡성(문장이 얼마나 복잡한 구조를 가지고 있는가) 같은 것들이다. 그중에서 단어의 수준은 객관적으로 측정이 가능하고, 텍스트에 대한 객관적인 수준을 제시할 수 있다. 그리고 이 측정방법에는 여러 가지가 있는데 이번에는 '이독성(Readability)'이라는 개념을 통한 텍스트 난이도 측정법을 알아볼 것이다.


이독성(Readability): 이론

먼저 이독성이란 무엇인지 그 정의를 알아보자. 영문 위키피디아에 나온 이독성의 정의는 다음과 같다.


Readability is the ease with which a reader can understand a written text. In natural language, the readability of text depends on its content (the complexity of its vocabulary and syntax) and its presentation (such as typographic aspects like font size, line height, and line length. (출처: https://en.wikipedia.org/wiki/Readability)


정의에서 볼 수 있듯이 이독성이란 독자가 서술된 텍스트를 얼마나 쉽게 이해할 수 있는가에 대한 것과 연관되어 있다. 특히, 글의 내용적 측면(content)과 형식적 측면(presentation)으로 나눠볼 수 있고, 이 중 앞서 언급한 단어의 수준, 문장의 복잡성은 내용적 측면과 연결되어 있다. 즉, 형식적 측면이 모두 동일하다고 가정하면, 이 두 요소가 텍스트의 난이도를 결정하는 결정적인 요소라고 할 수 있다.


이독성에 대한 연구는 몇 세기에 걸쳐 계속되었고, 수 많은 측정방식이 제시되었다. 그중 가장 유명한 공식 하나를 통해 이독성이란 어떻게 측정되는지 알아보자. 


Reading Ease score = 206.835 − (1.015 × ASL) − (84.6 × ASW)
Where: ASL = average sentence length (number of words divided by number of sentences)
ASW = average word length in syllables (number of syllables divided by number of words)
Formula: The Flesch formulas


위의 공식은 연구를 통해 측정된 계수와 문장의 수, 단어의 수, 음절의 수로 구성되어 있다. 이 중 측정 대상이 되는 텍스트와 직접적으로 연관이 있는 요소들은 문장과 단어, 음절의 숫자들이다. 단어가 평균적으로 얼마나 많은 음절로 구성되었는가, 문장이 평균적으로 얼마나 많은 단어로 구성되었는가가 이독성을 측정하는 중요 요소임을 알 수 있다. 다시 말해, 이독성이란 문장의 길이(문장의 복잡성), 단어의 길이(단어의 복잡성)가 핵심이라는 이독성의 정의적 측면을 만족시킨다고 할 수 있다.




이독성(Readability): 실전

그렇다면 이독성을 기준으로 텍스트의 어려움을 측정하면 어떤 결과가 나올까. 앞서 언급한 바와 같이 단어의 평균 길이와 문장의 평균 길이만 알고 있다면 금방 결과를 알 수 있다. 하지만 영어학습자들이 한 텍스트가 얼마나 많은 단어를 가지고 있는지, 단어들이 각각 몇 개의 음절을 갖고 있는지 측정하는 것은 어려운 일이다. 어떻게 단어의 수는 하나하나 셈한다고 쳐도, 한국어의 음운 체계와는 다른 영어의 음절을 세는 것은 초보일수록 어려운 일이다. 그러니 다음 사이트의 도움을 받아보도록 하자.


http://www.readabilityformulas.com/free-readability-formula-tests.php


위 사이트는 앞서 언급한 이독성 공식 Flesch Formula를 활용하여 무료로 측정할 수 있는 사이트이다. 테스트하는 방법은 간단하다. 측정하고자 하는 텍스트를 타이핑하거나, 복사-붙여넣기하면 된다. 이렇게 붙여 넣으면, Flesch 공식에 의한 결과를 필두로 여러 이독성 공식에 적용한 측정치를 보여주고 이 측정치를 종합한 결론을 보여준다.


텍스트:
Readability is more than simply legibility—which is a measure of how easily a reader can distinguish individual letters or characters from each other. Higher readability eases reading effort and speed for any reader, but it is especially important for those who do not have high reading comprehension. In readers with average or poor reading comprehension, raising the readability level of a text from mediocre to good can make the difference between success and failure of its communication goals. Readability exists in both natural language and programming languages, albeit in different forms. In programming, things such as programmer comments, choice of loop structure, and choice of names can determine the ease with which humans can read computer program code.

결과:
Flesch Reading Ease score: 38.1 (text scale)
Flesch Reading Ease scored your text: difficult to read.
...(중략)...
Readability Consensus
Grade Level: 14
Reading Level: difficult to read.
Reader's Age: 21-22 yrs. old (college level)


결과를 해석하는 법은 다음과 같다. Grade Level은 교육 정도를 의미한다. Level 1은 초등 1학년, Level 12는 고등 3학년, 그 이상은 대학생 레벨을 의미한다. 즉, 위의 위키피디아 내용은 대학생 수준의 글임을 보여준다. 영어 원어민 중에서 대학생 수준에 이른 사람이면 위의 텍스트를 쉬이 이해할 수 있다는 것이다. 이 글을 읽고 있는 독자가 위 영어 텍스트를 쉽게 읽고 이해할 수 있다면 미국 대학생 2~3학년 수준의 리딩 실력을 가졌음을 알 수 있다. 이독성 공식에 의한다면 말이다.


그렇다면, 한국영자신문(코리아헤럴드)과 미국영자신문(뉴욕타임스)을 비교한 결과를 살펴보자. 측정대상은 2017년 1월 27일 18시 기준 가장 첫 페이지에 나온 기사로 할 것이다.


<코리아헤럴드>
기사: http://www.koreaherald.com/view.php?ud=20170126000574
Readability Consensus
Grade Level: 9
Reading Level: standard / average.
Reader's Age: 13-15 yrs. old (Eighth and Ninth graders)
<뉴욕타임스>
기사: https://www.nytimes.com/2017/01/26/us/politics/mexico-wall-tax-trump.html?_r=0
Readability Consensus
Grade Level: 10
Reading Level: fairly difficult to read.
Reader's Age: 14-15 yrs. old (Ninth to Tenth graders)

결과에서 보듯이 원어민 기준 코리아헤럴드는 중학교 3학년, 뉴욕타임스는 고등학교 1학년 정도의 수준을 가졌음을 알 수 있다.  이 결과는 단순히 하나의 텍스트만을 대상으로 추출한 결과이기 때문에 섣부른 결론을 내리면 안되지만, 앞서 다룬 글과 같이 한국영자신문이 미국영자신문보다는 더 쉬운 것을 알 수 있다. 즉, 영자신문 리딩을 처음 시작한다면 뉴욕타임스로 시작하는 것보단 코리아헤럴드를 먼저 시도하는 것이 현명하다고 할 수 있다. 처음부터 failry difficult 수준의 텍스트를 시도하여 '난 역시 안 되는 건가'라고 느끼기보다는 standard 수준을 시도하여 '그래 이 정도는 가능하겠어'라는 효능감을 느끼는 것이 중요하다. 만약에 코리아헤럴드도 어렵다면? 주니어 영자신문으로 시작하는 것이 좋다. 자기보다 1단계 정도 위에 있는 교육자료를 사용하는 것이 학습자에게 의욕을 불러일으키기 때문이다.




이독성 비판

비록 이독성은 텍스트의 난이도를 측정하는 객관적 지표를 제시하고, 이를 통해 어떤 텍스트를 교육자료로 삼을지 결정하는데 도움을 줄 수 있지만, 이독성 공식 자체에 대한 비판도 알아둘 필요가 있다.


첫 번째, 이독성 공식은 지나치게 어려움을 단순화하였다. 먼저 공식을 분석하는데서 살펴봤듯이 이독성 공식에서 측정의 지표로 삼고 있는 것은 '단어의 길이'와 '문장의 길이' 두 가지다. 하지만 과연 길면 어려운 것은 사실일까? 이것은 꼭 그렇지 않다고 볼 수 있다. 단어 학습에서 어려운 것은 긴 단어보다는 숙어와 같은 복합적인 단어들이다. 특히, take나 get 등과 같이 짧고 고빈도인 단어들은 수많은 전치사나 부사들과 결합하여 구동사를 만든다. 이런 구동사들의 뜻은 외국어 학습자 입장에서는 익히기 어려운 것이다. 하지만 단순히 길이가 긴 단어는 뜻이 보통 하나이고, 이것은 외우면 그만이다. 즉, 단어학습에서 오는 어려움은 단어의 길이보다는 단어의 다의성(polysemy)에서 온다. 통사적 길이도 마찬가지다. 단순히 and나 but으로 연결된 단문들로 구성된 긴 문장은 이해하기 어렵지 않다. 하지만, 동일한 길이라고 which나 where 등과 같은 관계사와 생략 등을 이용한 복문은 이해하기 어렵다. 문자의 길이가 글자로 쓰인 텍스트 이해의 어려움과 직접적 연관이 있다고 보기는 힘들다.


두번째, 내용적 측면에서 오는 어려움은 고려되지 않았다. 동일한 길이의 단어라고 해도, 일반적으로 많이 사용되는 단어가 있고, 특정 영역에서 많이 쓰이는 단어가 있다. 학습자가 일반 텍스트가 아닌 특정 영역의 텍스트를 접했을 때 어려움 정도는 더 극대화된다. 다시 말해, 자주 접하지 못한 단어가 많이 나오는 텍스트는 생소할 수밖에 없고, 이는 학습자의 어려움으로 직결된다. 반대로, 전반적인 영어실력이 부족해도 특정 영역의 영어단어를 많이 접했고, 해당 전문서적을 읽는다면 어려움이 경감될 수 있다. 하지만 이독성 공식은 이런 요소가 전혀 고려되지 않았고, 단어 길이와 문장 길이로 공식을 단순화하여 학습자들이 느끼는 어려움과는 동떨어져있다고 볼 수 있다. 동시에, 유사한 의미를 가진 단어 중에서 특정 문화권에서 선호해서 사용하는 단어가 있기 마련인데, 이런 것들도 고려하지 못하므로 서로 다른 문화권을 배경으로 하는 텍스트가 유발하는 난이도 역시 사라지게 된다. 즉, 공식의 지나친 간결함으로 인해 오히려 객관성이 떨어지는 결과가 초래되는 셈이다.


이러한 단점에도 불구하고, 사람들이 알아보기 쉬운 객관적 지표를 제시한다는 점에서 이독성 공식은 매우 유용하다고 할 수 있다. 특히, 원어민들에게 적용된 기준이지만 교육 수준에 따른 난이도를 제시하여 학습자들이 받아들이기에 용이하다. 그리고 이 기준과 본인의 수준을 고려한다면 학습자들은 보다 쉽게 학습자료를 선정할 수 있을 것이다. 그러나 이독성 공식의 단점도 반드시 고려해야 한다. 이독성 공식에 따르면 분명 쉬운 읽기 자료인데, 본인이 느끼는 어려움은 더 클 수도 있다. 그것은 위에서 언급한 약점들로부터 오는 것이다.


그렇다면 이러한 단점을 극복한 측정 방안은 없을까. 그 방법에 대해서는 '리딩에 대한 소고 3'에서 알아보도록 하자.

매거진의 이전글 영어로 리딩 하기?

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari