말뭉치 데이터화
'말뭉치'라고 들어 보셨나요?
컴퓨터로 가공, 처리하고 분석할 수 있도록 실제로 사용된 말이나 글을 모은 데이터베이스지요. 영어로는 Corpus(코퍼스)라고 합니다. 언어 연구의 기초 자료로 쓰이는데 챗GPT가 이 말뭉치를 기반으로 한 문서 5조 개를 사용해 딥러닝을 했다고 하네요.
결국 챗GPT의 말뭉치 학습은 한 인간의 언어 학습 과정을 양과 속도 면에서 어마어마하게 증폭시키는 과정인 거죠.
한국어든 영어든 특정 단어나 표현을 적재적소에 말이나 글로 쓸 수 있으려면 우선 노출을 늘려야 합니다. 그 단어나 표현이 쓰인 다양한 맥락을 보고 들어야겠죠.
사전에서 정의를 확인하고 구글링을 통해 다양한 컨택스트에서의 용례를 찾아보는 거죠. 신문 기사, 사설, 논문 등 다양한 문서와 동영상이 넘쳐 나는 게 인터넷이니 언어 학습하기 얼마나 좋은 환경인가요. 이 과정을 꼼꼼히 거치면 이제 수동적인 이해의 단계에 들어섭니다.
거기서 한 발 더 나아가 능동적으로 내가 입으로 글로 직접 쓸 수 있기 위해서는 단순 노출을 넘어서 직접 말해 보고 써 보고를 반복하는 과정을 계속 반복합니다.
큰 소리로 읽기(음독), 영상/음성 따라 말하기 (쉐도잉)를 주로 하고 통번역대학원에서는 학생들 간 스터디를 통해 능동적으로 쓸 수 있는 표현/단어를 늘려 갑니다.
말하자면 개인의 '말뭉치' 데이터화• 과정 인데 지지부진하고 더딜 수밖에 없지요.
국내파인 말모이가 수 십 년 전 대학 시절부터 정리해 둔 영어 표현집과 영자 신문 스크랩북을 가끔 펼쳐 보면 얼마나 영알못이었는지 몰라요.
하지만 아무에게도 들키고 싶지 않은 흑역사였던 그때의 내가 들인 시간과 노력이 없었다면 오늘의 저도 없겠지요. 물론 아직도 갈 길이 멉니다. 그래서 오늘도 다시 정진합니다.