여전히 한국어가 어려운 AI를 위하여
메타에서 X(트위터)를 잡기 위해 출시한 단문 중심 SNS인 쓰레드. 나는 2년 정도 쓰레드를 사용하면서 900개 넘는 글을 작성했다. 쓰레드는 텍스트 기반의 플랫폼인데 요새는 이미지로 된 게시글도 많아져서 인스타그램과 큰 차이가 없어 보인다. 하지만 그것은 쓰레드를 모르고 하는 말이다.
쓰레드 기능 중 설문 기능은 막강하다. 댓글 대신 투표만으로도 사람들의 생각을 읽을 수 있다. 하루 만에 700건 가까운 답변을 얻은 설문을 공개한다.
내 음성을 학습한 AI 아바타가 '잘 가'를 [잘까]라고 발음하는 것을 보며 아쉬움을 느꼈다. 학습량도 부족하고 학습된 데이터도 그릇된 것이다. 그래서 AI를 잘 가르치기 위한 데이터를 모으는 중이다. '신라면' 발음 실태 조사는 그 중 하나이다.
AI의 오류 사례를 더 소개해 보면 다음과 같다.
K-POP 가사로 한국어 수업을 하기 위해 챗GPT에 표준 발음을 요구했다. '승리'가 [승니]로 발음되는 것은 맞지만 이는 'ㄹ'의 비음화이며, '과식했지'는 [과시캗찌]로 발음해야 한다. 이는 된소리화와 관련이 없다. '산책도'가 [산책또]가 되는 것은 경음화가 맞지만 용어가 일관되지 않는 느낌이다. 된소리화가 아닌 것은 된소리화라고 하고 된소리화라고 해도 되는 것은 경음화라고 하는 것이랄까?
챗GPT에 신라면을 그려달라는 요청을 했다가 라면 포장지에 쓰인 외계어를 보며 헛헛한 웃음을 짓는다. 글씨도 못 써, 발음도 틀려, 근거도 제멋대로인 챗GPT. 그렇지만 이 녀석 없이는 외국어 콘텐츠를 어찌 만들까. 병 주고 약 주는 챗GPT이다.