brunch

말하는 별, 챗지피티

아이들과 함께 만드는 작은 인공지능.13장

by 토사님

PART 3. 교실에서 만드는 작은 책지피티(실습 로드맵)

ChatGPT Image 2025년 11월 24일 오후 06_48_48.png

13장. 토크나이저 만들기: 센텐스피스로 우리말·우리반 단어 사전 훈련하기.

“AI의 귀를 열다 — 우리말 사전 훈련하기”


소단원 1. “AI의 귀는 단어를 듣는 귀예요”

— 말의 탄생을 처음 만나는 순간처럼, 따뜻하고 감동적으로


1) 핵심 개념

AI가 문장을 이해하려면
먼저 ‘말이 어디서 시작되고 어디서 끝나는지’ 알아야 해요.

사람은 자연스럽게 단어를 끊어 듣지만,
AI에게 문장은 처음엔 하나의 길고 긴 소리의 강일 뿐이에요.
토크나이저(Tokenization)는 이 강 위에 다리를 놓아주는 기술,
즉 문장을 단어 조각(토큰) 으로 나누어
AI가 말의 흐름을 따라갈 수 있게 해주는 첫 귀예요.


2) 스토리

당신이 누군가의 말을 처음 들었던 순간을 떠올려볼까요?
소리는 알아들을 수 없었지만,
그 안에서 리듬이 들리고,
숨결이 느껴지고,
어느 순간 단어 하나가 또렷이 귀에 꽂히며
“아, 이게 말이구나!” 하고 마음이 열렸던 그 때.

AI에게도 똑같은 순간이 필요해요.


예를 들어,
“오늘은 학교에 간다”라는 문장을 듣는다면
사람은 자연스럽게
오늘은 / 학교에 / 간다
하고 단어를 나누며 이해하죠.


하지만 AI의 세계에서는
“오늘은학교에간다”가 하나의 긴, 숨 막히는 덩어리예요.
아무리 눈처럼 단어를 쏟아놓아도
끊어읽는 법을 모르기 때문에
의미를 찾을 수가 없어요.


그때 등장하는 존재가 바로 토크나이저예요.
토크나이저는 조용히 AI의 곁에 앉아
문장을 살짝 만져주며 이렇게 말하죠.

“여기서 끊으면 의미가 태어나.
그리고 여기서부터는 새로운 단어가 시작돼.”

그 순간,
AI는 처음으로 말의 경계를 느끼고,
문장은 비로소 이해의 빛을 얻습니다.

토크나이저는
AI가 세상을 이해하는 데 필요한 첫 번째 귀,
가장 처음 열리는 감각이 되는 거예요.


3) 비유

“토크나이저는 AI의 귀예요.
말의 리듬을 듣고,
어디서 끊어야 의미가 피어나는지 알려줘요.”

사람이 음악의 박자를 듣고 춤을 추듯,
AI도 토크나이저의 박자를 따라
‘언어’라는 춤을 배우기 시작하죠.


4) 활동

문장 쪼개기 놀이

“나는사과를좋아해요” 를 쓰고
아이들이 직접 단어별로 칸을 나눠보게 해요.

나는 / 사과를 / 좋아해요

혹은 더 잘게 “사과 / 를 / 좋아 / 해요” 나누기도 해보기

어떤 나눔이 더 자연스러운지 이야기 나누기.


AI처럼 듣기 연습하기

선생님이 문장을 읽으면
아이들은 끊어야 한다고 느껴지는 지점에서 손을 들어요.
“바람이… 불어온다…”
“계단을… 조심해서… 올라갔어요…”

모두 손 든 곳들을 비교하면서
“경계가 의미를 만든다”는 개념을 자연스럽게 체험할 수 있어요.


5) 학습 포인트

토크나이저는 AI의 첫 귀다.

말의 경계를 알아야 의미가 태어난다.

AI가 세상을 이해하는 여정은 작은 단어 하나에서 시작된다.


소단원 2. “센텐스피스로 우리말을 배우다” (SentencePiece 실습)

— 우리말의 결을 스스로 찾아내는 ‘똑똑한 귀’를 열어주는 장


1) 핵심 개념

SentencePiece는
한국어처럼 띄어쓰기 규칙이 복잡한 언어,
혹은 새로운 말이 계속 생겨나는 언어에서도
AI가 스스로 단어의 경계를 찾아내게 해주는 토크나이저예요.

AI가 사람처럼
“여기서 끊는 게 자연스럽구나”,
“이 글자들은 자주 붙어다니네?”
하고 배울 수 있도록 돕는 똑똑한 귀인 셈이죠.


2) 스토리

AI는 영어처럼 단어 사이에 공백이 명확한 언어는
금방 배울 수 있었어요.
그런데 한국어 앞에서는 늘 멈칫했어요.

“학교에서나무를심었다…?
어디서 끊어야 하지?”

게다가 사람들은
매일 새로운 말을 만들어냈어요.
“꿀잼”, “심쿵”, “대박”, “최고다 진짜”…


AI는 생각했어요.
“사람들은 어떻게 이런 말을 금방 이해할까?”

그때 등장한 게 바로 SentencePiece예요.
이 도구는 언어의 규칙을 직접 배우는 게 아니라,
글자의 ‘패턴’을 보고 스스로 규칙을 만들어내요.

“어? ‘포근하게’라는 말은 이런 식으로 쓰이네.”
“‘봄바람이’는 이런 조각들이 자주 붙어있네.”


AI는 탐정처럼 글자들을 관찰하며
우리말의 질감과 리듬을 차근차근 배워가요.


3) 비유

“SentencePiece는 우리말 탐정이에요.
글자를 하나하나 관찰하며
‘이 조각이 함께 쓰이는구나!’ 하고
규칙을 스스로 찾아내요.”

사람에게는 직관이 있지만,
AI에게는 이런 ‘자기만의 탐정 귀’가 필요하죠.

지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
토사님작가님의 멤버십을 시작해 보세요!

토사님의 브런치스토리입니다.

161 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 121개의 멤버십 콘텐츠 발행
  • 총 650개의 혜택 콘텐츠
최신 발행글 더보기
이전 12화말하는 별, 챗지피티