토큰과 임베딩, AI의 언어 이해 방식
오늘 아침, 그동안 쓴 글들을 다시 읽어보았다.
처음 2탄까지는 진심이었다.
정말로 내가 이해하기 어려웠던 개념들을 다른 사람들도 쉽게 이해했으면 하는 마음으로 썼다. GPU가 왜 중요한지 모르던 내가, 퍼즐 맞추기로 설명하면서 스스로도 더 깊이 이해하게 되었다. AI 증류 기술을 실제 술 증류와 비유했을 때는, 그 과정이 얼마나 섬세하고 중요한지 나 자신도 새삼 깨달았다.
그런데 3탄부터는 달랐다. 호응에 취해 자꾸 새로운 비유를 찾으려 했다. 억지로 끼워 맞추기 시작했다. 지인이 보내준 "비유가 점점 어색해진다."라는 피드백이 마음에 걸렸지만, 그때는 그저 '더 재미있는 비유를 찾아보자'고만 생각했다.
8탄까지 쓰고 나서야 알았다.
나는 진정한 목적을 잃어버렸다는 것을. 처음의 순수한 의도 - 어려운 것을 쉽게 설명하고 함께 이해하자는 그 마음이 어느새 '인기 있는 글을 써야 한다'는 부담으로 변해있었다.
첫 2탄의 글이 호응을 받은 것은, 그것이 진짜 내 고민과 이해의 과정을 담고 있었기 때문이다. GPU를 이해하려 했던 내 혼란스러움, AI 증류 기술을 이해하려 노력했던 그 과정 자체가 글의 진정성이 되었다.
이제 다시 처음으로 돌아가려 한다. 진짜 궁금한 것을, 정말 이해하고 싶은 것을, 내가 헷갈렸던 그대로를 나누는 글을 쓰고 싶다.
비유는 이해를 돕는 도구일 뿐, 그 자체가 목적이 되어선 안 된다는 것을 이제야 깨달았다.
토큰이란?
- AI가 언어를 이해하는 기본 단위
- 마치 아이가 '가나다'를 배우듯 글자를 작은 단위로 나누어 이해
왜 토큰으로 나눌까?
긴 문장을 이해하기 쉽게 정리 반복되는 패턴을 쉽게 발견 메모리를 효율적으로 사용
실제 예시로 보기:
"오늘 날씨가 참 좋네요" → "오늘", "날씨", "가", "참", "좋", "네요"
- 각각의 의미를 정확히 파악 새로운 문장을 만들 때도 활용
임베딩이란?
단어를 숫자로 변환하는 기술 비슷한 의미는 가까운 숫자로 다른 의미는 먼 숫자로 표현
왜 임베딩이 필요할까?
AI가 단어 간 관계를 이해 문맥에 맞는 답변이 가능 더 자연스러운 대화 구현
실제 활용 예시:
"사과"와 "배"는 가까운 거리 → 둘 다 과일이니까!
"사과"와 "컴퓨터"는 먼 거리 → 전혀 다른 의미니까!
ChatGPT 사용할 때
토큰 제한이 뜨는 이유
→ 마치 대화할 때 호흡과 같아요
( 너무 말이 많으면, 호흡이 딸린다.)
임베딩 생성 요청이 나오는 순간
→ AI가 더 깊이 이해하려 할 때
(언니! 나 마음에 안들죠? 라는 뜻은 아닌지..)
앞으로 AI는 더욱 섬세하게 우리의 언어를 이해할 것입니다. 그만큼 우리도 AI를 더욱 섬세하게 이해하려고 노력해야 하지 않을까요?
다음에는 더 재밌고, 쉽고, 유익한 내용으로 찾아뵙겠습니다.
To Be Continue......
- Total HR / 사파 감성 HR & 나만의 AI를 찾고 있는 구아바 -