로또의 착각 ③ 범주를 섞으면 시(詩)가 된다

by 한경수

2편에서 인간이 세상을 범주로 본다는 이야기를 했다. 범주는 네트워크를 이루고, 그 네트워크가 세계관이 된다. 그런데 범주의 네트워크는 대부분 "익숙한 연결"로 이루어져 있다. 산은 물과 연결되고, 봄은 꽃과 연결되고, 슬픔은 눈물과 연결된다.

이 익숙한 연결을 깨뜨리면 어떤 일이 벌어지는가?

로또가 그 실험을 가능하게 했다.


random.sample()

로또의 원리는 단순하다. 45개 공에서 6개를 무작위로 뽑는다. Python으로 쓰면 random.sample(range(1, 46), 6)이다. 이걸 한자에 적용했다.

한자 100개를 골랐다. 天, 地, 日, 月, 星, 雲, 雨... 자연, 인간, 감정, 추상 — 의미 영역을 골고루 분산시켜 선별한 100개. 이것이 모집단이다.

여기서 7개를 무작위로 뽑는다. random.sample(한자100, 7). 로또 추첨과 같은 원리다. 뽑힌 7개로 칠언절구를 짓는다.

첫 시도.

情 忘 河 水 心 年 憎.

강물은 해마다 흘러 쉬지 않고, 마음속 사랑과 미움 언제쯤 잊을까.

말이 된다. 자체 평가 4.5점.


말이 되는 이유

무작위로 뽑았는데 왜 말이 되는가?

모집단 자체가 이미 큐레이션되어 있기 때문이다. 100개 한자를 고를 때, 시에 쓸 만한 글자들을 골랐다. 天(하늘), 心(마음), 夢(꿈), 愛(사랑) — 이런 글자들은 어떻게 조합해도 시적 연결이 가능하다. 모집단의 설계가 곧 창작의 조건이다.

그리고 한자의 구조적 특성이 돕는다. 한 글자가 하나의 개념을 담는다. 어순이 비교적 자유롭다. 다의성이 있어서 맥락에 따라 의미가 확장된다. 山을 보면 산이 보이고, 水를 보면 물이 보인다. 표의문자이기 때문에 조합만으로 이미지가 생긴다.

그런데 모든 조합이 말이 되는 것은 아니었다. 石 牛 圓 銀 果 方 犬. 돌, 소, 둥글다, 은, 과일, 네모, 개. 이걸로 시를 짓기는 어렵다. 통과율은 약 60%였다.


통과율을 올리다

60%를 95%로 올리는 과정이 이 실험의 핵심이었다.

먼저 구조를 바꿨다. 100개에서 무작위로 7개를 뽑는 대신, 기본 글자 3개와 테마 글자 4개로 나눴다. 기본 글자는 어디에나 어울리는 범용적 한자(大, 小, 高, 長, 無 같은 것). 테마 글자는 자연, 인간, 추상 중 하나의 영역에서 뽑는다. 같은 세계 안에서 조합하면 이질적 충돌이 줄어든다.

그 다음 레이어 구조를 넣었다. 대테마(자연/인간/추상) 아래에 소테마(계절과 시공간, 감정과 일상, 철학과 감각)를 두고, 소테마별로 2개씩 뽑는다. 기본 3개 + 소테마1에서 2개 + 소테마2에서 2개 = 7개. 같은 세계관 안에서, 두 가지 결이 교차하면서 시적 긴장이 생긴다.

통과율이 95%를 넘었다.


시인과의 차이

여기서 하나를 깨달았다. 시인도 같은 일을 한다. 다만 순서가 다르다.

시인은 먼저 필터링한다. 이별 시를 쓰려면 別, 離, 去, 思, 念, 淚 같은 글자들을 먼저 고른다. 걸러진 후보 중에서 조합한다. 선택(select) → 생성(generate).

우리 시스템은 먼저 생성한다. 무작위로 뽑고, 그 다음 "말이 되나?"를 평가한다. 생성(generate) → 선택(select).

시인의 방식은 성공률이 높다. 검증된 조합만 시도하니까. 우리 방식은 성공률이 낮다. 대신 시인이 절대 시도하지 않을 조합을 탐색한다.

시인은 평생 300~500자의 레퍼토리 안에서 일한다. 자주 쓰는 글자는 더 적다. 패턴이 생긴다. "이별에는 이 글자들"이라는 회로가 굳어진다. 우리 시스템은 그 회로가 없다. 石과 牛과 犬이 한 시에 들어갈 수 있다. 99%는 실패하지만 1%에서 시인이 평생 쓰지 못할 조합이 나온다.


전문가란 필터링이 훈련된 사람이다

이 실험을 하면서 하나의 세계관이 바뀌었다.

전문가는 특별한 능력을 가진 사람이 아니다. 나쁜 조합을 거르는 눈이 훈련된 사람이다.

요리사를 보자. 냉장고에 재료 7개가 있다. 초보는 아무거나 섞어서 50%가 실패한다. 셰프는 같은 7개를 보고 즉각적으로 "이건 안 어울려"를 판단한다. 90%가 성공한다. 차이는 레시피 암기가 아니라 필터링 능력이다.

즉흥 재즈 연주자도 마찬가지다. 무작위 음을 던져도 불협화음이 아니라 멜로디가 된다. 화성학이 체화되어 있으니까. 나쁜 조합이 손가락에서 자동으로 걸러진다.

10년 수련은 무엇인가? 필터를 정교화하는 과정이다. 처음에는 굵은 체로 거르다가, 점점 미세한 체로 거르게 된다. 통과율이 60%에서 95%로 올라가는 과정. 우리가 레이어 구조를 설계한 것과 같다. 다만 전문가는 그 구조가 몸에 있고, 우리는 코드에 넣은 것이다.

암묵지(tacit knowledge)가 명시지(explicit knowledge)로 전환되는 순간이었다.


범주의 설계가 곧 창작의 조건

돌이켜보면, 이 실험 전체가 하나의 문장으로 압축된다.

모집단의 설계가 곧 창작의 조건이다.

100개 한자를 어떻게 고르느냐가 시의 품질을 결정한다. 레이어를 어떻게 나누느냐가 통과율을 결정한다. 무작위 추출 자체는 기계가 한다. 결정적인 것은 추출 이전에 무엇을 풀에 넣느냐다.

이건 로또와 같다. 45개 공은 기계가 뽑는다. 그런데 어떤 번호를 마킹하느냐는 인간이 결정한다. 1편에서 이야기한 것처럼, 인간의 선택은 무작위가 아니다. 범주적 편향이 작동한다. 생일 번호, 행운의 숫자, 시각적 패턴. 편향이 풀의 구성을 왜곡한다.

시 생성에서는 편향을 의도적으로 설계했다. 시에 어울리는 글자만 골랐으니까. 이 의도적 편향이 통과율을 60%에서 95%로 끌어올렸다.

그렇다면 모든 창작이 같은 구조가 아닌가? 기본 재료 N개를 정하고, 무작위로 k개를 뽑고, 조합하고, 평가한다. 한자를 음식 재료로 바꾸면 레시피 생성이고, 음악 코드로 바꾸면 작곡이고, 색깔로 바꾸면 배색이다. DNA만 바꾸면 된다. 구조는 같다.


다음 글에서는 이 모든 것을 하나로 묶는다. 로또 데이터 하나에서 범주형 자료의 본질, 인간의 편향, 회귀모형, 정규화 기법까지 — 하나의 데이터셋에서 통계학 전체가 나오는 풍경.

매거진의 이전글로또의 착각 ④ 한 데이터셋에서 통계학 전체가 나온다