brunch

You can make anything
by writing

C.S.Lewis

by 크게슬기롭다 Nov 16. 2024

문장 분류 모델이 필요하다

은유의 글쓰기 상담소 20. 곁길로 새지 않고 한 가지 주제로 ~

은유의 글쓰기 상담소 20. 곁길로 새지 않고 한 가지 주제로 글을 쓰려면 어떻게 해야 할까요?


p. 133

작가에게 쓸거리가 많은 건 바람직한 일입니다. 그러니 용기를 잃지 마시고요, 곁길로 새면 다시 돌아오면 된다는 여행자의 마음으로 오늘도 글 한 편 쓰시길 바랍니다. 


--


머신러닝 분류 모델에 쓰이는 여러가지 방법 중, 의외의 데이터에도 크게 영향받지 않고 빠르게 정답을 찾아낼 수 있는 특징을 보이는 모형이 있다. 트리모형, 혹은 의사결정나무 모형이라고 하는 것들이다. 컴퓨터가 의사결정하는 방식이 (거꾸로 세운) 나무 가지 뻗어나는 것과 비슷하다고 하여 그렇게 이름이 지어졌다. 크게 묶으면 '트리모형' 이라고 기억하면 된다. 그 나무들은 열심히 자기와 비슷한 특징을 보이는 패턴들을 뭉쳐낸다. 그러다 어느 순간, 두 그룹을 쪼개는 게 더 유의미하다고 판단이 될 때, 데이터들을 나눈다. 해당 '분기점' 을 나누는 기준은 두 그룹을 나누었을 때의 '불확실성' 이 감소하는 포인트를 잡아낸다. 강야지와 고양이의 이미지를 보고 두 그룹을 분류할 때, 두 그룹의 눈코입 갯수로 이미지를 분류하기엔 불확실성이 크게 감소되지 않는다. 반면 귀의 모양새를 보고 이미지를 둘로 나눈다면, 조금더 불확실성이 낮아질 수 있다. 


글에 곁가지가 자꾸 생긴다면 스스로의 글 주제를  나눠야 하는 '분기점' 을 찾아야 한다는 신호일 것이다. 나눠놓지 않고 하나의 글에 모두 섞어둔다면, 글이 가지고 있는 '불확실성' 이나 '불순도' 의 수준이 크게 올라갈 것이다. 그 글의 허리를 툭 하고 끊어내어, 어느 쪽은 '빵집 아르바이트 에피소드' 로 해두고, 또 다른 쪽은 '보호받지 못하는 노동자 권리' 로 한다면 어떨까. 은유 작가 역시 같은 이야기를 언급했다. 각각의 글을 쓸 수 있는 충분한 주제임에도 하나의 글로 퉁쳐버리면 너무 아깝지 않겠냐는 말도 덧붙였었다. 분류 알고리즘의 관점에서 본다면 아직도 나눠져야 할 것이 많은 '혼란스러운' 글인 것이다. 


실제로 '이미 작성된 뉴스' 의 토픽을 새롭게 부여하는 것, 리뷰에 '감정'을 부여하는 방법을 컴퓨터에게 학습시키는 방법은 이와 유사하다. 질문자의 글 속 문장들을 하나 하나 쪼개어두고 숫자로 변형한 뒤(벡터라이징) 비지도 학습을 시켜보면 어떨까. 같은 단어가 쓰이는 것 뿐 아니라, 문장 속 의미를 포착할 수 있게 충분히 잘 학습된 숫자 변환기(임베딩)를 통과시킨다면, 질문자의 글에서 몇 개의 추가 주제를 뽑아낼 수 있을 것이다. 그리고 이제 우린 챗 지피티가 있다. 꼭 직접 '한국어 임베딩 모델'을 통과시키지 않더라도 가능하다. 여러 주제로 끝도 없이 쓰여진 글을 놓고, 챗 지피티에게 주제를 원하는 만큼 뽑아달라고 말하면 어떨까. 글의 순도를 점차 올리면서, 작가 스스로도 몰랐던 여러 다양한 주제를 만들어 낼 수 있을 것이다. 그 주제들을 하나씩 잡고 깊게 글을 쓰면 될 것이다.


큰 나무 기둥을 쓴 '질문자' 에게 도움이 될 만한 여러개의 큰 가지들을 알려주고 싶다. 마치 아래 이미지 처럼.


1) 간접 처리 


2) 직접 처리

1108

매거진의 이전글 말문이 막힐때도 마찬가지
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari