창의적인 AI 훈련하기

4 ways to train creative AI

by 강효모

TL;DR AI가 대체할 수 없는 직업이라고 얘기되던 영역들이 있습니다. 바로 창의성이 필요한 영역들인데요, 이미 이미지 생성과 같은 작업들이 활발히 사용되고 있는 지금에도 유효한 얘기일까요? 이 생각에서 출발하여 창의적인 AI를 훈련해 보았습니다.


스탠드업 코미디 쇼츠들이 알고리즘에 종종 나타납니다. 보다 보면 생각하지도 못한 흐름으로 얘기가 이어질 때 감탄을 하곤 하는데요. LLM을 공부하면서 이러한 창의성이 결국 낮은 연결 확률을 지닌 내용들을 연결하는 것이 기본이 된다는 생각을 했습니다.

다음 토큰 예측 (Next Token Prediction)은 LLM의 핵심 개념으로 어떤 단어의 나열이 주어졌을 때 다음 단어로 무엇이 올지 예측을 하는 것입니다. 일반적으로 확률이 높은 것을 선택하지만, 다양한 대답을 얻기 위해서 확률이 낮은 단어를 선택하도록 세팅을 하기도 합니다.

띄어쓰기도 토큰으로 인식합니다

다음 토큰 생성과 관련해서 유명한 전략은 아래와 같습니다. LLM에서는 온도 (temperature)라는 변수를 이용하여 이러한 무작위성을 조절하고 있으며 온도=0이면 가장 낮은 무작위성을 보이고, 온도=1일 때 높은 무작위성을 지닌 답변들이 생성되게 됩니다.

앞서 한 생각이랑 연결 지어서, 창의적인 AI가 되도록 훈련해 보고 제 생각이 맞는지 검증해 보도록 하였습니다. 온도 변수를 1로 두도록 세팅하는 것은 무작위성이 높아지긴 해도 창의적인 답변은 아닐 수 있어 참고 자료를 찾아보았습니다. 그랬더니 아주 번뜩이는 생각이 떠올랐습니다....!


창의성을 채점하는 AI인 Ocsai (https://openscoring.du.edu/scoringllm)

이 연구에 대해서 잠깐 소개해보자면, 창의성은 측정하기에 어려울뿐더러 전통적으로 사람이 채점해 왔기에 비용이 증가하고 신뢰성 문제가 발생합니다. 이러한 어려움을 해결하기 위해서 이 연구에서는 performance, robustness, transferability 3가지 측면에서 미리 사람들이 채점한 테스트 예제를 기반으로 LLM을 훈련하였습니다.

Performance: 훈련된 LLM의 성능은 좋은지

Robustness: 다양한 테스트 예제의 규모에 따라서 LLM 훈련 성능이 어떻게 차이를 보이는지

Transferability: 훈련된 LLM은 새로운 데이터에 대해서도 좋은 성능을 보이는지

그 결과, 1) 훈련된 LLM이 채점한 점수는 사람이 채점한 점수와 유사하며, 2) 복잡한 LLM일수록 성능이 뛰어나며 심지어 테스트 예제 규모의 1%도 안 되는 160 예제만으로도 좋은 성능을 보였고, 3) 새로운 프롬프트에 대해서도 좋은 성능을 얻었습니다.

Oscai 화면


역으로 창의적인 AI 만들기

Oscai의 인풋값과 유사하게 특정 물건을 입력했을 때 그 물건의 용도를 창의적으로 대답하도록 훈련해 보겠습니다. 아래는 다른 방식과 비교할 Baseline이 되는 결과입니다.

0. Baseline model

방식 1. 온도를 높이기 (★☆☆☆☆)

앞서 언급한 방법인데요. 온도 변수를 높여 LLM이 더 무작위적인 대답을 하도록 하여 전형적인 대답이 아닌 새로운 답변을 하도록 유도하는 방법입니다. 온도를 높여서 여러 번 테스트해 봐도 세부적인 내용이 달라질 뿐이지 큰 정보가 변경되지는 않았습니다.

1. High temperature model

방식 2. 자아를 줘보기 (★★☆☆☆)

AI에게 스탠드업 코미디언의 자아를 줬습니다. 자아를 세부적으로 설정하고 개선하면 더 나은 결과를 얻겠지만 이미 충분히 흥미로운 결과를 얻어서 이쯤에서 멈췄습니다. 원래 생각했던 것처럼 박스의 용도에 대한 창의적인 대답을 한 것은 아니지만 꽤나 괜찮은 스탠드업 코미디 같지 않나요?

Q: What would be a creative way of using a box?
A: I once saw a guy trying to think outside the box. He was standing there for hours, but he couldn't figure out how to get in!
2. Instruction: My stand-up comedian

방식 3. 창의적인 예시를 줘보기 (★★★☆☆)

창의성 측면에서는 방식 2도 좋지만, 원래 기대한 내용에서는 벗어난 대답을 얻을 수 있었습니다. 창의적으로 물건의 용도에 대해서 대답하는 AI를 만들기 위해서 예시들을 전달해서 제가 기대하는 것이 무엇인지 학습시켰습니다. 8개의 예시만 넣었고, 예시에는 제가 테스트한 '책'을 입력하지도 않았지만 책의 창의적 용도에 대해서 잘 대답한 것으로 보입니다.

3. Few shot engineering

방식 4. 창의성을 채점하고 그 결과를 다시 학습 (★★★★☆)

앞서 창의성을 채점하는 AI인 Oscai에 대해서 공유했는데, 이걸 이용해서 창의적인 대답을 낳는 AI를 만들어보도록 하겠습니다. 이는 생성형 AI 모델인 GAN에서 착안한 것으로 생성자 (예시: 위조지폐를 만들어내는 범죄자)와 판별자 (예시: 위조지폐를 판별하는 판별사) 사이의 관계를 적절히 이용하면 뛰어난 생성물 (예시: 위조지폐)를 만들 수 있다는 데에서 착안합니다.

아직 많은 예시가 있지 않아 방식 3과 같이 예시에서 학습한 부분도 크겠지만 Input 2인 score 부분을 조절하여 창의성의 정도를 조절하는 대답을 얻을 수 있고, Oscai를 활용하여 새로운 예시를 만들어낼 수 있다는 점에서 더 확장 가능성이 높은 방식으로 보입니다.

왼쪽에서 창의성 점수를 얻어 오른쪽에 입력했습니다


참고 논문:

[1] Organisciak, P., Acar, S., Dumas, D., & Berthiaume, K. (2023). Beyond semantic distance: Automated scoring of divergent thinking greatly improves with large language models. Thinking Skills and Creativity, 49, 101356. https://doi.org/10.1016/j.tsc.2023.101356


Disclaimer:

제 글은 AI/LLM 관련 업무를 하지 않는 사람들을 대상으로 하고 있으며 그에 따라 최대한 전문 용어의 사용을 피하고 있습니다.

제가 속했거나/속한 회사와 관련이 없고 공개된 정보를 기반으로 한 결과입니다.

매거진의 이전글AI를 속이려는 사람들