brunch

설치형 LLM은 과연 제대로 성능을 낼 수 있을까?

llama 3 8B와 gemma 9B CoT 테스트

by 홍영훈

LLM의 가장 재미있는 특성 중 하나인 CoT(Chain of Thought)는 파라메터 수가 100억개 이상의 경우에 발현된다고 들었다.

ChatGPT, gemini, claude ai 는 당연히 파라메터 숫자가 이보다 훨씬 크기때문에 Chain of Thought가 아주 훌륭하게 동작한다.


그렇다면 파라메터가 100억개 이하인 설치형 LLM들은 어떻게 동작할까?

다음의 CoT용 프롬프트를 대표적인 설치형 LLM인 llama 3와 gemma 에게 시도해보았다.


숫자 그룹 내의 홀수들을 합산하면 짝수가 된다: 4, 8, 9, 15, 12, 2, 1.

A: 홀수(9, 15, 1)을 모두 더하면 25가 됩니다. 정답은 거짓입니다.


숫자 그룹 내의 홀수들을 합산하면 짝수가 된다: 17, 10, 19, 4, 8, 12, 24.

답: 홀수(17, 19)를 모두 더하면 36이 됩니다. 정답은 참입니다.


숫자 그룹 내의 홀수들을 합산하면 짝수가 된다: 16, 11, 14, 4, 8, 13, 24.

답: 홀수(11, 13)을 모두 더하면 24가 됩니다. 정답은 참입니다.


숫자 그룹 내의 홀수들을 합산하면 짝수가 된다: 17, 9, 10, 12, 13, 4, 2.

A: 홀수(17, 9, 13)을 모두 더하면 39가 됩니다. 정답은 거짓입니다.


숫자 그룹 내의 홀수들을 합산하면 짝수가 된다: 15, 32, 5, 13, 82, 7, 1.

A:



gemma 9B


제목 없음.png


기대했던 결과가 아니다.



llama3 8B

제목 없음.png


진행과정은 훌륭했으나 최종 결과물 도출은 실패했다.



잠정 결론 :


온디바이스형 LLM에 대한 관심이 뜨겁다.

LLM의 여러 장점들이 위에서 보는 바와 같이 온디바이스 LLM에서는 제대로 구현되지 않을 가능성이 높다. LLM 기반 앱 개발자들이나 프롬프트 엔지니어들의 연구와 경험 축적이 LLM 모델 개발 못지 않게 중요해질 것으로 예상된다.

작가의 이전글GPT-4 메모리 기능.