AI는 프롬프트보다 모델 선정이 우선이라고?

by SPECAL
4.JPG


이전글에서 프롬프트는 중요하다 몇 번이나 말씀드렸습니다. 어떤 식으로 프롬프트를 짤 것인가 어디까지 활용할 것인가는 굉장히 중요하죠


다만 프롬프트 엔지니어링, 이 말은 굉장히 있어 보이지만 까놓고 말해서 어떻게 프롬프트 쓸 거야 질문과 동일합니다. 여기에 공학적 요소가 가미된 것뿐이죠(모든 엔지니어링이 그렇긴 합니다만)


그런데 여러 ai를 사용해 보면 이상하게 말해도 찰떡같이 알아먹는 경우도 있고 말을 진짜 못 알아먹는 경우도 있습니다. 이건 단순히 성능문제일까요? 아니면 그냥 그때 서버상태가 안 좋아서 일까요? 무료버전과 유료버전에 차이가 심하게 나는 이유는 또 뭘까요?


단순히 무료버전이라 그렇다. 이렇게 말씀하셔도 솔직히 틀린 말씀은 아닙니다만, 핵심적인 부분은 허용된 연산량이 다르다는 겁니다. 심지어는 추론 모델과 비추론 모델이 존재한다는 거예요. 조금 이해가 안 되죠? 문답법으로 이야기해 볼까요?


추론할 수 있으면 무조건 추론모델이 좋은 거 아닌가요? 추론을 못하는 모델이 별로인 게 맞죠?

우선 말씀드리면 절대치 질문에 대한 수치값은 추론 모델이 뛰어난 게 맞습니다. 그럼 물어보죠 단순 반복노동에 굳이 정답을 찾는 추론이 필요한가요?


솔직히 말씀드리면 굳이 필요 없다 아닙니다 아니 사실 대부분의 단순작업에서 추론이 필요 없을 경우가 높아요

예를 들어보면 OCR 그러니까 사진을 글씨로 바꿔주는 작업에서 굳이 추론을 할 필요가 있을까요?


아니 그래도 정확도가 올라갈 거 아니에요!

맞습니다 정확 도는 올라갑니다. 단 무한한 연산량이 가능하다면 그렇겠죠, 그런데 AI에는 토큰이란 게 존재하고 우리는 제한된 연산량을 가장 효율적으로 사용할 필요성이 있습니다.


조금 직관적으로 말하면 어떤 일을 시키느냐에 따라 그 자원을 효율적으로 배분해야 하는 문제라는 겁니다.


그럼 어떻게 선정해야 하는데요?

자 그럼 이제 오늘은 이 질문에 대답하기 위한 이야기를 해봅시다.


1. 추론 모델과 비추론 모델의 개념


1. 추론모델(Inference Model)과 비추론 모델 (Non-Inference Model)


추론 모델은 입력 데이터를 여러 단계의 reasoning 과정을 거쳐 처리하는 모델입니다.


말은 어렵지만 COT(Chain-of-Thought) 즉 사고의 연쇄 방식을 기반으로 하여, 복잡한 문제 해결과 논리적 사고, 창의적 산출물을 도출하는 데 최적화된 인공지능이죠.


반면, 비추론 모델(Non-Inference Model)은 단순 반복 작업이나 정형화된 데이터 처리에 중점을 둔 모델로, 복잡한 사고 과정을 생략하고 효율적인 연산 처리를 목표로 만들어진 모델인 것이죠


사실대로 말하면 작금의 인공지능은 추론기능이 안 들어간 모델을 찾기 더 어렵습니다.


그렇다면요?


2.GPT모델과 추론모델

43453캡처.PNG

GPT는 본인들의 모델을 추론모델과 GPT 모델로 구분하고 있죠


추론모델과 GPT 모델과 비교했을 해보면

일반적인 o-시리즈 모델은 다양한 작업에서 프롬프트를 고도화해야 합니다.

이렇게 설명하는데 직관적으로 말하면 O1이나 O3가 프롬프트 고도화 안 할 거면 더 좋다 이런 말이에요

이러한 모델은 또한 높은 정확도와 정밀도로 작업을 실행할 수 있어, 수학, 과학, 엔지니어링, 금융 서비스, 법률 서비스와 같이 인간 전문가가 필요한 분야에 이상적입니다.

결국은 전문분야에서 쓸 거라면 이쪽이 더 좋다는 말이겠죠?

반면, 우리의 더 낮은 지연 시간과 더 비용 효율적인 GPT 모델("일꾼")은 간단한 실행을 위해 설계되었습니다. 애플리케이션은 o-시리즈 모델을 사용하여 문제를 해결하기 위한 전략을 계획하고, GPT 모델을 사용하여 특정 작업을 실행할 수 있으며, 특히 속도와 비용이 완벽한 정확도보다 더 중요할 때 그렇습니다.

정리하자면 정확하게 타깃화 한 명령을 내릴 때 O스리즈가 더 나은경우도 있다는 건데 정말일까요? 세부적인 후기를 확인해 보시면

434캡처.PNG

이런 형식으로 실제로 O1이나 O3가 더 좋다는 평이 많아요 음 솔직히 저런 식으로 말하면 잘 모르겠어요 좋습니다 그럼 같은 프롬프트로 비교해 보죠


당신은 IT 및 인공지능 분야의 전문 분석가입니다. 설명문을 쓸 것이니 다음 지시사항에 따라 작업을 수행하십시오.

1. **추론 모델 vs. 비추론 모델 비교**
- 추론 모델은 체인 오브 써트 기반의 복잡한 문제 해결에 최적화되어 있으며, 비추론 모델은 단순 반복 및 정형화된 작업에 효율적입니다. 각 모델의 작동 원리, 장단점, 그리고 실제 적용 사례(OCR 등)를 구체적으로 설명하십시오.

2. **모델 선정의 우선순위**
- 프롬프트의 정교함보다, 기본 모델의 연산 능력과 추론 체계가 결과에 미치는 영향을 논리적으로 분석하고, 그 예시를 들어 설명하십시오.

3. **미니모델 비교 분석**
- 미니 추론 모델과 미니 비추론 모델의 개념을 정의하고, 연산량, 토큰 효율성, 적용 분야 등에서의 차이점을 실제 작업 예시와 함께 비교 분석하십시오.

4. **작업 유형별 모델 가이드라인**
- 복잡한 문제 해결 및 고도의 분석 작업에는 추론 모델을, 단순 변환 및 반복 작업에는 비추론 모델을 사용하는 것이 왜 효율적인지 구체적인 사례와 함께 설명하십시오.
- 체인 오브 쏘트를 활용하여 문제 해결 단계를 명시하고, 각 단계에서 고려해야 할 모델의 한계(토큰 제한, 연산량 제한 등)를 포함할 것.

최종적으로, 이 프롬프트를 통해 작업의 목적, 모델의 특성, 그리고 프롬프트 최적화 전략이 어떻게 상호 보완되는지를 명확하게 드러내는 결과물을 생성해 주십시오.

오늘 준비한 프롬프트는 이거입니다. 이전글에서 보여드렸듯이 한번 좀 양을 줄여볼까요?

이걸 한번 4O, O3에 넣어봅시다.

당신은 IT 및 인공지능 분야의 전문 분석가입니다. 설명문을 쓸 것이니 다음 지시사항에 따라 작업을 수행하십시오.

**작업 유형별 모델 가이드라인**

- 복잡한 문제 해결 및 고도의 분석 작업에는 추론 모델을, 단순 변환 및 반복 작업에는 비추론 모델을 사용하는 것이 왜 효율적인지 구체적인 사례와 함께 설명하십시오.

- 체인 오브 쏘트를 활용하여 문제 해결 단계를 명시하고, 각 단계에서 고려해야 할 모델의 한계(토큰 제한, 연산량 제한 등)를 포함할 것.

최종적으로, 이 프롬프트를 통해 작업의 목적, 모델의 특성, 그리고 프롬프트 최적화 전략이 어떻게 상호 보완되는지를 명확하게 드러내는 결과물을 생성해 주십시오.


03캡처.PNG
143캡처.PNG


왼쪽 녀석이 O3 오른쪽 녀석이 4O의 결과물입니다. 두 개를 이렇게 비교해 보니 어떠신가요? 확실히 두 개의 차이가 나타나죠?


실제로 4O는 시키는 대로만 하는 직원에 가깝고 O3는 자기가 나름대로의 추구하는 방식이 있는 느낌입니다. 물론 4O의 경우 실제적으로 잘 짜인 짧은 글을 쓸 때 그 강점이 나옵니다. 이전에도 말씀 드리 적 있지만 순수한 문학적 소양은 제미나이 GPT보다 나은경우도 많이 있고요


그럼 어떻게 해야 해요? 어떤 모델을 쓸 때도 세부적인 프롬프트 조정이 필요하다는 말을 드리고 싶은 겁니다.


저런 양식이 나온 이유가 뭘까요? 기본적으로 양식을 지정 안 하니 자기가 보여주기 제일 좋은 방식으로 학습된 데이터를 내놓은 것에 가깝습니다. 결국은 조정이 필요하다는 말이겠죠 이런저런 프롬프트를 수행해야겠고요


우리의 최종목적은 글을 쓸 때 도움을 받는거잔아요?


그래서 이러한 양식을 그냥 쓰는 것이 아닌 가공을 해서 써야 하는 것이니 결론적으로 저는 양식을 준 O3를 사용하겠다는 말씀을 드리는 겁니다.


물론 최근 트렌드는 항상 COT를 사용하는 것이 아니라 필요한 부분에 만 적용하겠다는 증류기반의 효율적 활용으로 GPT 4.5에서 활용될 방식이죠

keyword
이전 05화GPT: 프롬프트 작성을 위한 6가지 대원칙