brunch

연재 중 GPT프롬프트 마스터하기 14화

라이킷 75 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by AI러 이채문 Dec 05. 2024

새로운 작업 처리를 위한 혁신적 접근법

Automatic Reasoning and Tool-use (ART)

ART란 무엇인가?

Automatic Reasoning and Tool-use (ART)는 대규모언어모델(LLM)에서 복잡한 작업을 효과적으로 처리하기 위해 추론 단계와 외부 도구 사용을 결합한 혁신적인 프레임워크입니다. 이 접근법은 특히 체인 오브 소트(CoT, Chain-of-Thought)와 외부 도구 호출을 자동화함으로써, 사람이 수작업으로 설계한 복잡한 프롬프트보다 더 강력하고 확장 가능한 해결 방식을 제공합니다.

ART의 주요 특징은 다음과 같습니다:

작업 라이브러리: 다양한 작업에 대한 시연(예제)을 사전에 구성하여 필요 시 참조합니다.

프로세스 자동화: 모델이 작업을 분해하고 도구를 사용할 시점을 자동으로 판단합니다.

외부 도구 통합: 추론 과정에서 외부 프로그램을 실행하거나 계산 결과를 통합하여 더 정확한 답변을 제공합니다.

사람 피드백 및 수정 가능성: 사람이 중간 추론 단계에서 오류를 수정하거나 작업 및 도구를 추가해 시스템을 확장할 수 있습니다.

이 과정은 제로샷(zero-shot) 또는 퓨샷(few-shot) 학습 방식으로 이루어지며, 새로운 작업에도 모델이 높은 적응력을 발휘하도록 설계되었습니다.

ART의 기본 워크플로는 다음과 같습니다:

작업 라이브러리에서 시연 선택

새로운 작업이 주어지면, 모델은 관련된 작업 시연(예제)을 선택합니다.

예를 들어, 영어 문장을 피그 라틴(Pig Latin)으로 변환하는 작업에서 관련된 예제를 찾습니다.

추론 및 도구 사용

모델은 중간 추론 단계에서 작업을 분해하고 필요한 외부 도구(예: 계산기, 코드 실행기)를 호출합니다.

외부 도구의 결과를 통합하여 다음 단계의 추론으로 이어집니다.

결과 검증 및 수정

필요에 따라 사람이 결과를 검토하고 수정하거나 새로운 작업 및 도구를 라이브러리에 추가할 수 있습니다.

최종 출력

모델은 모든 단계를 완료한 후 최종 결과물을 제공합니다.

ART의 성능: 벤치마크 결과

ART는 BigBench와 MMLU(Massive Multitask Language Understanding)와 같은 벤치마크에서 뛰어난 성능을 보였습니다. 아래 표는 ART의 성능을 나타냅니다:

이 테이블은 다양한 AI 모델의 성능을 비교한 결과를 보여주고 있습니다. 주요 내용을 분석해드리겠습니다:

1. 테스트 구조:

- 크게 Test Tasks와 MMLU(Massive Multitask Language Understanding) 두 섹션으로 나뉨

- 각 태스크는 Few Shot, AutoCot, ART w/o Tool Use, ART, GPT-3 Best 등의 방법으로 평가됨

2. Test Tasks의 주요 카테고리:

- Search 관련 태스크: 문장 모호성, 전략 QA, 물리학 등

- Arithmetic(산술) 관련 태스크: 물리 문제, 연산자, 단위 해석 등

- String/Code 관련 태스크: 단어 재배열, 텍스트 편집, CS 알고리즘 등

- CoT(Chain of Thought) 관련 태스크: 스포츠 이해, 시간 순서 등

3. 주목할 만한 성능 향상:

- ART(Automatic Reasoning and Tool-use)를 사용했을 때 대부분의 태스크에서 성능이 향상됨

- 특히 Arithmetic 관련 태스크에서 ART의 성능 향상이 두드러짐 (Δ with ART가 +23.1)

- MMLU 태스크에서도 ART 사용 시 전반적으로 성능이 향상됨

4. GPT-3와의 비교:

- 일부 태스크에서는 GPT-3가 더 우수한 성능을 보임

- 특히 Object Counting(81.20%), Mathematics(34.5%) 등에서 GPT-3의 성능이 높음

5. 특별히 주목할 만한 결과:

- CS Algorithms에서 AutoCot은 0.0%를 기록한 반면, ART는 88.11%로 큰 차이를 보임

- Physics Questions에서 ART는 20.37%로 다른 방법들보다 월등히 높은 성능을 보임

전반적으로 ART의 도입이 다양한 태스크에서 성능 향상을 가져왔으며, 특히 수리적 추론이 필요한 태스크에서 큰 개선을 보였다는 것이 이 데이터의 핵심적인 시사점입니다.

이 표에서 볼 수 있듯, ART는 단순 퓨샷 프롬프팅이나 기존 CoT 접근법보다 전반적으로 더 나은 성능을 보입니다. 특히, 복잡한 수학 문제나 문장 이해와 같은 작업에서 외부 도구 사용을 결합했을 때 성능이 대폭 향상되었습니다.

ART의 활용 분야

1) 데이터 분석 및 자동화

데이터 정제 및 분석에서 복잡한 연산을 처리하거나 코드를 자동으로 생성하는 데 사용할 수 있습니다.

2) 교육

학생들의 문제 해결 과정을 지원하거나 학습 자료를 생성하는 데 활용할 수 있습니다.

3) 기술 지원

사용자가 직면한 복잡한 문제를 해결하기 위해 외부 도구를 호출하여 상세한 지원을 제공할 수 있습니다.

4) 연구 및 개발

과학 연구에서 데이터 처리 및 계산 작업을 자동화하여 연구자들의 작업 부담을 줄입니다.

ART를 공부하려면?

ART는 인간의 개입을 최소화하면서도 복잡한 작업을 자동화할 수 있는 가능성을 보여줍니다. 이 기술은 앞으로 더 많은 분야에서 활용될 것으로 기대됩니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari