brunch

클로드 4.0, 현존 최고 개발 성능 입증

무엇이 달라졌고 얼마나 좋아졌나

by 김대엽

안녕하세요 큐리어스 김대엽입니다.


불과 18시간 전 클로드 4.0 이 발표되었습니다. 클로드(Claude)는 앤트로픽(Anthropic)이라는 인공지능 회사가 개발한 대형 언어 모델(Large Language Model, LLM) 시리즈인데요, 주로 개발자들에게 많이 알려진 인공지능입니다. 특징으로는 긴 문맥을 이해하고 답변을 하는 능력이 탁월하다는 것인데요, 그래서 코드를 작성하는 능력이 뛰어납니다.


코드 작성에 뛰어난 클로드가 한단계 더 진화를 했는데요, 한문장으로 요약하자면 “현존하는 AI 툴 중 코드작성 능력이 가장 뛰어나다” 입니다. 아래 내용은 클로드 4.0 발표 내용을 읽고 분석한 내용인데요, 어떻게 가장 뛰어나다는 것을 증명한 것인지, 무엇이 바뀌었는지 한번 쉽게 이야기해보겠습니다.


클로드 4.0, 뭐가 달라진거야?


스스로 검색하고 추론한다

이제 클로드는 스스로 검색하는 능력이 생겼습니다. 클로드는 문제가 생겼을 때 추론을 하거나 검색을 하거나 선택할 수 있게 되었고 이 과정으로 통해 더 개선된 응답을 내놓을 수 있게 되었습니다.


‘도구 병행 사용'과 '지속 기억'까지 가능해졌다.

클로드는 검색과 동시에 추론을 진행한다고 합니다. 문서에 나와있진 않지만 이 과정으로 아마 답변 속도가 더욱 빨라지지 않을까 생각합니다. 보통은 답변을 기다린 후 추론을 진행했다면 병렬적 진행으로 더욱 빠르고 정확히 답변을 할 수 있겠죠! 그리고 기억력이 좋아졌습니다. 특히 로컬 파일에 스스로 접근해 코드의 맥락을 파악하고 해당 맥락을 통해 코드를 작성한다는 것이죠! 이 기능의 발전으로 인해 바이브코딩이 강력해질 것으로 예상이 됩니다.


“클로드 코드” 가 정식으로 사용이 가능해졌다.

프리뷰 버전에 긍정적인 피드백을 적극 검토 후 이젠 모든 개발자들이 사용가능하도록 오픈했다고 합니다. 특히 VS Code 와 JetBrains 같은 개발자들이 주로 사용하던 IDE에서도 사용이 가능해졌습니다. 더군다나 background 작업까지 지원한다고 하니 정말로 페어프로그래밍하는 느낌이 들거라고 하네요


이 외에도 4개의 API 형태의 에이전트 기능들이 추가되었다고 합니다. 새로 추가된 API 기능에 대해서도 알아볼게 많으니 이번 글에서는 넘어가도록 하겠습니다. 궁금하신 분들은 여기를 살펴봐주세요


현존 최고 개발 AI

어떤 기준으로 AI의 개발 능력을 비교할까요? 바로 SWE-bench Verified 라는 데이터를 기준으로 AI 모델의 개발 능력을 비교합니다. SWE-bench 라는 기준에서 업데이트된 기준인데요, 쉽게 설명하자면. 파이썬 기반의 오픈소스 12개중에서 실제 코딩 오류가 있었던 사례를 선택하고 AI에게 이를 해결하도록 테스트를 진행하게 하는 문제집입니다. 이 테스트를 통해서 AI가 “문제를 해결하는가”(FAIL TO PASS) 와 “추가 오류를 만들진 않는가”(PASS TO PASS)를 확인하고 얼마나 정확히 동작하는지에 따라 개발 능력을 검증하는 기준입니다.


그렇다면 이번에 발표된 클로드 4.0 의 성적을 어느정도일까요?


image (24).png 출처 : https://www.anthropic.com/news/claude-4


앤트로픽(클로드 개발사)가 이야기하는 클로드 4.0 의 개발 수준은 앞서 나온 모든 AI를 뛰어넘는 수준이었습니다. 클로드 오버스 4(하이엔드)가 72.5% 클로드 소넷 4(중간급)가 72.7% 의 결과가 나왔습니다. 실제 개발자들이 겪는 문제의 72% 를 해결했다는 의미가 되겠죠. 신기하게도 중간급 모델인 클로드 소넷 4의 결과가 더 좋게 나왔네요. 더군다나 병렬 연산 수행 (parallel test-time compute) 즉, 같은 문제를 동시에 풀어보고 좋은 결과를 선택한 방식으로 테스트 진행시 최대 80% 까지의 성능이 나왔습니다. 이 기준을 통해서 AI 개발 능력을 검증하는데 클로드가 이번 출시로 최고수준(State Of The Art) 를 달성한 것입니다.



저는 이 성능 발전에 놀라기도 했지만 더 놀랐던 부분은 클로드 4.0이 나오기까지 걸린 시간입니다. Sonet 3.7이 출시된지 불과 3개월이 지난 시점에 이정도 성능발전을 이뤄낸 것이죠. 앞으로도 AI의 발전 속도는 점차 빨라질 것 같습니다. 뿐만 아니라 AI의 도입으로 우리의 작업 속도와 수준도 동시에 올라가겠죠. 이러한 방향성이 사회를 더 긍정적으로 이끌길 바라며 AI를 올바른 도구로 사용할 수 있도록 노력해야겠네요.

keyword
작가의 이전글프롬프트 엔지니어링은 곧 사라집니다