2025 AI 시장의 이중 구조
같은 시기에 발표된 두 조사 결과가 보여주는 풍경은 제법 흥미롭다.
Stack Overflow의 49,000명 개발자 설문과 Menlo Ventures의 150명 기업 기술 책임자 조사가 그려내는 AI 시장의 모습이 사뭇 다르기 때문이다.
한쪽에서는 개발자들이 AI 도구에 대한 불신을 점점 키워가고 있다. 다른 한쪽에서는 기업들이 경쟁적으로 AI 예산을 늘리고 있다. 더욱 재미있는 것은 개발자 개인의 선호와 조직의 선택이 완전히 엇갈린다는 점이다.
개인은 OpenAI를, 기업은 Claude를 선택하고 있다.
Stack Overflow 조사 결과를 먼저 살펴보자. AI 도구의 정확성에 대한 개발자들의 신뢰도가 작년 40%에서 올해 29%로 현저히 하락했다. 사용률은 80%까지 증가했음에도 불구하고 호감도는 72%에서 60%로 떨어지는 역설적 현상을 보였다.
개발자들이 가장 크게 불만을 표하는 지점은 "거의 정확하지만 완전하지는 않은" AI의 답변이다. 전체 응답자의 45%가 이를 최우선 문제로 지적했으며, 66%는 AI가 생성한 코드를 수정하는 과정에서 오히려 더 많은 시간이 소요된다고 답했다.
반면 Menlo Ventures의 기업 조사는 완전히 다른 그림을 제시한다. 기업용 LLM API 지출이 불과 6개월 사이에 3.5억 달러에서 8.4억 달러로 급등했다. 240%에 달하는 증가율이다. 스타트업의 74%가 워크로드 대부분을 AI 추론에 할당하고 있다고 응답했다.
현장에서는 회의적 목소리가 커지고 있는데, 경영진과 기술 책임자들은 더욱 적극적으로 투자를 확대하고 있는 셈이다.
개인적 선호와 조직적 결정 사이의 간극이 가장 선명하게 드러나는 부분이기도 하다.
개발자들의 개인적 사용 현황을 보면 OpenAI GPT가 82%로 압도적이다. Claude는 전문 개발자 45%, 학습자 30% 수준이다. 그런데 기업 환경에서의 점유율은 정반대다. Anthropic이 32%로 1위를 차지했고, OpenAI는 25%로 2위에 머물렀다. Google이 20%로 3위를 기록했다.
특히 주목할 점은 OpenAI의 기업 시장 점유율이 2년 전 50%에서 현재 25%로 절반 수준으로 추락했다는 사실이다. 그 빈자리를 Anthropic이 거의 그대로 차지한 형국이다.
이러한 역전의 핵심 요인은 코드 생성 영역에서의 성능 차이다. Claude가 42%의 점유율로 OpenAI의 21%를 압도하고 있다. 기업 환경에서는 실제 업무 성과가 브랜드 인지도나 개인적 친숙함보다 훨씬 중요한 선택 기준으로 작용한다는 방증이다.
두 조사 모두 코드 생성이 AI의 첫 번째 명확한 킬러 애플리케이션으로 자리잡았다는 점에서 일치한다.
Python 사용률이 7%포인트나 급증한 것도, GitHub Copilot 단독 시장이 1년 만에 19억 달러 규모의 생태계로 확장된 것도 모두 이와 무관하지 않다.
Cursor, Windsurf 같은 AI 통합 IDE부터 Lovable, Bolt 같은 애플리케이션 빌더에 이르기까지, 완전히 새로운 도구 카테고리들이 쏟아져 나오고 있다. 코드 생성이라는 구체적이고 검증 가능한 유용성을 바탕으로 한 확장이다.
하지만 현장의 온도는 여전히 미지근하다. 개발자들의 45%는 "AI 생성 코드 디버깅이 더 시간 소모적"이라고 불만을 토로하는 반면, 기업들은 Claude 4 출시 한 달 만에 45%가 신버전으로 전환할 정도로 민첩하게 반응하고 있다.
그럼에도 불구하고 개발자와 기업 모두에게서 발견되는 공통점이 있다. 바로 비용보다 성능을 우선시하는 태도다.
개발자들이 기술을 포기하는 이유 중 1위는 "보안·프라이버시 우려"였고, 2위는 "과도한 가격"이었다. 흥미롭게도 "AI 기능 부족"은 9위에 그쳤다. AI가 없어서 기술을 버리는 경우는 거의 없다는 의미다.
기업들의 행동 패턴도 마찬가지다. 개별 모델의 가격이 10배씩 하락해도 비용 절감을 위해 구형 모델을 고수하는 경우는 드물다. 오히려 지속적으로 최신 고성능 모델로 업그레이드한다. 벤더를 완전히 교체하는 비율도 11%에 불과하고, 66%는 기존 공급업체 내에서 모델만 업그레이드하는 패턴을 보였다.
오픈소스 모델에 대한 평가에서도 두 조사의 결과가 수렴한다. Menlo 조사에서 오픈소스 모델의 점유율이 19%에서 13%로 오히려 감소했다. Meta의 Llama 4가 기대만큼의 성과를 보여주지 못했다는 평가가 지배적이다.
Stack Overflow 조사에서 개발자들이 최우선으로 우려하는 "보안·프라이버시 문제"와도 연결되는 지점이다. 최근 고성능 오픈소스 모델의 상당수가 중국 기업들에서 개발되고 있어, 서구 기업들의 도입 의사결정에 복잡한 변수로 작용하고 있다.
한 응답자의 솔직한 고백이 현실을 잘 보여준다. "초기에는 Llama와 DeepSeek로 POC를 진행했지만, 시간이 지나면서 폐쇄형 모델의 성능을 따라잡지 못한다는 것이 명백해졌습니다."
AI 에이전트에 대한 평가에서는 미묘한 시각차가 드러난다. Menlo Ventures는 2025년을 '에이전트의 해'로 규정하며, Anthropic의 MCP(모델 컨텍스트 프로토콜) 같은 도구 통합 기능을 높이 평가했다.
그러나 Stack Overflow 조사에서는 52%의 개발자가 "에이전트를 사용하지 않거나 단순한 AI 도구에 머물러 있다"고 응답했다. 38%는 아예 "에이전트 도입 계획이 없다"고 명시했다. 투자는 이루어지고 있지만 현장의 수용성은 아직 미지수라는 얘기다.
가장 흥미로운 발견 중 하나는 AI가 발전할수록 인간이 검증한 정보의 가치가 오히려 높아지고 있다는 점이다. Stack Overflow 조사에서 35%의 개발자가 "AI 관련 문제 해결을 위해 스택오버플로를 방문한다"고 응답했다.
Menlo 보고서 역시 "AI가 생성한 코드에 대한 인간 검증 진실 공급원"으로서 Stack Overflow의 새로운 역할을 언급했다. AI가 제공하는 답변의 정확성을 확인하기 위해서는 결국 신뢰할 만한 인간 커뮤니티가 필요하다는 역설적 상황이다.
두 조사를 종합해보면, 결국 AI 시장의 핵심 과제는 기술적 성능이 아니라 신뢰 구축이라는 점이 명확해진다. 개발자들은 도구를 사용하면서도 여전히 의구심을 품고 있고, 기업들은 검증된 성과를 바탕으로 신속하게 도구를 교체하고 있다.
특히 개인적 선호와 조직적 결정 사이의 괴리는 시사하는 바가 크다. 개발자 개인은 익숙함과 편의성을 이유로 OpenAI를 선택하지만, 조직 차원에서는 코드 생성이라는 구체적 성과가 입증된 Claude를 선택한다. 이는 개인의 감정적 판단과 조직의 합리적 판단 사이의 차이를 보여주는 사례이기도 하다.
이 바닥을 20년 넘게 지켜본 입장에서 보면, 개발자들이 진정으로 원하는 것은 화려한 마케팅이나 혁신적인 컨셉이 아니다. 실제 업무에 도움이 되고, 문제가 발생했을 때 책임질 수 있는 신뢰할 만한 도구들이다.
Anthropic이 코드 생성이라는 검증 가능한 영역에서 우위를 점하며 기업 시장을 석권한 것도 이 같은 맥락에서 이해할 수 있다. 말이 아닌 결과로 자신들의 가치를 증명했기 때문이다.
AI의 미래가 어떤 방향으로 전개될지 예측하기는 어렵다. 하지만 적어도 지금까지의 궤적을 보면, 신중하고 비판적인 개발자 커뮤니티의 집단 지성이 시장을 올바른 방향으로 견인하고 있다는 점은 분명해 보인다. 그것만으로도 충분히 의미있는 진전이라고 생각한다.
https://survey.stackoverflow.co/2025/
https://menlovc.com/perspective/2025-mid-year-llm-market-update/