AI 에이전트 공장이 다시 쓰는 조직의 문법
런던의 한 은행 3층. 오전 8시, 세 명의 엔지니어가 사무실 문을 연다. 그들이 출근하기 전, 밤새 100여 개의 AI 에이전트 팀이 국경 간 결제 시스템을 다듬어 놓았다. 실패 경로를 점검했고, 테스트를 돌렸고, 업데이트를 정리했으며, 검토 가능한 풀 리퀘스트까지 남겨두었다. 인간이 해야 할 일은 이제 처음부터 끝까지 코드를 작성하는 것이 아니다. 밤사이 에이전트가 수행한 결과를 검토하고, 우선순위를 다시 조정하고, 다음 작업의 방향과 경계를 정하는 일이다.
몇 해 전까지만 해도 이런 장면은 공상과학에 가까워 보였을 것이다. 그러나 매킨지가 2026년 4월에 내놓은 보고서 『The AI Revolution in Software Development』는 이것이 더 이상 상상이 아니라, 이미 일부 현장에서 작동하기 시작한 운영 방식이라고 말한다. 보고서가 제시한 사례에 따르면, 한 글로벌 시스템적으로 중요한 은행(G-SIB)에서는 이른바 '에이전트 공장' 방식으로 개발 속도를 10배 높이고 비용은 절반 수준으로 낮췄다. 그리고 보고서가 독자에게 던지는 더 큰 질문은 따로 있다. 이것이 10배에서 멈추지 않고, 20배의 생산성 향상으로 이어진다면 무엇이 달라질 것인가 하는 질문이다.
이 보고서가 흥미로운 이유는 AI를 단지 개발자의 생산성을 보조하는 도구로 보지 않기 때문이다. 오늘날 많은 기업은 여전히 "좋은 코딩 도구를 쥐여주면 개발 생산성이 오른다"는 수준에서 사고를 멈춘다. 하지만 매킨지가 약 300개의 상장기업을 분석해 내린 결론은 훨씬 더 구조적이다. 의미 있는 성과는 도구 자체에서 나오지 않는다. 성과는 개발 생애주기 전체를 AI 중심으로 다시 설계한 조직에서 나온다. 상위 성과 기업군은 생산성, 출시 속도, 고객경험에서 16~30% 개선을, 소프트웨어 품질에서는 31~45%의 향상을 기록했다. 중요한 것은 이 수치가 단순한 '툴 도입 효과'가 아니라, 요구사항 정의에서 설계, 코딩, 테스트, 배포, 운영에 이르는 전 과정의 재구성에서 비롯되었다는 점이다.
매킨지는 소프트웨어 개발의 AI 활용 수준을 네 단계로 구분한다.
첫 번째 단계는 AI 없이 사람이 직접 코드를 작성하는 전통적 방식이다.
두 번째 단계는 개발자 옆에서 AI가 다음 코드 몇 줄을 제안하는 보조적 활용이다. 지금 대부분의 기업은 여기에 머물러 있다.
세 번째 단계에서는 개발자가 자연어로 기능을 설명하면, 에이전트가 코드와 테스트, 문서를 함께 생성하며 개발 워크플로의 일부를 자동화한다.
그리고 네 번째 단계가 보고서가 말하는 '다음 프런티어'다. 소수의 인간이 다수의 AI 에이전트로 이루어진 디지털 조직을 감독하며, 설계부터 구현, 테스트, 통합까지 전체 애플리케이션 전달을 지휘하는 단계다. 보고서는 이 수준에서의 잠재적 생산성 레버리지를 20배로 제시한다. 다만 동시에, 이 단계는 아직 전면적으로 일반화된 현실이라기보다 실험적 영역에 가깝다고 신중하게 선을 긋는다. 그 점에서 이 보고서는 과장된 미래 예언서라기보다, 이미 시작된 전환의 방향을 짚는 문서에 가깝다.
이 변화의 본질은 코딩 속도의 향상에 있지 않다. 본질은 인간의 역할이 바뀐다는 데 있다. 에이전트 공장에서 인간은 더 이상 모든 줄의 코드를 직접 생산하는 사람이 아니다. 인간은 의도를 선언하고, 작업을 잘게 나누고, 품질 기준을 세우고, 결과물을 검토하며, 시스템이 벗어나지 않도록 가드레일을 조정하는 사람으로 이동한다. 한마디로 작성자에서 감독자, 실행자에서 설계자, 수행자에서 판단자로 축이 이동하는 것이다. 그래서 앞으로 더 중요해지는 역량은 손의 속도가 아니라 머리의 구조화 능력이다. 무엇을 만들 것인지, 어떤 맥락에서 만들어야 하는지, 어떤 조건을 만족해야 하는지를 명확하게 정의하는 능력이 개발 경쟁력의 핵심으로 올라온다.
보고서가 묘사하는 에이전트 공장의 작동 방식은 그래서 인상적이다. 낮 동안 인간은 요구사항을 정리하고, 사용자 스토리를 구조화하고, 시스템의 경계와 우선순위를 설정한다. 어느 모듈은 건드려도 되고 어느 부분은 손대지 말아야 하는지, 어떤 품질 수준을 충족해야 하는지, 무엇이 '좋은 결과'인지도 인간이 규정한다. 밤이 되면 AI 에이전트들이 움직인다. 코딩 에이전트는 기능을 구현하거나 리팩터링을 수행하고, 테스트 에이전트는 테스트 케이스를 만들고 실행하며, QA 에이전트는 회귀 오류를 찾고, 보안 에이전트는 취약점과 비밀정보 유출 가능성을 점검한다. 성능 에이전트는 병목을 살피고, 문서화 에이전트는 API 설명과 변경 요약을 업데이트한다. 이 모든 흐름은 오케스트레이터 에이전트가 조율한다. 테스트가 실패하면 수정 에이전트로 되돌리고, 성능이 떨어지면 별도의 검증 절차를 호출하며, 정책 위반이 발생하면 작업을 중단시킨다. 그리고 다음 날 아침 인간은 정리된 결과물을 검토한다. 이때 개발은 더 이상 2주 단위의 배치 작업이 아니라, 매일 밤과 아침을 잇는 연속 루프로 바뀐다.
이 장면에서 읽어야 할 것은 단순한 자동화가 아니다. 더 중요한 것은 시간의 구조가 바뀐다는 사실이다. 기존 개발 조직에는 늘 대기 시간이 있었다. 사람이 검토를 기다리고, 테스트가 끝나기를 기다리고, 다른 팀의 응답을 기다리고, 다음 스프린트를 기다렸다. 에이전트 공장은 이 대기 시간을 줄이는 방향으로 작동한다. 낮에는 판단과 설계가, 밤에는 실행과 반복이 이루어진다. 인간과 기계가 같은 방식으로 같은 시간을 소모하지 않는다는 점이 핵심이다. 바로 이 지점에서 생산성은 도구가 아니라 리듬에서 발생한다.
보고서가 던지는 전략적 함의는 그래서 단순하지 않다.
첫째, 고객 경험의 개선 주기가 달라진다. 보고서는 20배 수준의 생산성 향상이 현실화될 경우, 대기업조차 고객 여정을 연 단위가 아니라 주 단위로 개선할 수 있다고 본다. 이는 단순히 개발팀이 빨라진다는 뜻이 아니다. 조직 전체의 의사결정 속도와 시장 반응 속도 자체가 바뀐다는 뜻이다. 규모가 큰 조직이 느릴 수밖에 없다는 오랜 통념은 이때부터 설득력을 잃기 시작한다.
둘째, 혁신의 병목이 인력과 예산에서 상상력과 선택으로 이동한다. 새로운 제품, 가격 모델, 운영 툴, 알고리즘을 빠르게 시험할 수 있다면, 문제는 만들 수 있느냐가 아니라 무엇을 만들 것이냐로 바뀐다. 개발 비용의 한계가 낮아질수록 전략의 중요성은 오히려 더 커진다. 실행 비용이 낮은 시대에는 무엇을 하지 않을지를 결정하는 능력까지 포함해, 경영의 판단력이 더 직접적으로 경쟁력을 좌우한다.
셋째, 레거시 현대화의 의미도 달라진다. 그동안 많은 기업이 디지털 전환의 병목으로 낡은 시스템을 지목해 왔다. 레거시 시스템은 늘 거대한 프로젝트의 대상이었고, 그래서 늘 미뤄졌다. 그러나 보고서는 생산성이 충분히 높아질 경우, 이런 현대화 작업이 더 이상 특별한 대형 프로그램이 아니라 상시적이고 점진적인 일상 업무가 될 수 있다고 본다. 기술 부채를 한 번에 청산하는 시대가 아니라, 비행 중인 비행기를 조금씩 개조하듯 시스템을 계속 갱신하는 시대가 열린다는 뜻이다.
넷째, 운영 레버리지가 달라진다. AI 기반 생산성 향상은 사람 수를 늘리지 않고도 더 많은 기능을 출시하고, 더 많은 시스템을 현대화하고, 더 많은 워크플로를 자동화할 수 있게 만든다. 산출물은 늘어나는데 비용 증가 속도는 그보다 느리다면, 그 간극이 곧 구조적 경쟁우위가 된다. 보고서가 말하는 "복리처럼 누적되는 우위"는 바로 이런 맥락에서 이해해야 한다. 먼저 이 구조를 갖춘 기업은 더 빨리 출시하고, 더 낮은 비용으로 운영하고, 더 나은 고객 경험을 제공하면서, 다시 더 많은 실험을 할 수 있게 된다. 느린 경쟁자는 그 구조를 따라잡기 전에 이미 한 차례 더 뒤처질 가능성이 높다.
여기까지가 기업 전략과 운영의 차원이다. 그런데 이 변화에는 조직 바깥에서 답해야 하는 질문이 하나 더 남아 있다. 그리고 그 질문이 가장 무겁다.
다섯째, 숙련의 사다리가 흔들린다. 보고서의 직접적 논의는 소프트웨어 개발에 집중되어 있지만, 그 논리는 법무, 컨설팅, 마케팅, HR, 재무 같은 다른 지식노동 영역으로도 확장될 수 있다. 매킨지 자신이 "이 변화가 다른 분야에도 다가오고 있다"고 적고 있다. 그리고 이 확장이 드러내는 가장 뾰족한 질문은 이것이다. AI가 사다리의 아래 칸을 먼저 먹어 치운다면, 위 칸에는 누가 올라가는가.
지금까지 지식노동자의 숙련은 꽤 일관된 경로로 축적되어 왔다. 주니어 개발자는 단순한 코드를 반복해서 짜면서 패턴을 몸에 익혔다. 주니어 변호사는 판례를 검색하고 계약서 초안을 다듬으면서 법의 결을 읽는 법을 배웠다. 주니어 컨설턴트는 엑셀과 슬라이드를 만들면서 문제를 구조화하는 감각을 익혔다. 이 '반복적이고 덜 창의적인 하단 업무'가 사실은 판단력이 자라나는 토양이었다. 사다리의 맨 아래 칸은 성가신 일이 아니라, 위 칸으로 올라가기 위한 필수 과정이었다.
AI 에이전트는 바로 그 하단 업무를 먼저 가져간다. 기업 입장에서는 합리적인 선택이다. 비싼 시니어의 시간을 아끼고, 싼 주니어의 자리를 줄이면 단기 손익은 분명히 좋아진다. 문제는 그 다음이다. 5년 뒤, 10년 뒤의 시니어는 어디에서 오는가. 코드를 직접 써본 적 없는 사람이 에이전트의 코드를 검토할 수 있는가. 계약서를 처음부터 써본 적 없는 사람이 AI가 뽑아낸 계약서의 허점을 잡아낼 수 있는가. 수백 페이지의 데이터를 직접 씨름해 본 적 없는 사람이 AI가 만든 분석의 오류를 감지할 수 있는가.
매킨지는 인간의 역할이 "판단, 감독, 품질 검토"로 이동한다고 말한다. 그러나 판단과 감독은 타고나는 능력이 아니다. 숙련은 암묵지의 누적이고, 암묵지는 손으로 해본 시간에서만 만들어진다. 이것이 새로운 역설이다. 에이전트 공장은 시니어의 판단을 전제로 작동하지만, 동시에 시니어를 길러내던 교실을 해체하고 있다.
이 질문은 아직 누구도 깔끔한 답을 갖고 있지 않다. 다만 몇 가지 방향은 보인다. 하나는 교육과 훈련의 재설계다. 반복적 실무를 통해 암묵지를 쌓던 시대의 도제식 경로 대신, 처음부터 '에이전트와 함께 일하며 판단을 연습하는' 새로운 형태의 도제 과정이 필요하다. 주니어가 해야 할 일은 더 이상 단순 코드 작성이 아니라, 명세를 쓰고 결과를 검토하고 오류를 추적하는 훈련이 된다. 다른 하나는 기업 내부의 시간 배분 방식 자체를 바꾸는 것이다. 생산성 향상으로 생긴 여유를 바로 비용 절감으로 환수해 버리면 숙련은 축적되지 않는다. 그 여유의 일부를 의도적으로 '덜 자동화된 학습 시간'으로 남겨두는 조직만이 다음 세대의 감독자를 길러낼 수 있다.
그리고 가장 근본적인 방향은 이것이다. 사회 전체가 '숙련의 사다리'를 시장에만 맡겨 두지 않는 것이다. 기업은 각자의 단기 합리성에 따라 사다리 아래 칸을 치우겠지만, 그 총합이 10년 뒤 노동시장에 어떤 결과를 가져올지는 개별 기업의 책임 범위를 넘어선다. 여기서부터는 교육 시스템, 산업정책, 직업훈련의 문제가 된다. 지금 바뀌고 있는 것은 도구가 아니라 숙련의 사다리 그 자체이고, 사다리는 한 기업이 혼자 세울 수 있는 것이 아니다.
보고서는 몇 가지 조건을 비교적 분명하게 제시한다. 첫째는 명세 작성 능력의 재무장이다. 보고서는 "대화 몇 마디만으로는 프로덕션급 소프트웨어를 만들 수 없다"는 취지의 메시지를 남긴다. 좋은 결과는 영리한 한 문장의 프롬프트에서 나오지 않는다. 좋은 결과는 정확한 명세와 충실한 맥락에서 나온다. 아키텍처 다이어그램, 데이터 모델, API 계약, 서비스 경계, 성능과 신뢰성에 관한 요구, 비즈니스 규칙이 체계적으로 정리되어 있어야 에이전트도 제대로 일할 수 있다.
둘째는 일을 잘게 나누는 능력이다. 큰 기능을 에이전트가 수행 가능한 작은 단위의 과업으로 분해하고, 입력과 출력, 완료 기준을 분명하게 정의하는 능력이 필요하다. 이 분해 능력이 부족하면 에이전트는 쉽게 멈추거나 엉뚱한 방향으로 흘러간다. 앞으로 중요한 것은 '어떻게 더 많이 시킬 것인가'가 아니라 '어떻게 더 정확하게 쪼개고 맡길 것인가'다.
셋째는 지식 구조화에 대한 투자다. 보고서는 특히 지식 그래프의 중요성을 강조한다. 코드 저장소, 문서, 정책, 데이터, 설계 자산이 서로 어떻게 연결되어 있는지를 구조적으로 보여주는 체계가 있어야 에이전트가 단편적인 정보가 아니라 관계 속의 맥락을 이해할 수 있다. 결국 AI 시대의 생산성은 모델 성능 못지않게, 조직 내부 지식이 얼마나 잘 연결되어 있는가에 달려 있다.
넷째는 비용 통제 역량이다. 에이전트가 또 다른 에이전트를 호출하고, 그 과정에서 프롬프트와 토큰 사용량이 불어나면 비용은 예상보다 빠르게 커질 수 있다. 보고서가 FinOps를 별도로 언급하는 이유도 여기에 있다. 생산성을 높이겠다고 도입한 체계가 비용 구조를 망가뜨린다면 지속 가능하지 않다. 측정 없는 도입은 실험이 아니라 낭비가 되기 쉽다.
다섯째는 변화관리와 평가 체계의 조정이다. 보고서에 따르면 상위 성과 기업의 약 80%는 생성형 AI 관련 목표를 제품 관리자와 개발자의 평가와 연계했다. 그만큼 중요한 것은 기술 자체보다 행동의 변화다. IBM 사례도 같은 교훈을 준다. 초기에는 툴을 배포했지만 사용이 정착되지 않았고, 사람들은 익숙한 방식으로 돌아갔다. 이후 팀별 코칭, 실제 코드 기반 지원, 챔피언 커뮤니티 운영 같은 전면적 학습 체계를 갖추면서 변화가 자리를 잡기 시작했다. AI 전환은 툴 설치 프로젝트가 아니라 역량 전환 프로젝트라는 말은 이럴 때 실감난다.
여섯째는 생산성 향상 이후의 조직 설계다. 보고서가 소개한 LATAM 사례에서 가장 어려운 문제 중 하나는 에이전트 활용 자체가 아니라, 그 결과 생긴 여유를 조직 안에서 어떻게 다시 배치할 것인가였다. 사람을 줄일 것인지, 분기 목표를 높일 것인지, 새로운 시도를 늘릴 것인지 결정하지 못하면 생산성 증가는 숫자 위에서만 존재하고 실제 경쟁력으로 연결되지 않는다.
이 여섯 가지는 서로 독립된 과제가 아니다. 하나가 빠지면 나머지도 작동하지 않는다. 명세 능력이 없으면 지식 그래프는 비어 있고, 평가 체계가 흔들리면 변화관리는 공회전한다. 생산성 향상 이후의 설계가 없으면, 앞의 다섯 가지는 결국 비용 청구서로만 돌아온다.
결국 매킨지가 경영진에게 던지는 질문은 세 가지다. 이 혁명을 선도할 것인가, 아니면 남들이 만든 표준을 뒤따를 것인가. 우리는 AI가 생산성과 품질을 실제로 얼마나 개선했는지를 어떻게 측정하고 있는가. 그리고 개발 비용이 급격히 낮아지는 세상에서, 우리의 전략은 무엇이 달라져야 하는가. 세 번째 질문이 가장 불편하다. 오늘의 많은 전략은 개발이 비싸고 느리다는 전제 위에서 작동한다. 그 전제가 흔들리면 전략도 다시 써야 한다.
매킨지의 결론은 차분하지만 그 함의는 결코 가볍지 않다. AI는 소프트웨어 개발을 바꿀 수 있다. 그러나 그것은 기술을 도입한 기업 모두에게 자동으로 주어지는 결과가 아니다. 워크플로우를 다시 짜고, 역할을 다시 정의하고, 성과를 다시 측정하고, 운영 모델 전체를 바꿀 의지가 있는 조직만이 그 변화를 자기 것으로 만들 수 있다. 도구는 비교적 빠르게 보편화되겠지만, 그 도구를 둘러싼 조직의 설계 능력은 결코 평등하게 분포하지 않는다.
이제 밤은 단지 하루의 남은 시간이 아니다. 어떤 조직에게 밤은 비용이 드는 정지 구간이지만, 다른 조직에게 밤은 생산이 계속되는 두 번째 근무조다. 그 차이는 단순한 효율의 차이가 아니다. 전략의 차이이고, 구조의 차이이며, 결국 경쟁력의 차이다.
그리고 한 가지가 더 남아 있다.
이 밤의 공장을 지휘할 다음 세대의 감독자를, 우리는 지금 어디에서 기르고 있는가.
당신의 조직은 오늘 밤, 무엇을 만들고 있는가.