WORKBank 데이터로 살펴본 자동화의 그린라이트와 레드라이트
조직의 AX를 고민하다 보면 결국 핵심은 우리 조직이 수행하는 수많은 업무 영역 중 정확히 어떤 부분을 AI에게 맡길 것인가 하는 쪽으로 연결된다. 에이전트들이 수행하는 개별 작업의 총합이 유기적인 에이전틱(Agentic) 구조를 이룰 수도 있고, 더 급진적으로는 모든 단계를 건너뛰고 'AI-First'로의 완전한 전환을 꾀할 수도 있다. 이러한 전략적 선택의 기로에서 스탠퍼드 대학교 연구진이 발표한 “Future of Work with AI Agents: Auditing Automation and Augmentation Potential across the U.S. Workforce”는 AI가 대체하거나 보완할 수 있는 영역을 정밀하게 해부하며 유의미한 이정표를 제시한다.
이 연구는 단순한 예측을 넘어 104개 직종에 종사하는 1,500명의 도메인 실무자와 52명의 AI 전문가가 참여한 방대한 데이터를 바탕으로 'WORKBank'라는 지식 창고를 구축했다. 연구진은 AI 에이전트를 단순히 '챗봇'이 아니라 소프트웨어 도구를 활용해 스스로 워크플로우를 설계하고 다단계 실행이 가능한 자율 시스템으로 정의하며, 이들이 실제 업무 현장에서 어떤 가치를 창출할 수 있는지 탐구한다.
가장 눈에 띄는 접근은 자동화와 증강의 스펙트럼을 정량화하기 위해 도입한 인간 주도성 척도(Human Agency Scale, 이하 HAS)이다. HAS는 인간의 개입 정도에 따라 H1(인간 개입 없음)부터 H5(인간 필수)까지 5단계로 구분한다. 흥미로운 지점은 실무자와 전문가의 인식 차이다. 조사 결과, 실무자의 45.2%가 인간과 AI가 대등하게 협력하는 'H3(대등한 파트너십)' 단계를 가장 선호하는 것으로 나타났다. 하지만 전반적으로 실무자들은 전문가들이 기술적으로 필요하다고 판단하는 수준보다 훨씬 더 높은 단계의 인간 주도성 유지를 원하고 있다. 연구진은 실무자의 자동화 욕구와 전문가의 기술적 평가를 결합하여 업무 지형을 네 가지 구역(Zone)으로 나누었다.
자동화 "Green Light" 구역: 실무자의 욕구와 기술적 역량이 모두 높은 영역으로, 즉각적인 AI 에이전트 배포 시 큰 생산성 향상과 사회적 이득이 기대되는 지점이다.
자동화 "Red Light" 구역: 기술적 구현은 가능하나 실무자의 자동화 욕구가 낮은 영역이다. 이곳에 기술을 강제로 도입할 경우 실무자의 저항이나 사회적 부작용이 발생할 수 있어 주의가 필요하다.
R&D 기회(Opportunity) 구역: 실무자의 욕구는 높지만 현재 기술력이 부족한 영역으로, 향후 AI 연구 및 개발이 집중되어야 할 유망한 분야이다.
낮은 우선순위(Low Priority) 구역: 욕구와 역량이 모두 낮은 영역으로, AI 에이전트 개발의 시급성이 떨어진다.
이러한 지형도는 조직이 어디에 자원을 집중해야 하는지 명확히 보여준다. 특히 AX 전환 과정에서 기존에 고임금을 보장하던 정보 분석이나 지식 업데이트 같은 숙련도의 가치는 하락하는 반면, 대인 관계나 조직 관리처럼 높은 인간 주도성을 요구하는 역량이 핵심 경쟁력으로 부상하고 있다.
연구에서 나타난 실무자들의 높은 주도성 유지 선호 결과를 보며, 자율주행 기술을 둘러싼 논의가 떠올랐다. 자율주행 기술이 언급될 때마다 '사고 시 책임 소재'는 강력한 방패막이가 되어왔다. 하지만 최근 불시에 국내 오픈된 테슬라 FSD에 대한 반응은 사뭇 다르다. 초기 우려와 달리 "결국 사람보다 훨씬 낫다"는 쪽으로 중론이 모이는 현상은 AX 전환 이후 마주할 미래를 예견하는 듯한 느낌이 들었다.
나 역시 업무의 각 단계에 직접 개입해 내 눈으로 결과를 확인하고 다음으로 넘기는 방식을 선호한다. 하지만 개인의 이러한 주도성 선호와는 별개로, 조직 차원의 AX 전환은 전혀 다른 속도와 결과로 구성원 개개인에게 다가올 듯하다. 결국 조직의 AX는 단순히 최신 기술을 도입하는 문제라기보다 실무자의 가치관과 기술적 현실 사이의 간극을 조율하고, 변화하는 핵심 역량에 맞춰 조직과 개인의 역할을 어떻게 재설계할 것인가에 대한 문제이다.
Shao, Y., Zope, H., Jiang, Y., Pei, J., Nguyen, D., Brynjolfsson, E., & Yang, D. (2025). Future of Work with AI Agents: Auditing Automation and Augmentation Potential across the US Workforce. arXiv preprint arXiv:2506.06576.
AI 에이전트가 미국 노동 시장에 미치는 영향을 분석하기 위해 1,500명의 실무자와 52명의 AI 전문가가 참여한 대규모 오디팅 프레임워크를 구축했다.
'인간 주도성 척도(Human Agency Scale, HAS)'를 도입하여 단순 자동화 여부를 넘어 인간과 AI의 협업 수준을 5단계로 정량화하고 이를 바탕으로 WORKBank 데이터베이스를 구축했다.
분석 결과, 실무자는 저가치 반복 업무의 자동화를 원하며, 향후 노동 시장의 핵심 역량이 정보 처리에서 대인 관계 및 조직 관리 능력으로 이동할 것임을 확인했다.
AI 에이전트의 급격한 확산에도 불구하고 노동 시장에 미치는 실제 영향에 대한 체계적인 이해가 부족하기 때문이다. 특히 기존 연구들이 특정 직종에 치우쳐 있거나 자본의 이익만을 대변하는 경향이 있어, 실무자의 가치관과 기술적 실현 가능성을 동시에 고려한 포괄적인 분석이 필요했다.
AI 에이전트(AI Agents): 목표 지향적이고 도구 사용 및 다단계 실행 능력을 갖춘 시스템이다.
인간 주도성 척도(Human Agency Scale, HAS): 작업 완료를 위해 필요한 인간의 개입 정도를 H1(완전 자동화)부터 H5(인간 필수)까지 5단계로 구분한 지표이다.
희망-역량 지형 (Landscape(Desire-Capability Landscape): 실무자의 자동화 욕구와 전문가가 평가한 기술적 가능성을 결합하여 작업을 4개의 구역(Green Light, Red Light, R&D Opportunity, Low Priority)으로 분류한 모델이다.
미국 노동부의 O*NET 데이터베이스를 활용하여 104개 직종, 844개 작업을 선정했다.
실무자들에게는 오디오 기반 미니 인터뷰를 포함한 설문을 통해 자동화 욕구와 선호하는 HAS 수준을 수집했다.
AI 전문가들에게는 현재 기술 수준에서 가능한 자동화 역량과 실현 가능한 HAS 수준을 평가받아 실무자 의견과 대조했다.
실무자의 46.1%가 작업 자동화에 긍정적이며, 주된 동기는 고부가가치 업무를 위한 시간 확보이다.
전문가 평가와 실무자 희망 사이에는 간극이 존재하며, 실무자들은 기술적 가능성보다 더 높은 수준의 인간 주도성 유지를 선호한다.
임금 수준이 높았던 정보 분석 기술의 중요도는 낮아지는 반면, 대인 관계 및 교육 관련 기술의 가치가 상대적으로 높아지는 숙련도 구조의 변화가 나타났다.
대규모 언어 모델(LLM)의 급격한 발전은 도구 접근 권한과 다단계 실행 능력을 갖춘 목표 지향적 시스템인 AI 에이전트(AI agents)의 부상을 가속화하고 있다. 기존의 독립형 모델과 달리 AI 에이전트는 복잡한 워크플로우를 스스로 설계하고 수행할 수 있어 다양한 전문 영역에 배치될 준비를 갖추고 있다. 연구에 따르면 미국 노동자의 약 80%가 업무의 10% 이상에서 이러한 기술의 영향을 받을 것으로 예상되며, 이는 노동 시장의 근본적인 재편을 예고한다.
AI의 직장 내 도입은 생산성 향상이라는 기대를 모으는 동시에 일자리 대체, 인간 주도성 상실, 자동화에 대한 과도한 의존이라는 우려를 낳고 있다. 하지만 이러한 변화를 체계적으로 이해하려는 시도는 다음과 같은 측면에서 한계를 보여왔다.
협소한 분석 범위: 기존 연구는 주로 소프트웨어 공학이나 고객 지원 등 특정 도메인에만 집중하여 실제 노동 시장의 복잡성과 다양성을 충분히 담아내지 못하고 있다.
이해관계자의 편향: 실무자의 가치관보다는 자본의 이익을 대변하여 수익성이 높은 작업의 자동화에만 초점을 맞추는 경향이 있다.
데이터의 후행성: 단순히 현재의 챗봇 사용 데이터를 분석하는 방식으로는 광범위한 노동 인구에 걸친 AI의 미래 잠재력을 선제적으로 평가하기 어렵다.
본 논문은 이러한 연구 공백을 메우기 위해 미국 노동부의 O*NET 데이터베이스를 활용한 과업 단위(task-level)의 오디팅 프레임워크를 도입한다. 이 프레임워크는 실제 현장에서 업무를 수행하는 실무자의 직접적인 통찰(first-hand insights)을 수집하는 데 중점을 둔다. 특히 자동화와 증강(augmentation) 사이의 스펙트럼을 정량화하기 위해 인간 주도성 척도(Human Agency Scale, HAS)라는 공통 언어를 제안하여 인간 개입의 필요성을 측정한다.
이러한 프레임워크를 바탕으로 구축된 WORKBank 데이터베이스는 다음과 같은 규모를 갖춘다.
104개 직종에 종사하는 1,500명의 도메인 실무자로부터 수집한 선호도 데이터
AI 전문가 52명이 평가한 844개 과업에 대한 기술적 실현 가능성 데이터
실무자의 욕구와 기술적 역량을 결합하여 작업을 4개의 구역(Green Light, Red Light, R&D Opportunity, Low Priority)으로 분류한 분석 모델
오디트의 세분화 및 범위 정의 (Defining Audit Granularity and Scope)
연구의 정밀도를 높이기 위해 분석 단위를 직업 전체가 아닌 구체적인 과업 수준(task-level)으로 설정한다. 이는 동일한 직업 내에서도 과업마다 맥락과 성격이 다르기 때문에 더욱 세밀한 이해를 가능하게 한다.
분석 대상: 미국 노동부의 O*NET 데이터베이스에서 추출한 복잡하고 다단계적인 과업을 중심으로 한다. 단순히 '정보 번역'과 같은 단편적인 활동이 아닌, 마케팅 매니저의 '제품 설명 목록 작성'과 같이 실제 워크플로우를 반영하는 과업을 분석한다.
범위 한정: 파운데이션 모델 기반의 AI 에이전트가 수행하기에 적합한 '컴퓨터 호환 가능 과업'으로 범위를 좁힌다.
AI 에이전트 정의: 물리적 행동 능력은 없으나, 사용자를 대신해 소프트웨어 도구를 활용하고 스스로 워크플로우를 설계하여 복잡한 목표를 자율적으로 달성하는 시스템으로 정의한다.
자동화와 증강의 스펙트럼 (The Spectrum of Automation and Augmentation)
단순히 'AI가 인간을 대체할 것인가'라는 이분법적 사고에서 벗어나, 기술이 인간의 능력을 보완하고 강화하는 증강(augmentation)의 관점을 강조한다. 이를 구체화하기 위해 본 연구는 인간 주도성 척도(Human Agency Scale, HAS)를 새롭게 도입한다.
H1 (인간 개입 없음): AI 에이전트가 단독으로 과업을 완전히 처리한다.
H2 (최소한의 개입): 최적의 성능을 위해 인간의 아주 적은 입력만이 필요하다.
H3 (대등한 파트너십): 인간과 AI가 밀접하게 협력할 때 각각 혼자일 때보다 더 나은 성과를 낸다.
H4 (인간 주도 및 AI 지원): 과업 완수를 위해 인간의 입력과 주도권이 필수적이다.
H5 (인간 필수): 인간의 지속적인 개입 없이는 AI 에이전트가 기능을 수행할 수 없다.
이 지표는 기존의 AI 중심적인 자동화 단계 구분과 달리, 인간의 주도성을 중심에 두고 적절한 에이전트 개발 방향을 결정하는 기준이 된다.
실무자 중심의 오디팅 체계 (Worker-Centric Auditing Framework)
기술의 수용성과 사회적 영향을 정확히 파악하기 위해 실제 해당 업무를 수행하는 도메인 실무자들의 목소리를 반영하는 설계를 채택한다.
오디오 강화 인터뷰: 실무자들이 텍스트를 입력하는 대신 음성으로 자신의 경험과 생각을 자유롭게 설명하도록 하여 더 깊이 있는 맥락을 수집한다.
과업 숙련도 필터링: 실무자가 실제로 경험해 본 익숙한 과업에 대해서만 평가하도록 제한하여 응답의 신뢰도를 높인다.
가이드형 평가: 자동화 욕구를 평가하기 전 업무의 즐거움이나 고용 불안감을 고려하게 하고, 주도성 수준을 결정하기 전 과업의 불확실성이나 대인 관계 요소 등을 먼저 성찰하도록 유도한다.
실무자와 AI 전문가의 이원적 관점 (Dual Perspectives)
실무자의 관점이 사회적 요구를 보여준다면, AI 전문가의 평가는 기술적 실현 가능성을 대변한다. 연구팀은 AI 에이전트 연구 및 개발(R&D) 경험이 풍부한 52명의 전문가를 모집하여 실무자와 동일한 기준(자동화 역량 및 HAS 수준)으로 과업을 평가하게 한다. 이 두 집단의 데이터를 대조함으로써 현재 기술의 준비도를 확인하고, 향후 우선적으로 연구가 필요한 영역을 식별한다.
WORKBank 데이터베이스의 구축 (Derivation of WORKBank)
앞서 언급된 설계 원칙들을 통합하여 WORKBank 데이터베이스를 구축한다. O*NET의 2,131개 과업에서 시작하여 실무자 10명 이상의 응답이 확보된 104개 직종을 최종적으로 포함한다. 2025년 1월부터 5월까지 수집된 이 데이터베이스는 실무자 1,500명의 선호도와 전문가들의 기술적 진단을 결합한 세계 최초의 대규모 AI 에이전트 오디트 결과물이다.
3.1 직무 작업 자동화에 대한 실무자 중심 관점 (Worker-centered Views)
실무자들은 자신의 업무가 AI로 대체되는 것에 대해 무조건적인 거부감을 보이기보다, 작업의 성격에 따라 차별화된 태도를 취한다.
자동화에 대한 긍정적 태도: 분석 대상 작업의 46.1%에 대해 실무자들은 긍정적인 자동화 욕구를 보였다. 가장 큰 동기는 '고부가가치 업무를 위한 시간 확보'이며(69.38%), 작업의 반복성이나 스트레스 감소가 그 뒤를 이었다.
섹션별 욕구의 편차: "컴퓨터 및 수학" 분야는 53.8%의 작업에서 높은 자동화 욕구를 보인 반면, "예술, 디자인, 미디어" 분야는 17.1%만이 긍정적으로 응답하여 창의적 영역에서의 저항감을 드러냈다.
자동화 저항의 이유: 오디오 답변 분석 결과, AI 시스템의 정확성과 신뢰성에 대한 불신(45.0%)이 가장 컸으며, 고용 대체에 대한 두려움(23.0%)과 인간적 자질의 부재(16.3%)가 주요 우려 사항으로 꼽혔다.
실무자들이 가장 자동화를 원하는 작업은 '세무 준비원의 고객 일정 예약'과 '공공 안전 통신원의 긴급 전화 파일 유지' 등이며, 반대로 '에디터의 기사 작성'이나 '그래픽 디자이너의 레이아웃 검토' 등은 자동화 욕구가 매우 낮게 나타났다.
3.2 직장 내 AI 에이전트의 희망-역량 지형 (Desire-Capability Landscape)
실무자의 자동화 욕구와 AI 전문가의 기술적 역량 평가를 결합하여 작업을 4개의 구역으로 분류한다.
자동화 "Green Light" 구역: 실무자의 욕구와 기술적 역량이 모두 높은 영역으로, 즉각적인 AI 에이전트 배포 시 큰 생산성 향상과 사회적 이득이 기대되는 지점이다.
자동화 "Red Light" 구역: 기술적 구현은 가능하나 실무자의 자동화 욕구가 낮은 영역이다. 이곳에 기술을 강제로 도입할 경우 실무자의 저항이나 사회적 부작용이 발생할 수 있어 주의가 필요하다.
R&D 기회(Opportunity) 구역: 실무자의 욕구는 높지만 현재 기술력이 부족한 영역으로, 향후 AI 연구 및 개발이 집중되어야 할 유망한 분야이다.
낮은 우선순위(Low Priority) 구역: 욕구와 역량이 모두 낮은 영역으로, AI 에이전트 개발의 시급성이 떨어진다.
현재 Y Combinator(YC) 스타트업의 투자 및 서비스는 저욕구 구역(Low Priority 및 Red Light)에 41.0%가 집중되어 있어, 실제 노동 시장의 수요와 기술 개발 및 투자 방향 사이에 중대한 불일치(mismatch)가 존재함이 밝혀졌다.
3.3 인간 주도성 척도(HAS) 스펙트럼 (Human Agency Scale Spectrum)
HAS 분석을 통해 단순 자동화를 넘어선 인간과 AI의 협업 양상을 파악할 수 있다.
대등한 파트너십(H3)의 지배력: 분석된 104개 직종 중 45.2%에서 H3(인간과 AI의 대등한 협력)가 실무자들이 가장 선호하는 수준으로 나타났다. 이는 실무자들이 AI를 완전한 대체재가 아닌 협력적 파트너로 인식하고 있음을 시사한다.
전문가와의 인식 차이: 실무자들은 일반적으로 전문가가 판단한 기술적 필요 수준보다 더 높은 단계의 인간 주도성 유지를 선호한다. 이러한 간극은 향후 AI 도입 과정에서 마찰 요인이 될 수 있다.
협업 패러다임: 실무자들은 AI 에이전트가 특정 역할을 수행하는 '역할 기반 지원(Role-based support)'이나 사용자의 검토를 거치는 '보조자(Assistantship)'로서 기능하기를 기대한다.
3.4 핵심 인간 숙련도의 잠재적 변화 (The Potential Shift of Core Human Skills)
AI 에이전트의 도입은 노동 시장에서 가치 있게 평가받는 숙련도(skill)의 구조를 변화시킨다.
정보 처리 기술의 위상 하락: 현재 고임금 직종의 핵심인 '데이터 및 정보 분석', '관련 지식 업데이트' 등은 높은 자동화 가능성으로 인해 인간 주도성의 중요도가 상대적으로 낮아지는 추세이다.
대인 관계 및 조직 기술의 부상: '타인 교육 및 지도', '조직 관리', '팀원과의 소통' 등 인간 주도성이 필수적인(High-HAS) 기술들의 가치가 더욱 강조될 것으로 보인다.
역량 요구의 확장: 향후 노동자들에게는 단일한 전문 지식보다는 대인 관계 능력과 조직 운영 능력을 포함한 더 포괄적인 숙련도 세트(broader skill sets)가 요구될 것이다.
디지털 AI 에이전트의 발전
복잡한 목표를 달성하기 위해 스스로 프로세스를 지시하는 AI 에이전트의 개념은 인공지능 연구의 초기부터 논의되어 왔다. 최근 대규모 언어 모델(LLM)의 발전은 이러한 시스템이 행동을 계획하고 외부 도구와 인터페이스를 맺는 '디지털 AI 에이전트'의 폭발적인 증가를 가져왔다. 이러한 에이전트들은 소프트웨어 공학, 분석적 글쓰기, 고객 지원 등 다양한 도메인에서 워크플로우를 수행할 수 있음을 증명했다.
자동화와 증강의 경제적 영향
많은 AI 에이전트가 완전 자동화를 목표로 설계되지만, 인간과 에이전트가 협업할 때 독립적인 시스템보다 더 높은 성과를 낼 수 있다는 연구 결과가 보고되었다. 이는 AI가 인간의 노동을 단순 대체하는 것이 아니라 증강할 수 있는 잠재력을 시사한다. 기존의 경제적 영향 분석 연구들은 주로 특정 직업의 노출도(exposure)에 집중했으나, 본 연구는 실무자의 욕구와 인간 주도성 척도(HAS)를 도입하여 기술 도입의 사회적 수용성을 함께 고려했다는 점에서 차별화된다.
기존 벤치마크의 한계
기존의 AI 에이전트 성능 평가 벤치마크(GAIA, AgentBench, OSWorld 등)는 에이전트의 역량을 측정하는 데는 유용하지만, 제한된 작업 세트에만 의존하는 한계가 있다.
범위의 협소함: 대부분 특정 기술 도메인에 치우쳐 있어 광범위한 노동 인구에 대한 통합적인 이해를 제공하지 못한다.
관점의 부재: 기술 중심의 평가에 치우쳐 실제 현장의 노동자가 기술을 어떻게 인식하고 통합할 것인지에 대한 실무자 중심의 관점이 부족하다.
본 연구는 미국 노동부의 O*NET 데이터베이스를 활용하여 보다 포괄적이고 체계적인 과업 지형을 제시함으로써 이러한 한계를 극복하고자 한다.
연구의 요약 및 기여
본 연구는 2025년 상반기 데이터를 바탕으로 AI 에이전트에 대한 실무자의 욕구와 기술적 역량을 대규모로 조사한 최초의 시도이다.
WORKBank 데이터베이스: 1,500명의 실무자와 52명의 전문가 데이터를 통합하여 AI 에이전트 도입의 준비도를 진단하는 기반을 마련했다.
협업의 가능성 확인: HAS 분석을 통해 많은 직종에서 인간과 AI가 대등하게 협력하는 '역전된 U자형' 추세가 나타남을 확인했으며, 이는 증강 중심의 기술 개발 필요성을 뒷받침한다.
기술 로드맵 제시: 희망-역량 지형을 통해 연구 및 투자 우선순위를 결정할 수 있는 실무적인 가이드라인을 제공했다.
연구의 한계점 및 향후 과제
기술의 급격한 변화와 사회적 맥락을 고려할 때 본 연구는 다음과 같은 한계점을 지닌다.
정적인 과업 정의: O*NET에 정의된 기존 과업만을 분석했기 때문에 AI 에이전트 도입 이후 새롭게 생겨날 과업들을 반영하지 못한다.
인식의 불완전성: 실무자들이 AI의 진화하는 역량과 한계를 완벽히 인지하지 못한 상태에서 응답했을 가능성이 존재한다.
표본의 범위: 컴퓨터를 사용하는 287개 직종 중 104개 직종만을 포함하고 있어, 노동 시장 전체의 모습을 담기에는 부족할 수 있다.
시점의 제약: 2025년 초반의 생성형 AI 기술 수준을 반영한 스냅샷이므로, 기술 발전에 따른 지속적인 업데이트가 필요하다.