brunch

AI 시대, 대체되지 않기 위한 최소한의 조건

20만 건의 데이터를 통해 살펴본 인간의 역할과 생존 전략

by Kay

요즘 많은 사람들이 AI를 활용해 각자의 방식으로 효율적으로 일하면서도, 한편으로는 어딘가 모르게 찝찝한 감정을 느낀다. 보고서 초안을 AI가 뚝딱 만들어내고, 회의록 정리나 메일 답장까지 대신 작성해 주는 모습을 보고 나면, 순간의 감탄에 이어 “이러다 진짜 내 일이 사라지는 건 아닐까?” 하는 걱정이 밀려온다. 특히 단순 반복 업무나 문서 작업 비중이 높은 직무일수록 그 불안은 더 크다. AI에게 “이거 정리해 줘”, “슬라이드 만들어줘”라고 말하고 결과만 기다리는 사용자일수록, 그 역할은 오히려 더 쉽게 대체될 수 있다. 아이러니하게도, 가장 손쉽게 AI를 사용하는 사람들이 가장 먼저 위협받을지도 모른다는 생각이 든다.


Microsoft는 이러한 불안을 데이터로 들여다봤다. 20만 건에 달하는 Copilot 대화를 분석한 결과, 사용자가 AI에게 요청한 것(User Goal)과 AI가 실제 수행한 작업(AI Action)이 서로 일치하지 않는 경우가 무려 40%에 달했다. 예를 들어, 사용자는 막연히 “보고서 작성을 도와줘”라고 말하지만, AI는 그 목표를 ‘문서 구조 제안’, ‘문장 교정’, ‘정보 제공’ 등으로 자동 분해해 세부 작업 단위로 처리한다. 즉, 인간은 전체 결과물을 상상하며 지시하지만, AI는 그 목표를 작게 나눠 체계적으로 실행해 나간다. 이 비대칭성은 단순한 커뮤니케이션의 차원이 아니라, AI와 인간이 ‘일을 이해하고 처리하는 방식’ 자체가 다르다는 것을 보여준다.


그렇다면 각자의 자리에서 경쟁력을 유지하기 위해, 우리는 어떤 역할을 해야 할까? HR의 사례로 돌아가 보자. 경력직 채용 과정에서 “지원자 중 적합한 인재를 추천해 줘”라고만 요청한다면, AI는 JD와 이력서를 정량적으로 매칭해 점수가 높은 후보를 추천할 것이다. 그러나 이 과정에는 조직 문화나 팀의 커뮤니케이션 방식, 과거 채용 실패의 맥락 같은 정성적 요소가 빠져 있다. HR 담당자가 직접 개입해 “이번 팀은 수직적 리더십에 익숙한 사람이 필요해”, “A와 같은 경험은 필수야”와 같은 기준을 구조화하고, AI의 결과물을 도메인 지식을 바탕으로 검토한다면, 그 결과는 완전히 달라질 것이다. 모두에게 전자계산기가 주어진 시대에는, 누가 더 암산을 잘하느냐가 중요하지 않다. AI가 일을 수행하는 방식을 이해하고, 그 과정에 개입하며, 맥락을 설계하고 해석할 수 있는 인간의 역할에 집중해야 한다.




Working with AI: measuring the applicability of generative AI to occupations


Tomlinson, K., Jaffe, S., Wang, W., Counts, S., & Suri, S. (2025). Working with AI: measuring the applicability of generative AI to occupations. arXiv preprint arXiv:2507.07935.


이 연구를 3줄로 요약하면?

이 연구는 20만 건의 Microsoft Bing Copilot 대화 데이터를 분석하여 생성형 AI가 직업별 업무 활동에 어떻게 적용되는지 측정한다. 연구팀은 사용자가 AI의 도움을 받으려는 '사용자 목표(user goal)'와 AI가 직접 수행하는 'AI 활동(AI action)'을 구분하여 분석했다. 그 결과, AI 적용 가능성은 컴퓨터, 수학, 영업, 사무 지원과 같은 지식 노동 및 커뮤니케이션 중심 직군에서 가장 높게 나타났다.


저자는 왜 이 연구를 진행했는가?

생성형 AI가 빠르게 도입되며 경제 전반에 큰 영향을 미칠 잠재력을 보임에 따라, AI가 경제에 미치는 영향을 이해하는 것이 사회의 중요 과제가 되었다. 저자들은 예측이 아닌 실제 AI 사용 데이터를 바탕으로, 구체적으로 어떤 업무 활동과 직업이 AI의 영향을 받고 있는지 파악하기 위해 이 연구를 수행했다.

이 연구에서 중요하게 다뤄진 개념은?

AI 적용 가능성 점수 (AI applicability score): AI가 특정 직업의 업무 활동을 성공적으로, 그리고 광범위하게 수행하는지를 측정하기 위해 산출된 종합 점수이다.

사용자 목표 (User goal) vs. AI 활동 (AI action): 사용자가 AI의 도움을 받아 완수하려는 과제(사용자 목표)와 대화에서 AI 자체가 수행하는 과제(AI 활동)를 구분하는 핵심 분석틀이다.

O*NET 업무 활동 (Work Activities): 직업을 계층적으로 분류하는 O*NET 데이터베이스의 정의를 사용하며, 특히 중간 수준의 업무 활동(IWAs)을 중심으로 분석한다.


저자는 어떤 방법을 사용했는가?

2024년 1월부터 9월까지 미국 내 20만 건의 익명화된 Microsoft Bing Copilot 대화 데이터를 분석했다. GPT-4o 기반 LLM 분류 파이프라인을 사용해 각 대화의 '사용자 목표'와 'AI 활동'을 ONET의 '중간 업무 활동(IWA)'과 매칭했다. 또한 사용자 피드백(좋아요/싫어요)과 LLM 기반의 과제 완료 분류기, 그리고 AI가 해당 업무 활동을 얼마나 넓게 다루었는지(영향 범위)를 측정했다. 이 지표들을 ONET의 직업별 업무 중요도 데이터와 결합하여, 각 직업의 'AI 적용 가능성 점수'를 계산했다.


연구의 결과는?

사용자가 AI에게 가장 많이 요청하는 활동(사용자 목표)은 정보 수집과 글쓰기이다. 반면 AI가 가장 많이 수행하는 활동(AI 활동)은 정보/지원 제공, 글쓰기, 교육, 조언 등이다.

사용자 목표와 AI 활동은 40%의 대화에서 서로 불일치할 정도로 다르게 나타났다.

AI 적용 가능성 점수가 가장 높은 직업군은 영업, 컴퓨터 및 수학, 사무 및 행정 지원과 같은 지식 노동 및 커뮤니케이션 중심 직군이다.

육체노동이나 기계 조작 비중이 큰 직업군(예: 건설, 농업, 의료 지원)은 점수가 가장 낮았다.

기존 연구(Eloundou et al.)에서 예측한 AI 영향 잠재력과 실제 사용 데이터 기반의 본 연구 결과는 직업 수준에서 r=0.73, 직업군 수준에서 r=0.9로 높은 상관관계를 보였다.

임금과의 상관관계는 r=0.07로 매우 약했으며, 학사 학위가 필요한 직업군이 그보다 낮은 학력을 요구하는 직업군보다 AI 적용 가능성 점수가 다소 높았다.



1. Introduction (서론)


범용 기술(General purpose technologies)은 역사적으로 경제 성장의 강력한 동력이었으며, 기술이 발전함에 따라 그 속도가 가속화되며 광범위한 분야에 영향을 미쳤다. 최근 몇 년간 생성형 AI는 의료 진단부터 소프트웨어 개발에 이르기까지 다양한 작업을 개선하거나 속도를 높일 수 있는 차세대 범용 기술 후보로 부상했다. 이러한 능력은 AI의 놀라운 채택률에 반영되어, 미국인의 거의 40%가 가정이나 직장에서 생성형 AI를 사용한다고 보고했으며, 이는 개인용 컴퓨터나 인터넷의 초기 확산 속도를 능가한다.

이러한 광범위한 채택과 경제적 영향 가능성을 고려할 때, 어떤 업무 활동이 AI에 의해 가장 큰 영향을 받고 있으며, 나아가 어떤 직업이 영향을 받는지를 파악하는 것이 중요한 질문이 된다. 이 연구는 주류 LLM(대규모 언어 모델) 기반 생성형 AI 시스템인 Microsoft Bing Copilot(현 Microsoft Copilot)의 실제 사용에서 수행되는 업무 활동을 식별함으로써 이 질문에 대한 증거를 제공한다. 이 연구는 2024년 9개월 동안 미국에서 대표적으로 샘플링된 20만 건의 익명화 및 개인 식별 정보 자동 삭제 처리된 사용자-AI 대화를 분석한다.



2. Related work (관련 연구)


AI가 특정 직업 과제(예: 프로그래밍, 고객 지원, 글쓰기, 법률 분석 등)의 생산성에 미치는 영향을 조사하는 연구들이 증가하고 있다. 이 연구의 초점은 AI의 생산성 효과를 측정하는 것이 아니라, 사람들이 AI를 어떤 업무 활동에 사용하고 있는지를 이해하는 것이다. 이를 위해 연구팀은 사람들이 LLM을 실제 환경에서 어떻게 사용하는지 측정한다.

이 연구는 직업을 해당 직업에서 수행되는 과제(tasks)로 분해하고, 이 과제들이 자동화에 얼마나 민감한지 추정하는 경제학적 프레임워크에 기반한다. 이 기법은 이전의 자동화가 노동 시장에 미친 영향을 설명하거나, AI와 같은 미래의 자동화가 직업에 미칠 영향을 예측하기 위해 사용되어 왔다. 이 분야의 주목할 만한 최근 연구는 Eloundou et al.으로, 이들은 LLM 기술이 어떤 과제와 직업에 가장 큰 영향을 미칠지 (인간과 LLM의 판단을 사용하여) 예측했다. 본 연구는 인간과 LLM 간의 실제 대화를 분석하고, 이들이 LLM을 어떤 업무 활동에 사용하고 있는지 보여줌으로써 이 문헌에 기여한다. 또한, 연구 결과를 Eloundou et al. 의 예측과 비교한다.

본 연구와 가장 유사한 연구는 Claude 대화를 O*NET 분류체계에 따라 분석한 Handa et al. 의 최근 연구이다. 하지만 본 연구는 여러 구별되는 특징을 갖는다:

사용자 목표 vs. AI 활동: 본 연구는 사용자가 도움을 받으려는 활동(사용자 목표)과 AI가 수행하는 활동(AI 활동)을 분리하여, AI의 지원(assistance)과 직접 행동(direct actions)을 구분한다.

AI 적용 가능성 점수: 과제 성공 및 영향 범위(scope of impact)를 'AI 적용 가능성 점수'에 통합하여 AI 영향 잠재력에 대한 더 미묘한 추정치를 제공한다.

분류 단위: 직업 특화적인 '과제(tasks)' 대신, 여러 직업에 걸쳐 적용되는 '업무 활동(work activities)'에 초점을 맞춘다. 이는 특정 직업을 대화에 할당할 필요 없이, AI 사용 사례가 해당 활동과 관련된 모든 직업에 어떻게 영향을 미치는지 식별할 수 있게 한다. 또한 업무 활동(332개)이 과제(18,000개 이상)보다 수가 적어, 각 대화에 단일 과제를 할당하는 대신 모든 관련 업무 활동을 찾는 철저한 이진 분류가 가능하다.

플랫폼 다양성: 다양한 AI 플랫폼에 걸친 분석은 가치가 있으며, 본 연구는 Copilot 사용이 Claude와 상당히 다름을 발견했다(특히 컴퓨터 및 수학 관련 과제 비중이 훨씬 낮음).



3. Data and methods (데이터 및 방법론)


3.1 Bing Copilot 데이터

이 연구는 2024년 1월 1일부터 9월 30일까지 9개월간 미국 내 Microsoft Bing Copilot(이하 Copilot) 사용자들의 대화 데이터 두 가지를 분석한다.

COPILOT-UNIFORM: 이 기간 동안의 미국 내 대화에서 균일하게 샘플링된 약 10만 건의 대화로 구성된다. 이는 주류 공개 AI 챗봇의 대표적인 사용 행태를 보여주며, 본 분석의 기반이 된다.

COPILOT-THUMBS: 사용자의 '좋아요(thumbs up)' 또는 '싫어요(thumbs down)' 피드백이 최소 한 개 이상 포함된 대화 10만 건을 균일하게 샘플링한 데이터이다. 이는 사용자의 명시적 피드백을 통해 어떤 활동이 더 성공적으로 수행되는지 조사하는 데 사용된다.

본 분석의 핵심 통찰은 AI 보조자와의 대화가 노동력에 영향을 미치는 두 가지 방식, 즉 '사용자 목표(user goal)'와 'AI 활동(AI action)'을 구분하는 것이다.

사용자 목표 (User goal): 사용자가 AI의 도움을 받아 달성하려는 과제를 의미한다. 이는 사람들이 어떤 업무 활동에 대해 AI의 지원을 구하는지 보여준다.

AI 활동 (AI action): AI 자체가 대화 중에 수행하는 과제를 의미한다. 이는 AI가 어떤 업무 활동을 수행하는지 보여준다.

이 둘은 성공적인 대화에서도 다를 수 있다. 예를 들어, 사용자가 정보 수집(User goal)을 시도할 때, AI는 정보 제공(AI action)을 수행할 수 있다.


3.2 O*NET 및 BLS 데이터

미국 노동 시장의 구조를 이해하기 위해 O*NET 29.0 데이터베이스를 활용한다. O*NET은 직업을 과제(tasks)와 업무 활동(work activities)으로 계층적으로 분해한다.

계층 구조: 직업(Occupation) > 과제(Tasks) > 상세 업무 활동(DWAs) > 중간 업무 활동(IWAs) > 일반화된 업무 활동(GWAs).

본 분석은 여러 직업에 걸쳐 적용되는 IWAs(Intermediate Work Activities)에 초점을 맞춘다.

또한, O*NET 데이터를 미국 노동통계국(BLS)의 직업별 고용 및 임금 통계(OEWS) 데이터와 결합하여 사용한다.


3.3 업무 활동 분류

각 대화에서 '사용자 목표'와 'AI 활동'에 일치하는 모든 IWA를 식별하기 위해 GPT-4o 기반 LLM 분류 파이프라인을 사용한다. 이 분류기는 3명의 인간 주석가(annotator)의 레이블을 통해 검증되었다.

본 연구가 직업별 '과제(tasks)'(18,796개) 대신 'IWA'(332개) 수준에서 분류하는 이유는 다음과 같다:

IWA는 과제보다 더 구별되고 비중복적이어서 분류가 더 정확하고 신뢰할 수 있다.

사용자의 직업을 알 수 없는 상황에서, 서로 다른 직업의 유사한 프로그래밍 과제들을 구별하는 것은 불가능하다.

IWA 수준의 분류는 한 맥락에서 확인된 AI의 역량이 해당 업무 활동을 수행하는 모든 직업으로 어떻게 확장될 수 있는지 식별하게 해 준다.

각 대화가 여러 IWA에 매칭될 수 있으므로, 각 IWA가 차지하는 '활동 지분(activity share)'을 계산한다. 이는 각 대화의 지분을 매칭된 IWA 수로 동일하게 나누어 배분하는 방식이다.


3.4 직업 커버리지 및 AI 적용 가능성 점수

직업에 대한 잠재적 영향을 측정하기 위해 포괄적인 'AI 적용 가능성 점수(AI applicability score)'를 정의한다. 이 점수는 AI가 해당 직업의 업무 활동에 대해 (1) 충분히 자주 사용되고(activity share), (2) 성공적이며(completion rate), (3) 해당 업무의 상당 부분을 커버하는지(scope)를 종합적으로 반영한다.

커버리지 (Coverage): 특정 IWA가 전체 Copilot 활동 지분의 0.05% 이상을 차지할 경우, 해당 IWA는 '커버된(covered)' 것으로 간주한다. 직업의 커버리지는 해당 직업을 구성하는 IWA들 중 '커버된' IWA의 가중 분율로 정의된다. (가중치는 O*NET의 과제 중요도와 관련성을 기반으로 계산된다.)

과제 완료율 (Completion rate): Copilot이 업무를 더 성공적으로 완료할수록 AI 영향 가능성이 크다. 이는 GPT-4o-mini LLM을 사용하여 AI가 대화에서 사용자의 작업을 완료했는지 여부를 분류하여 측정한다. 이 완료율은 COPILOT-THUMBS 데이터셋의 사용자 피드백(좋아요/싫어요)과 높은 상관관계(r > 0.75)를 보였다.

영향 범위 (Impact scope): AI가 IWA 업무의 어느 정도 비중을 지원하거나 수행하는지 6점 리커트 척도(없음~완전)로 LLM이 분류한다. 이는 AI가 작업의 작은 부분(예: 미토콘드리아가 무엇인지 묻기)을 돕는 것과 큰 부분(예: 보고서 전체 편집)을 돕는 것을 구별하기 위함이다.

이 세 가지 측정값을 결합하여 직업에 대한 AI 적용 가능성 점수를 계산한다. 최종 점수는 사용자 목표 점수와 AI 활동 점수의 평균을 사용한다. 이 연구는 "노동력의 X%가 Y% 영향을 받는다"와 같은 절대적인 측정 방식은 사용량 임계값(threshold) 설정에 따라 결과가 크게 달라지므로 신뢰하기 어렵다고 지적한다. 대신, 본 연구의 AI 적용 가능성 점수는 직업 간의 상대적인 비교를 위해 설계되었다.



4. Results (결과)


4.1 일반화된 업무 활동 (Generalized Work Activities, GWAs)

O*NET의 가장 상위 계층인 GWA(일반화된 업무 활동) 수준에서 Copilot 사용 데이터를 분석했다. 노동 시장의 평균 비중보다 AI 사용이 적은 활동들은 LLM 챗봇에 부적합한 활동들이며, 크게 세 가지로 분류된다.

물리적 활동 (예: 물체 취급 및 이동, 일반 신체 활동)

모니터링 활동 (예: 프로세스/자원 모니터링, 장비 검사)

안내 활동 (예: 기계 제어, 하급자 지도)

반면, AI 사용이 많은 활동들은 주로 지식 노동(knowledge work)과 관련된 것들이었다(예: 정보 획득, 정보 해석, 창의적 사고, 지식 업데이트, 컴퓨터 작업).

AI 활동이 사용자 목표보다 더 두드러지는 경우는 AI가 사용자에게 서비스를 제공하는 활동(예: 타인 지원/돌봄, 조언 제공, 코칭, 훈련)과 커뮤니케이션 활동이었다. 반대로, 사용자 목표가 AI 활동보다 두드러지는 경우는 사용자가 AI의 도움을 받아 수행하려는 지식 노동 활동(예: 정보 획득, 창의적 사고, 지식 업데이트, 의사 결정, 데이터 분석)이었다.

요약하면, 사람들은 지식 노동 활동을 수행하기 위한 서비스(정보 제공, 조언 등)를 제공받기 위해 Copilot을 사용하며, 이는 실제 노동 시장의 비중에 비해 불균형적으로 높은 수치이다.


4.2 중간 업무 활동 (Intermediate Work Activities, IWAs)

더 세분화된 IWA(중간 업무 활동) 수준에서 데이터를 분석했다.

사용자가 AI에게 가장 많이 요청하는 활동(주요 사용자 목표)은 세 범주로 나뉜다.

정보 수집 (예: 정보 수집, 정보 획득, 지식 유지, 문서 읽기)

작성/편집/개발 (예: 콘텐츠 개발, 자료 작성, 시각 디자인 제작)

타인에게 전달 (예: 정보 제공, 지원 제공, 기술/규정 설명)

AI가 주로 수행하는 역할(주요 AI 활동)은 서비스 제공이었으며(예: 응답, 제공, 제시, 지원), 세 범주로 나뉜다.

정보 수집 및 보고 (예: 정보 수집, 정보 자료 준비, 콘텐츠 개발)

정보 설명 (예: 연구 발표, 기술적 세부사항/규정 설명)

사용자와의 소통 (예: 고객 문제 응답, 지원/정보 제공, 조언)

사용자 목표와 AI 활동 간의 비대칭성은 두드러져, 40%의 대화에서 두 IWA 집합이 서로 완전히 불일치(disjoint)했다. AI가 더 많이 지원하는 활동(User Goal > AI Action)은 물리적 요소가 포함된 활동(예: 운동 활동, 장비 작동)이나 다른 주체와의 상호작용이 필요한 활동(예: 상품 구매, 금융 거래)이었다. 반면, AI가 더 많이 수행하는 활동(AI Action > User Goal)은 주로 훈련, 코칭, 교육, 조언 관련 활동이었다.


4.2.1 만족도, 과제 완료 및 범위 (Satisfaction, task completion, and scope)

AI가 이러한 활동들에 실질적으로 도움이 되는지 측정하기 위해 세 가지 지표를 사용했다. '만족도(Satisfaction)'는 COPILOT-THUMBS 데이터의 사용자 '좋아요' 피드백으로 측정했다. 만족도가 높은 활동은 다음과 같았다.

글쓰기/편집 (문서 편집, 자료 작성)

정보 연구 (의료/법률/사회 문제 연구)

상품 평가/구매 (상품 특성 평가, 상품 구매)

반면, 만족도가 낮은 활동은 데이터 분석(예: 데이터 처리, 재무 데이터 계산)과 시각 디자인(예: 시각/예술 디자인 제작)이었다. 이는 Copilot이 지식 노동의 분석 및 시각적 요소보다는 글쓰기와 연구 부분에서 더 뛰어남을 시사한다. '지원 또는 격려 제공'이나 '제품/서비스 조언'과 같은 활동은 AI가 직접 수행할 때보다, 사용자가 타인에게 수행하는 것을 AI가 도울 때 만족도가 더 높았다.

'과제 완료(Completion)'는 LLM 분류기로 측정했으며, 이는 사용자 만족도와 매우 높은 상관관계(r>0.75)를 보였다.

'영향 범위(Scope of Impact)'는 AI의 역량이 IWA 전체 업무의 어느 정도 비중을 차지하는지 측정한 것이다. 범위가 넓은 활동은 정보 수집, 글쓰기, 정보 제공, 조언 등이었으며, 범위가 좁은 활동은 데이터 분석, 시각 디자인, 외부인과 상호작용하는 활동이었다.

핵심 발견으로, AI가 직접 수행(AI action)할 때보다 AI가 사용자를 지원(User goal)할 때 영향 범위가 일관되게 더 넓었다. 또한, 사용 빈도(activity share)를 가장 잘 예측하는 지표는 완료율이나 만족도가 아닌 영향 범위(r=0.64)였다. 즉, 사람들은 LLM이 가장 성공적으로 완료하는 작업보다는, LLM이 가장 광범위한 영향을 미칠 수 있는 작업을 위해 LLM을 사용하고 있었다.


4.3 직업 (Occupations)

개별 직업에 대한 AI 적용 가능성 점수(빈도, 완료율, 범위를 결합)를 분석했다.

AI 적용 가능성 점수 상위 40개 직업은 '통역사 및 번역가'(1위)를 포함하여 글쓰기/편집, 영업, 고객 서비스, 프로그래밍 등 지식 노동 및 커뮤니케이션 중심 직업들이었다. 반면, 점수 하위 40개 직업은 물리적 노동이 필요한 직업(예: 간호조무사, 접시닦이)과 기계 조작/모니터링 직업(예: 수처리 플랜트 운영자, 트럭 운전사)이었다. '객실 승무원', '판매 대표' 등의 점수가 높은 이유는 "고객에게 정보 제공", "고객 문의 응답"과 같이 정보를 전달하는 IWA의 비중이 높기 때문이었다. 주요 직업군(SOC Major Groups) 별 분석 결과, 점수 상위 그룹은 영업 및 관련직, 컴퓨터 및 수학, 사무 및 행정 지원 직군이었다. 점수 하위 그룹은 의료 지원, 농림어업, 건설 및 채굴 직군이었다.


4.3.1 예측과의 비교 (Comparing to predictions)

본 연구의 실제 사용 데이터 기반 'AI 적용 가능성 점수'를 Eloundou et al. 의 '예측된 AI 노출(E1)' 지표와 비교했다. 두 지표 간에는 매우 높은 상관관계가 나타났다 (직업 수준 r=0.73, 주요 직업군 수준 r=0.91). 이는 실제 AI 사용 데이터가 이전의 예측을 대체로 뒷받침함을 시사한다.

불일치 사례를 보면, '시장 조사 분석가'나 'CNC 도구 프로그래머' 등은 예측보다 본 연구의 점수가 높았고, '설문조사 연구원'이나 '동물 과학자' 등은 예측보다 본 연구의 점수가 낮았다.


4.3.2 사회경제적 연관성 (Socioeconomic correlates)

AI 적용 가능성 점수와 직업 평균 임금 간의 관계는 매우 약했다 (고용 가중 상관관계 r=0.07). 이는 고용 비중이 높은 '영업직' 및 '사무직'이 상대적으로 임금은 낮지만 AI 적용 가능성 점수는 높게 나타났기 때문이다.

교육 수준의 경우, 학사 학위(Bachelor's degree)를 요구하는 직업군(평균 점수 0.27)이 그보다 낮은 학력(고등학교 졸업 등)을 요구하는 직업군(평균 점수 0.19)보다 AI 적용 가능성 점수가 통계적으로 유의미하게 높았다.

인구통계학적으로는 히스패닉 또는 라틴계 근로자 비율이 높은 직업일수록 AI 적용 가능성 점수가 낮은 음의 상관관계(r=-0.41)를 보였다.



5. Discussion (논의)


이 연구는 Bing Copilot 대화를 분석하여 사용자가 AI의 지원을 받으려는 업무 활동, AI가 수행하는 활동, 그리고 이것이 직업에 무엇을 의미하는지 파악했다. 생성형 AI의 현재 역량은 지식 노동(knowledge work) 및 커뮤니케이션 직업과 가장 강력하게 일치한다. 반면, 육체노동, 기계 조작, 또는 기타 물리적 활동을 포함하는 직업은 잠재력이 거의 없거나 존재하지 않았다.

사회경제적 연관성 측면에서, AI 적용 가능성 측정치와 직업별 임금 사이에는 매우 작은 양의 상관관계가 발견되었다. 교육 요구사항 측면에서는 학사 학위를 요구하는 직업이 그보다 낮은 학력을 요구하는 직업보다 AI 적용 가능성이 더 높게 나타났다. 기존의 직업적 AI 영향에 대한 예측(Eloundou et al.)과 비교했을 때, 본 연구의 실제 사용량 데이터는 (특히 가장 일반적인 집계 수준에서) 대체로 예측과 일치함을 발견했다.


연구 결과의 해석

본 연구 데이터는 AI가 특정 직업의 모든 업무 활동을 수행하고 있음을 나타내지는 않는다. AI 역량과 업무 활동 간에 중복이 있더라도, 과제 완료율은 100%가 아니며 영향 범위(scope)도 대개 '보통(moderate)' 수준이다. 따라서 AI 역량과 업무 활동이 겹친다는 사실이, 해당 업무 활동이 항상 완전히 수행된다는 것을 의미하지는 않는다.

이 분석의 핵심 측면 중 하나는 업무 활동을 AI가 수행하는 활동(AI action)과 AI가 지원하는 사용자 목표(user goal)로 분류한 것이다. AI가 활동을 수행할 때, 이는 종종 코치, 트레이너, 또는 조언자로서 인간을 지원하는 역할로 나타났다. Copilot이 가장 많이 지원하는 사용자 목표는 정보 수집, 글쓰기, 커뮤니케이션을 포함했다. 정보 수집과 글쓰기는 또한 사용자 피드백, 과제 완료율, 영향 범위 측면에서 가장 성공적인 업무 활동이었다.

Claude 대화를 분석한 유사한 연구와 비교할 때, Copilot 사용은 프로그래밍 및 수학적 과제에 훨씬 덜 집중되어 있었다. 이는 다른 AI 보조 도구를 선택하는 사용자 집단의 차이 때문일 수 있다.


자동화와 증강에 대한 해석적 주의

AI가 '수행'하는 활동과 중복성이 높은 직업은 자동화되어 일자리나 임금 감소를 겪고, AI가 '지원'하는 활동과 겹치는 직업은 증강되어 임금이 상승할 것이라 결론 내리고 싶을 수 있으나, 이는 실수이다. 이 데이터는 신기술로 인한 파생적인 비즈니스 영향(downstream business impacts)을 포함하지 않기 때문이다. 예를 들어, ATM은 은행원의 핵심 업무를 자동화했지만, 은행이 더 낮은 비용으로 더 많은 지점을 열고 은행원이 예금 처리 대신 관계 구축에 집중하게 되면서 오히려 은행원 일자리는 증가했다.


한계점

이 분석은 몇 가지 한계점을 지니고 있다.

데이터의 한계: 대화가 업무 맥락에서 수행되었는지, 여가 시간에 수행되었는지 판단하기 매우 어렵다. 이 데이터는 널리 사용되는 공개 LLM 중 하나(Copilot)의 데이터만을 분석한 것이다. 대화 데이터만으로는 AI가 다른 업무 활동에 미칠 수 있는 영향의 규모를 판단하기 어렵다.

방법론적 한계: 직업을 업무 활동으로 분해하는 O*NET 방식은 과제들 사이의 '연결 고리(connecting glue)'가 되는 중요한 가치를 포착하지 못한다. O*NET 데이터베이스는 미국 중심적이며, 실제 현장의 활동을 뒤늦게 반영할 수 있다. 과제 완료 및 영향 범위에 대한 측정은 불완전하고 근사치이다.


향후 연구 방향

이 연구는 사회적으로 매우 중요한 여러 향후 연구 질문을 제시한다.

AI의 빠른 진전에 대응하여 서로 다른 직업들이 업무 책임을 어떻게 재구성(refactor)하는지 파악해야 한다.

AI의 부상으로 인해 완전히 새로운 직업이 등장할 수 있으며, 기존 직업이 재구성될 수 있다.

AI 역량의 경계(frontier)가 어떻게 변화하는지, 그리고 어떤 직업이 그 변화하는 경계와 더 많거나 적은 중복을 갖게 되는지 이해하는 것이 중요하다.

keyword