brunch

AI가 나의 일을 대신하게 될 시점은?

AI의 장기 작업 완료 능력

by 들여쓰기


매일 아침 SNS를 열어보면 어김없이 새로운 AI 소식이 쏟아집니다. 그럴 때마다 "성능 미쳤다", "이러다 우리 일자리 다 없어지는 거 아냐?"와 같은 감탄과 걱정이 섞인 다양한 반응들을 확인할 수 있는데요. 저 역시 그런 글을 볼 때마다 마음 한편에 설렘과 불안한 감정이 동시에 생기는 것 같습니다. 그리고 자연스럽게 "내가 현재하고 있는 일이 AI로 대체된다면, 나에게는 얼마만큼의 시간이 남아 있을까?"와 같은 막연한 질문도 떠오르고요. 오늘은 바로 이러한 질문에 답을 줄 수 있는 흥미로운 논문을 발견해 여러분께 소개하려 합니다. 단순히 'AI의 성능이 어디까지 왔는가'와 같은 막연한 이야기가 아니라, 실제로 AI가 인간의 일을 언제쯤 대체할 수 있을지를 분석한 연구라 더욱 신뢰가 가는데요. 그럼 지금부터 그 내용을 함께 살펴보도록 하겠습니다.


Frame 1422235496 (1).png




작업 완료의 기준

논문에서는 AI와 사람의 업무 역량을 비교하기 위해 '시간 지평선(time horizon)'이라는 지표를 제안합니다. 그중에서도 '50%의 작업 완료 시간 지평선'이 가장 핵심인데요. 이는 'AI가 특정 작업을 50% 확률로 성공적으로 수행할 수 있는 시간 범위'를 인간 기준으로 계산한 것입니다. 좀 더 풀어서 설명한다면 인간이 어떤 작업을 평균 X의 시간이 걸려 완료했다고 가정하였을 때, AI가 그 작업을 50%의 확률로 수행할 수 있는 시간을 계산한 것이지요. 이때 X의 값을 '시간 지평선'이라 부르며, 이는 해당 AI모델의 업무 능력 척도로 사용됩니다. 그렇다면 왜 '50%'를 성공률의 기준으로 삼았을까요? 논문에서는 '50%의 성공률'이라는 기준을 택한 이유를 아래와 같이 설명하였습니다.


1. 직관적 해석이 가능함

50%는 "절반의 확률로 성공한다."는 매우 명확한 신호이며, 인간이 이 의미를 쉽게 이해할 수 있음

2. 측정 안정성이 높음

지나치게 높은 기준(예: 80~90%)은 작은 성능 차이에도 성공/실패로 갈리는 경우가 많아 측정이 불안정해짐

3. 상대적 비교가 용이함

시간 지평선의 성장을 비교적 정확하고 일관되게 측정할 수 있음




실험의 설계

AI에게 시킨 일은 단순 문제가 아닌, 실제 업무에 가깝게 설계된 과제였습니다. 연구진은 세 가지 데이터셋을 활용했는데요. 그 세 가지 데이터셋은 아래와 같습니다.


HCAST (Hard Cognitive and Software Tasks)

말 그대로 '머리 아픈 문제 모음집'입니다. 1분부터 30시간까지 걸리는 현실에서 연구자나 개발자가 오래 고민해야 하는 문제들을 모아놨습니다.

복잡한 사고 과정을 거쳐야 하는 과제

프로그래밍, 문제 해결, 긴 지시문 이해 등


RE-Bench (Realistic Evaluation Benchmark)

현실 밀착형 과제입니다. '현업에서 약 8시간 정도의 걸리는 고난도의 난제'를 다루고 있습니다.

사이버 보안 문제 풀기

복잡한 소프트웨어 수정하기


SWAA (Software Atomic Actions)

큰 단위의 프로젝트 전체를 맡기는 게 아닌, 프로젝트 속에서 1초에서 30초 정도 걸리는 작은 단위의 업무들을 과제로 만들었습니다.

소프트웨어 개발을 작은 단위로 쪼개 과제로 만듦 예시) 특정 함수만 수정하기, 작은 버그 패치하기


연구진은 이렇게 정의된 과제들을 가지고 사람과 AI에게 똑같이 풀게 하였습니다. 그리고 이를 측정하였죠. 연구진이 궁금했던 것은 단순히 "AI가 정답을 얼마나 잘 맞혔나?"가 아닌, AI가 사람이 하였을 때 일반적으로 X시간 걸리는 일을 '절반의 확률(50%)'로 어느 정도의 시간 안에 풀 수 있는가? 였습니다. AI의 능력을 점수나 등급이 아닌, '시간 단위'로 다시 환산한 것이지요.




실험의 결과는?

2025년 현재, 놀랍게도 Claude 3.7 Sonnet 같은 최신 AI는 사람이 약 50분 걸려 수행하는 업무를 50%의 확률로 해낼 수 있다고 합니다. 특히 주목할 점은 바로 이 '시간 지평선'이 성장이 눈에 띄게 빨라지고 있다는 사실인데요. 2019년부터 2025년까지 불과 7개월마다 '시간 지평선'은 두 배씩 성장하는 추세를 보여왔고, 이 흐름이라면 AI는 인간이 한 달(약 167시간) 동안 해야 할 일을 2028년 말에서 2031년 초 사이에는 해낼 수 있을 것으로 예측됩니다. 이렇게 빠른 성장이 가능했던 배경에 대해, 논문에서는 아래와 같이 이유를 들었습니다.

논리적 추론 능력 향상하여, 점점 복잡한 문제를 이해하고 해결하는 성능이 좋아졌습니다.

도구 활용 능력 개선되어 코드 작성이나 API 활용 같은 "외부 도구 사용" 능력이 강화되었습니다.

신뢰성과 자가 오류 교정 능력 증가하여, 무언가 잘못되었을 때 AI가 스스로 보정하려는 시도도 눈에 띕니다.

Frame 1422235497 (1).png 시간 지평선을 통해 알아본 AI의 업무 역량 추세 전망 그래프




우리에게 던지는 질문

오늘은 Anthropic의 METR팀이 진행한 연구를 바탕으로, AI가 인간의 특정 업무를 언제쯤 따라잡을 수 있을지에 대한 예측을 살펴보았습니다. 물론 논문에서도 밝히듯 이번 결과는 어디까지나 추세에 기반한 것이기에 다양한 변수들로 인해 예측값을 100% 확신할 수는 없습니다. 그럼에도 불구하고, 막연하게만 느껴졌던 미래가 ‘약 5년 뒤’라는 구체적인 시간으로 다가오니 무언가 미묘한 감정이 드는데요.

어쩌면 지금 우리에게 필요한 건 “AI가 곧 나의 일을 대체하겠네.. 나는 어쩌지?”와 같은 불안한 마음이 아니라, “이러한 변화 속에서 나는 어떤 준비를 할 수 있을까?”라는 적극적인 마음가짐인 것 같습니다. 다가올 시대의 변화를 위협이 아닌 기회로 바꾸기 위해, 우리는 앞으로 어떤 준비를 해야 할까요? 그리고 여러분은 앞으로 다가올 변화를 맞이할 준비를 잘하고 계실까요?




논문 링크: https://arxiv.org/abs/2503.14499




keyword
작가의 이전글AI 누가 누가 잘하나