토큰을 세는 조직과 성과를 내는 조직

[시리즈] HR 테크와 피플 애널리틱스

by 테오

Apr 30. 2026

"이제 일주일에 한 번씩 AI 활용 성과 공유회를 할 정도로 조직 전체가 AI를 쓰고 있어요."

한 스타트업의 CHRO가 꺼낸 말이었습니다.

잠깐의 자랑처럼 들렸지만, 곧이어 고민스러운 이야기가 들려왔습니다.

"그런데 막상 '진짜 생산성이 얼마나 올랐는지'는 답을 못하겠어요. 이제는 모두가 AI를 쓴다는 걸 전제하고, 토큰을 어떻게 효율화할지를 논의하고 있어요."

이제 조직 전체가 AI를 당연히 쓰는 시대가 왔습니다.

그리고 이제는 AI 를 사용하고 있는가? 에서

"우리는 AI를 사용해서 정말 일을 더 잘하고 있는가."로

질문이 바뀌었습니다.

데이터가 보여주는 풍경

먼저 숫자부터 보겠습니다.

ManpowerGroup이 2026년 초에 발표한 Global Talent Barometer는 한 가지 역설을 드러냈습니다 [1]. 직장인의 정기적 AI 사용률은 2025년 한 해 동안 13% 포인트 증가했습니다. 그러나 같은 기간, "AI가 내 업무에 실제로 유용하다"라고 느낀 직장인의 비율은 18% 포인트 감소했습니다. 사용은 늘고, 체감 유용도는 줄었습니다. 이 두 곡선이 반대 방향으로 움직이는 것이, 2026년 직장의 핵심 풍경입니다.

이 패턴은 한 가지 단서를 줍니다. "AI 사용량"이 "AI 효과"와 같지 않다는 사실입니다. 그리고 많은 조직이, 무심코 이 둘을 동일시하고 있습니다. 주간 AI 성과 공유회의 대부분이 '사용 사례 자랑'으로 채워지는 이유가 여기에 있습니다.

McKinsey의 2026 Global AI Survey는 같은 현상을 다른 각도에서 확인해 주었습니다 [2]. 기업의 68%는 AI 도입 후 1년 이내에 '특정 기능 영역에서' 효율 증가를 보고했습니다. 반면 전사 재무 성과로 이어졌다고 답한 기업은 31%에 그쳤습니다.

정리하자면 이렇습니다. "문서 작성이 빨라졌다", "회의록 작성이 쉬워졌다"는 효율은 많은 조직이 누리고 있습니다. 그러나 "매출이 올랐다", "전사 생산성이 올라갔다"는 재무 결과로 이어진 조직은 셋 중 하나에 불과합니다.

IDC는 이 현상을 "AI Productivity Plateau(AI 생산성 평탄화)"로 명명했습니다. [3]

Tokenmaxxing의 함정

이 격차 앞에서 많은 조직이 잘못된 위로를 찾습니다.

"우리 팀은 이번 분기 토큰 사용량이 X% 증가했어요." "사내 GPT 사용자 수가 Y명을 돌파했어요."

Axios는 2026년 4월 15일 기사에서 이 경향을 'Tokenmaxxing(토큰 맥싱)'이라고 불렀습니다. [4] 토큰맥싱, 경영의 네 번째 패러다임? 글에서 이미 소개했는데요, 토큰을 많이 쓰는 것 자체를 성과로 해석하는 문화를 뜻합니다.

실리콘밸리의 몇몇 기업이 이를 내부 KPI로 삼으면서 본격적인 논쟁이 불거졌습니다. Salesforce는 이 논쟁의 한복판에서 반대 입장을 분명히 했습니다. [5] CEO 마크 베니오프는 "토큰 소비는 허영 지표(vanity metric)"라고 공개 발언했습니다.

대신 Salesforce는 새로운 지표 'Agentic Work Unit(AWU)'를 도입했습니다. AWU는 '토큰 소비량'이 아니라 '완수된 작업 단위'를 측정하는 개념입니다.

예를 들어 보겠습니다. 어떤 에이전트가 한 번의 작업에 10만 토큰을 쓰면 Tokenmaxxing 관점에서는 '많이 활용한 것'입니다. 그러나 같은 작업을 3만 토큰으로 끝낸 에이전트가 있다면, AWU 관점에서는 두 번째가 더 성과 있는 활용입니다.

AWU의 본질은 투입이 아니라 산출을 보는 것입니다. 이 구분은 단순해 보이지만, 조직 내부 KPI 설계에서는 혁명적입니다. 왜냐하면 대부분의 사내 AI KPI가 '투입 기반'으로 설계돼 있기 때문입니다.

"사내 GPT 월간 활성 사용자", "사용자당 프롬프트 수", "토큰 소비량"이 전형적인 예입니다. 이 지표들은 AI 확산기에는 유용했지만, 성숙기에는 방향을 오도합니다. 더 많이 쓴다고 더 잘하는 조직이 아니고, 더 비싸게 쓴다고 더 혁신적인 조직은 더더욱 아닙니다.

'AI 성과 공유회'가 놓치는 것

문제는 여기서 시작됩니다. 대부분의 조직이 내부에서 하는 'AI 성과 공유회'는 산출이 아니라 투입을 공유합니다.

"나는 이번 주에 AI로 이런 업무를 빠르게 처리했다." "나는 이런 프롬프트로 이런 결과물을 얻었다." "나는 AI를 이렇게 회의에 활용했다."

이런 공유는 조직 전체의 AI 리터러시를 높이는 데 큰 도움이 됩니다. 그러나 리터러시가 이미 높은 단계에서도 같은 공유가 반복되면, 조직은 '활용 자랑'과 '효율 체감'의 루프에 갇힙니다.

이 루프에서 빠지려면 공유회의 질문 자체가 바뀌어야 합니다. 세 가지 질문을 제안합니다.

첫째, "그 업무가 정말로 빨라졌는가, 아니면 단지 쉬워졌는가?" 이 두 가지는 다릅니다. AI로 회의록을 더 빨리 쓴다고 해도, 같은 회의를 두 번 해야 한다면 팀의 생산성은 오히려 떨어집니다.

둘째, "그 시간은 어디로 갔는가?" AI가 벌어준 시간이 새로운 가치 창출로 흘러갔는지, 아니면 재작업과 회의 증설로 흡수됐는지를 묻는 질문입니다. Workday의 2026년 1월 연구는, 상당수 조직에서 AI로 아낀 시간이 재작업(rework)에 재흡수되고 있음을 보고했습니다. [6]

셋째, "이 업무는 이제 아예 필요 없는 것 아닌가?" 가장 근본적인 질문입니다. AI 도입의 진짜 기회는 '더 빨리 하는 것'이 아니라 '하지 않는 것'에 있습니다.

Fortune은 2026년 3월 이 주제를 'AI Productivity Paradox'로 정리했습니다. [7] 이 역설을 한 줄로 요약하면 이렇습니다. AI 이전에는 '못 해서' 일이 늘었다면, AI 이후에는 '쉬워서' 일이 늘어납니다.

보고서가 15분에 끝난다면, 회의실에서는 2개의 보고서가 추가로 요구됩니다. 회의록이 자동화되면, 회의 자체가 늘어납니다. 이것은 개인의 의지 문제가 아니라 조직의 관성 문제입니다. 그래서 리더가 '무엇을 멈출지'를 명시적으로 결정하지 않으면, AI는 생산성을 높이지 못하고 피로도만 가중시킵니다.

진짜 생산성은 무엇을 측정해야 하는가

이 지점에서 조직은 KPI 설계 자체를 재검토해야 합니다. 피플 애널리틱스 관점에서 세 가지 방향성을 제안해보려고 합니다.

첫째, 투입 지표(Input KPI)에서 결과 지표(Outcome KPI)로. "AI 사용 빈도", "토큰 소비량", "사내 GPT 사용자 수" 같은 지표는 도입 초기에는 유용합니다. 그러나 성숙기에는 방향을 돌려야 합니다. "의사결정의 품질", "재작업 비율 감소", "1인당 기능 산출량" 같은 결과 지표로 전환해야 합니다.

둘째, 양적 지표(Quantity KPI)에서 질적 지표(Quality KPI)로. AI가 이미 가장 잘하는 일은 양을 늘리는 일입니다. 그러나 조직의 경쟁력은 여전히 질에 있습니다. 예컨대 '고객과의 미팅 건수'보다 '미팅당 의사결정 전환율'이, '피드백 횟수'보다 '피드백의 채택률'이 훨씬 의미 있는 지표입니다.

셋째, 개인 지표(Individual KPI)에서 팀/조직 지표(Team/Org KPI)로. AI는 개인 업무를 극적으로 도와줍니다. 그러나 조직 성과는 개인 효율의 합이 아닙니다. PwC의 2026 AI Performance Study는 AI로 인한 경제적 이익의 4분의 3이 상위 20% 기업에 집중돼 있음을 보여줍니다. [8] 개인이 AI를 잘 쓰는 것과, 조직이 AI로 이기는 것은 다른 과제입니다. 후자는 조직 설계의 문제입니다.

세 가지 조직 프로필

같은 AI를 도입해도 조직마다 결과가 다른 이유는, 조직의 '운영 프로필'이 다르기 때문입니다. 2026년 기준으로, 많은 조직은 다음 세 가지 프로필 중 하나에 속합니다.

첫째, '토큰 맥싱 조직'. 이 조직은 AI 사용을 KPI로 삼습니다. "이번 분기 사내 GPT 사용자 수", "월별 토큰 소비량", "AI 도입 부서 비율"이 이사회 보고서에 등장합니다. 구성원들은 'AI를 얼마나 쓰는지'를 열심히 증명하지만, 재무 성과로는 연결되지 않습니다. 이 조직은 아직 AWU로 전환하지 못한 상태입니다.

둘째, '효율 포화 조직'. 이 조직은 도입 초기에 의미 있는 효율 상승을 경험했지만, 그 이후 성장이 멈췄습니다. 보고서는 15분에 끝나고, 회의록은 자동으로 정리되고, 코드 리뷰는 AI가 도와주고 있습니다. 그런데 팀 전체의 매출 기여도나 고객 만족도는 이전과 크게 다르지 않습니다. 이 조직은 '개인 효율'은 얻었지만, '조직 성과'를 창출할 프로세스는 아직 재설계하지 못했습니다.

셋째, '프로세스 재설계 조직'. 이 조직은 AI를 전제로 업무 자체를 다시 짰습니다. 이전에 있던 세 단계의 승인 구조가 한 단계로 줄었고, 대신 그 자리에 '의사결정 품질 리뷰'가 들어섰습니다. 고객 응대 흐름이 재설계됐고, 팀 구조가 수평화됐습니다. 이 조직은 PwC 2026 연구가 말한 '상위 20%'에 속할 가능성이 큽니다. [8]

세 프로필 사이의 이동은 저절로 일어나지 않습니다. 리더가 '투입 지표를 더 이상 보지 않겠다'라고 선언하는 순간부터 시작됩니다. 그 선언은 KPI 보드에서 '토큰 사용량' 칸을 지우는 것만큼 구체적이어야 합니다.

Solow의 패러독스가 다시 돌아왔다

1987년 경제학자 로버트 솔로(Robert Solow)는 유명한 말을 남겼습니다. "컴퓨터 시대는 어디서나 볼 수 있지만, 생산성 통계에서만은 볼 수 없다."

이것이 'Productivity Paradox(생산성 패러독스)'의 원형입니다. 브리뇰프슨(Erik Brynjolfsson)은 이후 이 패러독스의 네 가지 원인을 제시했습니다. [9] 측정 오차, 지연 효과, 재분배, 그리고 보완 투자의 부족.

네 가지 중 2026년 조직이 가장 주의해야 할 것은 '보완 투자의 부족'입니다. 컴퓨터가 생산성을 바꾸는 데는 시간이 걸렸습니다. 컴퓨터 자체가 아니라 업무 프로세스와 조직 구조가 함께 재설계될 때 비로소 생산성이 움직였습니다.

AI도 같은 경로를 밟고 있을 가능성이 큽니다. 지금 우리가 보고 있는 'AI 생산성 평탄화'는 AI의 한계가 아니라, 조직 설계의 지연일 수 있습니다. San Francisco Fed는 2026년 2월 같은 맥락의 분석을 내놓았습니다. [10]

쉽게 말하면 이렇습니다. AI 도입 1년 차의 핵심 과제는 '어떻게 쓸 것인가'였습니다. AI 도입 2년 차의 핵심 과제는 '조직을 어떻게 다시 짤 것인가'입니다. 두 과제는 성격이 완전히 다릅니다. 전자는 개인 스킬의 문제였고, 후자는 리더십의 문제입니다.

그래서 주간 AI 성과 공유회가 가장 먼저 바뀌어야 합니다. 발표자가 '나의 AI 사용 사례'를 자랑하는 회의에서, 팀이 '우리의 프로세스 재설계'를 논의하는 회의로 이동해야 합니다. 이 이동이 2026년 조직의 가장 중요한 내부 전환점입니다.

정리하자면 이렇습니다. AI가 당연한 시대에 경쟁력은 'AI를 쓰는 능력'이 아닙니다. 'AI를 쓰기 때문에 가능한 조직 구조'를 먼저 설계하는 능력입니다.

토큰은 그 자체로 무언가를 의미하지 않습니다. 그 토큰이 어떤 결정을 낳았고, 어떤 결과로 이어졌는지가 진정한 의미를 갖습니다.

오늘 CHRO의 고민, "진짜 생산성을 어떻게 높일까"에 대한 답은 도구 안에 없습니다. 답은 조직이 자신에게 던지는 질문의 수준에 있습니다. 우리가 Tokenmaxxing의 질문을 던지면 Tokenmaxxing의 답이 돌아옵니다. AWU의 질문을 던지면 AWU의 답이 돌아옵니다. 질문을 바꾸지 않고 답을 바꾸는 방법은 없습니다.

토큰 공유회에서 재설계 공유회로

오늘 CHRO가 던진 질문, "진짜 생산성을 어떻게 높일까"에 대한 답은 결국 이렇게 정리됩니다.

AI를 잘 쓰는 개인이 많아지는 단계는 이미 지났습니다. 다음 단계는 AI를 전제로 업무·역할·팀 구성을 재설계하는 것입니다.

주간 AI 성과 공유회의 다음 버전은 '재설계 공유회'여야 합니다. 그 자리에서 오가는 질문은 "나는 이번 주 AI로 무엇을 했나"가 아니라, 다음 세 가지여야 합니다.

"이번 주 우리 팀이 더 이상 하지 않기로 한 일은 무엇인가." "이번 주 우리 팀이 새롭게 '질'을 측정하기 시작한 지표는 무엇인가." "이번 주 우리 팀이 재설계한 워크플로는 무엇인가."

이 질문을 던지는 순간, 조직은 Tokenmaxxing에서 나와 AWU로 가는 다리 위에 서게 됩니다. 그리고 그 다리 위에서 비로소, 진짜 생산성의 대화가 시작된다고 생각합니다.

References

[1] ManpowerGroup. (2026). Global Talent Barometer 2026.

[2] McKinsey & Company. (2026). Global AI Survey 2026.

[3] IDC. (2026). The Productivity Plateau: Why Efficiency Gains No Longer Differentiate. https://www.idc.com/resource-center/blog/the-productivity-plateau-why-efficiency-gains-no-longer-differentiate/

[4] Axios. (2026, April 15). How to measure AI productivity at work. https://www.axios.com/2026/04/15/tokenmaxxing-ai-roi-metrics

[5] Salesforce. (2026). Agentic Work Units: Measuring AI Output, Not Input.

[6] Workday. (2026, January 14). New Workday Research: Companies Are Leaving AI Gains on the Table. https://newsroom.workday.com/2026-01-14-New-Workday-Research-Companies-Are-Leaving-AI-Gains-on-the-Table

[7] Fortune. (2026, March 10). The AI productivity paradox: More work, not less. https://fortune.com/2026/03/10/ai-productivity-workers-workday-efficiency/

[8] PwC. (2026). 2026 AI Performance Study: Three-quarters of AI's economic gains are being captured by just 20% of companies. https://www.pwc.com/gx/en/news-room/press-releases/2026/pwc-2026-ai-performance-study.html

[9] Brynjolfsson, E. (1993). The productivity paradox of information technology. Communications of the ACM, 36(12), 66-77.

[10] San Francisco Fed. (2026, February). The AI Moment? Possibilities, Productivity, and Policy. Economic Letter. https://www.frbsf.org/research-and-insights/publications/economic-letter/2026/02/ai-moment-possibilities-productivity-policy/

keyword

작가의 이전글피어리뷰가 읽히지 않습니다스펙이 평균화된 시대, 채용은 무엇을 묻는가작가의 다음글