brunch

AX전환, 켄타우로스가 될 것인가 사이보그가 될 것인가

AI가 발전해도 사람이 필요한 이유, ‘들쭉날쭉한 프론티어’ 이야기

by Kay

AI를 활용해 업무 생산성을 높였다는 이야기를 어렵지 않게 찾아볼 수 있다. 게다가 조직 밖에서는 AI를 활용해 월 천만 원을 버는 일을 자동화했다는 자극적인 강의나 영상도 넘쳐난다. 그런데 여기서 잠깐, 과연 그러한 방식을 그대로 조직 안으로 가져왔을 때, 어떤 결과로 연결될 수 있을까? 이는 AI가 업무 효율을 개선할 수 있다는 가능성을 낮게 보는 것이 결코 아니다. 다만 개인 사용자를 넘어 구성원들의 AI 리터러시를 고민하는 HRDer로서 나 개인을 넘어 조직의 구성원들이 실제 업무 수행 과정에서 AI를 어떻게 활용해야 하는지에 대한 관심과 깊은 고민을 하고 있다는 뜻이다.


하버드 비즈니스 스쿨에서 진행한 연구는 바로 그 지점에서 우리에게 매우 중요하고 현실적인 인사이트를 제공한다. 연구진은 BCG 컨설턴트 758명을 대상으로 AI(GPT-4)를 활용한 현장 실험을 통해 AI의 역량은 결코 평탄하지 않다는, 즉 '들쭉날쭉한 기술 프런티어(jagged technological frontier)'가 존재함을 발견했다.


AI 역량 안 쪽에 해당하는 프런티어 내부 과제(창의적인 아이디어 도출, 초안 작성 등 AI가 잘하는 영역의 과제)에서는 AI를 사용한 그룹이 대조군보다 품질은 40% 이상 높았고, 작업 속도는 25.1% 더 빨랐으며, 12.2% 더 많은 과제를 완료했다. 특히 성과가 낮았던 참가자들의 성과가 43%나 향상되며 기술 격차를 메우는 효과도 보였다. 하지만 AI 역량 밖에 해당하는 프런티어 외부 과제(정성적 데이터와 정량적 데이터를 복합적으로 분석하여 미묘한 통찰력을 찾아야 하는, 의도적으로 AI 역량 밖에 설계된 과제)에서는 정반대의 결과가 나타났다. AI를 사용한 그룹은 AI가 제시한 그럴듯하지만 '틀린' 답에 과도하게 의존했고, 그 결과 AI를 쓰지 않은 대조군보다 정답을 맞힐 확률이 19% p나 낮아졌다.


혹자는 이 연구가 이전 버전의 AI로 진행한 실험일 뿐이라고 치부할지도 모른다. 지금은 AI가 스스로 추론하고 AI 에이전트가 모든 작업 과정을 검토하며, 머지않아 '에이전틱 AI(Agentic AI)' 시대가 되면 프런티어 내부와 외부의 구분이 무의미해질 것이라고 말할지도 모르겠다. 하지만 이 연구에서 발견한 결과물 수준 차이의 핵심은 AI의 성능이 아니다. 이는 AI 기술이 본질적으로 갖는 '불투명성(opacity)’과 '불명확한 실패 지점(unclear failure points)'에서 기인한 '들쭉날쭉함'이다. AI 기술이 아무리 발전하더라도 이 태생적 한계로 인한 새로운 한계 지점은 계속 발생할 것이며, AI가 내놓는 '환각(hallucinations)'은 오히려 더욱 교묘해질 것이다.


결국 조직의 AX 전환을 위한 리터러시는 단순히 AI 활용법에 익숙해지는 수준을 넘어서야 한다. 조직의 구성원이 AI를 활용해 업무에서 최적 또는 최상의 결과를 내기 위해서는 AI와의 협업 설계가 필요하다. 그리고 그 설계의 중심에는, AI가 강력하지만 완벽하지 않으며 언제든 실패할 수 있는 '들쭉날쭉한 프런티어'를 가지고 있다는 본질적인 이해가 반드시 포함되어야 한다. 이 연구가 발견한 '켄타우로스(인간과 AI의 전략적 업무 분담)’ 또는 '사이보그(인간과 AI의 완전한 작업 통합)’와 같은 새로운 협업 모델에 대한 이해와 고민이 필요해 보인다.




Navigating the Jagged Technological Frontier


Dell'Acqua, F., McFowland III, E., Mollick, E. R., Lifshitz-Assaf, H., Kellogg, K., Rajendran, S.,... & Lakhani, K. R. (2023). Navigating the jagged technological frontier: Field experimental evidence of the effects of AI on knowledge worker productivity and quality. Harvard Business School Technology & Operations Mgt. Unit Working Paper, (24-013).


이 연구를 3줄로 요약하면?

이 연구는 보스턴 컨설팅 그룹(BCG) 컨설턴트를 대상으로 AI(GPT-4)가 지식 근로자의 성과에 미치는 영향을 분석한 현장 실험이다. AI는 역량 "내부(inside the frontier)"의 과제에서는 생산성(12.2% 더 많은 과제 완료, 25.1% 더 빠른 속도)과 품질(40% 이상 향상)을 크게 높였다. 하지만 AI 역량 "외부(outside the frontier)"의 과제에서는 AI 사용자가 정답을 도출할 확률이 19% p 낮아져, AI의 역량이 불균등하다는 "들쭉날쭉한 기술 프런티어(jagged technological frontier)" 개념을 제시한다.


저자는 왜 이 연구를 진행했는가?

ChatGPT와 같은 대규모 언어 모델(LLM)이 공개된 이후, AI가 인간의 업무, 특히 지식 집약적이고 복잡한 과제를 어떻게 수행하게 될지에 대한 관심이 폭발적으로 증가했다. 저자들은 실제 현장에서 고도로 숙련된 전문직 종사자들(highly skilled professional workers)이 AI를 사용할 때 현실적인 과제 수행 성과에 어떤 영향을 미치는지 검증하고자 했다.


이 연구에서 중요하게 다뤄진 개념은?

들쭉날쭉한 기술 프런티어 (Jagged Technological Frontier): AI의 역량이 고르지 않다는 개념이다. 어떤 과제는 AI가 쉽게 수행하지만, 난이도가 비슷해 보이는 다른 과제는 현재 AI의 역량 밖에 있을 수 있음을 의미한다.

켄타우로스 (Centaur) 및 사이보그 (Cyborg): 성공적인 인간-AI 협업의 두 가지 유형이다. '켄타우로스'는 신화 속 반인반마처럼 인간과 AI가 작업을 분할하여 위임하는 방식이다. '사이보그'는 작업 흐름 자체를 AI와 완전히 통합하여 지속적으로 상호작용하는 방식이다.


저자는 어떤 방법을 사용했는가?

사전 등록된 무작위 통제 현장 실험(randomized controlled field experiment)을 설계했다. BCG 컨설턴트 758명을 대상으로 진행했으며, 참가자들은 세 그룹(AI 미사용 / GPT-4 사용 / GPT-4 사용 + 프롬프트 엔지니어링 개요 교육) 중 하나에 무작위로 배정되었다. 이들은 AI 역량 '내부'의 과제(18개)와 '외부'의 과제(1개)를 각각 수행했다.


연구의 결과는?

프런티어 내부 과제: AI를 사용한 컨설턴트들은 대조군에 비해 과제를 12.2% 더 많이 완료했고, 25.1% 더 빨리 완료했으며, 결과물 품질은 40% 이상 높았다. 특히 기존 성과가 평균 이하(bottom-half)였던 참가자들의 성과가 43% 향상되어 가장 큰 혜택을 보았다.

프런티어 외부 과제: AI의 역량 밖에 있도록 설계된 특정 과제에서는 AI를 사용한 컨설턴트들이 AI를 사용하지 않은 대조군보다 정확한 해결책을 제시할 확률이 19% p 더 낮았다.




1. 서론 (Introduction)


인공지능(AI), 특히 대규모 언어 모델(LLM)이 인간과 유사한 결과물을 생성하는 능력이 급속도로 발전했다. 이러한 AI의 역량이 인간의 업무 영역과 겹치기 시작하면서, 지식 집약적 영역에서 인간과 AI의 작업을 통합하는 것은 새로운 기회이자 근본적인 도전 과제가 되었다.

이 연구는 AI의 역량이 확장되고 있으나 고르지 않은, "들쭉날쭉한 기술 프런티어(jagged technological frontier)"라고 부르는 영역을 형성한다고 주장한다. 이 프런티어 '내부'에서 AI는 인간의 작업을 보완하거나 대체할 수 있지만, 프런티어 '외부'에서 AI의 산출물은 부정확하고 유용성이 떨어지며 오히려 인간의 성과를 저하시킬 수 있다.

그러나 AI의 역량은 빠르게 발전하고 명확히 이해하기 어렵기 때문에, 전문가들조차 특정 시점에서 이 프런티어의 경계가 어디인지 파악하기 어렵다. 이 연구의 초점은 전문가들이 이 들쭉날쭉한 프런티어를 어떻게 탐색하는지, 그리고 AI를 활용하는 것이 성과에 어떤 영향을 미치는지 밝히는 데 있다.


LLM이 이전 AI와 구별되는 세 가지 특징

ChatGPT 이전의 AI에 대한 연구는 많았지만, LLM은 이전의 기계 학습 형태와는 구별되는 세 가지 특징을 가지며, 이로 인해 작업 현장에 더 빠르고 광범위하게 영향을 미칠 것으로 예상된다.

놀라운 역량 (Surprising capabilities): LLM은 특정 목적을 위해 생성되지 않았음에도 불구하고 놀라운 능력을 보여주며, 이는 모델의 규모와 품질이 향상됨에 따라 빠르게 성장하고 있다. 범용 모델로 훈련되었음에도 불구하고, LLM은 훈련 과정이나 일반적인 사용 중에 전문 지식과 능력을 발휘한다.

조직의 투자 없이 즉각적인 성과 향상 (Direct performance increases): LLM은 사용자의 기술 수준과 관계없이, 그리고 상당한 조직적 또는 기술적 투자 없이도 근로자의 성과를 직접적으로 향상시킬 수 있다. 초기 연구들은 특히 글쓰기, 프로그래밍, 창의적 작업 등에서 AI 사용으로 인한 직접적인 성과 향상을 보고한다.

불투명성과 불명확한 실패 지점 (Opacity and unclear failure points): AI 모델의 실패 지점은 불투명하다. AI는 그럴듯하지만 부정확한 결과(환각 또는 조작)를 생성하는 경향이 있으며, 수학이나 인용 제공 등에서 오류를 범한다. 마찬가지로 AI의 장점 역시 사용자에게 명확하지 않아, 어떤 상황에서 잘 작동하고 어떤 상황에서 실패하는지 예측하기 어렵다.


연구의 목적

이 세 가지 요인(놀라운 역량, 직접적 성과 향상, 불투명성)을 종합하면, 근로자와 조직이 AI의 가치와 단점을 파악하기 어렵다는 것을 알 수 있다. AI는 아이디어 생성처럼 예상치 못한 작업은 쉽게 수행하는 반면, 기계가 쉽게 할 것 같은 기본 수학 같은 작업은 어려워한다.

이것이 바로 "들쭉날쭉한 프런티어"를 생성하며, 겉보기에 비슷한 난이도의 작업이라도 AI를 사용한 인간의 성과가 좋을 수도 나쁠 수도 있다. 이 연구는 보스턴 컨설팅 그룹(BCG)의 고도로 숙련된 전문가들을 대상으로 무작위 통제 현장 실험을 설계하여, 이들이 AI 역량의 '내부'와 '외부'에 있는 과제들을 어떻게 탐색하는지, 그리고 이것이 성과에 어떤 영향을 미치는지 조사한다.



2. 방법 (Methods)


이 연구는 AI(구체적으로 GPT-4)가 고도로 숙련된 전문 지식 근로자의 업무에 미치는 인과적 영향을 평가하기 위해 사전 등록된 두 개의 무작위 통제 현장 실험(randomized controlled field experiments)을 사용했다.


실험 설계 및 참가자

연구에는 보스턴 컨설팅 그룹(BCG)의 전 세계 개별 기여자(individual contributor)급 컨설턴트 758명이 참여했으며, 이는 해당 코호트의 약 7%에 해당한다. 참가자들의 성실한 참여를 독려하기 위해, 실험을 완수한 참가자들은 연간 보너스와 관련된 "사무실 기여(office contribution)" 인정을 받았으며, 상위 성과자에게는 추가적인 보상이 주어졌다.

연구는 3단계로 구성되었다. 1단계(등록 및 프로파일링)에서 참가자들은 인구통계학적 정보 및 심리학적 프로필(Big 5 성격 특성, 혁신성 등)을 묻는 설문조사를 완료했다. 이 데이터는 참가자들을 층화 무작위 배정(stratified random assignment)하는 데 사용되었다. 2단계(본 실험)에서 참가자들은 먼저 AI의 도움 없이 유사한 과제를 수행하여 기준선 성과(baseline performance)를 설정했다. 이후 본 실험 과제를 수행했다. 3단계(인터뷰)에서는 실험 완료 후 참가자들의 경험과 AI에 대한 관점을 수집했다.


실험 과제 및 조건

참가자들은 겹치지 않는 두 개의 개별 실험 중 하나에 배정되었다. 두 과제 모두 BCG 전문가들의 의견을 반영하여 실제 컨설턴트의 일상 업무를 대표하도록 설계되었다.

프런티어 내부 과제: 385명의 컨설턴트가 창의성, 분석, 작문 기술 등을 요구하는 신제품 아이디어 구상 및 개발(총 18개 세부 과제)을 수행했다. 이 과제는 GPT-4의 기술적 프런티어 '내부'에 있도록 설계되었다.

프런티어 외부 과제: 373명의 컨설턴트가 정량 데이터(스프레드시트)와 정성 데이터(내부자 인터뷰)를 모두 활용해야 하는 비즈니스 문제 해결 과제를 수행했다. 이 과제는 인터뷰 자료의 미묘한 통찰력을 활용해야만 정답을 맞힐 수 있도록 설계되었으며, AI가 오류를 범하도록 유도하여 프런티어 '외부'에 위치하도록 의도되었다.

기준선 과제 완료 후, 참가자들은 본 실험 과제를 위해 세 가지 조건 중 하나에 무작위로 배정되었다. 대조군(Control)은 AI 지원 없이 과제를 수행했다. GPT Only 조건은 GPT-4 기반의 AI 도구에 접근하여 과제를 수행했다. GPT + Overview 조건은 동일한 AI 도구에 더해, 효과적인 AI 사용 전략을 설명하는 보충적인 프롬프트 엔지니어링 개요를 제공받았다. AI 조건에 배정된 모든 참가자는 2023년 4월 말 버전의 GPT-4에 접근할 수 있는 동일한 회사 플랫폼을 사용했으며, 모든 상호작용은 수집되었다.



3. 결과 (Results)


3.1 품질 및 생산성 향상 - 프런티어 내부 (Quality and Productivity Booster - Inside the Frontier)

AI 역량 '내부(Inside the Frontier)' 실험은 창의적인 제품 혁신 및 개발에 중점을 두었다. 참가자들은 틈새시장을 위한 신발 아이디어를 구상하고 프로토타입 설명, 시장 세분화, 시장 진입 전략 수립 등 총 18개의 세부 과제를 수행했다.

AI(GPT-4) 사용은 참가자들의 성과에 매우 긍정적이고 중대한 영향을 미쳤다.

품질 (Quality): AI를 사용한 두 그룹(GPT+Overview, GPT Only)은 AI를 사용하지 않은 대조군보다 월등히 높은 품질의 결과물을 생성했다. 인간 평가자 기준, 대조군 평균(4.1점) 대비 GPT+Overview 그룹은 1.75점(42.5% 향상), GPT Only 그룹은 1.56점(38% 향상) 높은 점수를 받았다.

과제 완료율 (Completion): AI 사용은 과제 완료율도 크게 높였다. AI 그룹은 대조군(평균 82% 완료) 보다 평균 12.2% 더 많은 과제를 완료했다(GPT+Overview 93%, GPT Only 91%).

소요 시간 (Timing): AI 그룹은 마지막 18번째 질문에 도달하기까지(즉, 첫 17개 과제를 완료하는 데) 걸린 시간이 대조군보다 현저히 짧았다. GPT+Overview 그룹은 22.5%(18.8분) 더 빨랐고, GPT Only 그룹은 27.63%(23.13분) 더 빨랐다.

성과가 평균 이하(bottom-half skill)였던 참가자들은 AI를 사용했을 때 43%의 성과 향상을 보여, 평균 이상(top-half skill) 참가자들의 향상폭(17%) 보다 훨씬 큰 혜택을 보았다. 이는 AI가 기술 격차를 줄이는(leveling) 효과가 있음을 시사한다.

프롬프트 엔지니어링 개요를 제공받은 'GPT + Overview' 그룹은 'GPT Only' 그룹보다 일관되게 더 높은 성과를 보였으며, 이는 AI 사용에 대한 가이드라인이 중요함을 시사한다.

다만, 아이디어의 다양성 측면에서는 다른 결과가 나타났다. AI를 사용한 참가자들은 더 높은 품질의 아이디어를 생성했지만, 생성된 아이디어 간의 다양성(variability)은 AI를 사용하지 않은 그룹보다 현저히 감소했다. 이는 GPT-4가 우수한 콘텐츠 생성에는 도움이 되지만 더 동질화된(homogenized) 결과물을 유도할 수 있음을 보여준다.


3.2 품질 저해 - 프런티어 외부 (Quality Disruptor - Outside the frontier)

AI 역량 '외부(Outside the frontier)' 실험은 참가자들이 정량적 데이터(스프레드시트)와 정성적 데이터(회사 내부자 인터뷰)를 모두 분석하여 전략적 권고안을 도출하도록 설계되었다. 이 과제는 정답을 찾기 위해 인터뷰 자료에 포함된 미묘하지만 결정적인 통찰력을 파악해야 했으며, AI가 이 부분을 간과하고 오류를 범하도록 의도적으로 설계되었다.

'프런티어 내부' 과제와 달리, 이 과제에서 AI 사용은 성과를 저해했다.

정확성 (Correctness): AI를 사용하지 않은 대조군은 84.5%의 높은 정답률을 보였다. 반면 AI를 사용한 그룹들은 정답률이 현저히 낮아졌다(GPT+Overview 60.0%, GPT Only 70.6%). 이는 AI 사용 시 평균 19% p의 정답률 하락을 의미한다.

소요 시간 (Timing): AI 사용 그룹은 (정답률이 낮았음에도 불구하고) 과제를 완료하는 데 걸린 시간은 대조군보다 훨씬 빨랐다. GPT+Overview 그룹은 30%(약 11분 이상), GPT Only 그룹은 18%(약 6분 이상) 시간을 단축했다.

권고안 품질 (Recommendation Quality): 놀랍게도, 참가자가 제시한 답의 정답 여부와 관계없이, AI를 사용한 참가자들이 작성한 '권고안의 품질'(글의 구성, 설득력 등)은 대조군보다 높았다.

이 결과는 AI가 프런티어 '외부'의 과제에 사용될 때, 사용자가 AI의 그럴듯하지만 잘못된 분석에 과도하게 의존하여(over-reliance) 오히려 성과가 저해될 수 있음을 보여준다.


3.3 프런티어 탐색 (Navigating the frontier)

두 실험의 상반된 결과는 AI의 역량 프런티어가 '들쭉날쭉하며(jagged)', 이 프런티어의 위치를 파악하는 것이 AI 활용 성과에 결정적임을 보여준다. 프런티어 '내부'에서는 AI가 성과를 극대화했지만, '외부'에서는 AI에 대한 과도한 의존이 실수로 이어졌다.

'프런티어 외부' 과제에서 AI를 사용하면서도 정답을 맞힌, 즉 프런티어를 성공적으로 탐색한 참가자들에게는 두 가지 특징적인 행동 모델이 관찰되었다.


1) 켄타우로스 (Centaur) 행동

: 신화 속 반인반마처럼 인간과 기계 간에 전략적으로 노동을 분할한다. 강점에 따라 어떤 하위 과제는 인간이 주도하고, 어떤 하위 과제는 AI에게 위임하는 방식이다.

2) 사이보그 (Cyborg) 행동

: 인간-기계 하이브리드처럼 복잡하게 통합된다. 작업을 단순히 위임하는 것이 아니라, 매우 세부적인 하위 과제 수준에서부터 AI와 인간의 노력을 뒤섞으며(intertwine) 지속적으로 상호작용한다.



4. 논의 (Discussion)


이 연구는 AI가 현대의 복잡한 실제 지식 노동 과제에 통합될 때 나타나는 '들쭉날쭉한 역량 프런티어(jagged capability frontier)'를 조명한다. 연구 결과는 AI가 효율성과 생산성을 높이는 '조력자(booster)' 역할과, 역량 밖의 과제에서 성과를 저해하는 '방해자(disruptor)' 역할을 동시에 수행할 수 있음을 보여준다.


프런티어 내부의 시사점: 성과 향상과 업무 재구성

AI 역량의 프런티어 '내부'에 있는 과제에 대해, 이 연구 결과는 막대한 성과 향상 가능성을 시사한다. 18개의 현실적인 비즈니스 과제 전반에 걸쳐 AI는 속도(25% 이상 향상), 품질(40% 이상 향상), 과제 완료율(12% 이상 향상)을 크게 증가시켰다.

특히 AI는 하위 성과자들의 성과를 가장 크게 향상하는 동시에 모든 사용자의 작업 품질을 높여, 성과 차이를 줄이는(leveling) 동시에 전반적인 성과를 끌어올리는(raising) 효과를 보였다. 이는 AI를 더 잘 통합하기 위해 업무가 어떻게 조직되어야 하는지에 대한 근본적인 질문을 제기한다.


프런티어 외부의 시사점: 인간 전문가의 중요성

반면, 프런티어 '외부'의 과제에서는 AI로 인한 성과 저하가 나타났다. 이는 AI의 결과물을 검증하고 질문하는 인간의 역할, 그리고 AI와 협력할 때 인지적 노력과 전문가적 판단을 지속적으로 발휘해야 할 필요성을 강조한다.

AI로 인해 부정적인 성과를 보인 전문가들은 AI의 산출물을 맹목적으로 채택하고 덜 검증하는 경향을 보였다. 이는 LLM을 언제 어떻게 신뢰해야 하는지에 대한 질문을 제기하며, AI 도구가 직원의 성과 및 평가에 영향을 미치는 방식에 대한 우려로 이어진다.

또한, AI가 프런티어 '내부'의 작업을 자동화함에 따라, 주니어 작업자들에게 해당 업무를 위임하지 않아 장기적인 훈련 결손이 발생할 수 있다는 즉각적인 위험도 존재한다. 프런티어를 탐색하는 것 자체에 전문성이 요구되며, 이는 공식 교육, 현장 훈련, 직원 주도의 업스킬링을 통해 구축되어야 한다.


조직 수준의 시사점: '켄타우로스'와 '사이보그'의 등장

이 연구는 조직 수준에서도 중요한 시사점을 제공한다. AI 채택에 대한 논의는 '채택 여부'의 이분법적 결정을 넘어, 지식 작업 흐름(workflow)과 그 안의 개별 과제에 초점을 맞춰야 한다.

조직은 각 과제에서 인간과 AI의 다양한 조합과 구성을 평가해야 한다. 이는 인간-AI 협업의 재고, 새로운 역할의 출현, 새로운 전략 및 조직 구성 방식의 모색을 요구한다.

특히 '켄타우로스(Centaurs)'와 '사이보그(Cyborgs)'와 같은 행동 양식의 등장은 AI를 사용하는 최적의 접근 방식이 아직 완전히 이해되지 않았으며, 학계와 현업에서 심도 있는 검토가 필요함을 보여준다.


창의성과 아이디어 다양성에 대한 고찰

AI 사용으로 인한 아이디어 다양성의 잠재적 감소는 조직에 도전 과제가 될 수 있다. 기업들이 AI를 운영에 통합함에 따라, 이러한 동질화(homogenization)에 대응하기 위해 다양한 AI 모델(여러 LLM)을 사용하거나 인간만의 참여를 늘리는 방안을 고려해야 한다.

AI 지원을 통해 산출물의 품질은 우수해질 수 있지만, 많은 이들이 AI를 활용하는 경쟁 환경에서는 오히려 AI의 도움 없이 생성된 산출물이 그 독특함으로 인해 두각을 나타낼 수도 있다. 이처럼 아이디어의 품질과 다양성 간의 상호작용은 복잡하며, 추가적인 조사가 필요하다.


미래 전망: 사고 비용의 절감

결론적으로, 이 연구 결과는 아이디어 생성, 작문, 설득, 전략 분석, 창의적 제품 혁신과 같은 중요한 고급 지식 노동 과제에 대한 AI의 잠재력에 긍정적인 근거를 제공한다. 하지만 AI의 들쭉날쭉한 역량 프런티어를 탐색하는 것은 여전히 어렵다.

AI 역량의 경계가 계속 확장됨에 따라, 인간 전문가들은 프런티어에 대한 이해를 재조정해야 하며 조직은 인간과 AI를 결합하는 새로운 작업 세계를 준비해야 한다. AI는 인터넷과 웹 브라우저가 정보 공유의 한계 비용을 극적으로 낮춘 것과 유사하게, 인간의 사고 및 추론과 관련된 비용을 낮추어 잠재적으로 광범위하고 변혁적인 효과를 가져올 것으로 보인다.




부록 A: 과제 (Tasks)

두 실험 모두 AI 지원 없이 수행하는 '평가 과제(Assessment Task)'와, 실험 조건에 따라 AI 지원(혹은 미지원)을 받는 '실험 과제(Experimental Task)'로 구성되었다.


1. 프런티어 외부 (Outside the Frontier) 과제

이 과제는 참가자들이 인터뷰(정성 데이터)와 엑셀 시트(정량 데이터)를 분석하여 CEO에게 메모를 작성하는 비즈니스 문제 해결 시나리오이다.


평가 과제 (Assessment Task): 유통 채널 분석

CEO는 회사의 세 가지 유통 채널(직영점, 프랜차이즈, 온라인) 중 이익 성장을 위해 집중해야 할 채널이 어디인지 알고자 한다. 참가자는 제공된 내부자 인터뷰와 재무 데이터를 바탕으로, 하나의 채널을 선택하고 그 근거를 데이터와 인용을 들어 제시해야 한다. 또한, 선택한 채널의 이익 성장을 촉진하기 위한 혁신적이고 전술적인 조치를 제안해야 한다.


실험 과제 (Experimental Task): 브랜드 분석

CEO는 회사의 세 가지 브랜드(Kleding Man, Kleding Woman, Kleding Kids) 별 성과를 이해하고자 한다. 참가자는 평가 과제와 유사하게 인터뷰와 재무 데이터를 바탕으로, '수익(revenue) 성장'을 위해 집중해야 할 하나의 브랜드를 선택하고 근거를 제시해야 한다. 또한, 선택한 브랜드를 개선하기 위한 혁신적이고 전술적인 조치를 제안해야 한다.


2. 프런티어 내부 (Inside the Frontier) 과제

이 과제는 참가자들이 신제품 개발을 위한 아이디어를 구상하고 구체화하는 창의적 과제이다.


평가 과제 (Assessment Task): 신규 음료 개발

참가자는 음료 회사의 신제품 개발팀 소속이다. 다음 5개 과제를 수행해야 한다.

서비스가 부족한 시장을 위한 10가지 새로운 음료 아이디어 생성

최고의 아이디어 1개를 선택하고 이유 설명

프로토타입 음료에 대한 상세한 설명 작성 (3-4 문장)

제품 출시를 위한 단계 목록 작성

4개 이상의 제품 이름을 고려하고, 선택한 이름과 이유 설명


실험 과제 (Experimental Task): 신규 신발 개발

참가자는 신발 회사의 신제품 개발팀 소속이다. 총 18개의 세부 과제를 수행해야 한다. 초기 5개 과제는 평가 과제(음료)와 유사하며, 다음을 포함한다.

서비스가 부족한 시장을 위한 10가지 새로운 신발 아이디어 생성

최고의 아이디어 1개를 선택하고 이유 설명

프로토타입 신발에 대한 상세한 설명 작성

제품 출시를 위한 단계 목록 작성

4개 이상의 제품 이름을 고려하고, 선택한 이름과 이유 설명

이후 13개의 추가 과제가 이어진다. 여기에는 시장 세분화, 타깃 세그먼트의 요구 분석, 마케팅 슬로건 개발, 슬로건 테스트 방법 제안, 상사에게 보내는 500 단어 메모 작성, 포커스 그룹 설계, 경쟁사 분석, 직원 대상 동기 부여 메모 작성, 프레스 릴리스(보도자료) 작성 등이 포함된다. 마지막 과제는 전체 프로세스를 요약하는 HBR(하버드 비즈니스 리뷰) 스타일 기사 개요(약 2,500 단어 분량)를 작성하는 것이었다.


부록 B: 평가 루브릭 - 추천 품질 (Evaluation Rubric - Recommendation Quality)

이 루브릭은 '프런티어 외부' 과제에서 참가자들이 CEO에게 제안한 권고안의 품질을 1점에서 10점 척도로 평가하기 위해 사용되었다.

Score 1: 참가자가 이익 증대를 위한 전술적 조치를 식별하지 못한다.

Score 2-4: 이익 증대 방안에 대해 암시하지만, 전술적 조치를 명시적으로 제시하지 못한다. 조치에 대한 설명이 구체적이지 않고, 비즈니스 논리나 이익 영향에 대한 설명이 거의 없다.

Score 5: 이익 증대를 위한 전술적 조치를 식별하고, 이는 전반적인 채널 전략과 일치한다. 하지만 전략 실행 방안에 대한 설명이 부족하고, 설명이 구체적이지 않으며, 비즈니스 논리가 불분명하다.

Score 6-8: 이익 증대를 위한 전술적 조치를 식별하고, 이는 전략과 일치한다. 전술적 조치를 상세히 설명하고 실행 방안을 요약한다. 하지만 비즈니스 논리가 명확하지 않거나, 고객사의 우려 사항과 충분히 연결 짓지 못하거나, 이익에 미치는 영향이 불분명하다.

Score 9-10: 이익 증대를 위한 전술적 조치를 식별하며, 이는 전략과 일치한다. 전술적 조치의 실행 방안에 대해 정교하게 설명한다. 이러한 조치들은 건전한 비즈니스 논리에 의해 뒷받침되며, 참가자는 과거의 문제점(pain points)이나 감사의견 등을 근거로 활용한다. 또한, 조치가 이익에 미칠 영향을 명확히 기술한다.


부록 C: 유지 (Retainment)

이 부록은 '유지(retainment)' 개념에 초점을 맞춘다. 유지는 참가자가 AI(Generative AI)가 생성한 콘텐츠를 자신의 제출 답안에 얼마나 직접적으로 포함시켰는지(사실상 '복사-붙여넣기' 했는지)를 측정하는 지표이다.

연구진은 참가자의 답안과 AI가 생성한 응답 간의 유사성을 RDL(Restricted Damerau-Levenshtein distance)이라는 문자 편집 거리 측정법을 사용해 0(완전 다름)에서 1(완전 동일) 사이의 점수로 정량화했다.


분석 결과

분석 결과, AI에 접근한 참가자 대다수가 AI의 응답을 매우 높은 수준으로 유지하는 경향을 보였다. 평균 유지율(average retainment)의 최빈값은 약 0.87로, 이는 참가자들이 AI의 응답을 거의 그대로 복사-붙여넣기 했음을 시사한다. 특히 'GPT + Overview'(프롬프트 교육)를 받은 그룹은 'GPT Only' 그룹보다 AI 응답을 유지하는 경향이 더욱 극단적으로 나타났다.


유지율과 품질의 관계

가장 중요한 분석으로, 연구진은 이 '유지율'과 '프런티어 내부' 과제의 '품질 점수(Footwear Average Score)' 간의 관계를 분석했다. 분석 결과, AI 응답의 유지율이 높을수록(즉, 인간의 개입을 최소화하고 AI의 답을 그대로 사용할수록) 참가자의 최종 성과(품질 점수)도 더 높아지는 긍정적인 선형 관계가 나타났다.

이 결과는 해당 유형의 창의성 및 글쓰기 과제(프런티어 내부 과제)에서는 인간이 개입하는 것보다 AI의 결과물을 그대로 활용하는 것이 일반적으로 더 나은 결과를 낳았음을 시사한다.

keyword