* 이 글은 AI 전문 뉴스레터 '튜링 포스트 코리아'에 기고한 글입니다. AI 기술, 스타트업, 산업과 사회에 대한 이야기에 관심이 있으시면 '튜링 포스트 코리아' 구독해 주세요.
지난 주도 여느 주와 AI 판에 많은 소식이 있었지만, 제 눈에는, 딱히 새로울 것 없다면 새로울 것 없는, 구글의 AI 어시스턴트, 노트북LM (NotebookLM)이 눈에 계속 들어왔습니다. 2023년 7월 출시된, 최근의 AI 판에서는 꽤 오래 된(?) 제품이지만, 들어보지도, 사용해 보지도 않으신 분들이 더 많겠죠. 노트북LM이 기술적인 측면에서도, 사용자 경험의 측면에서도 흥미로운 점들이 있고, 특히 최근에 빠르게 진화해 나가면서 많은 관심을 받고 있는 만큼, 이번 주 FOD에서는 구글 노트북LM을 함께 살펴볼까 합니다.
구글 랩스에서 개발을 시작한 노트북LM은, 처음에는 Tailwind라는 코드명으로 불렸다고 해요 - ‘사용자가 문서를 업로드하면 그걸 정리, 요약하고 인사이트를 찾아내고, 대량의 정보를 잘 관리하도록 도와준다’는 이 프로젝트의 목표를 더 잘 나타내는 이름으로 ‘NotebookLM’을 선택했다고 합니다.
구글 문서, PDF, 최근에는 유튜브 링크나 오디오 파일을 입력하면 인용문, 그리고 관련 인용문이 포함된 근거에 입각해서 답변을 제공해 주고, 마침 최근에는 ‘AI 팟캐스트를 만들어주는 기능’까지 추가했습니다. 소스를 업로드하면 대화라는 형태를 통해서 내용을 알려주고 요약해 주고 하는 것들이 아주 새롭고 획기적인 기능은 아니지만, 꽤 부드럽게 무난한 - 또는 상당한 - 퀄리티로 작업을 수행해 주면서 많은 사람들의 관심을 끌고 있습니다.
노트북LM을 한 번 시험해 보려고, 제가 작업을 하고 있는 책의 프로젝트에서 50개 정도의 파일을 업로드했어요. 이 파일들은 두 개 언어로 된 인터뷰 음성, PDF로 되어 있는 기사들, 문서로 된 사업 보고서들, 그리고 이 책의 초안이 있는 Google Docs 링크들이예요. 현재 일곱 번째 챕터를 작업하고 있는데, 40년 정도에 걸친 이야기를 다루는 내용이라서 아이디어가 어떻게 연결되고 흐르는지를 간결하고 이해하기 쉽게 정리하는 게 중요하거든요. 그런데 노트북LM이 몇 초 만에 아주 그럴 듯한 요약본을 만들어냈을 뿐 아니라, 이 챕터에 담을 만한, 미처 잊고 있던 요점을 떠올리는데도 도움이 됐어요. 물론 아직 탐색하고 시험해 봐야 할 것들이 많기는 해도, 구글 노트북LM은 상당히 인상적이었어요.
자 그래요. 뭐 편리한 도구이긴 해도, 아직 ‘깜짝 놀랄만한’ 뭔가는 아니다 싶죠?
근데, 최근에 노트북LM의 새로운 기능으로 추가되어서 많은 사람들로부터 좋은 반응을 얻고 있는 기능이 있죠. 바로 ‘AI 기반 팟캐스트’를 생성해 주는 기능인데요. 그냥 업로드한 텍스트를 읽어주는 게 아니라, 두 명의 AI 호스트가 자료에 대해 심도있는 토론을 하는, 소위 ‘딥다이브 (Deep Dive)’ 성격의 대화를 하는 팟캐스트를 만들어줍니다. 이 두 캐릭터가, 자료에 대해서 이해하고 토론하고, 농담도 하고, 웃으면서 설명을 해요.
기존의 정보를 ‘새롭게 소비’하는 방법을 보여준다고 생각하구요, 음성으로 정보를 얻는데 익숙하신 분이라면 빽빽한 자료 읽는 대신 꽤 괜찮은 방법이 아닌가 싶습니다.
1. 직접 한 번 해 봤습니다 - 제 글을 사용해서 만든 팟캐스트
일단, 제가 할 수 있는 기본적인 테스트 - 팟캐스트 생성 - 를 한 번 해 봤어요.
제가 이전에 브런치 스토리에 썼던 ‘인공지능은 정말 우리의 직업을 빼앗아갈까? - 2편’이라는 글이 하나 있습니다. 이 글은, ATM이 등장했을 때 은행 창구직원의 ‘직업’이 사라질 거라고 생각했지만, 오히려 시장 환경, 은행의 전략과 고객의 니즈 등이 다변화되면서 오히려 더 고도의 스킬을 요구하는 은행 창구 직원들이 일이 생겨나고, ATM이 그런 은행 직원의 수요를 늘리는 ‘스필오버 (Spillover)’ 효과에 대해 이야기하는 글이예요. ‘AI가 직업을 뺐냐 그렇지 않냐’ 류의 이야기에 관심있으신 분들은 한 번 보셔도 좋겠습니다.
어쨌든, 이 글의 링크를 노트북LM에 주고 아래 그림처럼 팟캐스트를 만들어봤어요 (공식적인 이름은 ‘Audio Overview’죠). 한 20~30초 정도 걸려서 오디오가 만들어졌는데, 물론 아직 한글은 안 되니 영어 버전이 만들어진 거죠.
들어보고 깜짝 놀랐어요. 여러분도 한 번 글 링크를 넣고 만들어서 들어보세요. 글을 읽어보신 분들이 들어보시면 아마 비슷한 감상일 것 같습니다. 팟캐스트에 두 명의 캐릭터가 등장해서, 진짜로 한 명은 진행자, 한 명은 제가 이야기하는 것 같은 - 내용적으로 말이죠 - 거예요. 거기다, 진짜 제대로 된 팟캐스트처럼, 배경이나 심화된 이해를 위한 설명도 있고, 흥미를 잃지 않고 들을 수 있게 구성이 되어 있더군요. 그냥 ‘간략한 요약’이나 ‘적당한 수준의 포맷 변경’ 정도가 아니라는 느낌이었습니다.
2. 직접 한 번 해 봤습니다 - 허깅페이스의 토마스 울프가 제안한 ‘Life Hack’
허깅페이스의 Chief Science Officer인 토마스 울프 (Thomas Wolf)는, 기분이 좀 꿀꿀(?)하거나 다운되어 있다면, 자기 웹사이트나 링크드인 프로필 정보 등을 노트북LM에 올려서 오디오 팟캐스트로 만들어보면, 아마 다른 사람들 - 팟캐스트 진행하는 캐릭터들 - 이 내가 얼마나 대단한 사람인지 이야기하는 걸 들으면서 힐링이 될 수 있을 거라고 하네요 ^.^
https://x.com/Thom_Wolf/status/1840408573773332950
추천대로 한 번 해 봤습니다. 역시 흥미롭고 재미있었어요. 단순히 프로필에 있는 커리어 뿐이 아니라 제 네트워크, 제가 수년 전부터 쓴 링크드인 포스팅 등을 넘나들면서 저에 대한 이야기를 나누는게요. 실제로 좀…힐링이랄까…누군가 나를 알아주는 - 조금 오버해서요 - 느낌? ^.^
저는, 누군가 내 주위에 있는 사람의 정보를 - 물론 개인정보를 보호하는 한도 내에서요 ^.^; - 잘 모아서, 구글 노트북LM에 주고 이런 팟캐스트를 만들고, 가능하다면 편집을 해서 선물해 주면 좋아할 것 같다는 생각도 해 봤어요.
여러분도 한 번 해 보시면 재미있을 것 같습니다.
3. 안드레 카파시 (Andrej Karpathy)의 실험과 의견
안드레 카파시는 ‘GPT-2를 트레이닝하는 C 코드’를 노트북LM을 이용해서 팟캐스트로 만들었는데, 일부 내용을 본인의 의도와는 아무래도 다른 방식으로 구성하고 강조한 측면이 있을 수도 있지만, 팟캐스트가 재미있고 놀라울 정도로 일관성이 있다고 언급했습니다.
노트북LM은, 구글의 Gemini 1.5 Pro를 메인 모델로 구동되는데요. Gemini 1.5 Pro는 입력값에 따라 모델의 특정 부분만을 활성화해서 효율성을 높이는 MoE (Mixture-of-Experts) 아키텍처를 활용하는 트랜스포머 모델입니다. Long-Context를 잘 처리해서, 노트북LM은 한 번에 최대 1,500페이지의 정보를 다룰 수 있기 때문에 대용량의 데이터셋이나 복잡한 주제를 다루는 경우에 적합합니다.
노트북LM의 기술적 구성 요소는 아래와 같은 것들이 있는 걸로 알려져 있습니다:
RAG (Retrieval-Augmented Generation): 다양한 소스의 컨텐츠를 처리하기 위한 RAG 아키텍처를 활용합니다.
TTS (Text-to-Speech): 설득력있는 대화 환경을 조성하기 위해서 AI 팟캐스트 호스트의 음성을 생성합니다.
SoundStorm: 스크립트를 고품질의 매력있는 오디오, 자연스러운 대화로 변환합니다.
Disfluency Injection: 마치 사람이 대화하는 듯한 느낌을 주는 휴지 (Pause), 추임새 (Filler) 등 자연스러운 음성 패턴을 추가해서 대화가 더욱 사실적으로 들리게 합니다.
Prompt Engineering: AI 기반의 상호작용을 구조화하고, 호스트가 자연스러운 대화 톤을 유지하도록 프롬프트 엔지니어링 기법을 활용합니다.
구글이 보여준 노트북LM - 좀 더 구체적으로는 이번에 런칭한 ‘Audio Overview’ - 은 ‘생성형 AI 기술의 강점을 살려주는 새로운 UI/UX의 탐색 사례라고 생각합니다. 안드레 카파시는 이렇게 이야기합니다:
“2인 팟캐스트 형식의 궁극적인 매력은 바로 이거라고 생각해요. 2인 팟캐스트는 LLM을 활용하는데 항상 방해물이 되는 두 가지 ‘즐거움의 장벽 (Barriers to Enjoyment)’을 없애줘요. 첫번째, ‘채팅’이란 건 생각보다 쉽지 않아요. 뭘 말하거나 물어봐야 할지는 사실 알기 힘들거든요. 2인 팟캐스트 형식에서는, 질문도 인공지능에게 맡기기 때문에, 동기식 (Synchronous) 대화의 제약을 없애고 훨씬 더 차분하게 내용을 듣는 경험을 할 수 있습니다. 두번째, 읽는 것 대비 그냥 기대서 대화를 듣는 게 훨씬 쉽습니다.”
구글 노트북LM은 이미 기술 전문가이든 아니든 누구에게나 유용한 기능을 제공하고, 특히 학생이나, 연구자, 작가 등의 일을 하는 사람이라면 즉시 활용해 볼 만하다고 생각합니다. Audio Overview 같은 기능은, 당장의 ‘실용성’과 ‘실험적’ 시도 사이에서 밸런스를 잘 맞추면서 생성형 AI 서비스가 나갈 길을 탐색하는 좋은 시도입니다.
구글 노트북LM을 어떻게 더 흥미롭게 활용할 수 있을까요? 또는 앞으로 이런 서비스는 어떻게 또 진화할까요? Audio Overview의 경우라면, 상호작용 (Interaction)과 캐릭터 (Persona)의 측면에서, 그리고 모달리티(Modality)의 측면에서 진화를 할 것 같습니다 - 마치 AI 캐릭터의 팟캐스트에 내가 또 하나의 참가자로서 원할 때 추가적인 질문이나 의견 개진을 한다든지 하는 식으로요. 또는 음성 외에 이미지, 영상 등으로 내용의 전달이나 상호작용을 더 풍부하게 하는 식으로요. 구글 노트북LM 뿐만 아니라, 쓸만한 생성형 AI 제품, 서비스는 이 세 가지 요소 - 상호작용, 캐릭터(라이제이션), 모달리티 - 를 어떻게 유즈케이스에 맞게, 또는 ‘신선하게’ 변주하느냐가 중요한 요소가 될 것 같아요.
물론, 아직 판단은 이릅니다. 이 ‘놀람’이 당장의 과민 반응일 수도 있죠, 어떤 AI 서비스든 완벽한 건 없으니까요. 하지만, 실용적인 측면에서, 구글의 노트북LM은 적어도 챗GPT나 Claude의 수준에서, 또는 그 이상에서 생산성과 재미를 다른 차원으로 끌어올리고 있는 도구라는 것만은 인정해야 할 것 같습니다.