AI에 광고가 붙는 순간, 텍스트 분석 수요 폭발할 것

AI 시대에 텍스트 분석가는 어떤 역량을 강화해야 할까

by Maven

이제 곧 생성형 AI에 광고가 붙기 시작하면,

가장 먼저 주목받을 데이터는, 단연 텍스트(Text) 데이터입니다.


지금도 사람들은 포털사이트의 '검색창'이 아니라 AI와의 '대화창'에 욕망을 입력하고 있죠.
무엇을 사고 싶은지, 무엇이 불편한지, 무엇을 비교하는지, 언제 망설이는지가 모두 '자연어'로 남습니다.


과거에는 텍스트 데이터가 늘 중요하다고 말하면서도,

실제 현장에서는 부가 자료 취급을 받는 경우가 많았어요.

숫자 등으로 된 정형 데이터처럼 깔끔하지 않았고,

ROI(Return of Investment, 투자 대비 수익률)를 곧바로 증명하기도 어려웠기 때문입니다.

그런데 생성형 AI가 "자연어(Natural Language)"를 핵심 인터페이스로 삼으면서

상황이 달라지고 있습니다.

OpenAI는 미국에서 ChatGPT Free·Go 요금제를 대상으로 광고 테스트를 시작했고,

광고는 현재 대화와 관련된 형태로 답변 하단에 분리 표기된다고 설명했죠.

더불어 Microsoft도 Copilot에서 사용자 입력에 반응하는 대화형 광고를 제시했습니다.


이 변화가 매우 중요합니다.
광고를 어디에 붙일지, 어떤 문맥에서 노출할지, 어떤 사용자는 지금 구매 탐색 단계에 있는지,

어떤 질문에서는 광고를 넣으면 오히려 신뢰를 해칠지를 판단하려면 결국 자연어를 읽어야 하기 때문이죠.

즉 AI 시대에 텍스트 분석은 더 이상 “말만 많은 비정형 데이터 처리 기술”이 아니게 될 겁니다.

텍스트 분석은 광고, 검색, 추천, 고객 응대, 제품 개선을 움직이는 운영 데이터 분석으로 바뀌고 있어요.

IBM은 기업 데이터의 약 80%가 비정형 데이터라고 설명했고,

Reuters Institute와 Pew의 자료를 보면

AI가 뉴스와 검색 소비 구조를 바꾸며 텍스트 유통 방식까지 흔들고 있음을 보여주고 있습니다.


이 글에서는

- 왜 텍스트 데이터가 그렇게 오랫동안 저평가되었는지,
- 텍스트 데이터를 수집하고 판매하던 회사들은 무엇을 놓쳤는지,
- 그리고 다가오는 AI 시대에는 무엇을 새롭게 설계해야 하는지를 차근차근 살펴보려 합니다.



결론부터 말하면,


AI 시대에 텍스트 분석은 중요해지는 정도가 아니라,

이제는 AI 제품과 비즈니스의 '새로운 계측 단위'로 재등장하고 있습니다. 이유는 간단해요.


생성형 AI의 입력과 출력이 결국 대부분 텍스트이고,

사용자의 의도 · 맥락 · 반응 · 불만 · 구매 신호가, 대화 *로그(log)라는 형태로 남기 때문입니다.

과거에는 텍스트가 “해석하기 어려운, 그래서 빛 좋은 개살구인 부가 데이터”였다면,

지금은 검색, 추천, 광고, 고객응대, 지식검색, 제품개선의 중심 인터페이스가 자연어로 이동하면서

텍스트 자체가 제품 운영 데이터가 되고 있는 것이죠.

(OpenAI)


*로그(log)란?

로그(log)는 원래 통나무라는 뜻에서 출발한 단어인데,

항해일지처럼 사건을 차례대로 적어 두는 기록이라는 의미로 쓰이게 됐습니다.

여기서 로그는 사용자가 무엇을 입력했고, AI가 어떻게 답했으며,

그 뒤에 어떤 추가 질문과 반응이 이어졌는지를 시간 순서대로 남긴 기록을 뜻합니다.

즉 이 글에서 로그는 단순한 저장 데이터가 아니라,

사용자의 의도·맥락·망설임·불만·구매 신호가 축적되는 분석용 흔적이라는 의미입니다.




왜 AI 시대에 텍스트 분석이 특히 중요해지는가


첫째, 사용자 행동이 '클릭 중심'에서 '대화 중심'으로 이동하고 있기 때문입니다.

OpenAI는 2026년 미국에서 ChatGPT Free·Go 요금제 대상 광고 테스트를 공식화했고, 광고를 현재 대화와 관련된 스폰서드(Sponsored) 상품·서비스 형태로 답변 하단에 '분리 표기'한다고 밝혔습니다.

Microsoft도 Copilot에 맞춘 대화형 광고 포맷을 발표했고, 광고가 사용자 입력에 따라 상호작용적으로 바뀌는 구조를 제시했습니다.

이 구조에서는 무엇을 클릭했는지만으로는 부족하고, 어떤 질문 흐름에서 어떤 광고가 적합했는지,

어느 문맥에서 거부감이 생겼는지, 어떤 표현이 구매 의도로 이어졌는지를 텍스트 단위로 분석해야 합니다. (OpenAI)


둘째, AI 제품의 가치 창출이 '정형' 데이터보다 (텍스트, 이미지, 영상 등의) '비정형' 데이터 활용 역량에 더 크게 좌우되기 때문입니다.

IBM은 기업 데이터의 약 80%가 비정형 데이터라고 설명하며, 생성형 AI 확산의 가장 큰 장벽 중 하나가 이 비정형 데이터를 AI가 쓸 수 있게 준비하는 일이라고 짚고 있습니다. 다시 말해 기업 안에서 아직 활용되지 않은 지식의 대부분이 문서, 메일, 대화, 보고서, 매뉴얼, VOC, 상담 로그 같은 텍스트에 남아 있다는 뜻입니다. (IBM)


셋째, AI가 인터넷과 기업 내부의 텍스트를 *‘토큰(Token)’으로 바꿔 가치화하는 체계를 만들었기 때문입니다.

NVIDIA는 2025 연차보고서에서 AI 팩토리를 “데이터를 intelligence의 토큰으로 변환하는 인프라”로 설명했습니다. 이 표현은 과장이 아니라, 텍스트가 이제 단순 기록이 아니라 학습·검색·추론·개인화의 재료라는 산업적 인식을 보여줍니다. (S201)


*토큰(token)

토큰은 원래 ‘증표’, ‘대신하는 표식’, ‘가치를 대표하는 단위’라는 뜻입니다.

어원은 “표시하다, 만지다” 계열의 인도유럽어 뿌리와 연결되고,

현대 영어에서는 어떤 의미나 권한을 대신 나타내는 단위라는 뜻으로 널리 쓰입니다.


AI에서 토큰은 문장을 모델이 한 번에 이해하는 최소 처리 단위에 가깝습니다.

글자 1개와도 다르고, 단어 1개와도 완전히 같지 않으며, 단어 조각·기호·띄어쓰기까지 포함해

잘게 나뉜 분석 단위라고 보면 됩니다.

즉 이 글의 맥락에서 토큰은 텍스트를 AI가 읽고, 계산하고, 예측할 수 있도록 바꿔 놓은 언어의 계산 단위라는 의미입니다.


넷째, 검색과 뉴스 소비가 링크 탐색에서 "답변 소비"로 일부 이동하고 있기 때문입니다.

Reuters Institute는 2025년 디지털 뉴스 리포트에서 AI 챗봇이 처음으로 뉴스 접근 경로 중 하나로 잡히기 시작했다고 봤고, Pew는 AI 요약이 보일 때 사용자가 외부 링크를 클릭할 가능성이 낮아진다고 분석했습니다.

Similarweb도 2025년 중반 AI 플랫폼의 외부 사이트 *referral(외부 사이트를 통한 방문 유입)이 빠르게 증가하고 있다고 봤지만, 아직까지는 전통 검색보다 작은 수준입니다. 하지만 이 변화는 곧 “텍스트가 소비되는 위치”가 (챗GPT 같은) 원문 사이트 밖으로 이동하고 있음을 의미합니다. 따라서 텍스트 분석은 이제 문서 내용 분석만이 아니라, AI가 어떤 문장을 인용하고 요약하고 재배치하는지까지 추적하는 방향으로 확장됩니다. (Reuters Institute)


*referral (방문 유입)

referral은 원래 “넘겨주기, 보내주기, 추천하기”라는 뜻입니다.

어원은 refer에서 왔고, refer는 “되돌려 보내다, 참고하게 하다”라는 의미를 가집니다.

웹·플랫폼 문맥에서 referral은 한 사이트나 플랫폼이 다른 사이트로 사용자를 보내 주는 유입을 뜻합니다. 예를 들어 검색엔진, SNS, AI 챗봇이 어떤 언론사나 쇼핑몰로 사람을 보내면 그게 referral traffic입니다.

즉 이 글에서 referral은 AI가 답변만 하고 끝나는 것이 아니라, 외부 사이트로 실제 방문자를 연결해 주는 유입 경로라는 의미입니다.




지금 이 순간, 실제 나타다고 있는 현상


이미 이러한 현상은 세 가지 층위에서 나타나고 있습니다.


① 인터페이스의 변화
검색창, FAQ, 상담 챗봇, 업무용 지식검색이 모두 대화형으로 바뀌고 있습니다.

McKinsey의 2025년 AI 조사도 기업들이 생성형 AI를 시범 수준에서 벗어나 워크플로 재설계와 운영 모델 변화까지 연결하려고 한다고 봤습니다. 대화형 인터페이스가 늘어날수록 로그(log) 데이터의 핵심은 클릭이 아니라 발화, 문맥 전환, 추가 질문, 수정 요청, 불만 표현, 구매 직전 질문 같은 '텍스트 신호(Text Signal)'가 됩니다. (McKinsey & Company)


② 광고와 상거래의 변화
사용자가 “어떤 노트북이 내 용도에 맞지?”처럼 자연어로 묻는 순간, 광고는 *배너(banner, 웹 상의 가로로 긴 현수막 형태의 광고)가 아니라 답을 방해하지 않는 관련 제안 형태로 들어오게 됩니다. OpenAI는 초기 광고 성과와 피드백을 바탕으로 관련성을 개선하겠다고 밝혔고, Microsoft는 Copilot용 광고가 사용자 입력에 적응한다고 설명했습니다.

이 구조에서는 텍스트 분석이 광고 타기팅뿐 아니라, 광고 삽입 문맥의 안전성, 상업적 의도 추정, 거부감 유발 표현 탐지, 전환 직전 질문 유형 분류에 직접 쓰일 가능성이 매우 큽니다. 이는 사용자의 자연어 대화가 새로운 광고 inventory(광고 지면)이자 measurement substrate(측정 기반)가 되는 흐름입니다.


*배너(banner, 웹 상의 가로로 긴 현수막 형태의 광고)

배너 광고(banner ad)는 banner(배너, 가로로 내건 깃발이나 현수막)와 advertisement의 줄임말인 ad(광고)가 합쳐진 말입니다. 원래 banner는 사람들의 눈에 띄게 걸어 두는 천이나 표식을 뜻했고, 웹에서는 화면 한쪽에 띄워 두는 '직사각형 광고 영역'이라는 뜻으로 굳어졌습니다.

디지털 마케팅에서 배너 광고(banner ad)는 웹사이트나 앱 화면의 상단, 하단, 중간, 옆면 등에 이미지나 문구 형태로 노출되는 시각형 광고를 말합니다. 사용자는 콘텐츠를 보다가 그 광고를 클릭해 브랜드 사이트나 상품 페이지로 이동하게 됩니다.

이 글의 맥락에서 배너 광고(banner ad)는 대화 흐름 속에 문맥적으로 끼어드는 생성형 AI 광고와 대비되는, 기존의 전통적인 디스플레이 광고 형식이라는 의미입니다.



③ 콘텐츠 유통 구조의 변화
AI 요약과 챗봇 답변이 원문을 대체하거나 중간 관문이 되면서, 퍼블리셔들은 트래픽 감소와 콘텐츠 라이선스 문제를 제기하고 있습니다. 사람들이 AI 요약만 보고 본 페이지에 들어가지 않으니 자연스럽게 트래픽이 감소한 것이죠.

Reuters는 2025년 독립 퍼블리셔들이 구글 AI Overviews를 두고 반독점 문제를 제기했다고 보도했고, Cloudflare는 AI 크롤러에 대한 차단과 *pay-per-crawl(크롤 1회 당 과금) 모델을 도입했습니다. 이것은 텍스트 데이터가 공짜 원료가 아니라, 접근권과 사용권을 갖춘 자산으로 재평가되고 있다는 뜻입니다. (Reuters)


*pay-per-crawl(크롤 1회 당 과금)

pay-per-crawl(크롤당 과금)은 말 그대로 crawl(크롤링, 웹페이지를 자동으로 긁어 가는 행위) 1회당 돈을 받는 방식입니다. crawl은 원래 “기어가다”라는 뜻에서 출발해 웹에서는 봇(bot)이 페이지를 돌아다니며 수집하는 행위를 뜻합니다.

여기서의 의미는, AI 크롤러가 사이트의 글이나 데이터를 가져가려 할 때 사이트 운영자가 “무료 허용”, “차단”, “돈 내고 접근” 중 하나를 선택할 수 있게 하는 모델입니다. Cloudflare는 사이트 운영자가 도메인 단위 가격을 정할 수 있고, AI 크롤러가 결제 의사를 담아 요청하지 않으면 '402 Payment Required' 응답을 받을 수 있다고 설명합니다.

한마디로 하면, pay-per-crawl(크롤당 과금)은 AI가 내 콘텐츠를 읽어 가려면 건당 이용료를 내게 하는 방식입니다.




지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
Maven작가님의 멤버십을 시작해 보세요!

데이터를 분류하고 분석하는 업무를 매일 하고 있지만, 아직도 데이터가 어렵고 무서운 '이류 분석가' 회사원입니다.

224 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 9개의 멤버십 콘텐츠 발행
  • 총 62개의 혜택 콘텐츠
최신 발행글 더보기