7주차: 멀티모달 - 읽고, 보고, 듣는 AI 지휘하기

PART 2. [활용] 문과생의 필살기: 맥락(Context) 설계

Jan 13. 2026

지난 5~6주 차에서 우리는 '말'로 AI와 소통하는 법을 배웠다. 명확한 지시, 구체적인 맥락, 적절한 페르소나 부여. 이 모든 것은 '텍스트'라는 단일 채널을 통한 커뮤니케이션이었다.

그런데 생각해 보면, 우리의 실제 업무는 텍스트만으로 이루어지지 않는다. 마케터의 책상 위에는 경쟁사 브로셔가 놓여 있고, 기획자의 노트북에는 2시간짜리 회의 녹음 파일이 저장되어 있으며, 영업팀장의 이메일에는 50페이지짜리 제안서 PDF가 첨부되어 있다.

흥미로운 사실이 있다.

이미 1~2년 전부터 AI는 이미지를 '보고', 문서를 '읽고', 음성을 '들을' 수 있게 되었다. 이것이 바로 '멀티모달(Multi-modal)' 기능이다. 그런데 놀랍게도, 여전히 대부분의 직장인들은 AI를 '타이핑'으로만 사용한다.

왜일까? 멀티모달 기능을 모르거나, 알아도 '어떻게' 활용해야 할지 몰라서다.

문과생 여러분!

이제 복잡한 자료 앞에서 타이핑 노동에 시달릴 필요가 없다. 사진 찍어서 보여주거나, 녹음 파일을 들려주거나, 문서를 던져주면 된다. 이미 준비된 기능을, 제대로 활용할 차례다.

AI는 이미 눈과 귀를 가지고 있다

멀티모달(Multi-modal)은 '여러(Multi) 양식(Modal)'이라는 뜻이다. AI가 텍스트뿐만 아니라 이미지, 음성, 문서 등 다양한 형태의 정보를 이해할 수 있다는 의미다.

인간에 비유하자면, AI는 이미 '눈'과 '귀'를 가지고 있다. 우리가 보여주는 것을 볼 수 있고, 우리가 건네는 파일을 읽을 수 있으며, 우리가 들려주는 소리를 들을 수 있다. 문제는 대부분의 사람들이 여전히 AI는 '텍스트만 이해한다'고 생각하며, 이미지 속 데이터를 타이핑으로 옮기고, 회의 내용을 손으로 정리하고, 문서를 읽어가며 핵심을 다시 작성한다는 것이다.

멀티모달은 단순한 추가 기능이 아니다. 업무 방식 자체를 바꿀 수 있는 강력한 도구다. 문제는 많은 사람들이 이 기능을 모르거나, 알아도 '제대로' 활용하지 못한다는 점이다. 여기서 '제대로 활용'이란, 단순히 파일을 업로드하는 것을 넘어, 5~6주 차에서 배운 커뮤니케이션 원칙을 멀티모달에도 적용하는 것을 의미한다.

구체적으로 비교해 보자.

중요한 고객사 미팅이 끝났다. 2시간 동안 논의된 내용을 정리해야 한다. 멀티모달을 모르는 사람은 여전히 이렇게 일한다: 녹음 파일을 들으며 타이핑하고(90분), 핵심 내용을 정리하고(30분), 회의록을 작성하고(30분), 액션 아이템을 뽑아낸다(10분). 총 160분이 소요된다.

하지만 멀티모달을 아는 사람은 어떨까? 녹음 파일을 AI에 업로드하고(1~2분), "이 회의 내용을 요약하고, 결정 사항과 다음 액션 아이템을 정리해 줘"라고 요청하면 끝이다. 같은 결과를 얻는 데 158분의 차이가 발생한다. 바로 이것이 멀티모달을 '제대로' 활용하는 사람과 그렇지 않은 사람의 차이다.

적재적소 용병 배치

3주차에서 배운 AI 3대장의 특성은 멀티모달에서도 그대로 적용된다. 하지만 음성 파일 처리에서는 중요한 차이와 실전 노하우가 있다.

음성 파일 처리의 현실 (2026년 1월 기준)

<방법 1> Gemini로 직접 처리 (간단한 방법)

Gemini는 유일하게 음성 파일을 직접 업로드할 수 있다. MP3, M4A, WAV 파일을 앱이나 웹에서 바로 업로드하면 즉시 처리된다. 무료 버전은 10분, 유료 버전은 3시간까지 가능하다. 회의 녹음을 그대로 업로드하고 5-6주차에서 배운 것처럼 맥락을 프롬프트에 넣으면 바로 회의록이 나온다.

<방법 2> 클로바노트 → ChatGPT/Claude (필자가 추천하는 방법)

ChatGPT와 Claude는 음성 파일을 직접 처리하기 어렵지만, 문서 분석과 논리적 정리에서는 더 강력할 수 있다. 이럴 때는 다음 프로세스를 사용한다:

1) 클로바노트 앱에서 회의를 녹음한 후에 음성 파일을 텍스트로 변환 (한국어 인식 정확도 우수)

2) 변환된 음성 기록을 텍스트 파일로 다운로드

3) 다운로드한 파일을 ChatGPT나 Claude에 업로드

4) 5-6주차에서 배운 프롬프트 기법 적용: 회의 맥락 제공, 구체적 요청, 제약조건 명시

※ 중요: 클로바노트 자체 요약 기능을 쓰지 않는 이유

클로바노트도 요약 기능이 있지만, 맥락을 입력할 수 없다. 5-6주차에서 배운 것처럼, "누가, 왜, 무엇을 위해 모였는지"를 AI에게 설명해야 정확한 결과가 나온다. 클로바노트는 단순히 "요약" 버튼만 제공한다. 따라서:

클로바노트 = 텍스트 변환 전문 도구로만 활용

ChatGPT/Claude = 맥락을 주입한 정교한 분석에 활용

이미지와 문서 파일 처리

음성을 제외한 나머지 멀티모달 기능에서는 세 AI 모두 비슷한 수준이다.

• ChatGPT는 '창의적 마케터'답게 이미지 생성(DALL-E)에 강점이 있다. "이 제품 사진 보고 SNS용 캐치프레이즈 10개 만들어줘"처럼 창의적 활용에 적합하다.

• Claude는 '논리적 작가'로서 긴 문서 분석에 탁월하다. 50페이지 계약서를 정밀하게 분석하여 조항별 리스크를 논리적으로 정리해준다. 한 번에 처리할 수 있는 문서 분량이 많아 대용량 파일 분석에 강점이 있다.

• Gemini는 '정보력 있는 분석가'답게 실시간 정보와의 결합이 강점이다. 경쟁사 IR 자료를 업로드하고 "이 데이터를 보고 현재 시장 트렌드와 비교해줘"라고 하면 최신 정보와 함께 분석해준다.

회의실을 나서는 순간, 회의록이 완성된다

B2B 업계 종사자들에게 멀티모달의 가장 강력한 무기는 바로 '음성 처리' 능력이다. 현장에서 가장 활발하게 사용되는 기능이 바로 회의 녹음 후 자동 처리다.

<회의 녹음에서 즉시 요약으로>

임원 보고 회의가 끝났다. 스마트폰 녹음 파일을 AI에게 업로드한다. 이렇게 요청해 보자.

[프롬프트 예시 1]

이것은 오늘 오전 진행된 마케팅 전략 회의 녹음입니다.
다음 형식으로 요약해 주세요:
1. 핵심 논의 사항 3가지
2. 최종 결정된 사항
3. 각 팀별 우려사항
4. 다음 회의까지 준비할 사항

회의가 끝나고 커피 한 잔 마실 동안, 완벽한 회의 요약이 완성된다.

<회의록 자동 작성>

프로젝트 킥오프 미팅 녹음 파일을 업로드한다. 단, 회의 기본 정보(일시, 장소, 참석자)는 녹음에서 파악하기 어려우므로 미리 제공하는 것이 효율적이다.

[프롬프트 예시 2]

이것은 신규 프로젝트 킥오프 미팅 녹음입니다.

1. 회의 정보
- 일시: 2026년 1월 10일 14:00~16:00
- 장소: 본사 3층 대회의실
- 참석자: 김팀장(기획팀), 이과장(개발팀), 박대리(디자인팀), 최사원(마케팅팀)

위 정보를 포함해서 다음 형식으로 회의록을 작성해 주세요:

2. 안건별 논의 내용: [녹음 내용을 바탕으로 안건을 구분하여 정리]
3. 결정 사항: [합의된 내용만 추출]
4. Action Items: [담당자 - 할 일 - 마감일] *녹음에서 담당자가 불명확한 경우 "담당자 미정"으로 표기
5. 다음 회의: [언급된 경우 일정 기재]

AI가 알아서 구조화된 회의록을 만들어준다. 당신은 세부 내용만 확인하고 발송하면 된다.

<액션 아이템과 일정 도출>

전략 회의 녹음을 업로드한다. 구체적으로 요청할수록 정확한 결과가 나온다.

[프롬프트 예시 3]

이 회의 녹음에서 다음 정보를 추출해 주세요:
1. "~해야 한다", "~하기로 했다" 등 실행 과제 전부
2. 각 과제의 담당자 (언급된 경우)
3. 각 과제의 마감일 (언급된 경우)
4. 다음 회의 일정표 형식으로 정리해 주세요.

더 이상 회의 중에 필기하느라 집중하지 못하는 일이 없다. 그냥 회의에 집중하고, 녹음만 하면 된다. AI가 비서 역할을 해준다.

실전 활용 시 주의사항

녹음 전 참석자 동의 필수, 조용한 환경에서 녹음, 중요한 숫자/날짜는 별도 확인.

천 마디 설명보다 사진 한 장

멀티모달의 또 다른 축은 '시각'이다. 이미지와 문서 파일을 AI가 직접 '볼' 수 있다. 그런데 여전히 많은 사람들은 이미지 속 데이터를 손으로 타이핑해서 AI에게 전달한다. 이제 그럴 필요가 없다.

<문서와 데이터 시각 자료>

차트나 그래프를 업로드할 때는 이렇게 요청한다.

[프롬프트 예시 4]

첨부한 그래프는 우리 회사의 지난 6개월 매출 추이입니다.
다음을 분석해 주세요:
1. 전반적인 트렌드 (상승/하락/정체)
2. 특이점이 있는 구간과 가능한 원인
3. 향후 3개월 전망
4. 경영진 보고용 핵심 메시지 1줄

받은 명함을 사진 찍었다면 정보를 즉시 정형 데이터로 변환할 수 있다.

[프롬프트 예시 5]

이 명함의 정보를 다음 형식으로 정리해 주세요:

이름:
직책:
회사명:
이메일:
전화번호:
주소:

브레인스토밍 후 손글씨로 휘갈긴 메모를 찍었다면 이렇게 정리할 수 있다. 단, AI가 실행 가능성을 판단하려면 최소한의 맥락(회사 상황, 목표, 리소스)을 제공해야 한다.

[프롬프트 예시 6]

첨부한 손글씨 메모는 오늘 신제품 아이디어 브레인스토밍 내용입니다.
우리는 B2B SaaS 스타트업이고, 개발 인력 5명으로 6개월 내 출시가 목표입니다.
다음을 정리해 주세요:
1. 모든 내용을 읽기 쉽게 타이핑
2. 비슷한 아이디어끼리 그룹핑
3. 우리 상황(인력/기간)을 고려했을 때 실행 가능성이 높은 아이디어 5개 선정하고 이유 설명

화이트보드나 손글씨 인식 정확도는 이미지 품질에 크게 영향을 받는다. 가능한 한 조명이 밝은 곳에서 정면으로 촬영하고, 글씨가 선명하게 보이도록 초점을 맞춰야 한다.

<일반 사진 활용>

B2C나 마케팅 업무에서는 일반 사진의 활용도가 더욱 높다. 편의점에서 본 경쟁사 신제품 포스터를 찍었다면 즉시 마케팅 분석이 가능하다.

[프롬프트 예시 7]

첨부한 사진은 경쟁사의 신제품 광고입니다.
우리도 비슷한 카테고리에서 곧 신제품을 출시할 예정입니다.
마케팅 전문가 관점에서 분석해 주세요:
1. 타겟 고객층 (연령, 성별, 라이프스타일)
2. 핵심 메시지와 소구 포인트
3. 사용된 마케팅 기법 (색상, 레이아웃, 카피 톤)
4. 이 광고의 강점과 약점 5. 우리가 참고하거나 피해야 할 요소

회사 제품 사진이 있다면 즉시 마케팅 카피 생성에 활용할 수 있다.

[프롬프트 예시 8]

첨부한 제품 사진을 보고 다음을 작성해 주세요:
1. 온라인 쇼핑몰 상세페이지용 제품 설명 (300자)
2. SNS용 짧은 카피 3가지 (각 50자 이내)
3. 사진에서 보이는 제품의 주요 특징 5가지

컨퍼런스나 행사장에서 찍은 사진 여러 장을 한 번에 업로드할 수도 있다. 대부분의 AI는 한 번에 여러 장의 이미지를 처리할 수 있으며, 이를 통해 더 풍부한 맥락을 제공받을 수 있다.

<문서 파일의 마법>

B2B 실무에서 가장 자주 사용하는 형태가 바로 문서 파일이다. 50페이지짜리 리서치 보고서 PDF를 받았다면 이렇게 활용한다.

[프롬프트 예시 9]

첨부한 PDF는 글로벌 AI 시장분석 보고서입니다.
우리는 B2B SaaS 기업이며, AI 챗봇 솔루션을 개발 중입니다.
우리 사업과 관련하여:
1. 핵심 시장 인사이트 5가지
2. 우리가 주목해야 할 경쟁사 3곳과 그 이유
3. 향후 2년간 시장 전망
4. 우리 사업 전략에 반영할 시사점
※ 각 항목당 2~3 문장으로 요약해 주세요.

고객사에서 받은 두툼한 제안요청서(RFP)에는 이렇게 대응할 수 있다.

[프롬프트 예시 10]

첨부한 제안요청서(RFP)를 분석해 주세요:
1. 요구사항 목록을 기능별로 분류
2. 각 요구사항의 중요도 (상/중/하) 판단 및 근거
3. 우리가 충족 가능한 항목 / 어려운 항목 구분
4. 제안서 작성 시 강조해야 할 포인트 3가지
5. 평가 기준과 배점 정리

더 이상 긴 문서를 처음부터 끝까지 읽을 필요가 없다. AI에게 먼저 읽게 하고, 당신은 핵심만 확인하면 된다. 이것이 멀티모달을 '아는' 사람의 일하는 방식이다.

다만 주의할 점이 있다.

PDF 파일의 경우 이미지로 스캔된 문서는 텍스트 추출이 어려울 수 있다. 가능하면 텍스트 기반 PDF를 사용하는 것이 좋다. Excel 파일의 경우, 복잡한 수식이나 매크로는 제대로 해석되지 않을 수 있으니 중요한 계산 결과는 별도로 확인해야 한다.

보여주되, 맥락은 설명하라

멀티모달 기능을 '안다'고 해서 끝이 아니다. '제대로' 쓸 줄 알아야 한다. 파일이나 이미지를 업로드하고 "이거 뭐야?"라고만 하면 AI는 당황한다. 5~6주 차에서 배운 커뮤니케이션 원칙은 멀티모달에서도 동일하게 적용된다.

효율적인 멀티모달 프롬프트는 1-6주차에서 배운 모든 원칙을 집대성한다. [페르소나 부여] + [맥락 제공] + [구체적 요청] + [제약조건 명시]의 구조를 따르면 더욱 정확한 결과를 얻을 수 있다. 아래 예시는 이 모든 원칙을 하나의 프롬프트에 적용한 것이다.

비효율적인 프롬프트:

[회의 녹음 업로드]
"요약해 줘"

효율적인 프롬프트 (6주차까지 배운 모든 원칙 적용):

[회의 녹음 업로드]

1. 페르소나
너는 10년 차 프로젝트 매니저야.
수백 번의 프로젝트 회의를 리드하고 회의록을 작성해 왔어.
특히 IT 프로젝트 킥오프 미팅과 리스크 관리에 전문성이 있어.

2. 맥락
이것은 신제품 기획 회의 녹음이야.

3. 회의 기본 정보:
- 일시: 2026년 1월 10일 14:00-16:00
- 장소: 본사 3층 대회의실
- 참석자: 김팀장(기획팀), 이과장(개발팀), 박대리(디자인팀), 최사원(마케팅팀)
- 목적: 신제품 "스마트 AI 비서" 콘셉트 최종 확정

4. 구체적 요청
프로젝트 매니저 관점에서 다음 형식으로 회의록을 작성해 줘:
1) 최종 결정 사항: [합의된 제품 콘셉트를 3줄로 요약]
2) 팀별 우려사항: [팀명 - 우려사항 - 리스크 레벨(상/중/하)] 표 형식으로 정리
3) Action Items: [담당자 - 업무 내용 - 마감일 - 우선순위]
*담당자가 불명확한 경우 "김팀장 확인 필요"로 표기 표 형식으로 정리
4) 미결 사항: [다음 회의에서 논의할 사항 - 왜 미결되었는지 이유 포함]
5) 프로젝트 매니저 관점 의견: [이 회의에서 발견한 잠재적 리스크나 주의사항을 전문가 관점에서 2-3줄로 추가]

5. 출력 제약조건
- 전체 분량: A4 2페이지 이내
- 임원 보고용이므로 간결하고 명확하게
- 전문 용어는 쉬운 표현으로 풀어서 설명

핵심 팁은 다섯 가지다.

첫째, 페르소나를 부여하라.

6주차에서 배운 것처럼, AI에게 전문가 역할을 부여하면 답변의 질이 달라진다. "너는 20년 차 마케팅 전문가야", "너는 법무팀 변호사야"처럼 역할을 명확히 하면, 멀티모달 자료 분석에서도 해당 전문가 관점의 인사이트를 얻을 수 있다. 물론 모든 상황에서 페르소나가 필요한 것은 아니다. 단순한 요약이나 정리에는 맥락만으로도 충분하지만, 전문적 분석이나 전략적 판단이 필요할 때는 페르소나가 큰 차이를 만든다.

둘째, 맥락을 먼저 제공하라.

자료의 출처, 목적, 상황을 설명해야 AI가 정확히 이해한다. 특히 회의 녹음의 경우, 일시/장소/참석자 같은 기본 정보는 녹음에서 파악하기 어려우므로 미리 제공하는 것이 효율적이다. "이것은 경쟁사 분석 자료입니다"라고 하는 것과 "이것은 우리가 진출하려는 일본 시장의 경쟁사 분석 자료입니다"라고 하는 것은 완전히 다른 결과를 가져온다.

셋째, 구체적으로 요청하고 출력 형식을 명시하라.

막연한 "요약"보다는 "핵심 3가지 + 시사점"처럼 명확히 요구하라. 더 나아가 출력 형식까지 지정하면 원하는 결과를 정확히 얻을 수 있다. "표 형식으로 정리", "항목별 리스트로", "임원 보고용으로 3줄 요약 + 상세 내용 5개 항목" 처럼 구체적일수록 좋다.

넷째, 제약조건을 명시하라.

5주차에서 배운 것처럼, 분량/톤/용어 사용에 대한 제약을 주면 더욱 정교한 결과를 얻는다. "A4 2페이지 이내", "임원 보고용이므로 간결하게", "전문 용어는 쉽게 풀어서" 같은 조건을 추가하라. 또한 4주차에서 배운 할루시네이션 대응도 포함하라. "담당자가 불명확한 경우 '확인 필요'로 표기"처럼 AI가 확신 없는 정보를 어떻게 처리할지 미리 지시하는 것이다.

다섯째, 복잡한 자료는 단계적으로 접근하라.

예를 들어 고객사에서 받은 50페이지 제안서를 분석할 때, 한 번에 모든 것을 요구하기보다 "먼저 전체 목차와 구조를 파악해 줘 → 평가 기준 섹션을 상세히 분석해 줘 → 예산 섹션의 이상점을 찾아줘"처럼 단계를 나눠 접근하면 더 정확한 결과를 얻을 수 있다.

Weekly Mission

Mission: 멀티모달 3단계 체험하기

1. 초급 미션

스마트폰으로 뭔가 사진을 찍고 AI에게 물어보세요.

- 냉장고 속 식재료 사진 → "이걸로 만들 수 있는 요리 추천"

- 책 한 페이지 사진 → "이 내용 3줄 요약"

- 명함 사진 → "정보 정리"

2. 중급 미션

업무 자료를 AI에게 맡겨보세요.

- 회의 녹음 5-10분 → 핵심 내용 정리

- 보고서 PDF 10페이지 → 요약 및 인사이트

- 손글씨 메모 → 깔끔하게 타이핑

3. 고급 미션

본문 예시 10(RFP 분석)을 실제 업무 문서로 시도해 보세요.

- 페르소나 + 맥락 + 구체적 요청을 모두 적용

- 실무에 바로 쓸 수 있는 결과 나오는지 확인

자신의 수준에 맞는 미션 하나만 선택하세요.

목표는 "완벽한 프롬프트"가 아니라 "멀티모달을 실제로 써보는 것"입니다.

다음 여정

오늘 우리는 AI와의 소통 채널을 확장하는 법을 배웠다. 텍스트를 넘어 이미지, 음성, 문서까지. 멀티모달은 이미 우리 곁에 있다. 문제는 대부분의 사람들이 이 강력한 기능을 모르거나, 알아도 제대로 활용하지 못한다는 것이다.

B2B 현장에서는 회의 녹음이, B2C 마케팅에서는 시각 자료가 게임 체인저가 되고 있다. 중요한 것은 도구를 '아는' 것이 아니라, 도구를 '제대로 쓰는' 것이다. 맥락을 주고, 구체적으로 요청하고, 결과를 검증하라. 5~6주 차에서 배운 커뮤니케이션 원칙은 여전히 유효하다.

지난 5~6주 차에서 '말의 기술'을 익혔다면, 이번 주는 '말 없는 소통'까지 마스터한 셈이다.

이제 1주차부터 7주차까지 우리가 배운 모든 것을 정리해 보자. 코딩의 시대가 가고 질문의 시대가 왔음을 이해했고(1주차), 검색이 아닌 생성의 사고로 전환했으며(2주차), AI 3대장의 특성을 파악했고(3주차), AI의 거짓말을 다루는 법을 익혔다(4주차). 그리고 프롬프트의 본질이 커뮤니케이션임을 깨달았으며(5주차), AI에게 전문가 역할을 부여하는 법을 배웠고(6주차), 마침내 멀티모달까지 정복했다(7주차).