AI 시대, 왜 마크다운을 알아야 하는가

LLM은 마크다운을 좋아한다.

by 김동린

ChatGPT에게 뭘 물어봐도 답변에 # , ** , - 같은 기호가 섞여 온다.

Claude에게 코드를 부탁하면 ``` 안에 깔끔하게 담아준다. Gemini에게 비교 분석을 요청하면 표가 | 기호로 그려진다.


이게 마크다운(Markdown)이다.


AI가 이 형식을 쓰는 건 우연이 아니다. LLM의 학습 데이터와 출력 구조에 이유가 있다. 마크다운을 모르면 AI가 건네는 답변을 반만 읽는 셈이다. 마크다운을 알면 AI에게 지시하는 방식 자체가 달라진다.



마크다운이란 — 읽기 쉬운 글쓰기 약속

2004년, 블로거 존 그루버(John Gruber)와 인터넷 활동가 에런 스워츠(Aaron Swartz)가 마크다운을 만들었다. 목표는 단순했다. 사람이 읽어도 자연스러운 텍스트를 동시에 구조화된 문서로 만드는 것.


일반 텍스트에 약간의 기호를 섞으면 제목, 굵은 글씨, 목록, 링크, 코드 블록이 된다. 5분이면 기본 문법을 배울 수 있다.


# 제목 ## 소제목 **굵게** *기울임* - 목록 항목 [링크](https://example.com)


이 단순한 약속이 20년 뒤 세상을 지배하고 있다.

GitHub가 2017년 자체 마크다운 표준(GFM)을 발표했다. 이후 Reddit, Stack Exchange, GitLab 등 주요 플랫폼이 같은 규격(CommonMark)으로 통일됐다. 2025년 Stack Overflow 개발자 설문에서 마크다운은 개발자가 가장 많이 쓰는 문서 포맷으로 꼽혔다.


GitHub, Notion, Obsidian, Slack, Discord. 글을 쓰는 곳이면 어디든 마크다운이 기본이다.

개발자 세계가 마크다운으로 글을 쓰니, 그 세계의 코드와 문서를 학습한 LLM도 마크다운을 자연스럽게 흡수했다.



왜 LLM은 마크다운으로 말하는가

이유는 단순하다. LLM이 먹고 자란 데이터가 마크다운이기 때문이다.

GPT, Claude, Gemini 같은 대형 언어 모델은 인터넷의 텍스트를 학습한다. GitHub의 README, 위키피디아 문서, 기술 블로그, 오픈소스 문서. 이 텍스트들의 공통 포맷이 마크다운이다.

모델은 # 이 나오면 새로운 섹션이 시작된다는 걸 안다. - 이 나열되면 목록이라는 걸 안다. 통계적으로 마크다운 구조와 의미를 연결하도록 학습된 것이다. 토큰 효율도 이유다. LLM은 텍스트를 토큰(단어 조각) 단위로 처리한다. 토큰이 적을수록 비용이 낮고, 같은 창에 더 많은 정보를 담을 수 있다.


HTML로 제목을 쓰면

<h1>제목</h1>

5개 이상의 토큰이 든다.


마크다운은

# 제목

2개면 된다.


같은 뜻, 절반 이하의 토큰. 수천 줄의 문서에서 이 차이가 누적되면 결정적이다.

실제 정리된 마크다운은 비정형 텍스트 대비 검색 정확도를 최대 35% 높이고, 토큰 사용량을 20-30% 줄인다. 다양한 기호가 LLM에게 "여기가 중요하다", "여기서 주제가 바뀐다"는 의미 신호가 되기 때문이다 .


여기에 RLHF(사람이 좋은 답변에 점수를 매겨 모델을 훈련하는 방식)가 마크다운 출력을 더 강화한다. OpenAI, Anthropic 같은 회사는 모델에게 "깔끔하게 구조화된 답변을 내놓아라"고 가르친다. 그 '구조화'의 언어가 마크다운이다.


LLM이 마크다운으로 학습하고, 마크다운으로 출력하고, 그 출력이 다시 학습 데이터가 된다. 자기 강화 순환이다.

그렇다면 마크다운이 아닌 문서는 AI 앞에서 어떻게 될까.



레거시 문서의 비극 — PDF, DOCX, HWP가 깨지는 이유


우리가 매일 쓰는 문서 포맷 — PDF, DOCX, HWP.


이 포맷들은 '사람의 눈'을 위해 설계되었다. 화면에 깔끔하게 보이는 게 목표다. 글자 크기, 줄 간격, 여백, 페이지 번호. 전부 시각적 레이아웃 정보다.


문제는 AI가 눈으로 읽지 않는다는 것이다. PDF의 경우. 내부적으로 텍스트가 좌표값과 함께 저장된다. "이 글자를 (x=72, y=340)에 그려라"가 PDF의 언어다. AI가 이걸 읽으면 문단 순서가 뒤섞인다. 표의 행과 열이 풀어진다. 제목과 본문의 구분이 사라진다.

기본 파서(문서 해독기)로 복잡한 PDF를 읽으면 표 구조가 통째로 소실된다.

DOCX의 경우 겉은 깔끔하지만 내부는 태그 묶음(XML)이다. 스타일 정보, 서식, 변경 기록이 실제 텍스트보다 많다. AI가 봐야 하는 '의미'가 '장식' 속에 파묻힌다.


HWP의 경우 한국 특수 상황이 있다. 공공기관 행정문서의 91%가 HWP·PDF 형식이다. 공무원 10명 중 7명이 이미 AI를 쓰고 있다. 그런데 정작 업무 문서는 AI가 읽을 수 없는 포맷이다. HWP는 폐쇄형 바이너리 포맷이다. 글자, 문단, 표, 서식이 하나의 데이터 덩어리로 묶여 있다. AI가 읽으려면 파일을 열고, 구조를 해석하고, 텍스트와 의미를 다시 분리해야 한다.


이 문제는 AI 검색 시스템(RAG)에서 직격탄이 된다. 문서 해독이 깨지면 쪼개기(chunking)가 엉망이 된다. 검색이 엉뚱한 조각을 가져온다. LLM이 없는 내용을 지어내는 오류(hallucination)를 일으킨다.

아무리 좋은 모델을 써도 입력 데이터가 깨져 있으면 답이 없다.



마크다운 퍼스트 — 변환 도구의 부상

업계는 이 문제를 알고 있다. 해법은 명확하다. 모든 문서를 마크다운으로 바꿔서 AI에게 주는 것이다.

마이크로소프트가 2024년 MarkItDown을 오픈소스로 공개했다. PDF, DOCX, PPTX, XLSX, HTML은 물론 이미지와 오디오까지 마크다운으로 변환한다. AI 도구와 직접 연결되는 MCP 서버도 지원한다.


IBM의 오픈소스 Docling은 더 정교하다. AI 기반 레이아웃 분석 모델로 PDF 안의 표와 구조를 살려 마크다운으로 변환한다. Google Vertex AI도 레이아웃 인식 문서 분할을 도입했다. 제목, 소제목, 목록, 표를 인식해서 같은 구조 안에 있는 텍스트끼리 묶는다.

흐름은 결국 모든 문를 마크다운을 거쳐 AI에게 도달하게 수렴한다. 개인 도구 생태계에서도 같은 흐름이 보인다. Obsidian, Notion, LogSeq — 최근 뜨는 노트 앱은 전부 마크다운 기반이다. 기술 문서도 마크다운 기반 사이트 생성기(Docusaurus, MkDocs, Hugo)로 이동하고 있다.

마크다운이 이기는 이유는 단순하다. 텍스트라서 어디서든 읽히고, 구조가 있어서 AI가 이해하고, 가벼워서 토큰을 아낀다.



마무리

마크다운은 2004년에 만들어진 단순한 텍스트 약속이다.

20년 뒤, 이 약속은 LLM의 학습 데이터가 되고, 출력 형식이 되고, 에이전트 지시 체계의 표준이 되었다. PDF와 DOCX와 HWP는 마크다운으로 변환되어야 비로소 AI에게 도달한다.

마크다운을 아는 것은 개발자만의 기술이 아니다. AI에게 지시할 때 쓴다. AI의 출력을 읽을 때 쓴다. 문서를 AI가 이해하는 형태로 만들 때 쓴다.

배우는 데 5분. 쓸 수 있는 곳은 무한하다.



참고 자료

[1] "Markdown" Wikipedia, 2025. https://en.wikipedia.org/wiki/Markdown

[2] "GitHub Flavored Markdown Spec" GitHub, 2017. https://github.github.com/gfm/

[3] "Stack Overflow Developer Survey 2025" Stack Overflow, 2025. https://survey.stackoverflow.co/2025/

[4] "Boosting AI Performance: The Power of LLM-Friendly Content in Markdown" Webex Developers Blog, 2025. https://developer.webex.com/blog/boosting-ai-performance-the-power-of-llm-friendly-content-in-markdown

[5] "Why Markdown is the best format for LLMs" Wetrocloud, 2025. https://medium.com/@wetrocloud/why-markdown-is-the-best-format-for-llms-aa0514a409a7

[6] "Marking Up the Prompt: How Markdown Formatting Influences LLM Responses" Neural Buddies, 2025. https://www.neuralbuddies.com/p/marking-up-the-prompt-how-markdown-formatting-influences-llm-responses

[7] "Fix RAG Hallucinations at the Source: Top PDF Parsers Ranked 2025" InfinityAI, 2025. https://infinityai.medium.com/3-proven-techniques-to-accurately-parse-your-pdfs-2c01c5badb84

[8] "공무원 10명 중 7명은 AI 사용 중… 그러나 행정문서의 91%는 AI가 읽지 못한다" 한국딥러닝, 2025. https://www.koreadeep.com/blog/ai-administration-documents

[9] "AI 학습 장애물로 지적받은 HWP 문서 … 한컴 '호환성 문제 없다'" 뉴데일리, 2025. https://biz.newdaily.co.kr/site/data/html/2025/12/18/2025121800248.html

[10] "Microsoft MarkItDown" GitHub, 2025. https://github.com/microsoft/markitdown

[11] "Using CLAUDE.MD files: Customizing Claude Code for your codebase" Anthropic, 2025. https://claude.com/blog/using-claude-md-files

[12] "Improve your AI code output with AGENTS.md" Builder.io, 2025. https://www.builder.io/blog/agents-md

keyword
작가의 이전글LLM 뒤에 붙은 숫자 - 파라미터