텍스트 vs 이미지 임베딩, 학술 논문 검색 실험 결과
PDF에서 텍스트를 뽑아 벡터화하는 건 RAG 파이프라인의 기본값이다. Gemini Flash로 학술 논문 PDF를 페이지별로 OCR 돌렸더니 결과가 깔끔했다. 수식도 읽혔고, Figure 캡션도 잡혔다. 텍스트만으로 충분하다고
생각했다.
그런데 같은 페이지의 텍스트 임베딩과 이미지 임베딩을 비교하니 코사인 유사도가 0.642였다. 1에 가까울수록 같다는 뜻이다. 즉 약 36%만큼의 방향 차이가 두 벡터 사이에 존재한다. 코사인 유사도가 정보량의 정확한 비율은 아니지만, 텍스트만으로는 포착하지 못하는 상당한 시각 정보가 있다는 신호다. 깔끔하다고 생각한 건 내 착각이었다.
이 gap이 어디서 생기고, 검색에 어떤 차이를 만드는지 직접 실험한 결과를 정리했다.
실험 대상은 Advanced Functional Materials에 실린 에너지 하베스팅 논문이다. 9페이지짜리 2단 레이아웃에 Figure 8개, SEM 이미지, 전압 그래프, 등가 회로 다이어그램이 빼곡하다. (이 논문을 고른 건 순전히 지인이 작성한 논문이기 때문. 그림이 많아서이기도 하다.)
임베딩 모델은 Google이 2026년 3월에 출시한 gemini-embedding-2-preview. 텍스트, 이미지, 비디오, 오디오를 하나의 시맨틱 공간에 매핑하는 네이티브 멀티모달 임베딩 모델이다. 출력 차원은 3072이다.
텍스트 추출에는 gemini-3-flash-preview를 썼다. Figure가 나오면 "[FigureN: 상세 시각 설명]" 형태로 변환한다.
이렇게 9개 페이지에 대해 3가지 조건을 만들었다.
• Text: LLM이 추출한 페이지 텍스트만 입력
• Image: PDF 페이지 원본 이미지(200 DPI PNG)만 입력
• Multi: 텍스트와 이미지를 동시에 입력
총 27개 임베딩. 이걸로 6가지 분석을 돌렸다.
9개 페이지의 Text↔Image 코사인 유사도 평균은 0.642(σ=0.059)다.
페이지마다 편차가 있는데, Figure가 지배하는 페이지에서 gap이 커진다. 구조 개념도와 전압 그래프 6개가
차지하는 3페이지는 텍스트가 3,371자밖에 안 된다. 반면 이미지는 1,038KB다. 4페이지도 비슷하다. SEM 현미경 사진과 재료별 비교 그래프가 페이지 대부분을 채운다. LLM이 "Figure 1은 구조 개념도와 전압 시계열을 보여준다"라고 요약해도, 그래프 곡선의 형태, SEM 이미지의 질감, 6개 그래프의 공간 배치는 텍스트에 담기지 않는다.
반대로 수식과 이론 전개가 중심인 5페이지는 텍스트가 7,610자에 달한다. 등가 회로 모델과 수식은 텍스트 추출에 유리한 콘텐츠다. 이 페이지에서 Text→Multi 기여도는 0.933으로 전체 최고값을 기록했다.
t-SNE로 27개 임베딩을 2차원에 투영하면 패턴이 선명하다. Text 점들은 넓게 흩어진다 — 각 페이지의 의미적 내용이 다양하기 때문이다. Image 점들은 Figure 페이지끼리 뭉친다 — 시각적 레이아웃이 비슷하기 때문이다. 같은 페이지의 Text와 Image를 잇는 연결선 길이는 일정하지 않다. Figure 중심 페이지일수록 Text와 Image 사이가 멀어진다.
빠지는 36%의 정체는 명확하다. SEM 이미지의 패턴, 그래프 곡선의 형태, 색상 분포, 2단 레이아웃의 공간 구조. 텍스트로 "설명"할 수는 있지만 텍스트 임베딩에 "반영"되지는 않는 정보다.
총 18개의 질문(검색어)을 던져서, 세 가지 검색 방식(Text, Image, Multi) 중 누가 정답을 제일 잘 찾는지 테스트했습니다.
1위 적중률: 내가 원하는 정답을 검색 결과 맨 위(1등)에 딱! 띄워준 확률.
Top-3 / Top-5 적중률: 정답이 1~3등 안, 혹은 1~5등 안에 포함된 확률. (당연히 숫자가 클수록 좋습니다.)
MRR (가장 중요한 점수): 쉽게 말해 "정답이 평균적으로 얼마나 검색창 위쪽에 뜨는가"를 종합적으로 매긴 점수입니다. 1점 만점이며, 1에 가까울수록 사용자가 스크롤을 내릴 필요 없이 정답을 바로 찾을 수 있다는 뜻.
Image 인덱스의 MRR이 0.719로 가장 높다. Text 인덱스와의 절대 차이는 0.088, 상대적으로 약 14% 개선이다.
텍스트로 질문하면 텍스트 인덱스가 유리할 거라고 생각했지만 그렇지 않았다. 이 논문에서 "L-TENG", "voltage", "EDL" 같은 핵심 용어는 거의 모든 페이지에 반복된다. 오히려 텍스트 인덱스에서는 이 용어들이 페이지를 구분하는 힘이 약하다. 서론에도 "전압 출력"이 나오고, 실험 결과에도 나오고, 결론에도 나온다.
반면 각 페이지의 Figure는 시각적으로 고유하다. 3페이지는 구조 개념도와 전압 시계열 6개, 4페이지는 SEM 이미지와 재료별 비교, 7페이지는 COMSOL 시뮬레이션. "전압 출력" 쿼리가 들어오면, 텍스트 인덱스는 여러 페이지가 비슷한 점수로 경합한다. 이미지 인덱스는 전압 그래프가 실제로 있는 페이지가 더 높은 순위로 올라온다.
반복되는 단어에 있어서는 오히려 이미지가 인덱스가 구분하는 힘이 더 컸던 것이다.
다만 이 cross-modal alignment이 모든 상황에서 작동하는 건 아니다. 쿼리→ 문서 검색에서는 유효하지만, 같은 문서 내 모달리티 간 매칭에서는 다른 양상을 보인다.
Text→Image 검색의 Hit@5가 0%다. 9개 페이지 전부에서 같은 페이지의 이미지 임베딩이 Top-5에 들지 못했다. 9페이지 규모의 실험이라 더 넓은 검색 공간에서는 달라질 수 있지만, 이 결과가 가리키는 메커니즘은 분명하다.
유사도가 겹친다. 같은 논문의 페이지들이라 페이지 간 텍스트 유사도(inter-page)가 0.62~0.90으로 높다. 2페이지(서론)와 5페이지(이론)의 텍스트 유사도는 0.898이다. 둘 다 L-TENG, EDL, 전하 이동 같은 개념을 반복 언급하기 때문이다.
그런데 같은 페이지의 Text↔Image 유사도는 평균 0.642다. 0.898과 0.642를 비교하면, 같은 페이지의 이미지보다 다른 페이지의 텍스트가 더 가깝다.
Multi는 반대로 100% 성공한다. 텍스트와 이미지를 모두 반영한 Multi 임베딩은 페이지 고유성을 보존한다. 같은 페이지의 Multi가 다른 페이지의 Text보다 항상 더 가깝다.
RAG 시스템을 설계할 때 이 점을 주의할 필요가 있다. 같은 문서 안에서 "이 텍스트 청크에 해당하는 그림을 찾아줘"라는 크로스모달 검색은 단순 벡터 유사도로는 작동하지 않는다.
Multi 임베딩이 두 모달리티를 모두 담는다면, 검색 성능도 가장 좋아야 하지 않을까?
이번 실험에서는 아니었다. Multi MRR은 0.650으로 Image(0.719)보다 낮다. 두 모달리티를 결합하면 각각의 고유한 특징이 희석된다. 이미지가 가진 시각적 고유성(SEM 패턴, 그래프 곡선)과 텍스트가 가진 의미적 특이성이 평균화되면서 페이지 구분력이 떨어진다.
페이지별 기여도를 보면 이 메커니즘이 드러난다. Figure가 지배하는 3, 4, 7 페이지에서는 Image→Multi 기여도가 Text를 넘어선다. 3페이지는 Image 0.827 vs Text 0.795, 4페이지는 0.837 vs 0.809다. 반면 수식 중심의 5페이지는 Text가 0.933으로 압도한다. 다만 9개 그래프가 있는 6페이지에서는 오히려 텍스트 기여도가 더 높았다(0.857 vs 0.799) — LLM이 그림을 설명할때 파라메트릭 실험 결과를 수치 중심으로 상세히 추출한 덕이다.
흥미로운 점은 Image 기여도의 안정성이다. Image→Multi의 표준편차는 0.014에 불과하다. 페이지가 뭐든 이미지는 일정한 비율로 기여한다.Text→Multi는 σ=0.047로 3.4배 높다. 텍스트는 페이지 내용에 따라 기여도가 크게 흔들린다.
이번 실험에서 Multi 임베딩은 두 모달리티의 장점을 절충했지만, 검색에서는 가장 뚜렷한 단일 모달리티에 미치지 못했다. 시각 콘텐츠 비율이 높은 문서에서 이런 패턴이 나타날 가능성이 있다.
단일 논문 9페이지의 실험이라 일반화에는 한계가 있다. 그래도 실전 설계에 참고할 만한 방향은 보인다.
1. Figure가 풍부한 문서에서는 이미지 인덱싱이 유리하다.
이번 실험에서 이미지 인덱스의 MRR은 텍스트 인덱스를 0.088 앞섰다. 실험 결과 그래프, SEM 이미지, 다이어그램이 풍부한 논문에서 특히 효과적이다. 모든 문서가 아니라 시각 콘텐츠가 정보의 핵심인 문서에 해당한다.
2. 텍스트 쿼리로 이미지 인덱스를 검색하는 것은 실용적이다.
쿼리를 이미지로 변환할 필요가 없다. Gemini embedding의 cross-modal alignment 덕분에 텍스트 쿼리와 페이지 이미지를 같은 공간에서 비교할 수 있다. Top-5 적중률 기준으로 이미지 인덱스(89%)가 텍스트 인덱스(83%)보다 높다.
3. 멀티모달 임베딩을 무조건 쓰는 것은 권하지 않는다.
Multi 인덱스(MRR 0.650)는 Image 단독(0.719)보다 낮았다. 하나의 벡터에 모든 모달리티를 우겨넣으면 고유 특징이 희석된다. 이번 실험에서 직접 검증하지는 못했으나, 텍스트 인덱스와 이미지 인덱스를 별도로 유지하고 검색 시점에 결과를 병합하는 전략이 대안으로 남는다.
4. LLM 텍스트 추출의 한계는 품질이 아니라 모달리티의 문제다.
Gemini Flash의 텍스트 추출은 수식, 표, 캡션에 강하다. 하지만 SEM 이미지의 질감, 그래프의 곡선 패턴, Figure 내 공간 배치는 포착하지 못한다. 텍스트 추출을 아무리 잘 해도 이 gap은 줄어들지 않는다.
RAG 파이프라인을 설계할 때 "일단 텍스트 뽑고 벡터화하자"가 기본값이 되어 있었지만 이번 실험을 하고 나서 그 기본값이 흔들렸다.
이 실험은 단일 논문(에너지 하베스팅 분야) 9페이지가 대상이다. 의학, 컴퓨터 과학, 인문학 등 다른 분야에서는 결과가 다를 수 있다. 검색 공간이 9페이지로 작아 통계적 유의성에도 한계가 있다. 그럼에도 텍스트만으로 문서를 대표할 수 있다는 가정에 의문을 던지기에는 충분한 데이터다.
모든 문서에 텍스트만 있다고 가정한 건 우리 쪽의 착각이었다.