[논문 리뷰] A Comprehensive Survey on Multimodal Retrieval-Augmented Generation

Multimodal RAG 서베이 논문 리뷰입니다.
논문 링크: https://arxiv.org/pdf/2502.08826

*제 관심 분야가 텍스트 / 이미지 정도여서 오디오 등.. 다른 모달리티에 대한 내용은 빠질 수 있습니다.

논문 개요

LLM은 큰 발전을 이루었으나 static 학습 데이터에 대한 의존으로, hallucination과 outdated 정보로 인한 내부적 한계를 가지고 있다. RAG (Retreival-Augmented-Generation)은 이런 이슈들을 외부 지식을 활용하여 사실적 근거를 강화함으로써 해결한다.

멀티모달 학습의 발전으로, text, image, audio, video 등 여러 모달리티를 활용하는 방법론이 RAG에도 도입되고 있다. 하지만 cross-modal alignment와 추론의 부분에서 기존 단일 모달에서는 볼 수 없던 새로운 챌린지들이 존재한다.

본 논문에서는 멀티모달 RAG의 전반적인 내용을 구조화하여 소개한다.

배경 지식

트랜스포머 아키텍쳐와 컴퓨터 자원, 대용량의 학습데이터로 언어 모델은 정말 비약적인 발전을 이루었다. 특히나 Large Language Models (LLMs)은 NLP 분야의 한단계 도약을 이루었다.

허나, 이러한 발전에도 불구하고 여전히 다음과 같은 문제점들은 존재한다.

hallucination
out-dated knowledge,
lack of verifiable reasoning

Retreival-Augmented-Generation (RAG)

RAG는 관련된 외부지식을 검색하여 사용함으로써 hallucination을 줄이고, factual accuracy를 향상시켰다. 검증 가능한 출처에 기반한 응답을 생성하며 지식 집약적 작업을 강화한다.

RAG 시스템은 retriever-generator 파이프라인을 가진다.

Retriever는 임베딩 모델을 활용하여 외부 지식베이스에서 관련 있는 문서를 식별하고, 정밀도를 높이기 위해 re-ranking 기법을 적용한다.
이렇게 검색된 문서들은 Generator에게 제공되며, Generator는 이 맥락적 정보를 활용해 더 풍부하고 일관성 있는 응답을 생성한다.

Multimodal Learning

언어모델의 발전과 더불어 멀티모달 분야도 빠르게 발전하고 있다.

당연하게도 그 스타트를 크게 시작한것은 CLIP 모델이며, 많은 분들이 이미 아시리라 생각한다. visual과 textual 모달리티를 constrastive learning으로 정렬시킴으로써 그 후에 나온 많은 논문들에 영향을 주었다.

text, image, audio, video 를 함께 처리할 수 있는 멀티모달 분야는 앞으로 나아가야할 artificial general intelligence (AGI)의 핵심 요소 중 하나로 손꼽히고 있다.

*AGI: 인간처럼 다양한 지적 작업을 이해하고 수행할 수 있는 인공지능 시스템. 특정 작업만 수행하는 현재의 ANI (artificial narrow intelligence)와는 달리 여러 분야에 걸친 새로운 문제들을 해결할 수 있는 능력을 목표로 한다.

Multimodal RAG

GPT-4는 텍스트와 이미지를 함께 처리하며 인간 수준의 성능을 달성하였고, 이는 멀티모달 뷴야에서 하나의 이정표가 되었다. 이러한 흐름속에서, 멀티모달 RAG는 이미지, 오디오, 구조화 데이터와 같은 다양한 소스를 통합하여 contextual grounding를 풍부하게 하고, 답변 생성 품질을 향상시킨다.

하지만 모달리티 선택, 모달 간 효과적인 융합, 교차 모달 관련성 관리와 같은 새로운 챌린지들이 존재한다.

Multimodal RAG Formulation

Multimodal RAG 시스템은 아래와 같은 순서로 진행된다.

멀티모달 외부 지식을 인코딩하여 저장한다.
입력 쿼리도 같은 의미 공간으로 인코딩한다.
외부 지식과 입력 쿼리의 유사도를 비교하여, 필요한 외부 정보인지 식별한다
필요한 외부 정보와 입력 쿼리를 Generator에 제공하여 출력값을 얻는다.

위의 단계들을 수식으로 표현해보자.

참고할 외부 지식, D = {d1, d2, ..., dn}
q (multimodal input) -> multimodal RAG system -> r (multimodal output)

한줄로 정리하면, Multimodal RAG는 input q에 대해 D를 참고하여 output r을 생성한다. 여기서 d는 모두 하나의 모달리티 일 수 있지만, 최근 연구 및 실제 시나리오들에서는 이미지, 텍스트 등의 다양한 모달리티를 가지는 경우도 많다.

이렇게 외부 지식(D)이 다양한 모달리티를 가지는 경우 크게 2가지 방법으로 대응한다.

문서를 모달리티별 하위 문서(modality-specific sub-documents)로 분해
- 이 경우 각 모달리티별로 별도의 전용 인코더를 사용한다.
- 쿼리 q도 마찬가지로 모달리티별로 인코딩한다.
- 다른 모달리티의 벡터를 같은 의미 공간(shared semantic space)으로 정렬하도록 학습된 모델 사용
여러 모달리티를 동시에 처리할 수 있는 범용 인코더(universal encoder)를 사용

위의 방식을 통해 d는 알맞은 인코더를 통해 z로 변환된다.

z = Enc(d)
Z = {z1, z2, ..., zn}
각 z는 모두 공통 의미 공간에 존재한다.

다음으로, 외부문서 D를 공통 의미 공간에 맵핑한 Z를 입력 쿼리인 q와 유사도를 계산하여, 입력에 관련된 문서인지 식별한다.

e = Enc(q)
score = s(e, z)

retrieval-augmented multimodal context인 X를 얻는다.

X = {di ∈ D | s(e, z) ≥ τ}
이때, 모달리티별로 유사도 threshold를 다르게 설정하는 경우가 많다.

최종적으로 X와 입력 쿼리 q를 사용하여 최종 출력인 r을 생성한다.

G: generative model
r = G(q, X)

Key Innovations and Methodologies

Retrieval Strategy

1. Efficient Search and Similarity Retrieval

최근의 멀티모달 RAG 시스템은 다양한 input 모달리티를 공통 임베딩 공간으로 인코딩하여 cross-modal retrieval이 가능하게 설계된다. 아래는 이와 관련된 이정표들을 제시한 논문들의 간략 소개이다.

CLIP-based: 검색 정확도와 computational cost 사이 균형을 맞추는 데 어려움이 존재
BLIP-inspired: 학습 시 cross-modal attention을 적용하여 visual/text 피쳐 사이의 alignment를 강화함으로써 위의 문제를 일부 해결
높은 정확도와 효율성을 동시에 달성하기 위해 아래와 같은 논문들이 등장
- MARVEL: contrastive retrieval 프레임워크
- Uni-IR: hard-negative mining과 균형 샘플링 전략을 통해 Inter-modal discrimination 향상
  - Inter-modal discrimination: 서로 다른 모달리티 사이에서 정확하게 관련 있는 쌍을 구분하고, 관련 없는 쌍을 멀리 떨어뜨리는 능력

추가적으로 수백만 개 이상의 임베딩을 대상으로 직접 검색(direct search)을 수행하려면 유사도를 빠르게 계산해야한다.

Maximum Inner Product Search(MIPS) based: 쿼리 벡터와 데이터셋 벡터 간 내적이 최대인 top-k 검색
- 상위 k개의 내적을 근사하여 서브선형(sublinear) 조회를 가능하게 한다
- 대규모 MIPS에서는 완전 정확(top-k) 검색보다 속도/메모리 우선으로 근사 검색을 하므로, 어느 정도 양자화는 필요
- 하지만, 거친 양자화(coarse quantization)는 재현율(recall)을 저하시킬 수 있다.
- 분산 MIP 기법, approximate MIPS 등 여러 변형이 있음
adaptive quantization: 임베딩 분포가 밀집된 영역에 동적으로 비트를 할당하여, 정적 스킴보다 재현율 개선
- 정적 스킴: 모든 벡터와 모든 차원에 동일한 비트(bit)를 할당
- adaptive quantization
  - 벡터가 밀집된 영역(dense region)에서는 더 많은 비트를 사용하여 임베딩 디테일 최대한 남기기
  - 벡터가 희소한 영역(sparse region)에서는 적은 비트를 사용하여 불필요한 메모리 낭비 줄임
Hybrid sparse–dense retrieval: 조밀(dense) 임베딩에 희소(sparse) 단어 신호를 결합하여 성능을 보완
- Dense: BERT, CLIP, BLIP 등 임베딩 생성
- Sparse: TF-IDF, BM25 또는 learned sparse representation
- score(q,d)=λ⋅dense_sim(qdense,ddense)+(1−λ)⋅sparse_sim(qsparse,dsparse)
ScaNN, MAXSIM score, 근사 KNN 방법 등
최근 접근법으로는 학습된 인덱스 구조 (learned index structures) 사용
- 이는 검색 트리 자체를 신경망 파라미터에 임베딩하여, 데이터 분포에 맞춘 검색 경로를 학습하고, 지연 시간(latency)과 저장 공간(storage) 부담을 줄이는 것을 목표로 한다.

2. Modality-Based Retrieval
modality-aware 검색 기법은 각 모달리티의 고유 특성을 활용하여 효율성을 높인다.

Text-centric retrieval

BM25, MiniLM, BGE-M3 → 텍스트 증거 검색
ColBERT, PreFLMR → 토큰 단위 상호작용, 세밀한 의미 매칭
RAFT, CRAG → 정확한 텍스트 인용 보장

Vision-centric retrieval

EchoSight, ImgRet → 참조 이미지를 활용한 시각적 유사 검색

3. Document Retrieval and Layout Understanding

최근 연구는 unimodal 검색을 넘어 문서 전체를 처리하면서 텍스트, 시각 정보, 레이아웃 정보를 통합하는 모델을 다룬다.

ColPali (Faysse et al., 2024)
- page patches를 vision-language backbone으로 임베딩하여 OCR 없이 문서 이미지 검색을 수행
- end-to-end document image retrieval 선도
ColQwen2 (Wang et al., 2024d; Faysse et al., 2024), M3DocVQA (Cho et al., 2024)
- 동적 해상도 처리(dynamic resolution handling) 및 전체 페이지 기반 추론(holistic multi-page reasoning) 기능 추가
ViTLP (Mao et al., 2024), DocLLM (Wang et al., 2024a)
- 생성형 모델을 사전학습하여 텍스트와 공간적 레이아웃 정렬
CREAM (Zhang et al., 2024b)
- coarse-to-fine retrieval 및 효율적인 멀티모달 튜닝을 통해 정확도와 연산 비용 균형
mPLUG-DocOwl 1.5, 2 (Hu et al., 2024a, 2024b)
- 다양한 문서 형식(예: 송장, 양식)에서 OCR 의존 없이 구조 학습(structure learning) 통합
SV-RAG (Chen et al., 2025a)
- MLLM의 내재적(retrieval) 능력 활용
- dual LoRA adapter: 하나는 증거 페이지 검색용, 다른 하나는 질문 응답용

4. Re-ranking and Selection Strategies

RAG에서는 단순히 관련 정보를 찾는 것뿐 아니라, 검색된 후보의 우선순위를 정하는 것도 필요하다. optimized example selection, refined relevance scoring, and filtering 전략을 통해 검색 성능을 향상 시킬 수 있다.

optimized example selection

multi-step retrieval을 사용하여 지도(supervised) 및 비지도(unsupervised) 선택 방식 통합
- 예: Luo et al., 2024a; Yuan et al., 2023
지도 방식
- 멀티모달 입력을 probabilistic control keywords로 향상
통계적 조정
- Bonferroni correction 같은 통계적 방법으로 팩트(factuality) 오류 위험 완화
클러스터링 기반 핵심 프레임 선택
- 동영상 검색에서 다양성 확보 (Dong et al., 2024b)

scoring mechanisms

검색 관련성을 높이기 위해 다양한 점수화 방법 사용
- SSIM, NCC, BERTScore → 문서 재순위화
다중 모달리티 점수 통합 → 더욱 강력한 재순위화
- 예: VR-RAG (Khan et al., 2025)
  - 교차 모달 텍스트-이미지 유사도 + 이미지 내부 유사도(DINOv2) 결합
  - 오픈-보캐뷸러리 인식(open-vocabulary recognition)에서 성능 향상
계층적 후처리(hierarchical post-processing)
- Passage-level 점수 + 답변 신뢰도(confidence score) 통합
의미적 앙상블(semantic ensemble)
- LDRE → 여러 캡션 특징(caption features)을 적응적으로 가중치 반영
전통적 랭킹 함수 통합
- RAGTrans, OMG-QA → BM25 등 활용

filterering methods

저품질 후보 제거 → 검색 품질 향상
Hard-negative mining: GME, MM-Embed
- 모달리티 편향 완화, 모달리티 인식 샘플링(modality-aware sampling) 및 합성 부정 예제(synthesized negatives) 사용
합의 기반 필터링(consensus-based filtering): MuRAR, ColPali
- 소스 출처 및 다중 벡터 매핑 활용 → 유사도 낮은 후보 제거
동적 모달리티 필터링(dynamic modality filtering): RAFT, MAIN-RAG
- 혼란스러운 데이터 무시하도록 학습 → 멀티모달 검색 강건성 향상

Fusion Mechanisms

retrieval 단계 후에는 검색된 멀티모달 정보들을 fusion 하는 단계가 필요하다.

retrieval → fusion → generation/answering

Score Fusion and Alignment
멀티모달 representations를 정렬하는 데에는 정말 많은 방법들이 존재한다. 본 서베이 논문에서는 각 방법론들이 한줄씩으로만 정리되어 있어, 사실상 이해에 큰 도움이 되진 않았다. 각 방법론에 대한 이해를 위해, 대표적인 논문들만 나열하여 정리하겠다. 각 논문의 Alignment 파트를 보시면 도움이 될듯하다.

MA-LLM: https://github.com/boheumd/MA-LMM
VisRAG: https://github.com/OpenBMB/VisRAG
RAG-Driver: https://github.com/YuanJianhao508/RAG-Driver
RA-BLIP: https://arxiv.org/abs/2410.14154

Unified Frameworks and Projections

IRAMIG: 멀티모달 결과를 반복적으로 통합하여 unified knowledge representations 생성, 일관성을 높이지만 여러 번의 추론 패스가 필요
M3DocRAG: 다중 페이지 문서를 단일 임베딩 텐서로 flatten
PDFMVQA: joint-grained retriever를 제안하여, coarse-grained semantic entity와 fine-grained token-level textual content를 결합, 보다 풍부한 통합 표현
DQU-CIR: 복잡한 쿼리에는 이미지를 텍스트 캡션으로 변환하고, 간단한 쿼리에는 텍스트를 이미지 위에 오버레이한 뒤, MLP 학습된 가중치를 통해 임베딩을 융합
SAM-RAG: 이미지에 대한 캡션을 생성하여 멀티모달 입력을 단일 텍스트(unimodal text)로 변환하고, 이후 처리를 수행한다.

Augmentation Techniques

RAG에서 augmentation은 양질의 output을 위해 필수적이다.

구분	RAG (Single-step RAG)	Augmented RAG (Augmentation Techniques 적용)
검색 단계	쿼리 → Retriever → Generator, 한 번만 검색	쿼리 → Retriever → 데이터 정제/구조화/융합 → Generator
데이터 처리	검색된 문서를 거의 그대로 전달	멀티모달 해석, 토큰 단위 정렬, cross-modal fusion 등 수행
목적	빠른 후보 확보, 단순 augmentation	검색 효율 향상, 생성 품질 개선, 멀티모달 정보 통합

Context Enrichment

검색된 지식의 relevance을 높이기 위해, 검색된 데이터를 정제하거나 확장한다.

일반적인 접근법은 추가적인 컨텍스트 요소를 포함시켜, 생성 모델이 더 풍부한 근거를 기반으로 답변을 생성한다.
관련 논문
- EMERGE: 엔티티간 관계와 의미적 설명을 통합하여 컨텍스트를 강화
- MiRAG: 초기 쿼리를 엔티티 검색과 재구성을 통해 확장하여, 시각적 질문 응답(visual QA) 단계에서 성능 향상
- Img2Loc: 프롬프트에 유사 및 비유사 포인트를 모두 포함시켜, 잘못된 위치 후보를 배제하여 정확도 향상

Adaptive and Iterative Retrieval

복잡한 쿼리의 경우, 동적 검색 메커니즘이 효과적이다.

Adaptive Retrieval
검색 과정에서 쿼리의 특성에 맞춰 동적으로(relevance에 맞게) 검색을 최적화

UniversalRAG
- 쿼리의 요구 모달리티(텍스트, 이미지 등)와 세분화 수준(문단 vs 문서, 클립 vs 전체 영상)에 따라 가장 적합한 코퍼스로 쿼리를 라우팅
- 쿼리가 요구하는 지식 유형과 범위를 맞춤 처리
SKURG
- 쿼리 복잡도에 따라 retrieval hop 수를 결정
SAM-RAG / mR2AG
- 외부 지식 필요성을 동적으로 평가
- MLLM을 활용해 관련 없는 콘텐츠 필터링, task에 중요한 정보만 유지
MMed-RAG
- 낮은 관련도의 검색 결과를 버려 검색 정확도 향상
OmniSearch
- 멀티모달 쿼리를 구조화된 하위 질문으로 분해
- 실시간으로 검색 전략 계획 수행

Iterative Retrieval
여러 단계를 거쳐 이전 검색 결과를 피드백으로 활용하여 점진적으로 결과 정제

OMGM
- 지식 기반 비주얼 QA용 다단계 검색
  1. 광범위한 엔티티 검색
  2. 멀티모달 재랭킹(multimodal reranking)
  3. 세밀한 텍스트 필터링(fine-grained filtering) → 최적 지식 도출
- IRAMIG
  - 검색된 콘텐츠 기반으로 쿼리 동적 업데이트
- OMG-QA
  - episodic memory를 활용해 여러 단계 검색 후 연속적 추론 보장
- RAGAR
  - 이전 답변과 멀티모달 분석 기반으로 반복적 검색을 수행하여 컨텍스트 일관성 강화

Generation Techniques

In-Context Learning (ICL)

ICL은 retrieval augmentation과 결합되어, 멀티모달 RAG에서도 추론 성능을 향상시킨다. 검색된 컨텐츠를 few-shot 예제로 활용하여 모델을 다시 학습(retraining)할 필요가 없음

RMR, RA-CM3
- 이 패러다임을 멀티모달 RAG 환경으로 확장
RAG-Driver
- 메모리 데이터베이스에서 driving experiences을 검색하여 ICL을 정교화
MSIER
- 멀티모달 supervised 기반 ICL 예제 검색 프레임워크
- MLLM 스코어러를 사용해 텍스트 및 이미지의 관련성을 평가 → 최적의 few-shot 예제 선택
Raven
- Fusion-in-Context Learning 도입
- 다양한 in-context 예제를 통합하여, 기존 ICL 대비 향상된 성능 달성

Reasoning

추론 방법은 CoT같이 복잡한 문제를 sequential steps로 분해하여, 멀티모달 RAG에서 일관성과 견고성을 향상시킨다.

*Chain of Thought (CoT): 복잡한 추론을 단계별로 분리하여 처리

RAGAR
- 사실 검증(fact-checking) 쿼리 정제
- Chain of RAG와 Tree of RAG 도입 → 분기(branching) 추론 경로 탐색
VisDoM / SAM-RAG
- CoT와 증거 선별(evidence curation), 다단계 검증(multi-stage verification) 통합 → 정확성과 지원 능력 강화
- VisDoM: 핵심 정보가 여러 모달리티에 분산되어 있을 때도 좋은 성능 발휘
LDRE
- LLM을 활용하여 발산적 조합 추론(divergent compositional reasoning) 수행
- 캡션을 dense descriptions과 textual modifications으로 정제
- Zero-shot 합성 이미지 검색에서 우수한 성능 달성

Instruction Tuning
몇몇 연구들은 특정 응용 분야를 위해 generation components을 fine-tuning 또는 instruct-tuning한다.

RA-BLIP
- InstructBLIP의 Q-Former 아키텍처 활용
- 질문 지시에 기반하여 시각적 특징(visual features) 추출
RAGPT
- prompter 기반으로 관련 예시에서 동적 프롬프트 생성
MR2AG / RagVL
- MLLM을 학습시켜
  - 검색(retrieval)을 적응적으로 호출
  - 관련 증거 식별
  - 랭킹 능력 향상 → 답변 정확도 개선
MMed-RAG
- preference fine-tuning 적용
- 검색된 지식과 모델 내부 추론(internal reasoning)의 균형 조정
MegaPairs / Surf
- 기존 LLM 오류를 기반으로 멀티모달 instruction-tuning 데이터셋 구축 → 생성 품질 향상
Rule
- 의료용 대형 비전-언어 모델 최적화
- 직접적 선호도 최적화를 통해 검색된 컨텍스트에 대한 과도한 의존 완화

'컴퓨터공학 > AI' 카테고리의 다른 글

object detection 서베이 논문 리뷰 (0)	2023.09.06
Accelerating Stochastic Gradient Descent using Predictive Variance Reduction (0)	2023.06.25
Adam: A method for stochastic optimization (0)	2023.06.24
SingSGD (0)	2023.06.23
A decision-theoretic generalization of on-line learning and an application to boosting (0)	2023.06.17