Về Chương 3
Multimodal RAG Mapper

Multimodal RAG

Không gian nhúng chung

Trong RAG đa phương thức (Multimodal), cả Hình ảnh và Văn bản đều được biểu diễn dưới dạng các vector số trong cùng một Không gian nhúng chung (Joint Vector Space).

LLM so sánh khoảng cách góc Cosine để tìm ra tài liệu phù hợp nhất dù truy vấn là chữ nhưng kết quả trả về có thể là biểu đồ.

Không Gian Nhúng 2D (Joint Vector Space)
Văn bản Hình ảnh Truy vấn
Tài chính 2025
Biểu đồ cột doanh số
Kiến trúc RAG
Sơ đồ hệ thống RAG
Kế hoạch 2026
Query
Kết Quả Truy Xuất (Retrieved Chunk Preview)Chờ bấm nút tìm kiếm để xem nội dung tài liệu tương ứng...