Trong RAG đa phương thức (Multimodal), cả Hình ảnh và Văn bản đều được biểu diễn dưới dạng các vector số trong cùng một Không gian nhúng chung (Joint Vector Space).
LLM so sánh khoảng cách góc Cosine để tìm ra tài liệu phù hợp nhất dù truy vấn là chữ nhưng kết quả trả về có thể là biểu đồ.