❌ Hạn chế: Dễ cắt đôi câu hoặc cụm từ khóa có nghĩa ở giữa, khiến thông tin bị đứt đoạn, mất ngữ cảnh.
Hệ thống RAG (Retrieval-Augmented Generation) giúp nâng cao câu trả lời của LLM bằng dữ liệu bên ngoài.
bên ngoài. Bước đầu tiên trong quy trình là cắt nhỏ tài liệu (Chunking) để biểu diễn dưới dạng các
dạng các vector. Nếu kích thước cắt quá lớn, mô hình sẽ bị nhiễu thông tin không liên quan. Ngược lại,
Ngược lại, nếu cắt quá nhỏ, ngữ cảnh quan trọng của câu sẽ bị chia tách dẫn đến câu trả lời thiếu chính
thiếu chính xác. Do đó, việc chọn lựa chiến lược phân tách dữ liệu đóng vai trò quyết định hiệu năng.