Chiến Lược Cắt Chunk

Độ gối đầu (Overlap):20 ký tự

Điểm mạnh & Yếu

Hạn chế: Dễ cắt đôi câu hoặc cụm từ khóa có nghĩa ở giữa, khiến thông tin bị đứt đoạn, mất ngữ cảnh.

Bản Đồ Cắt Tài Liệu

Chunk 1

Hệ thống RAG (Retrieval-Augmented Generation) giúp nâng cao câu trả lời của LLM bằng dữ liệu bên ngoài.

Chunk 2

bên ngoài. Bước đầu tiên trong quy trình là cắt nhỏ tài liệu (Chunking) để biểu diễn dưới dạng các

Chunk 3

dạng các vector. Nếu kích thước cắt quá lớn, mô hình sẽ bị nhiễu thông tin không liên quan. Ngược lại,

Chunk 4

Ngược lại, nếu cắt quá nhỏ, ngữ cảnh quan trọng của câu sẽ bị chia tách dẫn đến câu trả lời thiếu chính

Chunk 5

thiếu chính xác. Do đó, việc chọn lựa chiến lược phân tách dữ liệu đóng vai trò quyết định hiệu năng.

Tổng số Chunks
5
Giới hạn ngữ cảnh
100 ký tự
Bảo toàn ngữ cảnh
Kém