Semantic Chunking Lab

Chọn thuật toán phân tách:

Độ gối đầu (Overlap):20 ký tự

❌ Hạn chế: Dễ cắt đôi câu hoặc cụm từ khóa có nghĩa ở giữa, khiến thông tin bị đứt đoạn, mất ngữ cảnh.

Chunk 1

Hệ thống RAG (Retrieval-Augmented Generation) giúp nâng cao câu trả lời của LLM bằng dữ liệu bên ngoài.

Chunk 2

bên ngoài. Bước đầu tiên trong quy trình là cắt nhỏ tài liệu (Chunking) để biểu diễn dưới dạng các

Chunk 3

dạng các vector. Nếu kích thước cắt quá lớn, mô hình sẽ bị nhiễu thông tin không liên quan. Ngược lại,

Chunk 4

Ngược lại, nếu cắt quá nhỏ, ngữ cảnh quan trọng của câu sẽ bị chia tách dẫn đến câu trả lời thiếu chính

Chunk 5

thiếu chính xác. Do đó, việc chọn lựa chiến lược phân tách dữ liệu đóng vai trò quyết định hiệu năng.

Tổng số Chunks

Giới hạn ngữ cảnh

100 ký tự

Bảo toàn ngữ cảnh

Kém