So sánh chi phí hoạt động thực tế giữa các LLM hàng đầu dựa trên đầu vào/đầu ra và tối ưu hóa Prompt Caching.
Prompt Caching là công cụ mạnh mẽ giảm chi phí xử lý. Khi chúng ta gửi System prompt cố định, tài liệu tham khảo dài lặp đi lặp lại, nhà cung cấp sẽ lưu đệm và chỉ tính phí khoảng 10-50% giá đầu vào thông thường.
Output Token Premium: Tokens đầu ra luôn có giá đắt hơn gấp 3-5 lần tokens đầu vào vì quá trình sinh từ (Autoregressive Generation) đòi hỏi băng thông và tính toán GPU tuần tự lớn hơn.