Attention(Q, K, V) = softmax( (Q * Kᵀ) / √dₖ ) * V
Trong đó, Q (Query) tìm kiếm các từ tương ứng; K (Key) chứa các từ đặc trưng; V (Value) chứa thông tin ngữ nghĩa. Phép nhân ma trận tìm mức độ liên kết giữa chúng.
| Từ Khóa | The | animal | did | not | cross | the | street | because | it | was | too | tired |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| it | 0.01 | 0.65 | 0.01 | 0.01 | 0.02 | 0.01 | 0.05 | 0.02 | 0.15 | 0.01 | 0.02 | 0.05 |
| animal | 0.05 | 0.70 | 0.02 | 0.01 | 0.05 | 0.01 | 0.02 | 0.01 | 0.05 | 0.02 | 0.01 | 0.05 |
| street | 0.01 | 0.02 | 0.01 | 0.01 | 0.20 | 0.15 | 0.50 | 0.01 | 0.05 | 0.01 | 0.01 | 0.02 |
| tired | 0.01 | 0.35 | 0.01 | 0.02 | 0.05 | 0.01 | 0.02 | 0.05 | 0.10 | 0.05 | 0.15 | 0.18 |
| cross | 0.02 | 0.12 | 0.05 | 0.08 | 0.45 | 0.02 | 0.18 | 0.01 | 0.03 | 0.01 | 0.01 | 0.02 |