- Trong 5 năm qua, các công ty đã cạnh tranh mở rộng cửa sổ ngữ cảnh từ 2K lên 2M
- Tuy nhiên, nhiều người chỉ ra rằng kích thước cửa sổ ngữ cảnh được công bố và kích thước thực sự có thể sử dụng là khác nhau
- Khi so sánh hiệu năng thực tế của các mô hình lớn như Gemini 2.5 Pro, GPT-5, Claude, Qwen, Llama, có rất nhiều trải nghiệm cho thấy chúng khá khác so với những gì được quảng bá
- Có sự đối lập giữa góc nhìn hoài nghi rằng “ngữ cảnh quy mô lớn có ý nghĩa nhưng trên thực tế chỉ hoạt động tốt quanh mức 4–8k” và những trải nghiệm tích cực cho rằng “có thể dùng thực tế tới hàng trăm nghìn token”
Các điểm chính
-
1. Kích thước ngữ cảnh thực sự có thể sử dụng
- Dòng thời gian sử dụng thực tế là 1k→2k→4k→8k→8k→8k→32k→40k, riêng Gemini 2.5 Pro có thể đạt 80k
- Phạm vi sử dụng thực chất hiện vẫn chỉ ở mức 4–8k
- “Kích thước gắn nhãn là vô nghĩa, độ dài ngữ cảnh có thể sử dụng mới quan trọng”
- Thừa nhận khoảng cách giữa kích thước được tuyên bố và kích thước dùng được trên thực tế
-
2. Hiệu năng của Gemini
- Gemini 2.5 Pro ổn định tới 250k, có thể dùng ở 500k, còn ở 800k thì vẫn có phản hồi nhưng độ chính xác giảm
- Tới 200k mức suy giảm là rất chậm, và sau đó Gemini vẫn là mô hình nổi trội nhất
- Gemini không dùng mở rộng RoPE mà dùng kiến trúc riêng như sequence sharding, trong đó một số layer thực hiện dense attention trên toàn bộ token
-
3. Đánh giá GPT-5
- GPT-5-thinking hoạt động tốt ngay cả trên 200k
- Rất chính xác tới 100k nhưng suy giảm hiệu năng sớm hơn Gemini
-
4. Đánh giá Claude
- Có ý kiến chung rằng Claude yếu trong việc duy trì ngữ cảnh lớn
- Dễ nhớ sai chi tiết, thứ tự sự kiện, tên phương thức hoặc phát sinh ảo giác
- Claude Sonnet 4 gặp vấn đề bộ nhớ ngay cả ở 4k, còn kém hơn Qwen 32b
- “Claude thực sự rất tệ, tôi đã chuyển sang Qwen”
-
5. Qwen, Mistral, Gemma, v.v.
- Mistral Large và Gemma3 27B có vẻ ổn ở 32k
- Gemma3 thuộc nhóm tệ nhất, khuyến nghị tham khảo benchmark Fiction.live
-
6. Dòng Llama
- Llama 4 Scout tuyên bố hỗ trợ 10 triệu token
- Phạm vi thực sự có thể sử dụng nhỏ hơn rất nhiều. Trong bài test ngữ cảnh 0.5M, mô hình chỉ tóm tắt tài liệu cuối cùng → không phù hợp cho cả codebase lớn
-
7. Trải nghiệm chi tiết theo từng mô hình
- “Tính nhất quán (coherence) ≠ khả năng sử dụng thực tế”, ngay cả Gemini 2.5 Pro cũng gặp khó trong việc theo dõi ngữ cảnh khi tóm tắt tiểu thuyết 10–20k
- Gemini 1.5 Pro được đánh giá là yếu hơn ở các mặt khác nhưng diễn giải ngữ cảnh dài tốt hơn 2.5 Pro
- Các công cụ coding dạng agent có system prompt dài hơn 20k, vì vậy nhận định rằng chỉ có thể dùng 4–8k là không đúng. Tuy vậy, phần ngữ cảnh ban đầu vẫn ổn định nhất
Khác
- Chia sẻ công cụ/tài nguyên:
- Công cụ tạo đồ họa động: Remotion
- Tài liệu liên quan đến suy giảm hiệu năng: LoCoDiff-bench
Kết luận
- Đồng thuận chung: giữa “thông số chính thức” và “hiệu năng sử dụng thực tế” của mỗi mô hình có khác biệt rất lớn
- Gemini: nhìn chung được đánh giá là ổn định nhất và mạnh trong ngữ cảnh dung lượng lớn
- GPT-5: rất tốt ở mức trung bình nhưng thời điểm suy giảm đến sớm hơn Gemini
- Claude: bị đánh giá thấp nhất về khả năng tận dụng ngữ cảnh dài
- Llama/Gemma: khả năng sử dụng thực tế chưa tương xứng với thông số hỗ trợ
3 bình luận
Thật ra tôi không cảm nhận được sự khác biệt áp đảo như những gì các benchmark nói.
Cảm giác thực tế chỉ ở mức “tốt hơn một chút” thôi, chứ không khác biệt hẳn.
Ngược lại, vì hiệu năng của các mô hình đang dần được nâng mặt bằng chung nên tôi cũng có cảm giác mọi người đang so sánh khắt khe hơn thôi haha
Cuối cùng thì điều quan trọng vẫn là nó được dùng trong tình huống nào.
Gemini có cửa sổ ngữ cảnh rất lớn nên có vẻ sẽ tốt cho codebase dung lượng lớn hoặc việc duy trì ngữ cảnh dài, còn Claude thì có thế mạnh ở độ chính xác khi lập trình ổn định, nên có lẽ cứ chọn theo đúng nhu cầu sử dụng là được.
Ngoài các chỉ số benchmark AI, có mô hình nào có hiệu năng lập trình trong trải nghiệm sử dụng thực tế tốt hơn Claude không?
Claude tuy có nhược điểm ở ngữ cảnh dài, nhưng có vẻ vẫn là con AI code giỏi nhất.