Gần đây có một bài viết thú vị xuất hiện trên r/codex.
Một người dùng đăng câu hỏi rằng khi dùng GPT-5.4 trong ChatGPT Pro + Codex thì chỉ thấy ngữ cảnh 258K.
“Tôi nghe nói GPT-5.4 có ngữ cảnh 1M, vậy tại sao ở đây chỉ hiện 258K?”
Thực tế, khi kiểm tra trong Codex CLI hoặc IDE, đôi khi ngữ cảnh mặc định được hiển thị ở mức khoảng 258K.
Cách khắc phục được chia sẻ trong phần bình luận là tự thêm cấu hình trực tiếp.
Ví dụ:
model_context_window=800000
model_auto_compact_token_limit=700000
Nếu thêm các dòng này vào config.toml, một số người chia sẻ rằng có thể mở rộng ngữ cảnh để sử dụng ở mức khoảng 800K.
Một vài điểm đáng chú ý:
• GPT-5.4 được biết là hỗ trợ tối đa khoảng ngữ cảnh 1M token
• Tuy nhiên trong môi trường Codex, cấu hình mặc định đôi khi khởi đầu với giới hạn khoảng 258K
• Nếu chỉnh các giá trị trong config thì có thể dùng ngữ cảnh lớn hơn
Ngoài ra, người dùng cũng để lại ý kiến rằng nếu đặt cấu hình quá sát mức tối đa thì hiệu năng có thể giảm, vì vậy nên chừa một khoảng an toàn.
⸻
Điều khiến cá nhân tôi thấy thú vị
Khi các công cụ AI ngày càng phức tạp hơn,
có vẻ ngày càng nhiều trường hợp mà
“thông số của model = cấu hình mặc định thực tế” không còn đúng nữa.
Đặc biệt trong các môi trường như agentic coding / Codex, có khá nhiều trường hợp phải tự tay chỉnh cấu hình thì mới khai thác được đúng hiệu năng.
Có ai ở đây đã thử tận dụng long context (500K~1M) trong Codex hoặc CLI ngoài thực tế chưa?
Tôi cũng rất tò mò liệu trong workflow phát triển thực tế, khác biệt có rõ rệt hay không.
7 bình luận
Khi dùng
model_context_window=800000, có vấn đề là từ thời điểm đã tiêu thụ khoảng 50% context trở đi, câu trả lời cho câu hỏi hiện tại lại bị chuyển sang tiếp tục câu trả lời của câu hỏi trước đó. Xin lưu ý.Nghe nói nếu tăng vượt quá mức đó thì giá token sẽ tăng gấp đôi, nên bạn hãy kiểm tra lại cho kỹ.
Tôi đã dùng thử rồi, bản thân gpt-5.4 thì hiệu năng rất đáng hài lòng nhưng đôi khi lại tạo câu trả lời cho một tin nhắn trước đó chứ không phải tin nhắn ngay trước đó, nên cũng không hẳn là quá ổn định. Cũng có báo cáo nói rằng khi dùng long context thì hiệu năng trong bài toán needle in the haystack giảm xuống dưới 50%, nên tôi không thực sự muốn khuyến nghị nó. Nhưng tôi cũng không chắc bản thân bài toán needle in the haystack có phải là benchmark phù hợp để đo hiệu năng long-context hay không. Dù sao thì Codex cũng không mất nhiều thời gian cho compaction, và sau khi compact xong cũng không dễ quên ngữ cảnh, nên cứ dùng bình thường cũng không thấy bất tiện gì lớn.
Nếu có harness phù hợp thì có vẻ vẫn không tệ. Vì bản thân nó ít bị compaction hơn nên vấn đề mất mát ở giữa cũng giảm bớt..
Tôi còn không biết là có thể dùng ngữ cảnh 1M nữa.
Tôi đã xác nhận rằng điều này cũng được áp dụng nguyên vẹn cho ứng dụng codex dành cho macOS.
À.. bảo sao tôi cũng thấy cửa sổ ngữ cảnh quá nhỏ, hóa ra là phải thiết lập riêng.