- Mô hình lập trình dạng tác nhân nhắm tới các tác vụ phát triển phức tạp trong thế giới thực, được tối ưu hóa cho môi trường Codex
- Trong các tác vụ kéo dài, nén ngữ cảnh giúp duy trì mạch ngữ cảnh, nhờ đó mạnh hơn với các thay đổi lớn như refactoring và migration
- Cải thiện hiệu năng tổng thể trên môi trường Windows gốc, đồng thời tăng cường năng lực thị giác để hỗ trợ diễn giải ảnh chụp màn hình, bản vẽ, biểu đồ và UI
- Đạt hiệu năng hàng đầu trên SWE-Bench Pro và Terminal-Bench 2.0
- Nâng mạnh năng lực an ninh mạng cho mục đích phòng thủ, đồng thời áp dụng phương thức triển khai kết hợp ưu tiên người dùng trả phí và truy cập dựa trên độ tin cậy để cân nhắc khả năng bị lạm dụng
Tổng quan
- Công bố GPT-5.2-Codex, một mô hình được thiết kế để xử lý các tác vụ kỹ thuật phần mềm phức tạp trong thế giới thực
- Dựa trên GPT-5.2 và được tối ưu cho công việc lập trình dạng tác nhân trong môi trường Codex
- Thông qua nén ngữ cảnh, mô hình mang lại hiệu năng ổn định trong các tác vụ kéo dài và được tăng cường khả năng xử lý các thay đổi mã nguồn quy mô lớn
- Hiệu năng tổng thể trên môi trường Windows đã được cải thiện, đồng thời năng lực an ninh mạng cũng được tăng cường
Mở rộng ranh giới của kỹ thuật phần mềm
- Mô hình được phát triển dựa trên thế mạnh về công việc dựa trên tri thức chuyên môn của GPT-5.2 và hiệu năng lập trình dạng tác nhân cùng khả năng tận dụng terminal của GPT-5.1-Codex-Max
- Mục tiêu là hoạt động như một đối tác đáng tin cậy trong các tác vụ lập trình kéo dài, dựa trên khả năng hiểu ngữ cảnh dài hạn, độ ổn định khi gọi công cụ, cải thiện độ chính xác và nén gốc
- Đồng thời cũng hướng tới việc duy trì hiệu quả token trong quá trình suy luận
- Việc tăng cường năng lực thị giác giúp nâng cao độ chính xác khi diễn giải ảnh chụp màn hình, bản vẽ kỹ thuật, biểu đồ và giao diện UI được chia sẻ trong các phiên lập trình
- Dựa trên các tính năng được giới thiệu trong GPT-5.1-Codex-Max, mô hình có thể thực hiện lập trình dạng tác nhân hiệu quả và ổn định hơn ngay cả trên Windows gốc
Hiệu năng benchmark
- Đạt hiệu năng hàng đầu trên SWE-Bench Pro và Terminal-Bench 2.0
- SWE-Bench Pro là bài đánh giá tạo bản vá để giải quyết các tác vụ kỹ thuật phần mềm thực tế khi được cung cấp kho mã nguồn
- Terminal-Bench 2.0 kiểm tra hiệu năng tác nhân AI trong môi trường terminal thực tế, bao gồm biên dịch mã, huấn luyện mô hình và cấu hình máy chủ
An ninh mạng trong thế giới thực
- An ninh mạng mạnh mẽ là yếu tố thiết yếu để bảo vệ các hệ thống cốt lõi và dữ liệu nhạy cảm của xã hội hiện đại
- Lỗ hổng có thể không bị lộ diện trong thời gian dài, và quá trình phát hiện, xác minh, sửa lỗi phụ thuộc nhiều vào các kỹ sư có công cụ phù hợp cùng cộng đồng các nhà nghiên cứu bảo mật độc lập
- Trong trường hợp ngày 11 tháng 12 năm 2025, khi nhóm React công bố 3 lỗ hổng bảo mật ảnh hưởng đến các ứng dụng dựa trên React server components, không chỉ bản thân lỗ hổng mà cả quá trình phát hiện cũng thu hút sự chú ý
-
Trường hợp phát hiện lỗ hổng React
- Andrew MacPherson, nhà nghiên cứu bảo mật tại Privy, công ty con của Stripe, đã sử dụng GPT-5.1-Codex-Max trong Codex CLI để phân tích React2Shell
- Codex được sử dụng theo quy trình bảo mật tiêu chuẩn như thiết lập môi trường kiểm thử cục bộ, phân tích bề mặt tấn công và fuzzing dựa trên đầu vào bất thường
- Trong quá trình tái hiện React2Shell, một hành vi ngoài dự kiến đã được xác nhận, và chỉ trong một tuần đã dẫn tới việc phát hiện 3 lỗ hổng chưa từng được biết đến trước đó
- Các lỗ hổng được phát hiện đã được công bố cho nhóm React theo cách có trách nhiệm
- Cũng bao gồm việc chia sẻ phiên Codex như một ví dụ cho thấy quy trình xác minh lỗ hổng của nhà nghiên cứu bảo mật có thể được rút ngắn đến mức nào
Năng lực an ninh mạng tiếp tục phát triển
- Từ GPT-5-Codex, năng lực an ninh mạng bắt đầu được cải thiện rõ rệt; đến GPT-5.1-Codex-Max có bước nhảy lớn, và ở GPT-5.2-Codex cũng đã ghi nhận những cải thiện rõ ràng
- Các mô hình trong tương lai được kỳ vọng sẽ tiếp tục xu hướng này, và việc lập kế hoạch cùng đánh giá đang được tiến hành với giả định có thể đạt mức “cao” về năng lực an ninh mạng trong hệ thống đánh giá mức độ sẵn sàng
- GPT-5.2-Codex vẫn chưa đạt tới mức “cao”, nhưng công tác chuẩn bị vẫn đang tiếp tục với cả những mô hình trong tương lai có thể vượt qua ngưỡng đó
Kết luận
- GPT-5.2-Codex cho thấy xu hướng mở rộng cách AI tiên tiến đóng góp trong lĩnh vực kỹ thuật phần mềm và an ninh mạng
- Đồng thời hỗ trợ nhà phát triển và người chịu trách nhiệm bảo mật giải quyết các bài toán phức tạp, dài hạn, công cụ phục vụ nghiên cứu bảo mật có trách nhiệm cũng được tăng cường thêm một bước
1 bình luận
Ý kiến trên Hacker News
Nếu có ai từ OpenAI đọc được, xin hãy đừng động vào khả năng suy luận (reasoning)
Codex thực sự xuất sắc trong việc tìm ra bug và các điểm không nhất quán trong code hay toán học
Nếu Claude Code mạnh ở “sinh code”, thì Codex/GPT5.x áp đảo ở khoản phát hiện vấn đề
Tôi nghĩ chất lượng quan trọng hơn tốc độ
Ban đầu tôi nghi ngờ Codex, nhưng giờ tôi bắt đầu mọi công việc lập trình với Codex
Nó không hoàn hảo, nhưng cho kết quả đáng kinh ngạc trong refactor, bắt đầu dự án mới, hay xử lý công nghệ lạ
Đặc biệt là nó giúp giảm sự trì hoãn (procrastination). Những việc lớn và mơ hồ chỉ cần ném cho Codex là nó tạo được một điểm khởi đầu tốt
Codex 5.2 đã cải thiện chất lượng rất nhiều, đến mức giờ tôi giao luôn việc viết code cho nó
Khi cùng nó lên kế hoạch và thảo luận thiết kế, gần như chẳng còn lý do gì để tự viết code nữa
Điều thú vị là cuối cùng đánh giá hiệu năng khách quan lại rất khó
Nhưng cốt lõi là tốc độ của vòng phản hồi. Build và test càng nhanh thì các công cụ coding dạng agent càng hiệu quả
Các chỉ dẫn rõ ràng như Agents.md rất hữu ích
Sau khi chuyển từ Claude Code sang Codex CLI, tôi đã dựng một môi trường chạy Codex dựa trên container
Có thể chạy bằng nhiều cách như timer, trigger tệp, gọi API, chế độ CLI, v.v.
codex-container có hơn 300 công cụ MCP
Nó hỗ trợ nhiều tính năng như crawling, tìm kiếm Google, Gmail/GCal/GDrive, Slack, embedding, phiên âm, v.v.
Các tác vụ nguy hiểm về bảo mật được thử nghiệm an toàn bằng cô lập container
Cũng có thể crawl bằng trình duyệt headless với gnosis-crawl
Theo kinh nghiệm của tôi, các mô hình GPT phù hợp với phát triển backend hơn Claude rất nhiều
Chậm hơn nhưng logic rõ ràng và dễ bảo trì hơn
Tôi dùng kiểu quy trình là lập kế hoạch với Claude, thực thi bằng Codex, rồi quay lại Claude để review code
Sẽ tốt hơn nếu Codex CLI được cập nhật trên homebrew cùng lúc với npm
Claude thì vẫn còn quá nhiều chi tiết thừa (fluff) và thiết kế quá mức
Claude hay chỉ ra những thứ lặt vặt, còn Codex tìm được những vấn đề thực sự quan trọng
Xét về mặt bảo mật, tôi thấy tiếc vì các mô hình OpenAI hạn chế quá mức các tác vụ tấn công (offensive)
Tôi nghĩ để phòng thủ thì vẫn cần một mức mô phỏng tấn công nhất định
Tôi nghĩ chỉ cho chuyên gia đáng tin cậy truy cập là một cách tiếp cận hợp lý
Việc đưa “an ninh mạng” ra tiền tuyến nghe khá thú vị
Tự động hóa phân tích bảo mật đã vượt qua điểm tới hạn, và tôi nghĩ tự động hóa tác vụ lặp lại còn quan trọng hơn sự tiến bộ của mô hình
Phần lớn việc phân tích lỗ hổng là các tác vụ đơn giản có thể tự động hóa, và loại bỏ chúng sẽ giúp con người tập trung vào phân tích sáng tạo
Với tôi, Codex luôn kém hơn mô hình cơ sở
Trong CLI nó quá vội vàng muốn viết code
Tôi chỉ hỏi một câu đơn giản mà nó cũng cố sửa file, khá bất tiện
Hiện tại nếu yêu cầu nó chỉ sửa file .md thì cũng kiểm soát được phần nào
Tôi nghĩ chính sách cho phép truy cập mô hình phục vụ nghiên cứu bảo mật theo hình thức mời là hợp lý
Nếu “căn chỉnh an toàn” quá đà thì có thể làm giảm khả năng phân tích bảo mật
Chỉ cần qua quy trình KYC thì có thể vừa tạo ra kết quả nghiên cứu tích cực vừa giảm mức độ phơi nhiễm rủi ro
Rủi ro “dual-use” không có nghĩa là kỹ thuật tấn công mới, mà là hạ thấp rào cản thực thi
Cùng một chức năng có thể giúp bên phòng thủ phân tích lỗ hổng, nhưng với bên tấn công lại trở thành công cụ tấn công tự động
Vì vậy kiểm soát phân phối và ghi log là rất quan trọng
Tôi đã thử GPT‑5.1 qua plugin Codex trong VSCode, và đó thật sự là một trải nghiệm như ma thuật
Tôi vẫn chưa cảm nhận được khác biệt lớn ở 5.2, nhưng sẽ còn tốt hơn nữa nếu tính năng được mở rộng đến mức như Cursor hay Kilo Code
Trước đây tôi từng nghĩ OpenAI đã tụt lại phía sau, nhưng 5.1 vượt trội hơn Gemini rất nhiều