GPT-5-Codex
(openai.com)- GPT-5-Codex là mô hình được tối ưu cho kỹ thuật phần mềm thực tế, hỗ trợ từ các phiên hội thoại ngắn đến công việc độc lập kéo dài
- Mô hình mới được tăng cường khả năng review code, giúp phát hiện sớm các lỗi quan trọng thông qua việc khám phá phụ thuộc, chạy kiểm thử và so sánh giữa ý định với phần triển khai
- Thể hiện hiệu năng xuất sắc trong các tác vụ như refactor mã quy mô lớn, đồng thời tự động điều chỉnh thời gian làm việc theo yêu cầu của người dùng
- Codex CLI và tiện ích mở rộng IDE đã được cải tổ để phù hợp hơn với workflow kiểu tác nhân, bao gồm đính kèm hình ảnh, theo dõi tiến độ công việc, tìm kiếm web và tích hợp MCP
- Nhờ tích hợp GitHub, giờ đây có thể tự động review PR và đề xuất chỉnh sửa, giúp giảm gánh nặng review cho nhóm và nâng cao độ tin cậy khi phát hành
- Codex hiện đã được bao gồm trong các gói ChatGPT Plus, Pro, Business, Edu, Enterprise
GPT-5-Codex
- GPT-5-Codex là mô hình chuyên biệt cho các tác vụ kỹ thuật thực tế phức tạp (build dự án, thêm tính năng, refactor quy mô lớn, debug, review code)
- Khả năng tuân thủ hướng dẫn trong AGENTS.md đã được cải thiện, nên có thể đạt kết quả mong muốn mà không cần giải thích dài dòng về style code hay độ sạch của mã
- Tự động điều chỉnh thời gian suy luận theo độ khó của công việc
- Với yêu cầu đơn giản thì phản hồi nhanh, còn với tác vụ lớn thì có thể chạy độc lập trong nhiều giờ để cải thiện kết quả
- Được tối ưu cho review code, thực hiện xác minh chính xác bằng cách khám phá codebase, phân tích phụ thuộc và chạy kiểm thử
- Trong việc xác minh commit của các dự án mã nguồn mở, phần review của GPT-5-Codex được đánh giá đáng tin cậy hơn
- Cũng rất mạnh trong các tác vụ frontend, và trên cloud có thể dùng đầu vào hình ảnh để kiểm tra tiến độ một cách trực quan và chia sẻ kết quả bằng ảnh chụp màn hình
- Trong khi GPT-5 là mô hình đa dụng, GPT-5-Codex được thiết kế cho các tác vụ coding kiểu tác nhân dành riêng cho môi trường Codex
Cập nhật Codex
- Codex CLI và tiện ích mở rộng IDE đã được thiết kế lại xoay quanh trải nghiệm coding kiểu tác nhân
- Trong CLI, giờ có thể đính kèm hình ảnh, quản lý To-Do tiến độ công việc và kết nối hệ thống bên ngoài
- Giao diện terminal được cải thiện để hiển thị lời gọi công cụ và diff dễ xem hơn
- Chế độ phê duyệt được đơn giản hóa, đồng thời đảm bảo cả bảo mật lẫn tính tiện dụng
- Tiện ích mở rộng IDE hoạt động trên VS Code, Cursor và các môi trường tương tự, cho kết quả nhanh hơn với prompt ngắn hơn dựa trên tệp và đoạn mã được chọn
- Hỗ trợ chuyển đổi mượt mà giữa môi trường local và cloud, theo dõi công việc đang chạy và rà soát các tác vụ đã hoàn tất
- Trong môi trường cloud, các tính năng tăng tốc nhờ cache (rút ngắn 90%), tự động thiết lập môi trường và kiểm soát truy cập Internet đã được tăng cường
- Có thể dùng hình ảnh cho đặc tả thiết kế UI hoặc báo cáo lỗi, và Codex có thể tự mở trình duyệt để kiểm tra kết quả rồi đính kèm ảnh chụp màn hình vào PR
- Hỗ trợ tự động review PR và đề xuất chỉnh sửa thông qua tích hợp GitHub
- Có thể yêu cầu review cụ thể bằng lệnh “@codex review”
- Ngay trong nội bộ OpenAI, Codex cũng tiền kiểm hầu hết các PR và phát hiện sớm hàng trăm vấn đề
An toàn và bảo mật
- Codex mặc định chạy trong môi trường sandbox, với quyền truy cập mạng bị hạn chế
- Có thể kiểm soát việc cho phép chạy các lệnh rủi ro theo cơ chế phê duyệt, và chỉ cho phép các miền đáng tin cậy
- Nhà phát triển có thể điều chỉnh mức độ bảo mật phù hợp với môi trường, và Codex cung cấp log cùng kết quả kiểm thử cho từng tác vụ để hỗ trợ xác minh
- Khuyến nghị sử dụng như người review hỗ trợ, không phải để thay thế review của con người
- GPT-5-Codex được phân loại là mô hình có năng lực cao trong lĩnh vực sinh học và hóa học, nên có cơ chế an toàn đi kèm
Giá và phân phối
- Codex được bao gồm trong các gói ChatGPT Plus, Pro, Business, Edu, Enterprise
- Plus/Edu/Business phù hợp cho 1–2 phiên mỗi tuần, còn Pro hỗ trợ khối lượng công việc phát triển toàn thời gian trong tuần
- Gói Business có thể mua thêm credit, còn Enterprise vận hành theo pool credit dùng chung
- Người dùng khóa API của Codex CLI cũng sẽ sớm được cung cấp GPT-5-Codex
- Codex đang phát triển thành một đối tác coding nhanh hơn và đáng tin cậy hơn, trở thành công cụ giúp các nhóm thực hiện những dự án đầy tham vọng
6 bình luận
Khả năng giải quyết vấn đề đối với các issue cần cân nhắc nhiều ngữ cảnh khá kém, và nhìn chung sử dụng rất nhiều code design pattern không cần thiết. Điều này tạo cảm giác rất rõ rằng dữ liệu học chủ yếu là code ví dụ phục vụ giảng dạy chứ không phải code thực chiến trong công việc.
Tổng thể mà nói, có chênh lệch hiệu năng khá đáng kể so với gemini.
So với Claude Code thì hiện tại Claude Code có vẻ vẫn dùng ổn hơn một chút nhỉ
Rốt cuộc, liệu một công cụ AI tốt có phải là công cụ vừa cân nhắc đến trình độ hiểu biết/chuyên môn(?) của người dùng, vừa bảo đảm chất lượng đầu ra ở một mức ổn định để mang lại trải nghiệm người dùng tốt không?
Thật thú vị khi người dùng ở mọi trình độ đều nhất quán kỳ vọng AI sẽ mang đến một thứ gì đó tốt hơn.
Claude quá bất tiện nên chắc tôi sẽ thử chuyển sang dùng cái này.
Có điểm nào khiến bạn cảm thấy bất tiện không?
Ý kiến trên Hacker News
Đã xác nhận kích thước prompt của model mới đã giảm gần một nửa so với trước đây (10KB so với 23KB) (tài nguyên liên quan: ví dụ prompt trước đây, ví dụ prompt cũ hơn)
Hiệu năng theo chuẩn SWE-bench tương tự
gpt-5hiện có, nhưng có vẻgpt-5-codexchủ yếu được tăng cường ở mảng refactor code (theo benchmark nội bộ, từ 33.9% -> 51.3%)Gần đây tôi đã thử một đợt refactor quy mô lớn bằng Codex CLI (
gpt-5-high) để tách nhiều thư viện nội bộ thành các package, nhưng model thường xuyên phát sinh lỗi trong quá trình xóa rồi viết lại file (ví dụ như làm thiếu các file quan trọng)Cá nhân tôi thích cách chỉ sao chép file rồi chỉnh sửa theo từng package hơn, và trong đợt cải tiến này có vẻ đã áp dụng tool calling tốt hơn
Ngoài ra, họ còn nói model mới "steerable" hơn (có thể điều khiển rõ ràng hơn), và theo trải nghiệm của tôi thì Codex CLI (
gpt-5) vốn đã dễ kiểm soát hơn Claude Code rất nhiều, nên mọi cải thiện thêm đều rất đáng hoan nghênhTôi đồng ý rằng điểm SWE-bench của
gpt-5vàgpt-5-codexlà tương tự nhau, nhưng bản thân đánh giá SWE-bench là một bài test rất hạn chếNgay cả khi điểm số giống nhau, trải nghiệm sử dụng thực tế vẫn có thể rất khác
Tôi cũng chia sẻ một thread trên X (Twitter trước đây) nói chi tiết về những yếu tố mà SWE-bench không đo được: liên kết
Việc "steerable hơn" đôi khi lại có thể là bất lợi
Vì model có thể bám quá sát prompt
Kết quả là sẽ cần hiểu rõ hơn về cách viết prompt tốt và cách tận dụng model
Điều này tốt với kỹ sư phần mềm trình độ cao, nhưng có thể khó với các lập trình viên kiểu vibe-coder, làm theo cảm tính
Dạo này đột nhiên có rất nhiều ý kiến nói Codex CLI với
gpt-5-codexđã tốt hơn Claude Code, nhưng tôi thấy khó tin ngay đượcTôi tự hỏi liệu có phải một phần prompt đã được chuyển lên lớp cao hơn, hoặc được bake vào theo cách nào khác hay không
Khi refactor code để chuyển sang package, tôi khuyên nên tự di chuyển file theo cách thủ công
Chỉ cần bảo Codex rằng "trước đây file nằm ở vị trí khác, hãy sửa để nó chạy đúng"
Có vẻ Codex và các CLI khác hiện vẫn chưa xử lý tốt khái niệm di chuyển file
Đặc biệt là việc xóa/di chuyển file hầu như chưa bao giờ được theo dõi đúng khi tạo git commit
Tôi đã là người dùng rất nhiệt thành của bộ đôi
claude-4-sonnet+ Cursor trong thời gian dài, nhưng 2 tháng gần đây mức sử dụng tăng vọtSau khi dùng gói cơ bản của Cursor rồi nâng lên Pro, tôi lại tiếp tục chạm trần và cuối cùng phải dùng trực tiếp khóa API của Claude, khiến chi phí lên khoảng 70 USD mỗi tuần (tôi thấy không thể duy trì lâu dài)
Rồi
grok-code-fast-1xuất hiện, tôi gắn nó vào Cursor và dùng hằng ngày; nó nhanh, rẻ (đến giờ vẫn miễn phí), và tôi rất hài lòngGần đây tôi cũng thử GPT-5 qua extension Codex chính thức trên VSCode, và nó thực sự ấn tượng đến mức đáng kinh ngạc
Với
gpt-5-medium, tôi đã refactor lớn một ứng dụng React Native, cải thiện cấu trúc và hiệu năng của app chỉ trong một đêm (nếu tự làm thì ít nhất mất 2 ngày)Hiện tôi đang giao cho
gpt-5-medium-codexlàm lại toàn bộ cấu trúc routing của app, và nó gọi tool rất nhiều, hiểu lệnh cũng như thực thi cực kỳ bài bảnVề sau stack của tôi có lẽ sẽ là Cursor +
grok-code-fast-1cho công việc thường ngày, và Codex/GPT khi cầnNhân tiện, dù tôi đã thực sự hành
gpt-5-mediumcả ngày, với tài khoản ChatGPT Plus tôi vẫn chưa từng chạm giới hạn nào, nên đang rất biết ơn đội OpenAITôi khá tò mò về workflow khi anh dùng
gpt-5-mediumđể refactorVì tôi chưa có ví dụ nào đủ phù hợp để tự test, nên muốn biết anh đã prompt model như thế nào, nhận được các đề xuất gì, và kiến thức của anh với tư cách lập trình viên đã giúp được bao nhiêu
Tôi cũng muốn biết liệu trải nghiệm đó có thực tế với một SWE trung bình, hay một lập trình viên bình thường nói chung hay không
Sau 1 năm dùng Cursor thì đây là lần đầu tiên tôi vượt quá giới hạn sử dụng
Tôi từng bị chạm trần với cả Claude, GPT lẫn Grok
Vì vậy tôi chọn trả thêm phí sử dụng trong gói Cursor Pro (25 USD/tháng, tức 20 + 5 USD) để tiếp tục dùng Claude, vì nó nhanh hơn Grok
Tôi cũng đi đến gần như đúng lựa chọn đó
grok-code-fast-1hoạt động tốt với hầu hết các tác vụ codeTôi đang dùng nó trong opencode, và có vẻ có sẵn một mức miễn phí nhất định; tôi chưa thêm khóa grok riêng mà vẫn dùng được
Tôi thực sự rất ấn tượng với chất lượng của Codex CLI IDE
Ngay cả nếu trước đây từng thấy nó không ra gì, tôi vẫn khuyên nên thử lại bản extension cho vscode vì với gói Plus, hạn mức được cấp khá hào phóng
Tôi đã bỏ gói
claude code maxđể chuyển sang gói ChatGPT Pro 200 USDNó nhanh hơn hẳn, và đến giờ tôi vẫn chưa từng chạm giới hạn
Tôi đang kết hợp aider với gemini pro để phát triển dự án
Cụ thể, tôi chia sẻ dự án công cụ do mình làm: aretecodex.tools
Tôi đang dùng gói 20 USD của Cursor nhưng mới 15 ngày đã chạm giới hạn, nên phần còn lại của tháng phải trả thêm phí
Không biết có giải pháp nào đáng khuyên không
Tôi tò mò không rõ CLI IDE chính xác là gì
Giờ tôi hơi lẫn lộn là nó đã có thể dùng theo dạng thuê bao như Claude Code, hay vẫn chỉ có API
Tôi thấy khá thú vị khi trong thread này có nhiều người chuyển sang Codex hoặc rời khỏi Claude Code
Vấn đề lớn nhất của Claude Code là khi giao quá nhiều việc, nó thường tạo ra mock implementation hoặc mã giả, khiến tình hình thực tế còn tệ hơn
Dù đã cố điều chỉnh prompt đầu vào, tôi vẫn khó cải thiện được nên cuối cùng chuyển sang Codex
Codex đúng là có lợi thế vì làm việc trong một codebase đã được thiết lập hoàn chỉnh, nhưng xét về trải nghiệm thực tế thì Codex tốt hơn nhiều
Các hệ thống khác không có mode "planning" riêng nên ngay từ đầu đã cố đi thẳng vào triển khai, thành ra phải tinh chỉnh prompt rất cẩn thận
Claude hỗ trợ riêng cấu trúc "lập kế hoạch > thực thi", nên cách tiếp cận cũng khác
Theo những gì tôi quan sát trong 2 tuần gần đây, Claude Code vừa giảm hiệu năng đáng kể vừa cắt giảm mạnh quota sử dụng, trong khi OpenAI Codex lại có vẻ tăng cả hiệu năng lẫn hạn mức
Nếu ai đã hơn một tháng chưa dùng, tôi khuyên nên thử lại Codex CLI thêm một lần
Từ góc nhìn người dùng cuối, điều quan trọng nhất là "có thể rời đi bất cứ lúc nào"
Phải luôn so sánh các dịch vụ và chọn cái có tỷ lệ giá/hiệu năng tốt nhất
Trong một năm qua, nhiều công ty đã cạnh tranh với đủ loại ưu nhược điểm, nhưng chưa có dịch vụ nào thực sự mang tính đột phá
Không có lý do gì để cố chấp với một dịch vụ cụ thể; chỉ có các công ty SaaS là đang cố giữ chân người dùng
Tôi muốn biết liệu Codex CLI có còn cái tật cứ thấy dự án có git là tự động hành xử theo kiểu "YOLO" hay không
Những thứ tôi bắt buộc muốn có ở công cụ hỗ trợ code là
rmthì lần nào cũng phải xin xác nhậnTôi không quá quan tâm chuyện có build hook hay tính năng sub-agent hay không
Tôi có một điều thắc mắc là trong Codex CLI thì làm sao dùng được chế độ tương đương "normal mode" của Claude
Codex dường như chỉ hỗ trợ vibe coding hoặc plan mode, chứ không có chế độ tương tác kiểu hỏi giữa chừng "làm tác vụ này (a/b) có được không" nên khá bức bối
Tôi khó hiểu tại sao chỉ được chọn hoặc là copy-paste phần chỉnh sửa mã, hoặc là chấp nhận tự động hoàn toàn
Sau đó tôi lặp lại vòng xem xét kế hoạch vài lần rồi mới bảo nó thực hiện
Đôi khi LLM sẽ "quên" mất kế hoạch, nên tôi thường sao chép riêng phần kế hoạch để lưu lại
Tôi cũng yêu cầu nó bàn giao công việc theo từng bước, hoặc kiểm chứng ở từng mốc như build/unit test
Rất ấn tượng
Tôi đang phát triển một ứng dụng web với hoạt ảnh "shared presence" (nền thay đổi theo vị trí con trỏ của tất cả người dùng), và đã thử nghiệm dùng cả Claude lẫn Codex
Cho đến ngày hôm qua, cả hai model đều còn chật vật, dù Claude nhỉnh hơn đôi chút
Trong các tình huống cần tạo ra thứ gì đó "sáng tạo", cả hai model đều cho ra kết quả hơi khuôn mẫu, và phần mô phỏng cũng khó triển khai
Hôm nay khi làm cùng tác vụ đó với Codex, phần thiết kế vẫn còn hơi nhạt, nhưng phần mô phỏng thì làm tốt hơn hẳn
Nếu bổ sung thêm các thuộc tính UI hoặc yêu cầu "hãy tham chiếu thiết kế của ứng dụng hiện có để khớp theo", thì kết quả sẽ tốt hơn nhiều
Tôi muốn thử lại AI coding nên đã đăng ký ChatGPT và dùng Codex, nhưng thấy tốc độ quá chậm
Dù chỉ là tác vụ đơn giản trong một repo gần như trống, model vẫn chỉ "nghĩ" suốt 20 phút
Cảm giác kỹ sư chỉ biết ngồi chờ khiến tôi nghi ngờ hiệu suất thực tế
Nếu là agent bất đồng bộ thì đúng là có thể chạy song song nhiều cái, nhưng lại cần một codebase có cấu trúc, và dù đã bỏ ra vài tiếng tôi vẫn chưa dựng xong cả skeleton
Tôi đã đọc và xem hết tài liệu, video rồi, nhưng đến mức này thì có vẻ tự tay làm còn nhanh hơn nhiều
Tôi không biết mình đang làm sai gì, hay chỉ là server đang quá tải, hoặc đơn giản trình độ AI hiện nay vốn là như vậy
Khi đã quen với việc cho nhiều agent làm việc cùng lúc thì tôi thấy nó khá dùng được
Tôi từng đọc một bài viết liên quan nhưng giờ khó tìm lại
Cuối tuần tôi mới thử Codex lần đầu, và kết quả hơi kỳ quặc
Tôi chỉ yêu cầu một ví dụ rất đơn giản (dựng ứng dụng Rails bằng Docker Compose rồi thêm trang chủ/Devise), thế mà thay vì tạo các file thực tế, nó lại nhét cứng toàn bộ nội dung file vào trong
bootstrap.shTôi muốn tiếp tục quan sát xem sau này nó có hoạt động theo cách khác không
Tôi đã mua và dùng chatgpt từ tháng trước, và cảm giác OpenAI dạo này cải thiện trải nghiệm người dùng rất nhiều
Ví dụ, chế độ voice tốt hơn Claude rất nhiều, và tên model trước đây từng gây rối nhưng giờ đã được đơn giản hóa nên dễ dùng hơn
Ngay cả như một trợ lý thông thường, nó cũng làm tốt hơn Claude, và OpenAI còn đang liên tục ra công cụ mới nên cũng nhỉnh hơn về độ tin cậy