- Kết hợp hiệu năng lập trình của GPT-5.2-Codex và suy luận·tri thức chuyên sâu của GPT-5.2 vào một mô hình duy nhất, mang lại tốc độ nhanh hơn 25%
- Mở rộng phạm vi công việc tác tử của Codex đến các tác vụ chạy dài hạn, đồng thời tích hợp vào ứng dụng Codex khả năng cộng tác tương tác theo thời gian thực để đổi hướng và phản ánh phản hồi ngay trong lúc làm việc
- Phiên bản đầu tiên trực tiếp được dùng cho gỡ lỗi quá trình huấn luyện, quản lý triển khai và chẩn đoán đánh giá của chính nó, trở thành mô hình đầu tiên tham gia vào quá trình phát triển của chính mình
- Đạt hiệu năng hàng đầu ngành trên các benchmark chính như SWE-Bench Pro, Terminal-Bench 2.0, OSWorld, đồng thời hoạt động với ít token hơn so với mô hình trước đó
- Vượt ra ngoài việc viết mã để hỗ trợ lao động tri thức trên toàn bộ vòng đời phần mềm, bao gồm thuyết trình, bảng tính, phân tích dữ liệu và nhiều tác vụ khác
Tổng quan
- GPT-5.3-Codex là “mô hình lập trình tác tử có năng lực mạnh nhất”
- Kết hợp hiệu năng lập trình tiên phong của GPT-5.2-Codex với năng lực suy luận·tri thức chuyên sâu của GPT-5.2 trong một mô hình, tăng tốc 25%
- Được thiết kế để thực hiện các tác vụ dài hạn bao gồm nghiên cứu, sử dụng công cụ và thực thi phức tạp, có thể điều phối trong khi làm việc mà không đánh mất ngữ cảnh
- Tham gia vào tự huấn luyện·triển khai·chẩn đoán đánh giá bằng cách sử dụng các phiên bản đầu tiên, trở thành mô hình đầu tiên “tự đẩy nhanh quá trình phát triển của chính mình”
- Mở rộng vai trò của Codex từ “viết mã·review mã” sang “gần như mọi công việc mà lập trình viên·chuyên gia thực hiện trên máy tính”
Năng lực tác tử tiên phong
-
Hiệu năng lập trình
- Đạt hiệu năng tốt nhất trên SWE-Bench Pro (đánh giá kỹ thuật phần mềm thực tế); khác với SWE-Bench Verified chỉ kiểm tra Python, benchmark này bao phủ 4 ngôn ngữ và có khả năng chống nhiễm dữ liệu cao hơn, đồng thời liên quan sát với công nghiệp hơn
- Trên Terminal-Bench 2.0 cũng vượt xa mức hiệu năng tốt nhất trước đó, đo lường kỹ năng terminal cần thiết cho tác tử lập trình
- Có thể thực hiện cùng một tác vụ với ít token hơn so với mô hình trước
-
Phát triển web
- Nhờ sự kết hợp giữa năng lực lập trình tiên phong, cảm quan thẩm mỹ được cải thiện và kỹ thuật nén, mô hình có thể xây dựng game và ứng dụng phức tạp từ đầu trong nhiều ngày
- Để kiểm tra phát triển web và năng lực tác tử dài hạn, đã thử tạo hai game: game đua xe và game lặn biển
- Game đua xe: nhiều tay đua, 8 bản đồ, có vật phẩm dùng bằng phím Space
- Game lặn biển: khám phá nhiều rạn san hô, thu thập sổ tay cá, quản lý oxy·áp suất nước·các yếu tố nguy hiểm
- Sử dụng kỹ năng "develop web game" cùng các prompt tiếp theo dùng chung được cài sẵn như "fix the bug", "improve the game" để tự động lặp lại cải tiến qua hàng triệu token
- Khi xây dựng website thông thường, mô hình hiểu ý định người dùng tốt hơn GPT-5.2-Codex và ngay cả với prompt đơn giản hoặc chưa đầy đủ cũng tự động áp dụng nhiều tính năng hơn cùng các giá trị mặc định hợp lý
- Ví dụ so sánh landing page: GPT-5.3-Codex tự động hiển thị gói năm dưới dạng giá tháng đã giảm và tạo carousel đề xuất chuyển đổi tự động có kèm 3 trích dẫn người dùng, cho ra kết quả hoàn thiện hơn
-
Năng lực ngoài lập trình
- Hỗ trợ toàn bộ vòng đời phần mềm như gỡ lỗi, triển khai, giám sát, viết PRD, biên tập nội dung, nghiên cứu người dùng, kiểm thử, phân tích metric… vốn do kỹ sư phần mềm, nhà thiết kế, quản lý sản phẩm và nhà khoa học dữ liệu đảm nhiệm
- Mở rộng sang các lĩnh vực ngoài phần mềm như làm slide deck, phân tích dữ liệu bảng tính
- Đạt 70.9%, ngang GPT-5.2, trên GDPval (bài đánh giá đo lường các tác vụ lao động tri thức được xác định rõ của 44 nhóm nghề)
- Bao gồm các đầu ra công việc thực tế như thuyết trình, bảng tính
- Đưa ra nhiều ví dụ đầu ra như slide tư vấn tài chính, tài liệu đào tạo bán lẻ, bảng tính phân tích NPV, PDF thuyết trình thời trang
- Đạt 64.7% trên OSWorld-Verified (benchmark sử dụng máy tính tác tử để thực hiện tác vụ năng suất trong môi trường desktop trực quan), tăng mạnh so với các mô hình GPT trước đây (38.2%)
- Điểm của con người khoảng 72%
Cộng tác viên tương tác
- Khi năng lực mô hình tăng lên, thách thức cốt lõi chuyển từ việc tác tử có thể làm gì sang việc con người có thể chỉ đạo·giám sát bao nhiêu tác tử làm việc song song một cách dễ dàng
- Ứng dụng Codex giúp quản lý và chỉ đạo tác tử thuận tiện hơn, đồng thời trên GPT-5.3-Codex cung cấp mức độ tương tác cao hơn
- Trong quá trình làm việc, mô hình cập nhật thường xuyên về các quyết định quan trọng và tiến độ để người dùng có thể đặt câu hỏi theo thời gian thực, thảo luận cách tiếp cận và điều chỉnh hướng đi thay vì chờ kết quả cuối cùng
- Mô hình giải thích mình đang làm gì, phản hồi feedback và luôn giữ người dùng trong vòng lặp từ đầu đến cuối
- Đường dẫn cài đặt: Settings > General > Follow-up behavior để bật steering trong lúc mô hình làm việc
Huấn luyện và triển khai GPT-5.3-Codex bằng Codex
- Những cải tiến nhanh gần đây của Codex được xây dựng trên nền các dự án nghiên cứu kéo dài từ vài tháng đến vài năm trên toàn OpenAI
- Nhiều nhà nghiên cứu và kỹ sư tại OpenAI cho biết cách họ làm việc hiện nay đã khác căn bản so với 2 tháng trước
- Ngay cả các phiên bản đầu của GPT-5.3-Codex cũng cho thấy năng lực xuất sắc, nên nhóm đã dùng chính phiên bản đầu này để hỗ trợ cải thiện huấn luyện và triển khai cho các phiên bản về sau
-
Ví dụ sử dụng của nhóm nghiên cứu
- Sử dụng Codex cho giám sát và gỡ lỗi các lượt chạy huấn luyện của bản phát hành này
- Không chỉ gỡ lỗi vấn đề hạ tầng mà còn xây dựng ứng dụng phong phú để theo dõi mẫu trên toàn bộ quá trình huấn luyện, phân tích sâu chất lượng tương tác, đề xuất chỉnh sửa và xác định chính xác khác biệt hành vi với mô hình trước
-
Ví dụ sử dụng của nhóm kỹ thuật
- Dùng Codex để tối ưu và điều chỉnh harness cho GPT-5.3-Codex
- Khi xuất hiện các edge case kỳ lạ ảnh hưởng đến người dùng, dùng Codex để xác định lỗi render ngữ cảnh và phân tích nguyên nhân gốc rễ của tỷ lệ cache hit thấp
- Trong thời gian phát hành, tiếp tục dùng để scale động cụm GPU và ổn định độ trễ trước lưu lượng tăng đột biến
-
Ví dụ sử dụng trong alpha test
- Một nhà nghiên cứu muốn hiểu GPT-5.3-Codex thực hiện thêm bao nhiêu công việc mỗi lượt và sự khác biệt về năng suất
- GPT-5.3-Codex đã thiết kế nhiều bộ phân loại regex đơn giản để ước lượng tần suất đặt câu hỏi làm rõ, phản hồi tích cực·tiêu cực và tiến độ công việc, sau đó chạy trên toàn bộ log phiên ở quy mô lớn rồi tạo báo cáo kết luận
- Những người xây dựng cùng Codex có mức hài lòng cao hơn; tác tử hiểu ý định tốt hơn, tiến triển nhiều hơn trong mỗi lượt và giảm số câu hỏi làm rõ
-
Xây dựng pipeline dữ liệu
- Dữ liệu alpha test rất khác so với mô hình trước nên xuất hiện nhiều kết quả bất thường và phản trực giác
- Nhà khoa học dữ liệu đã xây dựng pipeline dữ liệu mới cùng GPT-5.3-Codex và tạo ra trực quan hóa phong phú hơn nhiều so với công cụ dashboard tiêu chuẩn
- Phân tích kết quả cùng Codex để tóm tắt insight cốt lõi của hàng nghìn điểm dữ liệu trong vòng 3 phút
Đảm bảo vị thế tiên phong về an ninh mạng
- Trong vài tháng gần đây, hiệu năng của mô hình trên các tác vụ an ninh mạng đã cải thiện đáng kể, mang lại lợi ích cho cả lập trình viên lẫn chuyên gia bảo mật
- Song song với đó, OpenAI chuẩn bị các biện pháp an toàn an ninh mạng được tăng cường nhằm hỗ trợ sử dụng phòng thủ và khả năng phục hồi rộng hơn của hệ sinh thái
- Đây là mô hình đầu tiên được phân loại ở mức High cho các tác vụ liên quan đến an ninh mạng theo Preparedness Framework, đồng thời cũng là mô hình đầu tiên được huấn luyện trực tiếp để xác định lỗ hổng phần mềm
- Chưa có bằng chứng xác đáng cho thấy mô hình có thể tự động hóa tấn công mạng đầu-cuối, nhưng OpenAI vẫn áp dụng cách tiếp cận phòng ngừa và triển khai ngăn xếp an toàn an ninh mạng toàn diện nhất từ trước đến nay
- Bao gồm huấn luyện an toàn, giám sát tự động, truy cập dựa trên độ tin cậy cho các năng lực nâng cao và pipeline thực thi có tích hợp threat intelligence
- Xét đến tính chất lưỡng dụng vốn có của an ninh mạng, OpenAI áp dụng cách tiếp cận lặp dựa trên bằng chứng để vừa tăng tốc khả năng phát hiện·khắc phục lỗ hổng của bên phòng thủ, vừa trì hoãn việc lạm dụng
-
Nghiên cứu phòng thủ và chương trình bảo vệ hệ sinh thái
- Ra mắt chương trình thí điểm Trusted Access for Cyber nhằm tăng tốc nghiên cứu phòng thủ an ninh mạng
- Mở rộng beta kín của tác tử nghiên cứu bảo mật Aardvark, sản phẩm đầu tiên trong dòng Codex Security
- Hợp tác với các maintainer mã nguồn mở để cung cấp quét codebase miễn phí cho các dự án được sử dụng rộng rãi (ví dụ: Next.js)
- Nhà nghiên cứu bảo mật đã dùng Codex để phát hiện các lỗ hổng được công bố tuần trước (CVE-2025-59471, CVE-2025-59472)
- Dựa trên chương trình tài trợ an ninh mạng trị giá 1 triệu USD ra mắt năm 2023, OpenAI đầu tư thêm 10 triệu USD API credit để tăng tốc phòng thủ an ninh mạng bằng các mô hình mạnh nhất
- Đặc biệt nhắm đến phần mềm mã nguồn mở và các hệ thống hạ tầng trọng yếu
- Các tổ chức tham gia nghiên cứu bảo mật thiện chí có thể đăng ký API credit và hỗ trợ qua Cybersecurity Grant Program
Khả dụng và chi tiết
- GPT-5.3-Codex hiện khả dụng trên các gói ChatGPT trả phí và có thể dùng ở mọi nơi hỗ trợ Codex (ứng dụng, CLI, extension IDE, web)
- Quyền truy cập API đang được chuẩn bị để kích hoạt an toàn
- Nhờ cải thiện hạ tầng và ngăn xếp suy luận, mô hình vận hành nhanh hơn 25% cho người dùng Codex, mang lại tương tác và kết quả nhanh hơn
- Đồng thiết kế, huấn luyện và phục vụ trên hệ thống NVIDIA GB200 NVL72
Hướng đi tiếp theo
- Codex đang chuyển từ việc chỉ viết mã sang dùng mã như một công cụ để điều khiển máy tính và hoàn thành công việc từ đầu đến cuối
- Bằng cách mở rộng biên giới của tác tử lập trình, mô hình không chỉ mở khóa xây dựng·triển khai phần mềm mà còn mở ra lĩnh vực lao động tri thức rộng hơn như nghiên cứu, phân tích và thực thi các nhiệm vụ phức tạp
- Bắt đầu từ tác tử lập trình tốt nhất, Codex đang phát triển thành cộng tác viên đa năng trên máy tính, mở rộng cả những gì có thể xây dựng lẫn phạm vi những người có thể xây dựng
Appendix: Số liệu benchmark
- Tất cả đánh giá đều được chạy với xhigh reasoning effort
- SWE-Bench Pro(Public): GPT-5.3-Codex 56.8% / GPT-5.2-Codex 56.4% / GPT-5.2 55.6%
- Terminal-Bench 2.0: GPT-5.3-Codex 77.3% / GPT-5.2-Codex 64.0% / GPT-5.2 62.2%
- OSWorld-Verified: GPT-5.3-Codex 64.7% / GPT-5.2-Codex 38.2% / GPT-5.2 37.9%
- GDPval(thắng hoặc hòa): GPT-5.3-Codex 70.9% / GPT-5.2 70.9%(high)
- Cybersecurity Capture The Flag Challenges: GPT-5.3-Codex 77.6% / GPT-5.2-Codex 67.4% / GPT-5.2 67.7%
- SWE-Lancer IC Diamond: GPT-5.3-Codex 81.4% / GPT-5.2-Codex 76.0% / GPT-5.2 74.6%
2 bình luận
Trước đây tôi thiên về phía Claude hơn, nhưng dạo gần đây Codex lại hợp ý tôi hơn. Tôi hy vọng chúng sẽ phát triển theo hướng bổ trợ lẫn nhau như iOS và AOS.
Ý kiến trên Hacker News
Thật thú vị khi GPT‑5.3 Codex và Opus 4.6 đang phát triển theo những hướng đi khác nhau về mặt triết lý
Codex được thiết kế như một cộng tác viên tương tác làm việc cùng con người với sự can thiệp ở giữa quá trình, trong khi Opus là một hệ thống tự chủ và có tính lập kế hoạch hơn, giảm thiểu sự can thiệp của con người
Điều này dường như phản ánh hai góc nhìn của các lập trình viên thực tế về coding dựa trên LLM — kiểm soát lấy con người làm trung tâm vs giao phó hoàn toàn —
Tôi tò mò liệu các mô hình sau này sẽ được tối ưu theo sự phân hóa triết lý này, hay sẽ xuất hiện những cách tiếp cận mới
Codex có xu hướng suy nghĩ lâu hơn nhiều trước khi đưa ra câu trả lời
Khi con người ở trong vòng lặp thì có thể tránh được phần lớn vấn đề của LLM, và cách rà soát theo từng đơn vị mã nhỏ rất hiệu quả
Nếu Codex xử lý các công việc lặp đi lặp lại thì lập trình viên có thể tập trung vào logic cốt lõi
Cách tiếp cận tự động hoàn toàn không phù hợp với codebase lớn vì chất lượng mã sẽ giảm về dài hạn
Bạn gửi yêu cầu, nó tự chạy trong môi trường container, rồi sau đó chỉ có thể xử lý tiếp qua chat
Codex ngày càng tự chủ hơn, còn Opus thì dường như đang trở nên cộng tác hơn
Cuối cùng rất có thể cả hai cách tiếp cận đều sẽ hữu ích tùy theo tình huống
Vì vậy bản 5.2 ổn định hơn Opus 4.5
Có vẻ Anthropic đã vội công bố Opus 4.6 để né việc bị so sánh với GPT‑5.3‑Codex
Điểm Terminal‑Bench 2.0 là Opus 4.6 đạt 65.4, còn GPT‑5.3‑Codex đạt 77.3
Dù vậy Codex 5.2 vẫn nổi trội nhất ở các tác vụ phức tạp, và tôi đang mong chờ 5.3
GPT‑5.2 Codex là $3244, Claude Opus 4.5 khoảng $1485
Nhìn vào kết quả ARC AGI 2 thì khả năng tổng quát hóa có vẻ còn thiếu
Tôi nghi ngờ nhận định rằng Claude vượt trội hơn trong coding
Điều ấn tượng là GPT‑5.3‑Codex là mô hình đầu tiên được dùng để phát triển chính nó
Nhóm Codex được cho là đã dùng các phiên bản đầu tiên để debug pipeline huấn luyện nội bộ
Tôi nghĩ Claude Code phát triển được như vậy cũng nhờ văn hóa dogfooding kiểu này
Giờ điều này lại khiến tôi suy nghĩ về khả năng xảy ra “tiến bộ dần dần (soft take‑off)”
GPT‑5.3‑Codex được xếp vào nhóm mô hình năng lực cao (high capability) trong các tác vụ liên quan đến an ninh mạng
Nó đã được huấn luyện trực tiếp cho việc phát hiện lỗ hổng, nhưng vẫn chưa có bằng chứng về tự động hóa tấn công hoàn chỉnh
Tuy vậy, tôi nghĩ framework bảo mật hiện tại đã lỗi thời
Trong tương lai, chính đoạn mã do Codex tạo ra có thể trở thành bề mặt tấn công mới của các mối đe dọa bảo mật
Codex về cơ bản cần được thiết kế để tạo ra mã an toàn
Bài liên quan: NBC News đưa tin
Cũng như Anthropic, họ có vẻ đang phô diễn năng lực kỹ thuật dưới lớp vỏ “nghiên cứu an toàn”
Tôi tò mò liệu những sai sót kiểu này có tiếp tục xảy ra không
Ngày trước các lab AI còn điều phối để tránh công bố cùng lúc,
còn giờ thì công bố cạnh tranh nhau cách nhau 30 phút
Demis có thể không giỏi đấu đá chính trị nhưng có lẽ sẽ thắng bằng hiệu năng
Elon, Sam, Dario thì đã rất giỏi đấu trí chính trị rồi
Có vẻ 2026 sẽ là một năm đầy kịch tính của ngành AI
Khi OpenAI công bố lúc 10 giờ thì Anthropic và Google cũng ra mắt đối đầu
Tôi thấy thú vị khi GPT‑5.3‑Codex được công bố là đã tự động cải thiện một web game
Nhưng hơi tiếc vì số lượng prompt hay token trong thí nghiệm so sánh không được công bố
Tôi muốn thử đối chiếu với bản web clone của Factorio mà trước đây mình từng làm
Tôi không biết người ta có thể tận dụng mô hình theo cách như vậy
Tôi đã nghe câu “AI giúp tăng năng suất gấp 100 lần” suốt nhiều năm
Nhưng tôi tò mò liệu đã có chương trình nào mới mẻ và đáng tin cậy thực sự do LLM chủ động tạo ra hay chưa
LLM cũng chỉ giúp giải quyết các vấn đề sẵn có nhanh hơn, chứ không phải giải các vấn đề hoàn toàn mới
Ví dụ, trong bài toán sắp xếp thẻ UI, Gemini đã gợi ý cho tôi cách tiếp cận dựa trên tọa độ cực, và điều đó rất hữu ích
Có thể không phải 100 lần, nhưng tôi cảm nhận được năng suất tăng gấp 2 lần
Thảo luận liên quan: ví dụ về vibe coding
Vì vậy lời phê bình “đó là vấn đề đã được giải rồi” không có nhiều ý nghĩa
trong đó có tới ba lần ảo giác ra những flag không tồn tại
ChatGPT 5.2 cũng cần sửa nhiều lần để tạo được một script ffmpeg
Có lẽ ngày nào nó xử lý xuống dòng chuẩn trên Windows thì ngày đó mới là AGI
Chuyện codebase lớn chỉ là giới hạn tạm thời mà thôi
Nghe giống như lời phàn nàn của những người không thích tiến bộ
Kết quả Terminal Bench 2.0
Cảm giác trong trải nghiệm coding thực tế quan trọng hơn điểm số
Tôi tò mò liệu các lập trình viên có cảm thấy bị đe dọa bởi thay đổi này không
Thành thật mà nói, tôi nghĩ là có
Nếu là lập trình viên thi đấu thì có thể thấy bị đe dọa, nhưng lập trình viên thông thường thì ít hơn
Tôi nghĩ trước khi AGI xuất hiện thì tự động hóa hoàn toàn là điều bất khả thi
Xung quanh tôi, người dùng Claude nhiều hơn Codex rất nhiều
Nhưng xét về giới hạn sử dụng và gói giá, Codex dễ chịu hơn hẳn
Dùng gói $20 trong vài tháng mà gần như chưa chạm giới hạn
Tôi cảm thấy những khác biệt thực dụng như vậy còn quan trọng hơn chất lượng coding
Trước đây trong GH Copilot thì Claude tốt hơn,
nhưng Codex có tính tự chủ cao hơn nên phù hợp hơn với vibe‑coding,
và có lẽ nhờ hiệu ứng quảng bá trên Twitter, LinkedIn nên tệp người dùng cũng lớn hơn
Nếu không nhận ra khác biệt về chất lượng thì đương nhiên sẽ chọn phương án rẻ hơn
Việc chuyển đổi gói cũng thoải mái nên trải nghiệm sử dụng rất hài lòng