Ra mắt GPT-5.3-Codex

(openai.com)

7 điểm bởi GN⁺ 2026-02-06 | 2 bình luận | Chia sẻ qua WhatsApp

Kết hợp hiệu năng lập trình của GPT-5.2-Codex và suy luận·tri thức chuyên sâu của GPT-5.2 vào một mô hình duy nhất, mang lại tốc độ nhanh hơn 25%
Mở rộng phạm vi công việc tác tử của Codex đến các tác vụ chạy dài hạn, đồng thời tích hợp vào ứng dụng Codex khả năng cộng tác tương tác theo thời gian thực để đổi hướng và phản ánh phản hồi ngay trong lúc làm việc
Phiên bản đầu tiên trực tiếp được dùng cho gỡ lỗi quá trình huấn luyện, quản lý triển khai và chẩn đoán đánh giá của chính nó, trở thành mô hình đầu tiên tham gia vào quá trình phát triển của chính mình
Đạt hiệu năng hàng đầu ngành trên các benchmark chính như SWE-Bench Pro, Terminal-Bench 2.0, OSWorld, đồng thời hoạt động với ít token hơn so với mô hình trước đó
Vượt ra ngoài việc viết mã để hỗ trợ lao động tri thức trên toàn bộ vòng đời phần mềm, bao gồm thuyết trình, bảng tính, phân tích dữ liệu và nhiều tác vụ khác

Tổng quan

GPT-5.3-Codex là “mô hình lập trình tác tử có năng lực mạnh nhất”
Kết hợp hiệu năng lập trình tiên phong của GPT-5.2-Codex với năng lực suy luận·tri thức chuyên sâu của GPT-5.2 trong một mô hình, tăng tốc 25%
Được thiết kế để thực hiện các tác vụ dài hạn bao gồm nghiên cứu, sử dụng công cụ và thực thi phức tạp, có thể điều phối trong khi làm việc mà không đánh mất ngữ cảnh
Tham gia vào tự huấn luyện·triển khai·chẩn đoán đánh giá bằng cách sử dụng các phiên bản đầu tiên, trở thành mô hình đầu tiên “tự đẩy nhanh quá trình phát triển của chính mình”
Mở rộng vai trò của Codex từ “viết mã·review mã” sang “gần như mọi công việc mà lập trình viên·chuyên gia thực hiện trên máy tính”

Năng lực tác tử tiên phong

Hiệu năng lập trình
- Đạt hiệu năng tốt nhất trên SWE-Bench Pro (đánh giá kỹ thuật phần mềm thực tế); khác với SWE-Bench Verified chỉ kiểm tra Python, benchmark này bao phủ 4 ngôn ngữ và có khả năng chống nhiễm dữ liệu cao hơn, đồng thời liên quan sát với công nghiệp hơn
- Trên Terminal-Bench 2.0 cũng vượt xa mức hiệu năng tốt nhất trước đó, đo lường kỹ năng terminal cần thiết cho tác tử lập trình
- Có thể thực hiện cùng một tác vụ với ít token hơn so với mô hình trước
Phát triển web
- Nhờ sự kết hợp giữa năng lực lập trình tiên phong, cảm quan thẩm mỹ được cải thiện và kỹ thuật nén, mô hình có thể xây dựng game và ứng dụng phức tạp từ đầu trong nhiều ngày
- Để kiểm tra phát triển web và năng lực tác tử dài hạn, đã thử tạo hai game: game đua xe và game lặn biển
  - Game đua xe: nhiều tay đua, 8 bản đồ, có vật phẩm dùng bằng phím Space
  - Game lặn biển: khám phá nhiều rạn san hô, thu thập sổ tay cá, quản lý oxy·áp suất nước·các yếu tố nguy hiểm
- Sử dụng kỹ năng "develop web game" cùng các prompt tiếp theo dùng chung được cài sẵn như "fix the bug", "improve the game" để tự động lặp lại cải tiến qua hàng triệu token
- Khi xây dựng website thông thường, mô hình hiểu ý định người dùng tốt hơn GPT-5.2-Codex và ngay cả với prompt đơn giản hoặc chưa đầy đủ cũng tự động áp dụng nhiều tính năng hơn cùng các giá trị mặc định hợp lý
- Ví dụ so sánh landing page: GPT-5.3-Codex tự động hiển thị gói năm dưới dạng giá tháng đã giảm và tạo carousel đề xuất chuyển đổi tự động có kèm 3 trích dẫn người dùng, cho ra kết quả hoàn thiện hơn
Năng lực ngoài lập trình
- Hỗ trợ toàn bộ vòng đời phần mềm như gỡ lỗi, triển khai, giám sát, viết PRD, biên tập nội dung, nghiên cứu người dùng, kiểm thử, phân tích metric… vốn do kỹ sư phần mềm, nhà thiết kế, quản lý sản phẩm và nhà khoa học dữ liệu đảm nhiệm
- Mở rộng sang các lĩnh vực ngoài phần mềm như làm slide deck, phân tích dữ liệu bảng tính
- Đạt 70.9%, ngang GPT-5.2, trên GDPval (bài đánh giá đo lường các tác vụ lao động tri thức được xác định rõ của 44 nhóm nghề)
  - Bao gồm các đầu ra công việc thực tế như thuyết trình, bảng tính
- Đưa ra nhiều ví dụ đầu ra như slide tư vấn tài chính, tài liệu đào tạo bán lẻ, bảng tính phân tích NPV, PDF thuyết trình thời trang
- Đạt 64.7% trên OSWorld-Verified (benchmark sử dụng máy tính tác tử để thực hiện tác vụ năng suất trong môi trường desktop trực quan), tăng mạnh so với các mô hình GPT trước đây (38.2%)
  - Điểm của con người khoảng 72%

Cộng tác viên tương tác

Khi năng lực mô hình tăng lên, thách thức cốt lõi chuyển từ việc tác tử có thể làm gì sang việc con người có thể chỉ đạo·giám sát bao nhiêu tác tử làm việc song song một cách dễ dàng
Ứng dụng Codex giúp quản lý và chỉ đạo tác tử thuận tiện hơn, đồng thời trên GPT-5.3-Codex cung cấp mức độ tương tác cao hơn
Trong quá trình làm việc, mô hình cập nhật thường xuyên về các quyết định quan trọng và tiến độ để người dùng có thể đặt câu hỏi theo thời gian thực, thảo luận cách tiếp cận và điều chỉnh hướng đi thay vì chờ kết quả cuối cùng
Mô hình giải thích mình đang làm gì, phản hồi feedback và luôn giữ người dùng trong vòng lặp từ đầu đến cuối
Đường dẫn cài đặt: Settings > General > Follow-up behavior để bật steering trong lúc mô hình làm việc

Huấn luyện và triển khai GPT-5.3-Codex bằng Codex

Những cải tiến nhanh gần đây của Codex được xây dựng trên nền các dự án nghiên cứu kéo dài từ vài tháng đến vài năm trên toàn OpenAI
Nhiều nhà nghiên cứu và kỹ sư tại OpenAI cho biết cách họ làm việc hiện nay đã khác căn bản so với 2 tháng trước
Ngay cả các phiên bản đầu của GPT-5.3-Codex cũng cho thấy năng lực xuất sắc, nên nhóm đã dùng chính phiên bản đầu này để hỗ trợ cải thiện huấn luyện và triển khai cho các phiên bản về sau
Ví dụ sử dụng của nhóm nghiên cứu
- Sử dụng Codex cho giám sát và gỡ lỗi các lượt chạy huấn luyện của bản phát hành này
- Không chỉ gỡ lỗi vấn đề hạ tầng mà còn xây dựng ứng dụng phong phú để theo dõi mẫu trên toàn bộ quá trình huấn luyện, phân tích sâu chất lượng tương tác, đề xuất chỉnh sửa và xác định chính xác khác biệt hành vi với mô hình trước
Ví dụ sử dụng của nhóm kỹ thuật
- Dùng Codex để tối ưu và điều chỉnh harness cho GPT-5.3-Codex
- Khi xuất hiện các edge case kỳ lạ ảnh hưởng đến người dùng, dùng Codex để xác định lỗi render ngữ cảnh và phân tích nguyên nhân gốc rễ của tỷ lệ cache hit thấp
- Trong thời gian phát hành, tiếp tục dùng để scale động cụm GPU và ổn định độ trễ trước lưu lượng tăng đột biến
Ví dụ sử dụng trong alpha test
- Một nhà nghiên cứu muốn hiểu GPT-5.3-Codex thực hiện thêm bao nhiêu công việc mỗi lượt và sự khác biệt về năng suất
- GPT-5.3-Codex đã thiết kế nhiều bộ phân loại regex đơn giản để ước lượng tần suất đặt câu hỏi làm rõ, phản hồi tích cực·tiêu cực và tiến độ công việc, sau đó chạy trên toàn bộ log phiên ở quy mô lớn rồi tạo báo cáo kết luận
- Những người xây dựng cùng Codex có mức hài lòng cao hơn; tác tử hiểu ý định tốt hơn, tiến triển nhiều hơn trong mỗi lượt và giảm số câu hỏi làm rõ
Xây dựng pipeline dữ liệu
- Dữ liệu alpha test rất khác so với mô hình trước nên xuất hiện nhiều kết quả bất thường và phản trực giác
- Nhà khoa học dữ liệu đã xây dựng pipeline dữ liệu mới cùng GPT-5.3-Codex và tạo ra trực quan hóa phong phú hơn nhiều so với công cụ dashboard tiêu chuẩn
- Phân tích kết quả cùng Codex để tóm tắt insight cốt lõi của hàng nghìn điểm dữ liệu trong vòng 3 phút

Đảm bảo vị thế tiên phong về an ninh mạng

Trong vài tháng gần đây, hiệu năng của mô hình trên các tác vụ an ninh mạng đã cải thiện đáng kể, mang lại lợi ích cho cả lập trình viên lẫn chuyên gia bảo mật
Song song với đó, OpenAI chuẩn bị các biện pháp an toàn an ninh mạng được tăng cường nhằm hỗ trợ sử dụng phòng thủ và khả năng phục hồi rộng hơn của hệ sinh thái
Đây là mô hình đầu tiên được phân loại ở mức High cho các tác vụ liên quan đến an ninh mạng theo Preparedness Framework, đồng thời cũng là mô hình đầu tiên được huấn luyện trực tiếp để xác định lỗ hổng phần mềm
Chưa có bằng chứng xác đáng cho thấy mô hình có thể tự động hóa tấn công mạng đầu-cuối, nhưng OpenAI vẫn áp dụng cách tiếp cận phòng ngừa và triển khai ngăn xếp an toàn an ninh mạng toàn diện nhất từ trước đến nay
- Bao gồm huấn luyện an toàn, giám sát tự động, truy cập dựa trên độ tin cậy cho các năng lực nâng cao và pipeline thực thi có tích hợp threat intelligence
Xét đến tính chất lưỡng dụng vốn có của an ninh mạng, OpenAI áp dụng cách tiếp cận lặp dựa trên bằng chứng để vừa tăng tốc khả năng phát hiện·khắc phục lỗ hổng của bên phòng thủ, vừa trì hoãn việc lạm dụng
Nghiên cứu phòng thủ và chương trình bảo vệ hệ sinh thái
- Ra mắt chương trình thí điểm Trusted Access for Cyber nhằm tăng tốc nghiên cứu phòng thủ an ninh mạng
- Mở rộng beta kín của tác tử nghiên cứu bảo mật Aardvark, sản phẩm đầu tiên trong dòng Codex Security
- Hợp tác với các maintainer mã nguồn mở để cung cấp quét codebase miễn phí cho các dự án được sử dụng rộng rãi (ví dụ: Next.js)
  - Nhà nghiên cứu bảo mật đã dùng Codex để phát hiện các lỗ hổng được công bố tuần trước (CVE-2025-59471, CVE-2025-59472)
- Dựa trên chương trình tài trợ an ninh mạng trị giá 1 triệu USD ra mắt năm 2023, OpenAI đầu tư thêm 10 triệu USD API credit để tăng tốc phòng thủ an ninh mạng bằng các mô hình mạnh nhất
  - Đặc biệt nhắm đến phần mềm mã nguồn mở và các hệ thống hạ tầng trọng yếu
  - Các tổ chức tham gia nghiên cứu bảo mật thiện chí có thể đăng ký API credit và hỗ trợ qua Cybersecurity Grant Program

Khả dụng và chi tiết

GPT-5.3-Codex hiện khả dụng trên các gói ChatGPT trả phí và có thể dùng ở mọi nơi hỗ trợ Codex (ứng dụng, CLI, extension IDE, web)
Quyền truy cập API đang được chuẩn bị để kích hoạt an toàn
Nhờ cải thiện hạ tầng và ngăn xếp suy luận, mô hình vận hành nhanh hơn 25% cho người dùng Codex, mang lại tương tác và kết quả nhanh hơn
Đồng thiết kế, huấn luyện và phục vụ trên hệ thống NVIDIA GB200 NVL72

Hướng đi tiếp theo

Codex đang chuyển từ việc chỉ viết mã sang dùng mã như một công cụ để điều khiển máy tính và hoàn thành công việc từ đầu đến cuối
Bằng cách mở rộng biên giới của tác tử lập trình, mô hình không chỉ mở khóa xây dựng·triển khai phần mềm mà còn mở ra lĩnh vực lao động tri thức rộng hơn như nghiên cứu, phân tích và thực thi các nhiệm vụ phức tạp
Bắt đầu từ tác tử lập trình tốt nhất, Codex đang phát triển thành cộng tác viên đa năng trên máy tính, mở rộng cả những gì có thể xây dựng lẫn phạm vi những người có thể xây dựng

Appendix: Số liệu benchmark

Tất cả đánh giá đều được chạy với xhigh reasoning effort
SWE-Bench Pro(Public): GPT-5.3-Codex 56.8% / GPT-5.2-Codex 56.4% / GPT-5.2 55.6%
Terminal-Bench 2.0: GPT-5.3-Codex 77.3% / GPT-5.2-Codex 64.0% / GPT-5.2 62.2%
OSWorld-Verified: GPT-5.3-Codex 64.7% / GPT-5.2-Codex 38.2% / GPT-5.2 37.9%
GDPval(thắng hoặc hòa): GPT-5.3-Codex 70.9% / GPT-5.2 70.9%(high)
Cybersecurity Capture The Flag Challenges: GPT-5.3-Codex 77.6% / GPT-5.2-Codex 67.4% / GPT-5.2 67.7%
SWE-Lancer IC Diamond: GPT-5.3-Codex 81.4% / GPT-5.2-Codex 76.0% / GPT-5.2 74.6%

2 bình luận

treestae 2026-02-06

Trước đây tôi thiên về phía Claude hơn, nhưng dạo gần đây Codex lại hợp ý tôi hơn. Tôi hy vọng chúng sẽ phát triển theo hướng bổ trợ lẫn nhau như iOS và AOS.

GN⁺ 2026-02-06

Ý kiến trên Hacker News

Thật thú vị khi GPT‑5.3 Codex và Opus 4.6 đang phát triển theo những hướng đi khác nhau về mặt triết lý
Codex được thiết kế như một cộng tác viên tương tác làm việc cùng con người với sự can thiệp ở giữa quá trình, trong khi Opus là một hệ thống tự chủ và có tính lập kế hoạch hơn, giảm thiểu sự can thiệp của con người
Điều này dường như phản ánh hai góc nhìn của các lập trình viên thực tế về coding dựa trên LLM — kiểm soát lấy con người làm trung tâm vs giao phó hoàn toàn —
Tôi tò mò liệu các mô hình sau này sẽ được tối ưu theo sự phân hóa triết lý này, hay sẽ xuất hiện những cách tiếp cận mới
- Từ góc nhìn UX thì tôi lại thấy gần như ngược lại
  Codex có xu hướng suy nghĩ lâu hơn nhiều trước khi đưa ra câu trả lời
- Tôi tin chắc cách tiếp cận của Codex sẽ tiếp tục tồn tại
  Khi con người ở trong vòng lặp thì có thể tránh được phần lớn vấn đề của LLM, và cách rà soát theo từng đơn vị mã nhỏ rất hiệu quả
  Nếu Codex xử lý các công việc lặp đi lặp lại thì lập trình viên có thể tập trung vào logic cốt lõi
  Cách tiếp cận tự động hoàn toàn không phù hợp với codebase lớn vì chất lượng mã sẽ giảm về dài hạn
- Thực tế là Codex ban đầu xuất hiện dưới dạng web app và gần như không có tương tác
  Bạn gửi yêu cầu, nó tự chạy trong môi trường container, rồi sau đó chỉ có thể xử lý tiếp qua chat
- Có cảm giác hai mô hình đang hội tụ vào phạm vi của nhau
  Codex ngày càng tự chủ hơn, còn Opus thì dường như đang trở nên cộng tác hơn
  Cuối cùng rất có thể cả hai cách tiếp cận đều sẽ hữu ích tùy theo tình huống
- Tôi cảm thấy Codex là mô hình suy nghĩ nhiều hơn so với Opus
  Vì vậy bản 5.2 ổn định hơn Opus 4.5
Có vẻ Anthropic đã vội công bố Opus 4.6 để né việc bị so sánh với GPT‑5.3‑Codex
Điểm Terminal‑Bench 2.0 là Opus 4.6 đạt 65.4, còn GPT‑5.3‑Codex đạt 77.3
- Benchmark AI thường không khớp lắm với trải nghiệm thực tế
  Dù vậy Codex 5.2 vẫn nổi trội nhất ở các tác vụ phức tạp, và tôi đang mong chờ 5.3
- Thật bất ngờ khi cùng một ngày lại có hai mô hình coding hàng đầu được công bố
- Bài test được chạy ở chế độ xhigh reasoning nên chi phí gấp đôi
  GPT‑5.2 Codex là $3244, Claude Opus 4.5 khoảng $1485
- Có vẻ Codex đã overfit vào Terminal Bench
  Nhìn vào kết quả ARC AGI 2 thì khả năng tổng quát hóa có vẻ còn thiếu
- Theo trải nghiệm của tôi, dòng GPT mạnh hơn Claude rất nhiều trong coding kiểu agent
  Tôi nghi ngờ nhận định rằng Claude vượt trội hơn trong coding
Điều ấn tượng là GPT‑5.3‑Codex là mô hình đầu tiên được dùng để phát triển chính nó
Nhóm Codex được cho là đã dùng các phiên bản đầu tiên để debug pipeline huấn luyện nội bộ
Tôi nghĩ Claude Code phát triển được như vậy cũng nhờ văn hóa dogfooding kiểu này
- Không khác quá nhiều so với hướng mà các nhà nghiên cứu của dự án AI‑2027 đã dự đoán
- Có vẻ mô hình đang bước vào giai đoạn đầu của tự cải thiện
  Giờ điều này lại khiến tôi suy nghĩ về khả năng xảy ra “tiến bộ dần dần (soft take‑off)”
GPT‑5.3‑Codex được xếp vào nhóm mô hình năng lực cao (high capability) trong các tác vụ liên quan đến an ninh mạng
Nó đã được huấn luyện trực tiếp cho việc phát hiện lỗ hổng, nhưng vẫn chưa có bằng chứng về tự động hóa tấn công hoàn chỉnh
Tuy vậy, tôi nghĩ framework bảo mật hiện tại đã lỗi thời
Trong tương lai, chính đoạn mã do Codex tạo ra có thể trở thành bề mặt tấn công mới của các mối đe dọa bảo mật
Codex về cơ bản cần được thiết kế để tạo ra mã an toàn
- Tôi thắc mắc liệu “high‑capability” có phải là một tuyên bố mạnh hơn cả một đội chuyên gia trình độ tiến sĩ hay không
  Bài liên quan: NBC News đưa tin
- Có cảm giác đây lại là chiến lược quen thuộc của OpenAI nhằm tạo ấn tượng rằng họ đang tiến gần AGI
  Cũng như Anthropic, họ có vẻ đang phô diễn năng lực kỹ thuật dưới lớp vỏ “nghiên cứu an toàn”
- Dạo này có câu đùa rằng các dự án vibe-coded đang để lộ nguyên API key ngay trên trang web
  Tôi tò mò liệu những sai sót kiểu này có tiếp tục xảy ra không
- Nói là “tăng cường bảo mật”, nhưng cuối cùng có khi chỉ ở mức thêm ACL và cập nhật regex
Ngày trước các lab AI còn điều phối để tránh công bố cùng lúc,
còn giờ thì công bố cạnh tranh nhau cách nhau 30 phút
- Giờ đúng là đã chuyển sang thế cạnh tranh khốc liệt
  Demis có thể không giỏi đấu đá chính trị nhưng có lẽ sẽ thắng bằng hiệu năng
  Elon, Sam, Dario thì đã rất giỏi đấu trí chính trị rồi
  Có vẻ 2026 sẽ là một năm đầy kịch tính của ngành AI
- Cũng có những điều chỉnh lịch để cạnh tranh với các mô hình nội địa vào dịp Tết Nguyên đán ở Trung Quốc
- Kiểu cạnh tranh này đã diễn ra từ thời GPT‑4
  Khi OpenAI công bố lúc 10 giờ thì Anthropic và Google cũng ra mắt đối đầu
- Tôi có chút thắc mắc liệu việc điều phối kiểu này có thể là hành vi cartel và là bất hợp pháp hay không
Tôi thấy thú vị khi GPT‑5.3‑Codex được công bố là đã tự động cải thiện một web game
Nhưng hơi tiếc vì số lượng prompt hay token trong thí nghiệm so sánh không được công bố
Tôi muốn thử đối chiếu với bản web clone của Factorio mà trước đây mình từng làm
- Demo đó thực sự rất ngầu
  Tôi không biết người ta có thể tận dụng mô hình theo cách như vậy
Tôi đã nghe câu “AI giúp tăng năng suất gấp 100 lần” suốt nhiều năm
Nhưng tôi tò mò liệu đã có chương trình nào mới mẻ và đáng tin cậy thực sự do LLM chủ động tạo ra hay chưa
- Ngay cả khi máy tính bỏ túi được đưa vào từ thập niên 1930, người ta cũng từng nói nghề kế toán sẽ biến mất, nhưng thực tế lại càng chuyên môn hóa hơn
  LLM cũng chỉ giúp giải quyết các vấn đề sẵn có nhanh hơn, chứ không phải giải các vấn đề hoàn toàn mới
  Ví dụ, trong bài toán sắp xếp thẻ UI, Gemini đã gợi ý cho tôi cách tiếp cận dựa trên tọa độ cực, và điều đó rất hữu ích
  Có thể không phải 100 lần, nhưng tôi cảm nhận được năng suất tăng gấp 2 lần
  Thảo luận liên quan: ví dụ về vibe coding
- Phần lớn lập trình viên lặp đi lặp lại việc giải quyết những vấn đề cũ hơn là xử lý vấn đề mới
  Vì vậy lời phê bình “đó là vấn đề đã được giải rồi” không có nhiều ý nghĩa
- Sẽ hay nếu có các dự án game lớn mã nguồn mở (OpenGTA, OpenFIFA, v.v.) được công bố
- Opus 4.5 đã mất năm lần thử mới giải được một vấn đề git đơn giản,
  trong đó có tới ba lần ảo giác ra những flag không tồn tại
  ChatGPT 5.2 cũng cần sửa nhiều lần để tạo được một script ffmpeg
  Có lẽ ngày nào nó xử lý xuống dòng chuẩn trên Windows thì ngày đó mới là AGI
- Liệu có chương trình nào do con người viết mà LLM tuyệt đối không thể viết ra không?
  Chuyện codebase lớn chỉ là giới hạn tạm thời mà thôi
  Nghe giống như lời phàn nàn của những người không thích tiến bộ
Kết quả Terminal Bench 2.0

Mô hình Điểm

OpenAI Codex 5.3 77.3

Anthropic Opus 4.6 65.4
- Có vẻ giờ cuộc đua benchmark (benchmaxxing) đã bớt ý nghĩa
  Cảm giác trong trải nghiệm coding thực tế quan trọng hơn điểm số
- Hiệu năng ngoài thực tế gây thất vọng hơn benchmark rất nhiều
Tôi tò mò liệu các lập trình viên có cảm thấy bị đe dọa bởi thay đổi này không
Thành thật mà nói, tôi nghĩ là có
- AI còn thiếu khả năng trừu tượng hóa
  Nếu là lập trình viên thi đấu thì có thể thấy bị đe dọa, nhưng lập trình viên thông thường thì ít hơn
- Nếu bạn chưa học cách tận dụng AI hiệu quả thì có lý do để cảm thấy bị đe dọa
- Hiện tại con người vẫn phải tự xem lại mã
  Tôi nghĩ trước khi AGI xuất hiện thì tự động hóa hoàn toàn là điều bất khả thi
- Giống như nghịch lý Jevons, hiệu quả tăng lên cũng chưa chắc làm biến mất việc làm
Xung quanh tôi, người dùng Claude nhiều hơn Codex rất nhiều
Nhưng xét về giới hạn sử dụng và gói giá, Codex dễ chịu hơn hẳn
Dùng gói $20 trong vài tháng mà gần như chưa chạm giới hạn
Tôi cảm thấy những khác biệt thực dụng như vậy còn quan trọng hơn chất lượng coding
- Gần đây tôi chuyển sang terminal agent dựa trên CLI và thấy Codex tốt hơn hẳn
  Trước đây trong GH Copilot thì Claude tốt hơn,
  nhưng Codex có tính tự chủ cao hơn nên phù hợp hơn với vibe‑coding,
  và có lẽ nhờ hiệu ứng quảng bá trên Twitter, LinkedIn nên tệp người dùng cũng lớn hơn
- Tôi cũng thấy ưu đãi gói giá của Codex tốt hơn
  Nếu không nhận ra khác biệt về chất lượng thì đương nhiên sẽ chọn phương án rẻ hơn
- Dù chạy session đa agent cả ngày thì tôi vẫn hiếm khi vướng giới hạn
  Việc chuyển đổi gói cũng thoải mái nên trải nghiệm sử dụng rất hài lòng

Mô hình	Điểm
OpenAI Codex 5.3	77.3
Anthropic Opus 4.6	65.4

Ra mắt GPT-5.3-Codex

Tổng quan

Năng lực tác tử tiên phong

Hiệu năng lập trình

Phát triển web

Năng lực ngoài lập trình

Cộng tác viên tương tác

Huấn luyện và triển khai GPT-5.3-Codex bằng Codex

Ví dụ sử dụng của nhóm nghiên cứu

Ví dụ sử dụng của nhóm kỹ thuật

Ví dụ sử dụng trong alpha test

Xây dựng pipeline dữ liệu