5 điểm bởi GN⁺ 2025-11-20 | 2 bình luận | Chia sẻ qua WhatsApp
  • OpenAI vừa ra mắt GPT‑5.1‑Codex‑Max, mô hình coding agentic mới nhất được thiết kế để thực hiện các tác vụ phát triển dài hạn và phức tạp, có thể dùng trong môi trường Codex
  • Thông qua công nghệ ‘compaction’ mới, mô hình có thể xử lý nhất quán các dự án quy mô hàng triệu token khi làm việc qua nhiều cửa sổ ngữ cảnh
  • Hiệu quả token được cải thiện, đạt hiệu năng tốt hơn với ít hơn 30% token ở cùng mức suy luận, hứa hẹn giúp giảm chi phí
  • Có thể làm việc độc lập trong thời gian dài và thực hiện refactor cùng debug kéo dài hơn 24 giờ
  • Tăng cường sandbox bảo mật và hệ thống giám sát an ninh mạng để trở thành đối tác coding AI an toàn hơn

Giới thiệu GPT‑5.1‑Codex‑Max

  • GPT‑5.1‑Codex‑Maxmô hình coding agentic mới của OpenAI, một phiên bản cập nhật của mô hình dựa trên suy luận đã được huấn luyện cho nhiều loại công việc trong kỹ thuật phần mềm, toán học, nghiên cứu và các lĩnh vực khác
    • Có thể dùng ngay trong Codex CLI, extension IDE, môi trường cloud và quy trình review code
    • Quyền truy cập API sẽ sớm được cung cấp
  • Mô hình được cải thiện về tốc độ, trí tuệ và hiệu quả token, giúp đóng vai trò đối tác coding đáng tin cậy hơn trong toàn bộ chu kỳ phát triển
  • Thông qua quá trình Compaction, mô hình có thể xử lý nhất quán các tác vụ quy mô hàng triệu token khi làm việc qua nhiều cửa sổ ngữ cảnh

Hiệu năng coding frontier

  • Được huấn luyện trên các tác vụ kỹ thuật phần mềm thực tế (tạo PR, review code, coding frontend, Q&A) nên đạt hiệu năng vượt trội hơn mô hình trước đó trong nhiều bài đánh giá
  • Đây là mô hình Codex đầu tiên hoạt động trong môi trường Windows, đồng thời cũng bao gồm các cải tiến để nâng cao khả năng cộng tác trong Codex CLI
  • Không chỉ benchmark được cải thiện mà khả năng sử dụng thực tế cũng cho thấy kết quả tốt hơn

Tốc độ và hiệu quả chi phí

  • Theo SWE‑bench Verified, ở cùng mức suy luận, mô hình đạt hiệu năng cao hơn khi dùng ít hơn 30% token so với GPT‑5.1‑Codex
  • Chế độ suy luận ‘xhigh’ mang lại chất lượng tốt hơn nhờ thời gian suy nghĩ dài hơn, còn với tác vụ thông thường thì nên dùng chế độ ‘medium’
  • Việc tăng hiệu quả token được kỳ vọng sẽ dẫn đến giảm chi phí cho nhà phát triển
    • Ví dụ: GPT‑5.1‑Codex‑Max có thể tạo thiết kế frontend với chức năng và thẩm mỹ tương tự với chi phí thấp hơn nhiều

Tác vụ chạy dài hạn

  • Với tính năng Compaction, mô hình có thể thực hiện các vòng lặp agent dài hạn và những đợt refactor phức tạp vượt quá giới hạn ngữ cảnh
    • Khi phiên làm việc chạm giới hạn, hệ thống sẽ tự động nén (compact) để giữ nguyên tiến trình đang thực hiện đồng thời mở ra ngữ cảnh mới
  • Trong các đánh giá nội bộ đã ghi nhận trường hợp mô hình làm việc liên tục hơn 24 giờ
    • Cuối cùng cho ra kết quả thành công thông qua việc sửa lỗi test và triển khai lặp đi lặp lại
  • Khả năng duy trì tính nhất quán dài hạn là nền tảng cốt lõi để tiến tới các hệ thống AI tổng quát và đáng tin cậy

Xây dựng AI agent an toàn và đáng tin cậy

  • Hiệu năng trong đánh giá suy luận dài hạn được cải thiện rõ rệt, mang lại kết quả tốt hơn trong an ninh mạng và các bài toán coding dài hạn
  • Dù chưa đạt mức ‘High’ theo Cybersecurity Preparedness Framework, đây vẫn là mô hình có năng lực an ninh mạng mạnh nhất trong số các mô hình đã được triển khai cho tới nay
    • Tăng cường các ứng dụng phòng thủ thông qua chương trình Aardvark và các sáng kiến tương tự
  • Giám sát chuyên biệt cho an ninh mạng được dùng để phát hiện và chặn các nỗ lực lạm dụng, đồng thời chuyển các hoạt động đáng ngờ tới hệ thống rà soát chính sách
  • Codex mặc định chạy trong sandbox bảo mật, với quyền truy cập tệp và sử dụng mạng bị hạn chế
    • Khi truy cập internet vẫn tồn tại rủi ro prompt injection
  • Nhà phát triển cần xem xét công việc của agent trước khi triển khai
    • Codex ghi lại log terminal, lệnh gọi công cụ và kết quả test, đồng thời đóng vai trò hỗ trợ chứ không thay thế việc review của con người
  • Vì các tính năng an ninh mạng có thể được dùng cho cả phòng thủ lẫn tấn công, OpenAI triển khai theo hướng phát hành dần dần song song với tăng cường biện pháp bảo vệ

Cung cấp và triển khai

  • GPT‑5.1‑Codex‑Max có sẵn trong Codex dành cho các gói ChatGPT Plus, Pro, Business, Edu, Enterprise
  • Cũng sẽ sớm được cung cấp cho các nhà phát triển dùng Codex CLI với API key
  • Bắt đầu từ hôm nay, trong Codex, GPT‑5.1‑Codex‑Max thay thế GPT‑5.1‑Codex làm mô hình mặc định
    • GPT‑5.1 là mô hình đa dụng, còn Codex‑Max được khuyến nghị dành riêng cho các tác vụ coding agentic

Kết luận

  • GPT‑5.1‑Codex‑Max là một bước tiến lớn về khả năng duy trì tác vụ coding dài hạn, quản lý workflow phức tạp và triển khai chất lượng cao
  • Kết hợp với các cải tiến trong CLI, extension IDE, tích hợp cloud và công cụ review code, mô hình giúp nâng năng suất kỹ thuật lên 70%
    • 95% kỹ sư nội bộ của OpenAI sử dụng Codex hằng tuần
  • Cùng với sự mở rộng của các tính năng agent, đây là dấu mốc mở ra một giai đoạn mới của năng suất phát triển

Phụ lục: Kết quả đánh giá mô hình

  • SWE‑bench Verified (n=500) : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%
  • SWE‑Lancer IC SWE: 66.3% → 79.9%
  • Terminal‑Bench 2.0: 52.8% → 58.1%

2 bình luận

 
kaydash 2025-11-27

Codex à, hẹn gặp ở MS AOIA nhé 😊

 
GN⁺ 2025-11-20
Ý kiến trên Hacker News
  • Gần đây tôi đã dùng ClaudeCodex khá nhiều.
    Claude gần như phớt lờ các chỉ thị (ví dụ: CLAUDE.md), trong khi Codex lại tuân theo một cách cực kỳ triệt để, như thể không muốn bỏ sót dù chỉ một ký tự.
    Ví dụ, nếu có lỗi gõ sai trong mã kiểm thử, Claude sẽ sửa vì nghĩ rằng “đây rõ ràng là lỗi đánh máy”, còn Codex thì cực đoan đến mức gần như viết lại cả engine V8 để phá vỡ phép toán.
    Vì vậy tôi cảm thấy Claude phù hợp với các vòng lặp nhanh, còn Codex phù hợp với các công việc dài hạn đòi hỏi độ chính xác cao.

    • Tôi cũng rất ấn tượng với Codex. Trong dự án mô phỏng bay đã làm suốt 6 tháng, tôi cần chuyển hệ tọa độ sang ECEF, đồng nghĩa phải viết lại toàn bộ engine vật lý và hệ thống đồ họa.
      Tôi chỉ đưa ra một đoạn hướng dẫn ngắn, và trong 45 phút nó đã hoàn thành gần như hoàn hảo. Khi tôi yêu cầu báo cáo tóm tắt, đúng là nó đã làm theo không sót một chữ nào trong chỉ thị.
    • Một người bạn luôn bảo Claude phải gọi mình là “Mr Tinkleberry”, nên mỗi khi Claude quên điều đó thì có thể phát hiện việc bỏ qua chỉ thị.
    • Codex hành xử như thể là “lập trình viên cuối cùng trên Trái Đất”. Dù chuyện gì xảy ra, nó cũng cố hoàn thành mục tiêu.
      Cách này tốt với người xem nó như một hộp đen, nhưng tôi lại muốn một cộng sự biết điều theo lẽ thường.
      Có cảm giác điều này cho thấy sự khác biệt trong cách OpenAI và Anthropic nhìn về tương lai của AI.
    • Ẩn dụ “sửa bài test 1+1===3” thực sự rất xuất sắc. Chỉ một dòng này là đủ để giải thích khác biệt cốt lõi giữa họ GPT và họ Claude.
      Các mô hình GPT yếu hơn trong kiểu code ngẫu hứng, nhưng lại rất xuất sắc với những công việc có yêu cầu rõ ràng.
    • Điều khiến tôi bực là Codex hầu như không biết xóa code, mà luôn làm codebase phình to không cần thiết.
      Cả trong Python lẫn TypeScript đều có quá nhiều đoạn mã phòng thủ như .getattr(), typeof.
  • Chúng ta giỏi huấn luyện mô hình, nhưng đặt tên thì không giỏi 😄
    Phiên bản mới đạt SOTA với 77.9% trên SWE-Bench-Verified, 79.9% trên SWE-Lancer, và 58.1% trên TerminalBench 2.0.
    Nó có thể nén nhiều cửa sổ ngữ cảnh để làm việc dài hơi, đồng thời cải thiện hiệu quả token 30%.
    Muốn nghe ý kiến của mọi người.

    • Hiện tôi đang dùng GPT‑5.1‑Codex‑High, nên muốn biết bản Max khác gì về chi phí và giới hạn credit.
      Nếu là “tiết kiệm token” thì nghe có vẻ sẽ rẻ, nhưng cái tên “Max” lại nghe như sẽ đắt.
    • Codex là một sản phẩm tuyệt vời nên ngay cả nâng cấp dần dần cũng rất đáng chào đón. Tôi sẽ sớm thử.
    • Tôi muốn biết liệu issue #6426 đã được giải quyết chưa.
      Bản 5.1 từng dùng quá nhiều token nên tôi đã quay lại 5.0.
    • Sẽ rất tốt nếu có thể dùng mô hình này cả trong giao diện Chat.
    • Tôi thích tính năng subagent của Claude Code. Nó hữu ích cho việc quản lý ngữ cảnh trong những codebase phức tạp.
      Tôi đã tham khảo các agent mẫu, và sẽ rất hay nếu Codex CLI cũng có khả năng tương tự.
  • Hôm nay tôi đã so sánh GPT‑5.1‑Codex‑Max với Gemini 3 Pro trong CLI.
    Gemini rất khó làm việc cùng như một cộng sự. Khi bạn đặt câu hỏi, nó đoán ý rồi viết code trước luôn.
    Trong khi đó Codex trả lời thẳng vào câu hỏi.
    Về chất lượng code, Gemini có phong cách dễ đọc với con người hơn, nhưng về lập kế hoạch và độ chính xác khi triển khai thì Codex vượt trội hơn hẳn.
    Gemini có các vấn đề như ảo giác tên cột DB, thiếu tính năng, và thiếu tính tích hợp.
    Nhìn chung Codex là người thắng rõ ràng.

    • Google khoe rằng Gemini 3 là tốt nhất trên mọi benchmark, nhưng điều này cho thấy thực tế không phải vậy.
    • Khi dùng Gemini, bạn nên giữ temperature ở mặc định 1.0. Nếu hạ thấp, sẽ xuất hiện vòng lặp hoặc suy giảm hiệu năng.
      Xem tài liệu chính thức.
    • Tôi cũng đã bảo Gemini “đừng viết code”, mà nó vẫn cứ tiếp tục viết lại code.
  • OpenAI thường công bố mô hình của mình ngay trước khi đối thủ ra thông báo.
    GPT‑4o cũng từng được công bố một ngày trước Google I/O. Có lẽ lần cập nhật Codex này cũng chỉ là một bản cập nhật tiệm tiến.

    • GPT‑5.1 / Codex vốn đã vượt Gemini 3 trên benchmark, và bản cập nhật này còn nới rộng khoảng cách hơn nữa.
    • Anthropic cũng đã tung Opus 4.1 trùng thời điểm GPT‑5 ra mắt. Giờ đây cuộc cạnh tranh thực sự rất khốc liệt.
    • Nhờ cạnh tranh như vậy mà tiến bộ đang diễn ra nhanh hơn. Phải cảm ơn sự cạnh tranh lành mạnh này.
    • Gemini đang ăn dần thị phần, và OpenAI cũng biết điều đó.
    • Kiểu ganh đua về thời điểm công bố như thế này giờ đã thành quen thuộc rồi.
  • Nhìn vào ví dụ render SVG,
    mức medium cho cảm giác cân bằng tốt, và thể hiện khác biệt phong cách có chủ đích so với high/low.
    Những so sánh kiểu này giúp đánh giá độ nhất quán sáng tạo của mô hình.

    • Tuy vậy, các benchmark đầu ra SVG như thế này có lẽ giờ không còn nhiều ý nghĩa. Có khả năng đây chỉ là kết quả của việc tinh chỉnh chuyên biệt bằng RLHF.
  • Giá mà mỗi công ty chỉ cần dành 1% nỗ lực họ đổ vào huấn luyện mô hình để cải thiện trải nghiệm thanh toán và đăng nhập.
    Claude gần như không có hệ thống đăng nhập tử tế, OpenAI thì cần sửa lỗi Codex CLI (#2798).
    Còn Google thì cấu trúc sản phẩm và thanh toán quá rối. Họ nên gộp lại thành một trang giá duy nhất.

    • Tôi cũng đã bỏ cuộc vì hệ thống thanh toán của Google. Tôi còn chẳng hiểu Google Payments là gì, và lỗi xác minh tài khoản đã khiến tài khoản công ty 18 năm tuổi của tôi bị khóa.
    • Dòng sản phẩm của Google quá lộn xộn. Vertex AI, AI Studio, Maker Studio, Gemini... tài liệu thì chồng chéo và không rõ ràng.
    • Tùy chọn opt-out khỏi việc dùng dữ liệu để huấn luyện của Gemini đã biến mất, và việc tài khoản nào bị đưa vào huấn luyện cũng rất thiếu minh bạch.
      Ngay cả tài khoản Workspace cũng không an toàn. Phải đọc kỹ ToS.
      Hiện tại tôi cảm thấy OpenAI mang lại trải nghiệm khách hàng đáng tin hơn nhiều.
    • Tôi nghi ngờ Gemini 3 Pro đã được hậu huấn luyện bằng dữ liệu không được cho phép.
      Issue #12121 cũng có tranh cãi liên quan.
    • Claude gây bất tiện vì khi đăng nhập không có tùy chọn mật khẩu hay passkey.
  • Câu “một bước tiến mới để trở thành đối tác lập trình đáng tin cậy” và “một mô hình được tối ưu cho các tác vụ dài hơi” nghe như mâu thuẫn với nhau.
    Nếu là đối tác thì phải cùng làm việc ngắn gọn, lặp đi lặp lại; còn tự làm việc một mình trong thời gian dài thì đâu còn là đối tác nữa.

    • Với các tác vụ dài, Codex quá độc đoán, đến mức chọn cách nguy hiểm như tự viết lại cả thư viện TLS.
    • (Thành viên nhóm Codex) Chúng tôi nhắm tới một mô hình kiểu đồng nghiệp có thể làm được cả tác vụ lặp ngắn và tác vụ ủy quyền dài hạn.
      Nhìn vào biểu đồ token trong blog chính thức có thể thấy định hướng đó.
    • Tôi cũng đề xuất mô hình Composer của Cursor. Nó rất nhanh, và ngay cả khi kết quả chưa đủ tốt thì bạn vẫn có thể thử lại trong vòng 30 giây.
  • Tôi rất ấn tượng với tốc độ của plan mode trong Codex. Chất lượng code cũng ổn.
    Nhưng khi tôi bảo “npm run build rồi sửa mọi vấn đề”, nó lại lao vào cài các gói liên quan đến eslint một cách mất kiểm soát.
    Claude Code làm cùng việc đó trong chưa đầy 1 phút. Có vẻ Codex vẫn còn thiếu ổn định.

    • Tôi thắc mắc plan mode là gì.
  • Codex mạnh ở backend hoặc các công việc thiên về dữ liệu, nhưng với các tác vụ UI đơn giản thì nó thường cho ra kết quả kỳ quặc.

  • Cuối tuần trước tôi đã dùng Claude và Codex cùng nhau, và Codex cho kết quả tốt hơn nhiều với code vật lý/đồ họa TypeScript.
    Trong hàng nghìn dòng code đó, phần tôi tự viết chỉ có vài trăm dòng.
    Giờ tôi định để Codex mới review công việc của Codex cũ.