7 điểm bởi GN⁺ 2025-12-19 | 1 bình luận | Chia sẻ qua WhatsApp
  • Mô hình lập trình dạng tác nhân nhắm tới các tác vụ phát triển phức tạp trong thế giới thực, được tối ưu hóa cho môi trường Codex
  • Trong các tác vụ kéo dài, nén ngữ cảnh giúp duy trì mạch ngữ cảnh, nhờ đó mạnh hơn với các thay đổi lớn như refactoring và migration
  • Cải thiện hiệu năng tổng thể trên môi trường Windows gốc, đồng thời tăng cường năng lực thị giác để hỗ trợ diễn giải ảnh chụp màn hình, bản vẽ, biểu đồ và UI
  • Đạt hiệu năng hàng đầu trên SWE-Bench Pro và Terminal-Bench 2.0
  • Nâng mạnh năng lực an ninh mạng cho mục đích phòng thủ, đồng thời áp dụng phương thức triển khai kết hợp ưu tiên người dùng trả phí và truy cập dựa trên độ tin cậy để cân nhắc khả năng bị lạm dụng

Tổng quan

  • Công bố GPT-5.2-Codex, một mô hình được thiết kế để xử lý các tác vụ kỹ thuật phần mềm phức tạp trong thế giới thực
  • Dựa trên GPT-5.2 và được tối ưu cho công việc lập trình dạng tác nhân trong môi trường Codex
  • Thông qua nén ngữ cảnh, mô hình mang lại hiệu năng ổn định trong các tác vụ kéo dài và được tăng cường khả năng xử lý các thay đổi mã nguồn quy mô lớn
  • Hiệu năng tổng thể trên môi trường Windows đã được cải thiện, đồng thời năng lực an ninh mạng cũng được tăng cường

Mở rộng ranh giới của kỹ thuật phần mềm

  • Mô hình được phát triển dựa trên thế mạnh về công việc dựa trên tri thức chuyên môn của GPT-5.2 và hiệu năng lập trình dạng tác nhân cùng khả năng tận dụng terminal của GPT-5.1-Codex-Max
  • Mục tiêu là hoạt động như một đối tác đáng tin cậy trong các tác vụ lập trình kéo dài, dựa trên khả năng hiểu ngữ cảnh dài hạn, độ ổn định khi gọi công cụ, cải thiện độ chính xác và nén gốc
  • Đồng thời cũng hướng tới việc duy trì hiệu quả token trong quá trình suy luận
  • Việc tăng cường năng lực thị giác giúp nâng cao độ chính xác khi diễn giải ảnh chụp màn hình, bản vẽ kỹ thuật, biểu đồ và giao diện UI được chia sẻ trong các phiên lập trình
  • Dựa trên các tính năng được giới thiệu trong GPT-5.1-Codex-Max, mô hình có thể thực hiện lập trình dạng tác nhân hiệu quả và ổn định hơn ngay cả trên Windows gốc

Hiệu năng benchmark

  • Đạt hiệu năng hàng đầu trên SWE-Bench Pro và Terminal-Bench 2.0
    • SWE-Bench Pro là bài đánh giá tạo bản vá để giải quyết các tác vụ kỹ thuật phần mềm thực tế khi được cung cấp kho mã nguồn
    • Terminal-Bench 2.0 kiểm tra hiệu năng tác nhân AI trong môi trường terminal thực tế, bao gồm biên dịch mã, huấn luyện mô hình và cấu hình máy chủ

An ninh mạng trong thế giới thực

  • An ninh mạng mạnh mẽ là yếu tố thiết yếu để bảo vệ các hệ thống cốt lõi và dữ liệu nhạy cảm của xã hội hiện đại
  • Lỗ hổng có thể không bị lộ diện trong thời gian dài, và quá trình phát hiện, xác minh, sửa lỗi phụ thuộc nhiều vào các kỹ sư có công cụ phù hợp cùng cộng đồng các nhà nghiên cứu bảo mật độc lập
  • Trong trường hợp ngày 11 tháng 12 năm 2025, khi nhóm React công bố 3 lỗ hổng bảo mật ảnh hưởng đến các ứng dụng dựa trên React server components, không chỉ bản thân lỗ hổng mà cả quá trình phát hiện cũng thu hút sự chú ý
  • Trường hợp phát hiện lỗ hổng React

    • Andrew MacPherson, nhà nghiên cứu bảo mật tại Privy, công ty con của Stripe, đã sử dụng GPT-5.1-Codex-Max trong Codex CLI để phân tích React2Shell
    • Codex được sử dụng theo quy trình bảo mật tiêu chuẩn như thiết lập môi trường kiểm thử cục bộ, phân tích bề mặt tấn công và fuzzing dựa trên đầu vào bất thường
    • Trong quá trình tái hiện React2Shell, một hành vi ngoài dự kiến đã được xác nhận, và chỉ trong một tuần đã dẫn tới việc phát hiện 3 lỗ hổng chưa từng được biết đến trước đó
    • Các lỗ hổng được phát hiện đã được công bố cho nhóm React theo cách có trách nhiệm
    • Cũng bao gồm việc chia sẻ phiên Codex như một ví dụ cho thấy quy trình xác minh lỗ hổng của nhà nghiên cứu bảo mật có thể được rút ngắn đến mức nào

Năng lực an ninh mạng tiếp tục phát triển

  • Từ GPT-5-Codex, năng lực an ninh mạng bắt đầu được cải thiện rõ rệt; đến GPT-5.1-Codex-Max có bước nhảy lớn, và ở GPT-5.2-Codex cũng đã ghi nhận những cải thiện rõ ràng
  • Các mô hình trong tương lai được kỳ vọng sẽ tiếp tục xu hướng này, và việc lập kế hoạch cùng đánh giá đang được tiến hành với giả định có thể đạt mức “cao” về năng lực an ninh mạng trong hệ thống đánh giá mức độ sẵn sàng
  • GPT-5.2-Codex vẫn chưa đạt tới mức “cao”, nhưng công tác chuẩn bị vẫn đang tiếp tục với cả những mô hình trong tương lai có thể vượt qua ngưỡng đó

Kết luận

  • GPT-5.2-Codex cho thấy xu hướng mở rộng cách AI tiên tiến đóng góp trong lĩnh vực kỹ thuật phần mềm và an ninh mạng
  • Đồng thời hỗ trợ nhà phát triển và người chịu trách nhiệm bảo mật giải quyết các bài toán phức tạp, dài hạn, công cụ phục vụ nghiên cứu bảo mật có trách nhiệm cũng được tăng cường thêm một bước

1 bình luận

 
GN⁺ 2025-12-19
Ý kiến trên Hacker News
  • Nếu có ai từ OpenAI đọc được, xin hãy đừng động vào khả năng suy luận (reasoning)
    Codex thực sự xuất sắc trong việc tìm ra bug và các điểm không nhất quán trong code hay toán học
    Nếu Claude Code mạnh ở “sinh code”, thì Codex/GPT5.x áp đảo ở khoản phát hiện vấn đề
    Tôi nghĩ chất lượng quan trọng hơn tốc độ

    • Nếu chỉ cần kiểu phát hiện vấn đề chính xác này vài lần mỗi ngày, tôi tự hỏi gói 20 USD/tháng có đủ không, hay phải cần gói 200 USD
    • Tôi nghĩ vấn đề là “ưu tiên chất lượng” rốt cuộc đồng nghĩa với “chi phí tăng”, và rất khó chuyển phần chi phí tăng thêm đó sang cho khách hàng
    • Tôi cũng chủ yếu dùng Claude Code, nhưng nếu bật Codex để review code thì nó thực sự vượt trội ở phân tích luồng và phát hiện các bug tinh vi
    • Thật đáng kinh ngạc khi thấy “chế độ suy luận nâng cao” bắt được những bug rất nhỏ trong code
    • Vấn đề là Codex quá chính xác, nên nó cứ liên tục chỉ ra lỗi bộ nhớ mà tôi phải sửa. Nhờ vậy mà tốc độ lại chậm đi
  • Ban đầu tôi nghi ngờ Codex, nhưng giờ tôi bắt đầu mọi công việc lập trình với Codex
    Nó không hoàn hảo, nhưng cho kết quả đáng kinh ngạc trong refactor, bắt đầu dự án mới, hay xử lý công nghệ lạ
    Đặc biệt là nó giúp giảm sự trì hoãn (procrastination). Những việc lớn và mơ hồ chỉ cần ném cho Codex là nó tạo được một điểm khởi đầu tốt

    • Hoàn toàn đồng ý. Ban đầu tôi cũng hoài nghi, nhưng sau khi dùng Opus 4.5 thì bị sốc
      Codex 5.2 đã cải thiện chất lượng rất nhiều, đến mức giờ tôi giao luôn việc viết code cho nó
      Khi cùng nó lên kế hoạch và thảo luận thiết kế, gần như chẳng còn lý do gì để tự viết code nữa
    • Ở thread phía trên thì có người nói Codex yếu ở debug, nhưng ở thread khác lại có ý kiến hoàn toàn ngược lại
      Điều thú vị là cuối cùng đánh giá hiệu năng khách quan lại rất khó
    • Tôi cũng đồng tình với chuyện Codex giúp giảm trì hoãn
      Nhưng cốt lõi là tốc độ của vòng phản hồi. Build và test càng nhanh thì các công cụ coding dạng agent càng hiệu quả
      Các chỉ dẫn rõ ràng như Agents.md rất hữu ích
    • Khi so sánh hiệu năng mô hình, tôi cảm thấy rất khó đánh giá định tính vì có quá nhiều biến số như prompt, loại tác vụ, phiên bản mô hình
    • Tôi cũng đã dùng Claude Code, nên khá tò mò về trải nghiệm so sánh trực tiếp với Codex
  • Sau khi chuyển từ Claude Code sang Codex CLI, tôi đã dựng một môi trường chạy Codex dựa trên container
    Có thể chạy bằng nhiều cách như timer, trigger tệp, gọi API, chế độ CLI, v.v.
    codex-container có hơn 300 công cụ MCP
    Nó hỗ trợ nhiều tính năng như crawling, tìm kiếm Google, Gmail/GCal/GDrive, Slack, embedding, phiên âm, v.v.
    Các tác vụ nguy hiểm về bảo mật được thử nghiệm an toàn bằng cô lập container
    Cũng có thể crawl bằng trình duyệt headless với gnosis-crawl

    • Trông ổn đấy, nhưng nếu phải cài PowerShell như một dependency thì có lẽ tôi sẽ không dùng
    • Tôi tò mò không biết các công cụ MCP có hoạt động cùng lúc hay không, hay là cấu trúc kiểu thư viện để chỉ dùng những gì cần
  • Theo kinh nghiệm của tôi, các mô hình GPT phù hợp với phát triển backend hơn Claude rất nhiều
    Chậm hơn nhưng logic rõ ràng và dễ bảo trì hơn
    Tôi dùng kiểu quy trình là lập kế hoạch với Claude, thực thi bằng Codex, rồi quay lại Claude để review code
    Sẽ tốt hơn nếu Codex CLI được cập nhật trên homebrew cùng lúc với npm

    • GPT‑5 là lần đầu tiên tạo ra cho tôi đoạn code có thể deploy ngay mà không cần chỉnh sửa
      Claude thì vẫn còn quá nhiều chi tiết thừa (fluff) và thiết kế quá mức
    • Theo trải nghiệm của tôi, Codex có chất lượng review code tốt hơn Claude rất nhiều
      Claude hay chỉ ra những thứ lặt vặt, còn Codex tìm được những vấn đề thực sự quan trọng
    • Có vẻ từ sau Opus 4.5 thì Claude cũng đã cải thiện khá nhiều
  • Xét về mặt bảo mật, tôi thấy tiếc vì các mô hình OpenAI hạn chế quá mức các tác vụ tấn công (offensive)
    Tôi nghĩ để phòng thủ thì vẫn cần một mức mô phỏng tấn công nhất định

    • Tôi đang thực hiện kiểm thử tấn công trong một kiến trúc đa agent dùng GPT‑5 làm backend, và nó hoạt động tốt mà không bị ràng buộc gì
    • Cả ChatGPT lẫn Codex đều hợp tác tốt với kiểm thử bảo mật tấn công
    • Theo bài viết, các mô hình thoáng hơn (permissive) sẽ được cung cấp theo hình thức mời
      Tôi nghĩ chỉ cho chuyên gia đáng tin cậy truy cập là một cách tiếp cận hợp lý
    • Với câu hỏi tăng cường tính năng blackhat có giúp ích cho bảo mật hay không, tôi nghĩ cần có sự cân bằng
    • Tôi cũng làm kiểm thử tấn công hằng ngày bằng mô hình OpenAI, nhưng chưa từng gặp vấn đề gì
  • Việc đưa “an ninh mạng” ra tiền tuyến nghe khá thú vị
    Tự động hóa phân tích bảo mật đã vượt qua điểm tới hạn, và tôi nghĩ tự động hóa tác vụ lặp lại còn quan trọng hơn sự tiến bộ của mô hình
    Phần lớn việc phân tích lỗ hổng là các tác vụ đơn giản có thể tự động hóa, và loại bỏ chúng sẽ giúp con người tập trung vào phân tích sáng tạo

  • Với tôi, Codex luôn kém hơn mô hình cơ sở
    Trong CLI nó quá vội vàng muốn viết code
    Tôi chỉ hỏi một câu đơn giản mà nó cũng cố sửa file, khá bất tiện

    • Nếu nói rõ “đừng viết code vội, cứ trò chuyện trước đã” thì nó hoạt động ổn
    • Ở giai đoạn nghiên cứu và lập kế hoạch, dùng mô hình không phải Codex rồi tới giai đoạn thực thi mới dùng Codex sẽ hiệu quả hơn
    • Tôi cũng có cùng trải nghiệm. Codex thì đúng về mặt chức năng, nhưng code lại kỳ quặc hoặc lộn xộn
    • Hiện plan mode đang được phát triển nên hy vọng sẽ giảm bớt vấn đề này
      Hiện tại nếu yêu cầu nó chỉ sửa file .md thì cũng kiểm soát được phần nào
    • CodexTheModel thì nhanh, nhưng tôi ưu tiên chất lượng, nên thích mô hình cơ sở hơn
  • Tôi nghĩ chính sách cho phép truy cập mô hình phục vụ nghiên cứu bảo mật theo hình thức mời là hợp lý
    Nếu “căn chỉnh an toàn” quá đà thì có thể làm giảm khả năng phân tích bảo mật
    Chỉ cần qua quy trình KYC thì có thể vừa tạo ra kết quả nghiên cứu tích cực vừa giảm mức độ phơi nhiễm rủi ro

  • Rủi ro “dual-use” không có nghĩa là kỹ thuật tấn công mới, mà là hạ thấp rào cản thực thi
    Cùng một chức năng có thể giúp bên phòng thủ phân tích lỗ hổng, nhưng với bên tấn công lại trở thành công cụ tấn công tự động
    Vì vậy kiểm soát phân phối và ghi log là rất quan trọng

    • Một yêu cầu “xem xét lỗ hổng bảo mật” đến từ maintainer hay từ kẻ tấn công sẽ dẫn tới kết quả hoàn toàn khác nhau
    • Việc có thể tìm ra và vá lỗ hổng đồng thời cũng có nghĩa là khả năng bị khai thác cao hơn
    • Cuối cùng điều đó có nghĩa là mô hình này hữu ích cho cả red team lẫn blue team
    • Khả năng phát hiện lỗ hổng bảo mật vượt trội cũng đồng nghĩa nó có thể được dùng cho tự động hóa tấn công
  • Tôi đã thử GPT‑5.1 qua plugin Codex trong VSCode, và đó thật sự là một trải nghiệm như ma thuật
    Tôi vẫn chưa cảm nhận được khác biệt lớn ở 5.2, nhưng sẽ còn tốt hơn nữa nếu tính năng được mở rộng đến mức như Cursor hay Kilo Code
    Trước đây tôi từng nghĩ OpenAI đã tụt lại phía sau, nhưng 5.1 vượt trội hơn Gemini rất nhiều