OpenAI ra mắt bản xem trước nghiên cứu Codex, tác nhân viết mã trên nền tảng đám mây

(openai.com)

8 điểm bởi GN⁺ 2025-05-17 | 2 bình luận | Chia sẻ qua WhatsApp

OpenAI đã ra mắt Codex, tác nhân chuyên biệt cho kỹ thuật phần mềm, cho phép tự động hóa các tác vụ lặp lại, viết mã, đề xuất PR và hơn thế nữa
Codex thực hiện công việc trong môi trường sandbox đám mây tách biệt, và có thể xác minh kết quả một cách minh bạch thông qua kiểm thử và ghi log
Thông qua tệp AGENTS.md, có thể chỉ định cho Codex các quy ước và phương thức kiểm thử theo từng dự án, giúp tối ưu hóa cho codebase của người dùng
Codex CLI phiên bản dòng lệnh cũng được cung cấp, cho phép sử dụng tác nhân ngay cả trong môi trường phát triển cục bộ
Đợt triển khai ban đầu dành cho ChatGPT Pro, Team và Enterprise, và dự kiến sau đó sẽ mở rộng cho cả người dùng Plus và Edu

Introducing Codex

Codex là gì?

Codex là một tác nhân kỹ thuật phần mềm chạy trên đám mây, có thể đọc codebase của người dùng và tự động xử lý nhiều loại công việc khác nhau
Có thể thực hiện song song việc thêm tính năng, trả lời câu hỏi, sửa lỗi và đề xuất PR
Mỗi tác vụ được chạy độc lập trong một môi trường sandbox tách biệt, với repository của người dùng được nạp sẵn

Cách hoạt động

Bắt đầu công việc bằng lệnh "Code" hoặc "Ask" thông qua tính năng Codex ở thanh bên ChatGPT
Có thể đọc và chỉnh sửa tệp, đồng thời chạy các lệnh như kiểm thử, linter, type checker
Công việc thường hoàn thành trong 1~30 phút, và có thể theo dõi tiến độ theo thời gian thực
Sau khi hoàn tất, Codex tạo commit và giải thích các thay đổi một cách minh bạch bằng cách trích dẫn log terminal và đầu ra kiểm thử
Sau khi rà soát kết quả, có thể tạo GitHub PR hoặc tích hợp trực tiếp

Tệp AGENTS.md

AGENTS.md nằm trong dự án sẽ hướng dẫn Codex cách khám phá codebase và chạy kiểm thử
Đây là tài liệu có định dạng tương tự README, có thể bao gồm style code, lệnh thực thi, định dạng thông điệp PR và hơn thế nữa
Tệp ở thư mục sâu hơn sẽ được ưu tiên, và mọi kiểm thử đã chỉ định đều phải được chạy
Codex cũng tuân theo quy tắc rằng prompt tường minh sẽ được ưu tiên hơn AGENTS.md

Hiệu năng benchmark nội bộ

Trong benchmark SWE nội bộ của OpenAI, codex-1 hỗ trợ tối đa 192k token và đạt độ chính xác xuất sắc ở thiết lập độ khó trung bình
Ngay cả khi không có AGENTS.md, mô hình vẫn cho hiệu năng cao và có thể tạo ra kết quả khớp sát với phong cách mã do con người viết

Bảo mật và độ tin cậy

Codex được thiết kế với trọng tâm là tăng cường tính minh bạch và bảo mật, đồng thời cho phép xác minh đầu ra
Kết nối internet bị chặn trong khi làm việc, và chỉ có thể truy cập repository cùng các dependency được chỉ định
Mô hình được huấn luyện phân biệt để chặn việc phát triển mã độc, trong khi vẫn cho phép các tác vụ chính đáng ở cấp kernel

Các trường hợp sử dụng ban đầu

Bên trong OpenAI, Codex đang được dùng cho các tác vụ như refactor lặp lại, viết kiểm thử và tài liệu hóa
Ví dụ về đối tác bên ngoài:
- Cisco: cung cấp kiểm thử ứng dụng thực tế và phản hồi trên nhiều sản phẩm
- Temporal: dùng để debug, chạy kiểm thử và refactor các codebase quy mô lớn
- Superhuman: hỗ trợ QA, sửa lỗi tích hợp thất bại và cho phép PM thực hiện các thay đổi mã nhẹ
- Kodiak: hỗ trợ phân tích mã và phát triển công cụ cho công nghệ xe tự hành

Cập nhật Codex CLI

Codex CLI là một tác nhân lập trình nhẹ chạy trên terminal, có thể làm việc cục bộ cùng các mô hình o3 và o4-mini
Với bản cập nhật này, mô hình codex-mini dựa trên o4-mini được ra mắt, tối ưu cho CLI và cung cấp phản hồi độ trễ thấp
Khi đăng nhập bằng tài khoản ChatGPT, API key được tự động cấu hình, và người dùng Plus/Pro được cấp credit miễn phí

Giá và phạm vi cung cấp

Codex hiện được cung cấp cho người dùng Pro, Enterprise và Team; Plus và Edu sẽ sớm được mở rộng
Ở giai đoạn đầu, có thể sử dụng mà không mất thêm chi phí, sau này sẽ áp dụng chính sách giá theo mức sử dụng
codex-mini-latest có giá $1.50 cho mỗi 1M token đầu vào, $6 cho token đầu ra, kèm giảm giá 75% cho prompt cache

Kế hoạch sắp tới

Về lâu dài, Codex sẽ phát triển thành một tác nhân cộng tác bất đồng bộ
Có kế hoạch tích hợp sâu hơn với Codex CLI, ChatGPT Desktop, issue tracker và công cụ CI
Sẽ bổ sung các tính năng như phản hồi trung gian, thảo luận chiến lược triển khai và báo cáo tiến độ chủ động
OpenAI kỳ vọng vào một tương lai nơi các nhà phát triển có thể lập trình nhanh hơn và tập trung hơn nhờ AI

Phụ lục: tóm tắt system message của codex-1

Kiểm tra trạng thái Git trước và sau khi làm việc, và luôn giữ ở trạng thái đã commit xong
Quy trình xác minh trong tệp AGENTS.md phải được thực thi đầy đủ, kể cả với thay đổi đơn giản
Khi tạo PR có quy tắc trích dẫn dựa trên tệp/terminal (ví dụ: 【F:main.py†L12】)
Không được trích dẫn nội dung PR hoặc bình luận trước đó, chỉ được dùng tệp và kết quả terminal

System message này được dùng để hiểu hành vi mặc định của mô hình nhằm phục vụ việc tùy biến Codex của người dùng.

2 bình luận

fortune 2025-05-18

Cuối cùng cũng đã xuất hiện một agent thế hệ tiếp theo có thể được phân biệt với thế hệ của cursor, cline và các công cụ tương tự. Thật đáng mong đợi xem tốc độ thay đổi của phần mềm trên thế giới sẽ còn nhanh hơn đến mức nào. Tôi cũng rất mong chờ sự xuất hiện của agent thế hệ tiếp theo sau đó.

GN⁺ 2025-05-17

Ý kiến Hacker News

Chia sẻ trải nghiệm tham gia alpha test Codex tại Assembled cùng một vài kỹ sư trong đội; do đã dùng lâu các agent cục bộ như Cursor và Claude Code nên ban đầu không kỳ vọng nhiều, nhưng khả năng chạy tác vụ song song của Codex được đánh giá là rất ấn tượng. Có thể gom nhiều tác vụ refactor, test và boilerplate để chạy đồng thời mà không phải chuyển ngữ cảnh. Các giải pháp trước đây làm điều này khá khó, còn Codex thì chỉ cần chỉ định tác vụ theo file hoặc hàm là có thể tự xử lý phần lớn việc dựng sườn PR, tạo cảm giác như có vô số kỹ sư junior làm việc thay mình. Tuy vậy, để đưa vào production thực tế vẫn cần khá nhiều hậu xử lý. Chất lượng model nhìn chung ổn, nhưng khi đánh giá song song với Cursor, Gemini 2.5-pro... thì chưa thấy có ưu thế rõ rệt về style, logic hay cách đặt tên; cảm nhận là ở mức “đáp ứng kỳ vọng”
- Nếu không tuyển kỹ sư junior cho các loại công việc này thì kỹ sư senior tương lai sẽ đến từ đâu? Có người kể rằng con gái mình недавно tốt nghiệp ngành khoa học máy tính ở một trường đại học tốt, nhưng thực tế thị trường việc làm là nhu cầu kỹ sư senior lớn hơn hẳn vị trí lập trình viên mới ra trường. Gần đây công ty đăng tuyển vị trí entry-level thì hồ sơ đổ về quá nhiều đến mức khó đánh giá công bằng. Cuối cùng, phần lớn bạn bè của cô bé tìm được việc đều nhờ quan hệ
- Hiện nay có hàng triệu kỹ sư đóng góp cho mã nguồn mở trên GitHub, rồi những nhân tài xuất sắc lại dùng chính lượng mã đó để phát triển mô hình AI và thay thế các kỹ sư ấy, tạo nên một vòng tuần hoàn khá thú vị. Có nhắc đến thế lưỡng nan bản chất là càng nhiều đóng góp open source thì việc thay thế các công việc liên quan càng dễ hơn. Câu hỏi đặt ra là theo thời gian, động lực đóng góp cho mã nguồn mở có bị suy yếu không. Chúng ta từng nghĩ mình làm công việc sáng tạo, nhưng thực tế lại dành phần lớn thời gian để kết hợp những tri thức lặp lại và có thể dự đoán được, và AI lại thay thế rất tốt kiểu công việc này. Góc nhìn lạc quan là về dài hạn chúng ta sẽ phải tạo ra những công việc thú vị hơn, nhưng trong tương lai gần có lẽ sẽ có nhiều năm đau đớn vì cung kỹ sư phần mềm dư thừa trong khi nhu cầu không đủ
- Nêu nghi vấn vì sao khả năng chạy tác vụ song song của Codex lại quan trọng. Trên thực tế, việc LLM viết code chỉ mất vài giây, còn phần thật sự tốn thời gian là mô tả yêu cầu công việc và giai đoạn review/chỉnh sửa. Vậy song song hóa phần nhanh nhất đem lại ích lợi gì?
- Do lập trình viên junior không có tính tự chủ hoàn toàn nên cuối cùng vẫn tốn rất nhiều thời gian để quản lý và review code của họ. Dù có nhiều junior thì chi phí quản lý đó cũng dễ trở thành nút thắt cổ chai; vì thế có người tò mò liệu việc quản lý nhiều “lập trình viên ảo” như Codex có trở nên quá tải không, hay mức độ tự chủ của nó đủ cao, và muốn nghe trải nghiệm thực tế
- Từ góc nhìn của người đã dùng Cursor và Claude Code lâu năm, có người muốn nghe về ưu điểm và giới hạn của Claude Code, cũng như liệu khi so với Codex thì khả năng chạy tác vụ song song có thực sự tạo ra khác biệt lớn không. Gần đây Codex CLI mới ra cũng gây thất vọng nên họ kỳ vọng vào kinh nghiệm và góc nhìn của đội đang dùng Claude Code
Đồng cảm với ý kiến của Katy Shi trong video preview Codex của OpenAI rằng “công việc engineering đang dịch chuyển từ viết code sang review code”. Quan sát cho thấy trong thời đại AI được đưa vào sử dụng nghiêm túc, lập trình viên vẫn chủ yếu dừng ở việc đọc code và test. Nếu khái niệm tương đối mới là simulation được đưa vào, đặc biệt ở frontend, thì có thể dự đoán được nhiều kết quả đa dạng hơn thay vì chỉ nhìn code/test. Có người nói mình đang tự tìm hiểu chủ đề này gần đây và cảm nhận rất rõ điều đó khi xem tài liệu ra mắt Codex
- Điều này cũng khá giống với luận điểm của tôi về Graphite: khi bước vào thời đại AI tạo code hàng loạt, review, test và integration sẽ trở thành cốt lõi. Dù đang xây cả hệ thống AI code review, con người vẫn sẽ luôn cần thiết trong việc review, mà lý do gốc rễ là trách nhiệm. Máy tính rốt cuộc không thể chịu trách nhiệm
- Hỏi rằng câu “xem simulation” có phải đang ám chỉ việc sử dụng bộ test tự động hay không
Với tư cách là đồng tác giả của SWE-bench, có người thấy thú vị khi Codex cho thấy mức cải thiện nhẹ ngay cả trên kết quả o3 vốn đã rất mạnh. Họ tò mò liệu việc nâng mốc Verified từ 75% lên 85% có cần khoảng thời gian dài tương đương như giai đoạn nâng từ 20% lên 75% hay không
- Cho rằng có hiện tượng tối ưu hóa quá mức theo benchmark liên quan đến swe-bench, đồng thời chia sẻ kết quả đo từ multi-swe-bench, swe polybench, kotlin bench và nhiều bộ khác
- Đặt câu hỏi mất bao lâu để đi từ 20% lên 75%
Đang đăng ký gói Pro nhưng mỗi lần thử dùng Codex thì lại bị chuyển sang trang thanh toán gói team, nên không rõ là chưa mở chính thức hay mình đang bỏ sót điều gì. Người này dùng sản phẩm OpenAI đều đặn và thật sự rất muốn thử Codex
- Cứ mỗi đợt cập nhật lớn lại xảy ra chuyện tương tự, phản ứng là rất khó hiểu
- Tôi cũng ở tình trạng tương tự; có vẻ chỉ từ vài phút trước mới dùng được, nên đoán là dịch vụ đang được rollout dần
- Thông báo rằng hiện vẫn đang rollout dần
Trong livestream có nhắc đến "microVM", không có quyền truy cập browser/internet. Dùng microkernel như Firecracker/Unikraft có thể mở rộng nhanh và rẻ ở quy mô lớn, nhưng vẫn dự đoán sẽ có rào cản kỹ thuật lớn để chuyển sang môi trường máy tính đầy đủ, tách biệt cho từng agent. ChatGPT Operator hiện đã hỗ trợ truy cập trình duyệt nên về mặt kỹ thuật có lẽ làm được, nhưng quy mô nhu cầu sẽ khác. Vẫn còn nhiều dư địa cho các công ty hạ tầng cung cấp môi trường PC hoàn chỉnh dành riêng cho AI với hỗ trợ fork/snapshot/screen/human-in-the-loop..., còn hiện tại mới dừng ở việc triển khai một phần như dùng browser
- Chúng tôi đang cung cấp tính năng này qua E2B Desktop, đồng thời chia sẻ link demo và SDK
Khi làm ở ngân hàng, đội pháp chế thường xuyên yêu cầu những chỉnh sửa nhỏ trong ứng dụng; giờ có vẻ họ sẽ tự sửa được, và có lẽ đội pháp chế sẽ rất tự hào về điều đó
- Nếu không có chạy code/test và code review thì việc trao quyền sửa code cho đội pháp chế là rất rủi ro; dự đoán là rốt cuộc sẽ chẳng ai làm vậy
- Tương lai bug tracking sẽ thay đổi mạnh: bất kỳ ai trong tổ chức cũng có thể để lại issue hay yêu cầu tính năng, model sẽ tự xử lý, và chỉ khi không được mới cần con người can thiệp. Cuối cùng, việc đánh giá và review xem “thay đổi code nào là hợp pháp và phù hợp với tiêu chuẩn công ty” sẽ dần nổi lên như vai trò cốt lõi của những người review không chuyên kỹ thuật
- Cam kết rằng trên thực tế đội pháp chế sẽ không trực tiếp sửa code
Lo ngại về quyền riêng tư, opt-out dữ liệu huấn luyện, và rủi ro phát sinh khi phải cạnh tranh với chính mô hình được tạo ra thông qua nền tảng. Có người đặt câu hỏi liệu chính sách kiểu “bạn không được dùng chính đầu ra do mình tạo ra để cạnh tranh” có công bằng không. Cũng tự thừa nhận có thể mình đang quá bi quan, nhưng vẫn nêu vấn đề về việc ngăn OpenAI dùng thông tin chúng ta tạo ra để cạnh tranh với chính chúng ta
- Cho biết trong video có tùy chọn rõ ràng để tự chọn có cho phép học từ repository hay không
Chia sẻ việc gặp vấn đề với tính năng "secrets": ở bước thiết lập môi trường thì được inject bình thường nhưng khi chạy tác vụ thực tế lại không hoạt động; đã thử cả cách reset môi trường mà lỗi vẫn luôn tái hiện
Lo ngại rằng nếu Codex chỉ chạy trên cloud và code bị tự động commit-push thì sẽ không có thời gian để tự review nội bộ. Với aider, người này thích workflow commit xong thì git reset HEAD^, git diff để tự kiểm tra thay đổi, chỉnh sửa phần cần thiết rồi mới commit-push
- Nếu cuối cùng đằng nào cũng rollback commit ngay thì khuyên dùng tùy chọn --no-auto-commits của Aider
- Nói ngắn gọn thì Codex là phiên bản cloud được quản lý của Codex CLI trước đây; cốt lõi là chính model mới, và có lẽ sớm sẽ được cung cấp cả qua API
- Trong livestream có hướng dẫn rằng sau khi tác vụ hoàn tất sẽ hiện ngay diff, và chỉ sau khi xem diff mới quyết định có tạo GitHub PR hay không
Hỏi mọi người nghĩ sao về việc công ty chia sẻ codebase cho nhà cung cấp AI, hay là chỉ dùng bản cài đặt local
- Việc doanh nghiệp chia sẻ code cho SaaS là cực kỳ phổ biến, và thường có hợp đồng riêng để ngăn việc sử dụng tùy tiện
- Đánh giá rằng phần lớn code của các công ty chỉ có giá trị trong chính công ty đó
- Nghĩ rằng những nơi như OpenAI sẽ không đáng để mạo hiểm chỉ để nhìn code của tôi; không đáng để gánh rủi ro pháp lý
- Rốt cuộc tất cả vẫn là bài toán đánh đổi chi phí - lợi ích; nếu lợi ích đủ lớn thì hoàn toàn đáng để chia sẻ
- Cursor có tính năng ép buộc quyền riêng tư dữ liệu trong enterprise mode