- Là phiên bản nhỏ gọn của GPT‑5.3‑Codex được thiết kế cho lập trình thời gian thực, cung cấp tốc độ hơn 1000 token/giây
- Mô hình chỉ văn bản dựa trên cửa sổ ngữ cảnh 128k, chuyên cho chỉnh sửa mã tức thì và các tác vụ lặp lại
- Việc đưa vào đường phản hồi dựa trên WebSocket giúp giảm 80% độ trễ phản hồi, giảm 30% overhead trên mỗi token, rút ngắn 50% thời gian xuất token đầu tiên
- Được phát triển thông qua hợp tác với Cerebras, vận hành trong môi trường suy luận tốc độ cao sử dụng Wafer Scale Engine 3
- Mô hình giai đoạn đầu tiên trong chiến lược Codex hai chế độ, kết hợp công việc tự trị dài hạn và cộng tác thời gian thực
Tổng quan về GPT‑5.3‑Codex‑Spark
- GPT‑5.3‑Codex‑Spark là phiên bản nhỏ gọn của GPT‑5.3‑Codex, là mô hình đầu tiên được thiết kế cho các tác vụ lập trình thời gian thực
- Đạt tốc độ sinh hơn 1000 token/giây trên phần cứng siêu độ trễ thấp
- Mang lại khả năng phản hồi gần như tức thì trong công việc lập trình thực tế
- Đây là mô hình đầu tiên được phát triển thông qua hợp tác với Cerebras, đồng thời là cột mốc đầu tiên trong quan hệ đối tác giữa OpenAI và Cerebras
- Được cung cấp dưới dạng bản xem trước nghiên cứu cho người dùng ChatGPT Pro, nhằm phục vụ thử nghiệm ban đầu và thu thập phản hồi
Tính năng chính và hiệu năng
- Hỗ trợ cửa sổ ngữ cảnh 128k và hiện được cung cấp dưới dạng mô hình chỉ văn bản
- Trên các benchmark SWE‑Bench Pro và Terminal‑Bench 2.0, cho thấy hiệu năng cao hơn trong thời gian ngắn hơn so với GPT‑5.3‑Codex
- Nhờ tối ưu hóa ưu tiên tốc độ, cách làm việc mặc định của mô hình nhẹ nhàng và định hướng mục tiêu; nếu không được yêu cầu thì sẽ không tự động chạy kiểm thử
- Hỗ trợ cộng tác thời gian thực, cho phép người dùng dừng và tái chỉ định tiến trình của mô hình để xem kết quả ngay lập tức
Tối ưu hóa độ trễ và hạ tầng
- Ngoài tốc độ mô hình, còn có các cải tiến nhằm giảm độ trễ của toàn bộ pipeline yêu cầu-phản hồi
- Giảm 80% overhead khứ hồi giữa client và server
- Giảm 30% overhead trên mỗi token, rút ngắn 50% thời gian xuất token đầu tiên
- Để làm được điều này, hệ thống áp dụng kết nối duy trì dựa trên WebSocket và các tối ưu hóa nội bộ của Responses API
- Những cải tiến này dự kiến sẽ được áp dụng không chỉ cho Codex‑Spark mà còn cho tất cả các mô hình
Tích hợp phần cứng Cerebras
- Codex‑Spark chạy trên Cerebras Wafer Scale Engine 3, cung cấp tầng suy luận ưu tiên độ trễ thấp
- OpenAI đã hợp tác với Cerebras để tích hợp đường này vào stack phục vụ sản xuất hiện có, triển khai môi trường vận hành nhất quán trên toàn bộ Codex
- Hạ tầng GPU vẫn tiếp tục là nền tảng cho huấn luyện và suy luận, còn Cerebras đóng vai trò bổ trợ, chuyên cho khối lượng công việc siêu độ trễ thấp
- Có thể kết hợp GPU và Cerebras trong một workload duy nhất để đạt hiệu năng tối ưu
Triển khai và truy cập
- Codex‑Spark bắt đầu được cung cấp dưới dạng bản xem trước nghiên cứu trong ứng dụng Codex, CLI và tiện ích mở rộng VS Code dành cho người dùng ChatGPT Pro
- Áp dụng giới hạn sử dụng chuyên biệt (rate limit) và có thể được điều chỉnh theo nhu cầu
- Một số đối tác thiết kế đã được cấp quyền truy cập API để thu thập phản hồi về cách tích hợp sản phẩm
- Trong vài tuần tới, phạm vi truy cập sẽ được mở rộng thêm và quá trình tích hợp sẽ được điều chỉnh dựa trên workload thực tế
An toàn và định hướng sắp tới
- Codex‑Spark bao gồm cùng mức huấn luyện an toàn như các mô hình chính hiện có và đã vượt qua các đánh giá liên quan đến an ninh mạng
- Kết quả đánh giá xác nhận rằng mô hình chưa đạt đến ngưỡng năng lực rủi ro cao trong các lĩnh vực an ninh mạng và sinh học
- Codex đang phát triển theo hướng kết hợp hai chế độ: suy luận chạy dài hạn và các tác vụ lặp mang tính cộng tác thời gian thực
- Trong tương lai, dự kiến sẽ mở rộng các tính năng như đầu vào đa phương thức, mô hình lớn hơn và ngữ cảnh dài hơn
- Suy luận siêu tốc giúp tăng tốc quá trình chuyển ý tưởng thành phần mềm có thể triển khai ngay, đồng thời mang lại trải nghiệm tương tác tự nhiên
1 bình luận
Ý kiến trên Hacker News
Sẽ hay hơn nếu có thể đăng ảnh lên HN. Chip WSE-3 thực sự khổng lồ
Con chip này có kích thước 46.255mm², chứa 4 nghìn tỷ transistor và cung cấp 125 petaflops tính toán với 900.000 lõi tối ưu cho AI. So với NVIDIA B200, số transistor nhiều hơn 19 lần và năng lực tính toán cao hơn 28 lần
Xem thêm tại trang chính thức của Cerebras, ảnh 1, ảnh 2
Tôi dùng coding agent để tự động tạo các bộ slide chạy trên web. Tôi định nghĩa “master slide” thành các component, rồi áp dụng quy tắc branding và tài sản của công ty. Chỉ cần đưa nội dung và prompt vào là có thể tạo ra một bản thuyết trình gọn gàng
Điều tôi thực sự muốn là improv mode. Trong lúc thuyết trình, tùy theo câu hỏi của khán giả hoặc ý tưởng nảy ra tại chỗ, hệ thống sẽ đề xuất 3 slide tiếp theo để chọn, rồi sau đó quay lại luồng trình bày chính.
Ví dụ, nếu nhắc đến một bài báo hay bài nghiên cứu, nó sẽ tự động tạo slide có ảnh chụp màn hình và mã QR, rồi quay lại mạch thuyết trình. Nếu kết hợp giọng nói thời gian thực + sinh mã, các công cụ thuyết trình sẽ trở nên hữu ích hơn rất nhiều
Tôi đã thử gpt-5.3-codex-spark trong Codex CLI, và tuy tốc độ cực nhanh nhưng có cảm giác model khá nhỏ.
Tôi đo hiệu năng bằng bài test tự làm tên là ‘bluey bench’ (benchmark hệ thống tệp); model càng nhỏ thì hiệu quả ngữ cảnh càng kém và hiện tượng nén ngữ cảnh (compaction) xảy ra thường xuyên hơn.
Dù vậy, về tốc độ thì nó vẫn nhanh hơn rất nhiều so với thế hệ trước
Tôi nghĩ Cerebras vẫn là một công ty bị đánh giá thấp. Một con chip cỡ bằng cái đĩa mà thực sự hoạt động được, lại còn nhanh hơn mọi thứ khác trong sử dụng thực tế. Công nghệ này thật đáng kinh ngạc
Hạ tầng điện đang là nút thắt, mà ở Mỹ thì không thể xây nhà máy điện quy mô lớn trong thời gian ngắn. Cuối cùng, có lẽ sau TPUv8 Google sẽ dẫn dắt thị trường
Benchmark Pelican của tôi cho thấy trực quan sự khác biệt về chất lượng giữa GPT-5.3-Codex-Spark và GPT-5.3-Codex đầy đủ
Xem chi tiết trong bài blog
Ý tưởng dùng coding agent cho priority queue / tiered workload offload nghe rất thú vị.
Nếu 60% công việc chỉ là chỉnh sửa đơn giản hoặc refactor, thì độ trễ thấp và xử lý được nhiều token là rất quan trọng.
Gần đây đã có plugin Batch API cho Claude, còn Nvidia và Google cũng đang chuẩn bị silicon tùy chỉnh cho suy luận (bài viết)
Mới chỉ 20 phút kể từ khi nó trở thành tiêu chuẩn ngành, mà vẫn còn người dùng GPT-5.3-Codex, thật bất ngờ
Có khả năng OpenAI đang thử nghiệm thứ này trên Openrouter dưới tên Aurora Alpha.
Tôi chạy một dự án nhỏ bằng Aider và nó xử lý 10.000 token đầu vào cùng 1.000 token đầu ra với tốc độ 500 token/giây
Tôi thấy dòng mô tả “model mới nhất có thể tự chủ làm việc trong nhiều giờ đến nhiều ngày”, nhưng đến giờ vẫn chưa thấy kết quả thật sự hữu ích nào
Cuối cùng cũng được thấy một trong ba ông lớn dùng Cerebras. Tôi đã chờ ngày này rất lâu