3 điểm bởi GN⁺ 2026-02-13 | 1 bình luận | Chia sẻ qua WhatsApp
  • Là phiên bản nhỏ gọn của GPT‑5.3‑Codex được thiết kế cho lập trình thời gian thực, cung cấp tốc độ hơn 1000 token/giây
  • Mô hình chỉ văn bản dựa trên cửa sổ ngữ cảnh 128k, chuyên cho chỉnh sửa mã tức thì và các tác vụ lặp lại
  • Việc đưa vào đường phản hồi dựa trên WebSocket giúp giảm 80% độ trễ phản hồi, giảm 30% overhead trên mỗi token, rút ngắn 50% thời gian xuất token đầu tiên
  • Được phát triển thông qua hợp tác với Cerebras, vận hành trong môi trường suy luận tốc độ cao sử dụng Wafer Scale Engine 3
  • Mô hình giai đoạn đầu tiên trong chiến lược Codex hai chế độ, kết hợp công việc tự trị dài hạn và cộng tác thời gian thực

Tổng quan về GPT‑5.3‑Codex‑Spark

  • GPT‑5.3‑Codex‑Spark là phiên bản nhỏ gọn của GPT‑5.3‑Codex, là mô hình đầu tiên được thiết kế cho các tác vụ lập trình thời gian thực
    • Đạt tốc độ sinh hơn 1000 token/giây trên phần cứng siêu độ trễ thấp
    • Mang lại khả năng phản hồi gần như tức thì trong công việc lập trình thực tế
  • Đây là mô hình đầu tiên được phát triển thông qua hợp tác với Cerebras, đồng thời là cột mốc đầu tiên trong quan hệ đối tác giữa OpenAI và Cerebras
  • Được cung cấp dưới dạng bản xem trước nghiên cứu cho người dùng ChatGPT Pro, nhằm phục vụ thử nghiệm ban đầu và thu thập phản hồi

Tính năng chính và hiệu năng

  • Hỗ trợ cửa sổ ngữ cảnh 128k và hiện được cung cấp dưới dạng mô hình chỉ văn bản
  • Trên các benchmark SWE‑Bench ProTerminal‑Bench 2.0, cho thấy hiệu năng cao hơn trong thời gian ngắn hơn so với GPT‑5.3‑Codex
  • Nhờ tối ưu hóa ưu tiên tốc độ, cách làm việc mặc định của mô hình nhẹ nhàng và định hướng mục tiêu; nếu không được yêu cầu thì sẽ không tự động chạy kiểm thử
  • Hỗ trợ cộng tác thời gian thực, cho phép người dùng dừng và tái chỉ định tiến trình của mô hình để xem kết quả ngay lập tức

Tối ưu hóa độ trễ và hạ tầng

  • Ngoài tốc độ mô hình, còn có các cải tiến nhằm giảm độ trễ của toàn bộ pipeline yêu cầu-phản hồi
    • Giảm 80% overhead khứ hồi giữa client và server
    • Giảm 30% overhead trên mỗi token, rút ngắn 50% thời gian xuất token đầu tiên
  • Để làm được điều này, hệ thống áp dụng kết nối duy trì dựa trên WebSocketcác tối ưu hóa nội bộ của Responses API
  • Những cải tiến này dự kiến sẽ được áp dụng không chỉ cho Codex‑Spark mà còn cho tất cả các mô hình

Tích hợp phần cứng Cerebras

  • Codex‑Spark chạy trên Cerebras Wafer Scale Engine 3, cung cấp tầng suy luận ưu tiên độ trễ thấp
  • OpenAI đã hợp tác với Cerebras để tích hợp đường này vào stack phục vụ sản xuất hiện có, triển khai môi trường vận hành nhất quán trên toàn bộ Codex
  • Hạ tầng GPU vẫn tiếp tục là nền tảng cho huấn luyện và suy luận, còn Cerebras đóng vai trò bổ trợ, chuyên cho khối lượng công việc siêu độ trễ thấp
  • Có thể kết hợp GPU và Cerebras trong một workload duy nhất để đạt hiệu năng tối ưu

Triển khai và truy cập

  • Codex‑Spark bắt đầu được cung cấp dưới dạng bản xem trước nghiên cứu trong ứng dụng Codex, CLI và tiện ích mở rộng VS Code dành cho người dùng ChatGPT Pro
  • Áp dụng giới hạn sử dụng chuyên biệt (rate limit) và có thể được điều chỉnh theo nhu cầu
  • Một số đối tác thiết kế đã được cấp quyền truy cập API để thu thập phản hồi về cách tích hợp sản phẩm
  • Trong vài tuần tới, phạm vi truy cập sẽ được mở rộng thêm và quá trình tích hợp sẽ được điều chỉnh dựa trên workload thực tế

An toàn và định hướng sắp tới

  • Codex‑Spark bao gồm cùng mức huấn luyện an toàn như các mô hình chính hiện có và đã vượt qua các đánh giá liên quan đến an ninh mạng
  • Kết quả đánh giá xác nhận rằng mô hình chưa đạt đến ngưỡng năng lực rủi ro cao trong các lĩnh vực an ninh mạng và sinh học
  • Codex đang phát triển theo hướng kết hợp hai chế độ: suy luận chạy dài hạn và các tác vụ lặp mang tính cộng tác thời gian thực
    • Trong tương lai, dự kiến sẽ mở rộng các tính năng như đầu vào đa phương thức, mô hình lớn hơnngữ cảnh dài hơn
  • Suy luận siêu tốc giúp tăng tốc quá trình chuyển ý tưởng thành phần mềm có thể triển khai ngay, đồng thời mang lại trải nghiệm tương tác tự nhiên

1 bình luận

 
GN⁺ 2026-02-13
Ý kiến trên Hacker News
  • Sẽ hay hơn nếu có thể đăng ảnh lên HN. Chip WSE-3 thực sự khổng lồ
    Con chip này có kích thước 46.255mm², chứa 4 nghìn tỷ transistor và cung cấp 125 petaflops tính toán với 900.000 lõi tối ưu cho AI. So với NVIDIA B200, số transistor nhiều hơn 19 lần và năng lực tính toán cao hơn 28 lần
    Xem thêm tại trang chính thức của Cerebras, ảnh 1, ảnh 2

    • Có vẻ sẽ tỏa nhiệt khủng khiếp nên hệ thống làm mát có lẽ rất quan trọng. Mong là nó được cấp điện bằng năng lượng tái tạo
  • Tôi dùng coding agent để tự động tạo các bộ slide chạy trên web. Tôi định nghĩa “master slide” thành các component, rồi áp dụng quy tắc branding và tài sản của công ty. Chỉ cần đưa nội dung và prompt vào là có thể tạo ra một bản thuyết trình gọn gàng
    Điều tôi thực sự muốn là improv mode. Trong lúc thuyết trình, tùy theo câu hỏi của khán giả hoặc ý tưởng nảy ra tại chỗ, hệ thống sẽ đề xuất 3 slide tiếp theo để chọn, rồi sau đó quay lại luồng trình bày chính.
    Ví dụ, nếu nhắc đến một bài báo hay bài nghiên cứu, nó sẽ tự động tạo slide có ảnh chụp màn hình và mã QR, rồi quay lại mạch thuyết trình. Nếu kết hợp giọng nói thời gian thực + sinh mã, các công cụ thuyết trình sẽ trở nên hữu ích hơn rất nhiều

    • Tôi thấy kiểu thuyết trình xác suất này rất hay. Kết quả có thể khiến người ta ngạc nhiên, hoặc cũng có thể rất buồn cười
    • Bọn tôi ở Octigen đang làm gần như đúng thứ đó. Có thể chia sẻ demo hoặc quyền truy cập bản alpha
    • Tôi từng làm thứ tương tự trong một hackathon. Đó là hệ thống điều chỉnh tốc độ teleprompter theo tông giọng và tốc độ nói của người thuyết trình. Nếu mở rộng nó thành improv mode thì sẽ thực sự rất thú vị
    • Với tư cách là một giảng viên dành quá nhiều thời gian để chuẩn bị bài giảng, tôi muốn thử đưa hệ thống này vào lớp học
    • Không biết có thể cho xem ví dụ thực tế không
  • Tôi đã thử gpt-5.3-codex-spark trong Codex CLI, và tuy tốc độ cực nhanh nhưng có cảm giác model khá nhỏ.
    Tôi đo hiệu năng bằng bài test tự làm tên là ‘bluey bench’ (benchmark hệ thống tệp); model càng nhỏ thì hiệu quả ngữ cảnh càng kém và hiện tượng nén ngữ cảnh (compaction) xảy ra thường xuyên hơn.
    Dù vậy, về tốc độ thì nó vẫn nhanh hơn rất nhiều so với thế hệ trước

    • Tôi mong sau này bluey bench sẽ trở thành benchmark tiêu chuẩn cho mọi model
    • Không rõ đã so với Opus 4.6 (tắt chế độ suy nghĩ) chưa. Model đó cũng khá nhanh
    • Tên gọi khá giống Codex cũ nhưng hiệu năng lại thấp hơn nhiều, nghe hơi lạ
  • Tôi nghĩ Cerebras vẫn là một công ty bị đánh giá thấp. Một con chip cỡ bằng cái đĩa mà thực sự hoạt động được, lại còn nhanh hơn mọi thứ khác trong sử dụng thực tế. Công nghệ này thật đáng kinh ngạc

    • Có vẻ như thời của Nvidia sắp kết thúc. Google dự định tăng hiệu quả suy luận lên 4 lần với TPUv9, còn Cerebras thì nhanh hơn rất nhiều trong workload agent. Về hiệu quả điện năng và chi phí, Google cũng đang nhỉnh hơn.
      Hạ tầng điện đang là nút thắt, mà ở Mỹ thì không thể xây nhà máy điện quy mô lớn trong thời gian ngắn. Cuối cùng, có lẽ sau TPUv8 Google sẽ dẫn dắt thị trường
    • Thực ra lý do con chip này có ‘kích thước bằng cái đĩa’ là vì nó dùng cả wafer làm một chip duy nhất. Tích hợp ở quy mô wafer là công nghệ đã được nghiên cứu hàng chục năm
    • Nhược điểm là giá quá đắt
    • Dù vậy, các nhà đầu tư vẫn đang đổ tiền vào Nvidia
    • Nhưng con chip này có giá hơn 1 triệu USD mỗi chiếc, và mỗi rack chỉ lắp được 1 chiếc. Nó thiếu mật độ và dung lượng bộ nhớ. Cuối cùng Nvidia đã bỏ ra 20 tỷ USD để mua Groq, nên khả năng Cerebras bị thâu tóm cũng thấp
  • Benchmark Pelican của tôi cho thấy trực quan sự khác biệt về chất lượng giữa GPT-5.3-Codex-Spark và GPT-5.3-Codex đầy đủ
    Xem chi tiết trong bài blog

    • Mỗi lần có model mới tôi đều chờ benchmark kiểu này. Nó hữu ích vì cho thấy nhiều yếu tố cùng lúc. Blog cũng rất tuyệt
  • Ý tưởng dùng coding agent cho priority queue / tiered workload offload nghe rất thú vị.
    Nếu 60% công việc chỉ là chỉnh sửa đơn giản hoặc refactor, thì độ trễ thấp và xử lý được nhiều token là rất quan trọng.
    Gần đây đã có plugin Batch API cho Claude, còn Nvidia và Google cũng đang chuẩn bị silicon tùy chỉnh cho suy luận (bài viết)

    • Tuy vậy Batch API có độ trễ cao hơn rất nhiều. Nó phù hợp với công việc số lượng lớn, nhưng một lượt round-trip có thể mất tới 24 giờ. Hơn nữa, Codex hay các model Pro cũng không được hỗ trợ trong Batch API
    • Tôi đã tạo một MCP để Claude có thể thuê ngoài việc phát triển cho GLM 4.7 on Cerebras. Tôi cho phép Claude chỉ định system prompt, file đầu ra và file ngữ cảnh, và tốc độ phát triển đã tăng lên đáng kể
  • Mới chỉ 20 phút kể từ khi nó trở thành tiêu chuẩn ngành, mà vẫn còn người dùng GPT-5.3-Codex, thật bất ngờ

    • Tôi cũng nhìn tiêu đề rồi nghĩ “nếu GPT có công bố thì chắc Google hay Anthropic cũng tung gì đó rồi”, và đúng là đã có Gemini
  • Có khả năng OpenAI đang thử nghiệm thứ này trên Openrouter dưới tên Aurora Alpha.
    Tôi chạy một dự án nhỏ bằng Aider và nó xử lý 10.000 token đầu vào cùng 1.000 token đầu ra với tốc độ 500 token/giây

  • Tôi thấy dòng mô tả “model mới nhất có thể tự chủ làm việc trong nhiều giờ đến nhiều ngày”, nhưng đến giờ vẫn chưa thấy kết quả thật sự hữu ích nào

    • Tôi muốn hỏi là bạn đã thử đến mức nào. Opus 4.6 hay GPT-5.3 thực sự đã cải thiện rõ trong các tác vụ dài hạn. Ví dụ dự án nàytrang demo được hoàn thành chỉ với một prompt duy nhất (liên kết prompt)
    • Tôi thường để Codex chạy qua đêm để tìm bug. Nó thật sự lý tưởng cho tự động hóa gỡ lỗi
    • Khả năng model không dừng lại và tiếp tục đốt token thật ấn tượng
    • Câu “model của chúng tôi chậm đến mức một tác vụ phải mất vài giờ” nghe khá buồn cười. Có vẻ đó không phải điều đáng để khoe
    • Vài ngày trước Codex đã tự xử lý nâng cấp Vite 8 cho trang web công ty tôi trong hơn 3 giờ. Giờ nó đã được áp dụng vào production thực tế
  • Cuối cùng cũng được thấy một trong ba ông lớn dùng Cerebras. Tôi đã chờ ngày này rất lâu

    • Ban đầu người ta ngại vì đây là công nghệ chưa được kiểm chứng, nhưng giờ có vẻ nó đã tạo ra bước nhảy vọt lớn về tốc độ