- Hiện thực hiệu năng của GPT‑5.4 dưới dạng nhanh và hiệu quả hơn
- GPT‑5.4 mini được cải thiện đáng kể so với GPT‑5 mini ở lập trình, suy luận, hiểu đa phương thức và sử dụng công cụ, đồng thời tốc độ nhanh hơn hơn 2 lần
- GPT‑5.4 nano là mô hình nhỏ nhất và rẻ nhất, phù hợp cho phân loại, trích xuất dữ liệu, xếp hạng và các tác vụ hỗ trợ lập trình
- Cả hai mô hình đều được thiết kế cho các workload mà độ trễ (latency) là yếu tố quan trọng, nên phù hợp với trợ lý lập trình cần tính phản hồi cao hoặc ứng dụng đa phương thức thời gian thực
- Thông qua các mô hình này, có thể xây dựng hệ thống AI gọn nhẹ với sự cân bằng tối ưu giữa tốc độ, chi phí và hiệu năng
Tổng quan về GPT‑5.4 mini và nano
- GPT‑5.4 mini và nano là các phiên bản nhỏ gọn, hiệu suất cao của GPT‑5.4, được thiết kế để phản hồi nhanh trong môi trường xử lý khối lượng lớn
- mini được cải thiện so với GPT‑5 mini ở lập trình, suy luận, hiểu đa phương thức và sử dụng công cụ
- nano là mô hình nhỏ nhất và rẻ nhất với hiệu năng được cải thiện so với GPT‑5 nano
- Hai mô hình này được tối ưu cho những môi trường mà độ trễ ảnh hưởng trực tiếp đến trải nghiệm sản phẩm (trợ lý lập trình, sub-agent, diễn giải ảnh chụp màn hình, suy luận hình ảnh thời gian thực, v.v.)
- OpenAI nhấn mạnh rằng “mô hình tốt nhất không phải lúc nào cũng là mô hình lớn nhất”, đồng thời đề cao khả năng phản hồi nhanh và sử dụng công cụ ổn định
So sánh hiệu năng
- Trên các benchmark chính, GPT‑5.4 mini đạt điểm cao hơn GPT‑5 mini và cho thấy hiệu năng tiệm cận GPT‑5.4
- SWE‑Bench Pro: GPT‑5.4 57.7%, mini 54.4%, nano 52.4%, GPT‑5 mini 45.7%
- OSWorld‑Verified: GPT‑5.4 75.0%, mini 72.1%, nano 39.0%, GPT‑5 mini 42.0%
- Trên Terminal‑Bench 2.0, Toolathlon, GPQA Diamond, mini cũng cho thấy hiệu quả tốc độ rất cao so với hiệu năng
- nano mang lại hiệu quả chi phí tối ưu trong các môi trường mà tốc độ và chi phí là yếu tố quan trọng
Quy trình làm việc cho lập trình
- Cả hai mô hình đều phù hợp với môi trường lập trình cần vòng lặp lặp lại (iteration) nhanh
- hoạt động với độ trễ thấp trong các tác vụ như chỉnh sửa mã, khám phá codebase, tạo frontend, vòng lặp gỡ lỗi
- GPT‑5.4 mini đạt tỷ lệ vượt qua (pass rate) cao hơn ở độ trễ tương đương so với GPT‑5 mini, và tiệm cận mức của GPT‑5.4
- Trong môi trường Codex, mô hình lớn đảm nhiệm việc lập kế hoạch và phán đoán, còn mini đóng vai trò sub-agent xử lý song song các tác vụ chi tiết
- ví dụ: tìm kiếm mã, rà soát tệp lớn, xử lý tài liệu
- Cấu trúc này càng trở nên hữu ích hơn khi tốc độ và hiệu năng của mô hình nhỏ được cải thiện
Sử dụng máy tính và xử lý đa phương thức
- GPT‑5.4 mini cũng cho thấy hiệu năng mạnh trong các tác vụ đa phương thức liên quan đến sử dụng máy tính
- nhanh chóng diễn giải ảnh chụp màn hình của giao diện người dùng phức tạp để thực hiện tác vụ
- trên OSWorld‑Verified, mô hình này tiệm cận GPT‑5.4 và vượt xa GPT‑5 mini
Hình thức cung cấp và giá
- GPT‑5.4 mini
- có sẵn qua API, Codex và ChatGPT
- tính năng hỗ trợ: đầu vào văn bản và hình ảnh, sử dụng công cụ, function calling, tìm kiếm web và tệp, sử dụng máy tính, skill
- cửa sổ ngữ cảnh 400k, $0.75 cho mỗi 1 triệu token đầu vào, $4.50 cho mỗi 1 triệu token đầu ra
- trong Codex, chỉ dùng 30% quota của GPT‑5.4 và có thể xử lý các tác vụ lập trình đơn giản với khoảng 1/3 chi phí
- trong ChatGPT, được cung cấp dưới tính năng “Thinking” cho người dùng Free và Go, và được dùng làm mô hình thay thế (fallback) cho GPT‑5.4 Thinking với những người dùng khác
- GPT‑5.4 nano
- chỉ cung cấp qua API
- $0.20 cho mỗi 1 triệu token đầu vào, $1.25 cho mỗi 1 triệu token đầu ra
Chi tiết bổ sung về benchmark
- Lập trình
- SWE‑Bench Pro: GPT‑5.4 mini 54.4%, nano 52.4%
- Terminal‑Bench 2.0: mini 60.0%, nano 46.3%
- Gọi công cụ
- MCP Atlas: mini 57.7%, nano 56.1%
- Toolathlon: mini 42.9%, nano 35.5%
- τ2‑bench(giao tiếp): mini 93.4%, nano 92.5%
- Đánh giá trí năng
- GPQA Diamond: mini 88.0%, nano 82.8%
- HLE w/ tool: mini 41.5%, nano 37.7%
- Đa phương thức và thị giác
- MMMUPro w/ Python: mini 78.0%, nano 69.5%
- OmniDocBench 1.5(no tools): mini 0.1263, nano 0.2419 (càng thấp càng tốt)
- Ngữ cảnh dài
- Graphwalks BFS 0K–128K: mini 76.3%, nano 73.4%
- MRCR v2 8‑needle 64K–128K: mini 47.7%, nano 44.2%
Đánh giá tổng hợp
- GPT‑5.4 mini và nano là các mô hình gọn nhẹ tối đa hóa sự cân bằng giữa tốc độ, chi phí và hiệu năng, phù hợp cho các ứng dụng thời gian thực quy mô lớn
- mini có thể đóng vai trò then chốt trong kiến trúc sub-agent hoặc hệ thống đa phương thức, còn nano hiệu quả cho các tác vụ đơn giản, xử lý khối lượng lớn
- OpenAI cung cấp thông qua hai mô hình này nền tảng để linh hoạt xây dựng các hệ thống AI ở nhiều quy mô khác nhau
1 bình luận
Ý kiến trên Hacker News
Tôi đã kiểm tra tốc độ hiện tại qua API và thấy khá ấn tượng
GPT-5 Mini thường đạt 55~60 tokens/s, ở chế độ priority thì khoảng 115~120 t/s, còn GPT-5.4 Mini trung bình 180~190 t/s, GPT-5.4 Nano khoảng 200 t/s
Để so sánh, Gemini 3 Flash khoảng 130 t/s (Gemini API), còn trên Vertex là khoảng 120 t/s
Nếu nhìn cả giá thì Claude Opus 4.6 là $5/$25, GPT-5.4 là $2.5/$15, Gemini 3.1 Pro là $2/$12, v.v.
Chia sẻ một lưới so sánh ảnh chim bồ nông từ nhiều model
Model GPT thì tốt cho hội thoại, nhưng với công việc kiểu agent (agentic work) thì trải nghiệm của tôi khá tệ
Vừa chậm, vừa không hiểu chỉ thị tốt. Cùng một prompt mà model khác lại chạy ổn
Opus thì có tính cộng tác hơn nhưng đôi lúc lại đưa ra đề xuất kỳ quặc. Prompt của Codex nằm trong kho OpenCode
Tôi nghĩ các bản phát hành model nhỏ (mini) còn có ý nghĩa hơn cả SOTA
Model lớn giờ đã quá tốt nên khó cảm nhận khác biệt, nhưng model nhỏ thì mỗi lần đổi phiên bản thường có bước nhảy chất lượng rất rõ
Hơn nữa lại rẻ hơn nhiều nên dễ áp dụng vào dịch vụ thực tế
Tôi thắc mắc vì sao việc đánh giá LLM lại làm theo kiểu cảm tính (“vibe check”)
Phần lớn so sánh không dựa trên thực nghiệm có hệ thống mà là các bài test ngẫu hứng
Theo benchmark thì GPT 5.4 Nano tốt hơn GPT-5 Mini ở đa số hạng mục, nhưng giá lại còn tăng
GPT 5 mini: đầu vào $0.25 / đầu ra $2.00 → GPT 5.4 mini: đầu vào $0.75 / đầu ra $4.50
Điểm OSWorld khá thú vị. Mini đạt 72.1%, gần như ngang mức con người là 72.4%
Vì vậy nếu không phải trường hợp lỗi đặc thù thì dùng Mini làm mặc định cũng không sao
Tuy vậy trong pipeline đa model, nếu nano sub-agent chuyển nguyên toàn bộ lịch sử tin nhắn thì bước “giá rẻ” sẽ mất ý nghĩa
Tôi tò mò không biết đã có ai đo xem từ độ dài ngữ cảnh nào thì nano không còn nhanh hơn nữa hay chưa
Trong benchmark của tôi thì Nano cũng cho kết quả tốt hơn Mini
5.4 mini có vấn đề về độ nhất quán, và ngay cả ở temperature 0 vẫn lẫn cả đáp án đúng lẫn sai
Tham khảo liên kết so sánh
Điểm OSWorld của 5.4 Mini thật đáng kinh ngạc. Trước đây model vừa chậm vừa thiếu chính xác nên không thể dùng cho agent thời gian thực, nhưng giờ thì đã thấy có hy vọng
Ví dụ có thể so sánh hành vi giữa ứng dụng Win32 và bản web để tạo kiểm thử tự động. Khi mở rộng quy mô lớn cũng vẫn hiệu quả về chi phí
Nếu nhìn theo SWE-Bench thì 5.4 mini high có độ chính xác và giá gần tương đương GPT 5.4 low, nhưng độ trễ (latency) lại dài hơn (254 giây so với 171 giây)
Với tác vụ đơn giản thì chạy ở mức effort thấp sẽ có lợi hơn về chi phí. Tuy vậy khả năng xử lý ngữ cảnh dài vẫn còn yếu