3 điểm bởi GN⁺ 2026-03-18 | 1 bình luận | Chia sẻ qua WhatsApp
  • Hiện thực hiệu năng của GPT‑5.4 dưới dạng nhanh và hiệu quả hơn
  • GPT‑5.4 mini được cải thiện đáng kể so với GPT‑5 mini ở lập trình, suy luận, hiểu đa phương thức và sử dụng công cụ, đồng thời tốc độ nhanh hơn hơn 2 lần
  • GPT‑5.4 nano là mô hình nhỏ nhất và rẻ nhất, phù hợp cho phân loại, trích xuất dữ liệu, xếp hạng và các tác vụ hỗ trợ lập trình
  • Cả hai mô hình đều được thiết kế cho các workload mà độ trễ (latency) là yếu tố quan trọng, nên phù hợp với trợ lý lập trình cần tính phản hồi cao hoặc ứng dụng đa phương thức thời gian thực
  • Thông qua các mô hình này, có thể xây dựng hệ thống AI gọn nhẹ với sự cân bằng tối ưu giữa tốc độ, chi phí và hiệu năng

Tổng quan về GPT‑5.4 mini và nano

  • GPT‑5.4 mini và nano là các phiên bản nhỏ gọn, hiệu suất cao của GPT‑5.4, được thiết kế để phản hồi nhanh trong môi trường xử lý khối lượng lớn
    • mini được cải thiện so với GPT‑5 mini ở lập trình, suy luận, hiểu đa phương thức và sử dụng công cụ
    • nano là mô hình nhỏ nhất và rẻ nhất với hiệu năng được cải thiện so với GPT‑5 nano
  • Hai mô hình này được tối ưu cho những môi trường mà độ trễ ảnh hưởng trực tiếp đến trải nghiệm sản phẩm (trợ lý lập trình, sub-agent, diễn giải ảnh chụp màn hình, suy luận hình ảnh thời gian thực, v.v.)
  • OpenAI nhấn mạnh rằng “mô hình tốt nhất không phải lúc nào cũng là mô hình lớn nhất”, đồng thời đề cao khả năng phản hồi nhanh và sử dụng công cụ ổn định

So sánh hiệu năng

  • Trên các benchmark chính, GPT‑5.4 mini đạt điểm cao hơn GPT‑5 mini và cho thấy hiệu năng tiệm cận GPT‑5.4
    • SWE‑Bench Pro: GPT‑5.4 57.7%, mini 54.4%, nano 52.4%, GPT‑5 mini 45.7%
    • OSWorld‑Verified: GPT‑5.4 75.0%, mini 72.1%, nano 39.0%, GPT‑5 mini 42.0%
  • Trên Terminal‑Bench 2.0, Toolathlon, GPQA Diamond, mini cũng cho thấy hiệu quả tốc độ rất cao so với hiệu năng
  • nano mang lại hiệu quả chi phí tối ưu trong các môi trường mà tốc độ và chi phí là yếu tố quan trọng

Quy trình làm việc cho lập trình

  • Cả hai mô hình đều phù hợp với môi trường lập trình cần vòng lặp lặp lại (iteration) nhanh
    • hoạt động với độ trễ thấp trong các tác vụ như chỉnh sửa mã, khám phá codebase, tạo frontend, vòng lặp gỡ lỗi
  • GPT‑5.4 mini đạt tỷ lệ vượt qua (pass rate) cao hơn ở độ trễ tương đương so với GPT‑5 mini, và tiệm cận mức của GPT‑5.4
  • Trong môi trường Codex, mô hình lớn đảm nhiệm việc lập kế hoạch và phán đoán, còn mini đóng vai trò sub-agent xử lý song song các tác vụ chi tiết
    • ví dụ: tìm kiếm mã, rà soát tệp lớn, xử lý tài liệu
  • Cấu trúc này càng trở nên hữu ích hơn khi tốc độ và hiệu năng của mô hình nhỏ được cải thiện

Sử dụng máy tính và xử lý đa phương thức

  • GPT‑5.4 mini cũng cho thấy hiệu năng mạnh trong các tác vụ đa phương thức liên quan đến sử dụng máy tính
    • nhanh chóng diễn giải ảnh chụp màn hình của giao diện người dùng phức tạp để thực hiện tác vụ
    • trên OSWorld‑Verified, mô hình này tiệm cận GPT‑5.4 và vượt xa GPT‑5 mini

Hình thức cung cấp và giá

  • GPT‑5.4 mini
    • có sẵn qua API, Codex và ChatGPT
    • tính năng hỗ trợ: đầu vào văn bản và hình ảnh, sử dụng công cụ, function calling, tìm kiếm web và tệp, sử dụng máy tính, skill
    • cửa sổ ngữ cảnh 400k, $0.75 cho mỗi 1 triệu token đầu vào, $4.50 cho mỗi 1 triệu token đầu ra
    • trong Codex, chỉ dùng 30% quota của GPT‑5.4 và có thể xử lý các tác vụ lập trình đơn giản với khoảng 1/3 chi phí
    • trong ChatGPT, được cung cấp dưới tính năng “Thinking” cho người dùng Free và Go, và được dùng làm mô hình thay thế (fallback) cho GPT‑5.4 Thinking với những người dùng khác
  • GPT‑5.4 nano
    • chỉ cung cấp qua API
    • $0.20 cho mỗi 1 triệu token đầu vào, $1.25 cho mỗi 1 triệu token đầu ra

Chi tiết bổ sung về benchmark

  • Lập trình
    • SWE‑Bench Pro: GPT‑5.4 mini 54.4%, nano 52.4%
    • Terminal‑Bench 2.0: mini 60.0%, nano 46.3%
  • Gọi công cụ
    • MCP Atlas: mini 57.7%, nano 56.1%
    • Toolathlon: mini 42.9%, nano 35.5%
    • τ2‑bench(giao tiếp): mini 93.4%, nano 92.5%
  • Đánh giá trí năng
    • GPQA Diamond: mini 88.0%, nano 82.8%
    • HLE w/ tool: mini 41.5%, nano 37.7%
  • Đa phương thức và thị giác
    • MMMUPro w/ Python: mini 78.0%, nano 69.5%
    • OmniDocBench 1.5(no tools): mini 0.1263, nano 0.2419 (càng thấp càng tốt)
  • Ngữ cảnh dài
    • Graphwalks BFS 0K–128K: mini 76.3%, nano 73.4%
    • MRCR v2 8‑needle 64K–128K: mini 47.7%, nano 44.2%

Đánh giá tổng hợp

  • GPT‑5.4 mini và nano là các mô hình gọn nhẹ tối đa hóa sự cân bằng giữa tốc độ, chi phí và hiệu năng, phù hợp cho các ứng dụng thời gian thực quy mô lớn
  • mini có thể đóng vai trò then chốt trong kiến trúc sub-agent hoặc hệ thống đa phương thức, còn nano hiệu quả cho các tác vụ đơn giản, xử lý khối lượng lớn
  • OpenAI cung cấp thông qua hai mô hình này nền tảng để linh hoạt xây dựng các hệ thống AI ở nhiều quy mô khác nhau

1 bình luận

 
GN⁺ 2026-03-18
Ý kiến trên Hacker News
  • Tôi đã kiểm tra tốc độ hiện tại qua API và thấy khá ấn tượng
    GPT-5 Mini thường đạt 55~60 tokens/s, ở chế độ priority thì khoảng 115~120 t/s, còn GPT-5.4 Mini trung bình 180~190 t/s, GPT-5.4 Nano khoảng 200 t/s
    Để so sánh, Gemini 3 Flash khoảng 130 t/s (Gemini API), còn trên Vertex là khoảng 120 t/s
    Nếu nhìn cả giá thì Claude Opus 4.6 là $5/$25, GPT-5.4 là $2.5/$15, Gemini 3.1 Pro là $2/$12, v.v.

    • Chỉ nhìn token/s là chưa đủ. Cần xem cả TTFT (thời gian chờ token đầu tiên) và độ trễ tổng thể (latency) thì mới biết hiệu năng dùng API thực tế
    • Nếu chỉ nhanh ở tốc độ xuất mà giai đoạn suy luận (reasoning) dài thì ngược lại vẫn có thể chậm. Token/s thấp hơn nhưng suy nghĩ tập trung hơn có khi lại hiệu quả hơn
    • Google có vẻ sẽ có lợi thế về tài nguyên hoặc chi phí, nên tôi tò mò vì sao mọi người vẫn chọn GPT hay Claude
    • Tôi cũng muốn có số đo về tốc độ xử lý prompt theo từng nhà cung cấp, chứ không chỉ tốc độ xuất
    • Giá của các model giá rẻ đã tăng khá nhiều. Trước đây dùng rất thoải mái, giờ thì thấy bắt đầu nặng ví
  • Chia sẻ một lưới so sánh ảnh chim bồ nông từ nhiều model

    • Giờ thì những bài kiểu này chắc đã được đưa vào dữ liệu huấn luyện rồi
    • Một vài ảnh cho cảm giác như ác mộng, nhưng vì thế tôi lại càng thích hơn
    • Cá nhân tôi thích nhất con bồ nông của bản nano xhigh
    • nano medium trông như được tạo ra đúng lúc máy chủ đang bốc cháy
  • Model GPT thì tốt cho hội thoại, nhưng với công việc kiểu agent (agentic work) thì trải nghiệm của tôi khá tệ
    Vừa chậm, vừa không hiểu chỉ thị tốt. Cùng một prompt mà model khác lại chạy ổn

    • 5.4 Mini đủ nhanh cho ứng dụng giọng nói, nhưng khả năng làm theo chỉ thị còn yếu. Tôi đang tính fine-tune Qwen 3.5 9B
    • Gemini 3.1 và Claude Opus 4.6 thì vượt ngưỡng chấp nhận, còn dòng ChatGPT quá thiên về đối thoại. Khả năng giữ ngữ cảnh yếu nên cần kiểm chứng kết quả
    • GPT 5.2 Codex hay mất ngữ cảnh, còn Claude hoạt động tự nhiên hơn nhiều trong GitHub Copilot. GPT mất tới 20 phút chỉ để refactor đơn giản
    • Tôi đã dùng 5.4 Pro để phân tích dữ liệu nhưng nó quá chậm. Sonnet 4.6 nhanh hơn nhiều. Với đa số tác vụ thì cỡ Haiku là đủ
    • Ngược lại, tôi lại thấy Codex là tốt nhất. Chỉ tiếc là nó có phong cách quá lạnh lùng, nên hội thoại ngắn và khó can thiệp.
      Opus thì có tính cộng tác hơn nhưng đôi lúc lại đưa ra đề xuất kỳ quặc. Prompt của Codex nằm trong kho OpenCode
  • Tôi nghĩ các bản phát hành model nhỏ (mini) còn có ý nghĩa hơn cả SOTA
    Model lớn giờ đã quá tốt nên khó cảm nhận khác biệt, nhưng model nhỏ thì mỗi lần đổi phiên bản thường có bước nhảy chất lượng rất rõ
    Hơn nữa lại rẻ hơn nhiều nên dễ áp dụng vào dịch vụ thực tế

    • Ứng dụng web Gemini tự động chuyển sang Flash, và khi câu trả lời kỳ quặc hoặc logic lệch đi thì tôi nhận ra ngay. Cho nhu cầu hằng ngày thì vẫn chưa đủ, nhưng cho tự động hóa đơn giản thì đã khá ổn
    • GPT 5.4 yếu ở các tác vụ UI Svelte, Gemini thì có xu hướng triển khai ngay thay vì tranh luận, còn Claude lạm dụng kiểu any trong TypeScript
    • Xem kết quả so sánh thì chênh lệch giữa 5 mini và 5.4 mini là nhỏ, nhưng 5.4 mini kém ổn định hơn nhưng tỷ lệ đúng cao hơn
    • Thực tế thì giá đang tăng. GPT 5.4 mini đắt gấp khoảng 3 lần 5.0 mini. Gemini 3.1 Flash Lite cũng đắt hơn trước
    • So với model mở thì cũng không hẳn rẻ, mà trí tuệ lại thấp hơn. Nếu không phải trường hợp cần tối thiểu hóa độ trễ (latency) thì cũng ít lý do để dùng
  • Tôi thắc mắc vì sao việc đánh giá LLM lại làm theo kiểu cảm tính (“vibe check”)
    Phần lớn so sánh không dựa trên thực nghiệm có hệ thống mà là các bài test ngẫu hứng

    • Đây không chỉ là vấn đề kỹ thuật hóa đơn thuần. Vì ngay cả định nghĩa về trí tuệ và năng lực cũng còn chưa hoàn chỉnh. Benchmark hiện có đầy khiếm khuyết
    • Cứ làm benchmark thì lại bị chê là “vô nghĩa”, nhưng đánh giá bằng cảm giác còn tệ hơn nhiều
    • Các tập đánh giá công khai rất nhanh sẽ bị vô hiệu hóa bởi vấn đề khu rừng tối (dark forest problem). Vì sức dự báo của chúng cũng yếu nên tôi nghĩ xử lý cách tiếp cận phi chính thức theo hướng khoa học còn tốt hơn
    • Cũng có người đùa là “đánh giá bằng cảm giác, và code cũng bằng cảm giác”
  • Theo benchmark thì GPT 5.4 Nano tốt hơn GPT-5 Mini ở đa số hạng mục, nhưng giá lại còn tăng
    GPT 5 mini: đầu vào $0.25 / đầu ra $2.00 → GPT 5.4 mini: đầu vào $0.75 / đầu ra $4.50

    • Model đắt hơn nhưng hiệu quả giá trên hiệu năng đã được cải thiện. Có thể giờ không còn nhiều lý do để duy trì model yếu hơn
    • Vì là model lớn hơn nên chi phí phục vụ không thể thấp. Nếu hiệu năng tốt hơn thì đắt hơn cũng là điều bình thường
  • Điểm OSWorld khá thú vị. Mini đạt 72.1%, gần như ngang mức con người là 72.4%
    Vì vậy nếu không phải trường hợp lỗi đặc thù thì dùng Mini làm mặc định cũng không sao
    Tuy vậy trong pipeline đa model, nếu nano sub-agent chuyển nguyên toàn bộ lịch sử tin nhắn thì bước “giá rẻ” sẽ mất ý nghĩa
    Tôi tò mò không biết đã có ai đo xem từ độ dài ngữ cảnh nào thì nano không còn nhanh hơn nữa hay chưa

    • (Cái này trông như bot)
  • Trong benchmark của tôi thì Nano cũng cho kết quả tốt hơn Mini
    5.4 mini có vấn đề về độ nhất quán, và ngay cả ở temperature 0 vẫn lẫn cả đáp án đúng lẫn sai
    Tham khảo liên kết so sánh

  • Điểm OSWorld của 5.4 Mini thật đáng kinh ngạc. Trước đây model vừa chậm vừa thiếu chính xác nên không thể dùng cho agent thời gian thực, nhưng giờ thì đã thấy có hy vọng

    • Một số người coi nhẹ OSWorld và gọi nó là “OpenClaw”, nhưng với vai trò đánh giá tương tác toàn diện an toàn thì nó rất mạnh
      Ví dụ có thể so sánh hành vi giữa ứng dụng Win32 và bản web để tạo kiểm thử tự động. Khi mở rộng quy mô lớn cũng vẫn hiệu quả về chi phí
  • Nếu nhìn theo SWE-Bench thì 5.4 mini high có độ chính xác và giá gần tương đương GPT 5.4 low, nhưng độ trễ (latency) lại dài hơn (254 giây so với 171 giây)
    Với tác vụ đơn giản thì chạy ở mức effort thấp sẽ có lợi hơn về chi phí. Tuy vậy khả năng xử lý ngữ cảnh dài vẫn còn yếu