Ra mắt GPT‑5.4

(openai.com)

11 điểm bởi GN⁺ 2026-03-06 | 2 bình luận | Chia sẻ qua WhatsApp

Mô hình frontier mới nhất được triển khai trên toàn bộ ChatGPT, API và Codex, hợp nhất hiệu năng về suy luận, lập trình và agent workflow
Tích hợp sẵn tính năng computer-use gốc, cho phép agent trực tiếp thao tác website và phần mềm để thực hiện các workflow phức tạp
Hỗ trợ cửa sổ ngữ cảnh tối đa 1M token và giảm chi phí lẫn độ trễ nhờ Tool Search cùng cách sử dụng token hiệu quả
Trong chế độ Thinking của ChatGPT, có thể điều chỉnh quá trình suy nghĩ ngay giữa lúc phản hồi đang được tạo, đồng thời cải thiện nghiên cứu web chuyên sâu và khả năng giữ ngữ cảnh
Hấp thụ năng lực lập trình của GPT-5.3-Codex đồng thời cải thiện mạnh độ chính xác và hiệu quả cho bảng tính, bài thuyết trình và công việc tài liệu

Tổng quan về GPT‑5.4

GPT‑5.4 là mô hình mạnh mẽ và hiệu quả nhất được phát hành đồng thời trên ChatGPT (chế độ Thinking), API và Codex
- Phiên bản GPT‑5.4 Pro cung cấp hiệu năng tối đa cho các tác vụ phức tạp
Tích hợp năng lực lập trình của GPT‑5.3‑Codex, đồng thời tăng cường độ chính xác và hiệu quả trong các môi trường công việc chuyên môn như bảng tính, bài thuyết trình và tài liệu
Cải thiện khả năng liên kết giữa các công cụ và môi trường phần mềm, giúp giảm số vòng hội thoại qua lại khi thực hiện công việc thực tế

Cải tiến chế độ Thinking của ChatGPT

GPT-5.4 Thinking đưa ra kế hoạch mở đầu (preamble) cho quá trình suy nghĩ khi bắt đầu tác vụ, để người dùng có thể điều chỉnh hướng đi ngay trong lúc phản hồi đang được tạo
Được thiết kế để đầu ra cuối cùng khớp chính xác hơn với ý định của người dùng mà không cần thêm lượt hội thoại
Hiệu năng nghiên cứu web chuyên sâu được cải thiện, đặc biệt hiệu quả với các truy vấn rất cụ thể
Ở những câu hỏi cần suy nghĩ dài, khả năng duy trì ngữ cảnh trước đó được cải thiện, cho phép đưa ra câu trả lời chất lượng cao hơn với tốc độ nhanh hơn
Có thể sử dụng ngay trên chatgpt.com và ứng dụng Android, ứng dụng iOS sẽ được hỗ trợ sau

Tính năng sử dụng máy tính và thị giác

GPT-5.4 là mô hình đa dụng đầu tiên được trang bị tính năng computer-use gốc
Hỗ trợ cả thao tác máy tính dựa trên mã thông qua các thư viện như Playwright và phát lệnh chuột, bàn phím dựa trên ảnh chụp màn hình
Có thể điều chỉnh hành vi qua developer message, đồng thời cho phép đặt riêng chính sách xác nhận tùy chỉnh (confirmation policy) theo mức độ chấp nhận rủi ro
Đạt 75.0% trên OSWorld-Verified, vượt hiệu năng con người 72.4% và tăng mạnh so với 47.3% của GPT-5.2
Đạt 67.3% trên WebArena-Verified với tương tác dựa trên DOM + screenshot (GPT-5.2: 65.4%)
Đạt 92.8% trên Online-Mind2Web chỉ với quan sát dựa trên screenshot (ChatGPT Atlas Agent Mode: 70.9%)

Cải thiện nhận thức thị giác và phân tích tài liệu

Năng lực nhận thức thị giác đa dụng được cải thiện là nền tảng cho tính năng computer-use
Trên MMMU-Pro, đạt 81.2% khi không dùng công cụ (GPT-5.2: 79.5%) và 82.1% khi dùng công cụ (GPT-5.2: 80.4%)
Trên OmniDocBench, đạt lỗi trung bình (khoảng cách chỉnh sửa chuẩn hóa) 0.109 mà không cần suy luận (GPT-5.2: 0.140)
Giới thiệu mức độ chi tiết đầu vào hình ảnh original mới: hỗ trợ nhận diện với độ trung thực đầy đủ lên tới 10.24M pixel hoặc kích thước chiều tối đa 6000px
- Mức high được mở rộng lên tối đa 2.56M pixel hoặc chiều tối đa 2048px
- Trong thử nghiệm ban đầu với người dùng API, ghi nhận cải thiện rõ rệt về khả năng định vị, hiểu ảnh và độ chính xác khi nhấp

Hiệu năng lập trình

Kết hợp thế mạnh lập trình của GPT-5.3-Codex với các tính năng công việc chuyên môn và computer-use
Đạt 57.7% trên SWE-Bench Pro (GPT-5.3-Codex: 56.8%, GPT-5.2: 55.6%)
Cung cấp độ trễ thấp hơn so với GPT-5.3-Codex ở mọi mức suy luận
Khi bật chế độ /fast trong Codex, tốc độ token nhanh hơn tới 1.5 lần mà vẫn giữ nguyên cùng mô hình và cùng mức trí tuệ
- Trên API, có thể tiếp cận cùng hiệu năng tốc độ cao thông qua Priority Processing
Tạo ra kết quả rõ rệt đẹp hơn và giàu chức năng hơn trong các tác vụ frontend phức tạp so với các mô hình trước
Công bố kỹ năng Codex thử nghiệm "Playwright (Interactive)": hỗ trợ debug trực quan cho web và ứng dụng Electron, có thể kiểm thử ứng dụng đang được build theo thời gian thực

Tính năng Tool Search

Trước đây, toàn bộ định nghĩa công cụ đều được đưa sẵn vào prompt, tiêu tốn từ hàng nghìn đến hàng chục nghìn token; với Tool Search, chỉ cung cấp danh sách công cụ nhẹ và truy xuất định nghĩa động khi cần
Giảm mạnh lượng token sử dụng trong các workflow phụ thuộc nhiều vào công cụ, đồng thời giữ cache để cải thiện cả tốc độ lẫn chi phí
Đặc biệt hiệu quả với các định nghĩa công cụ của MCP server có quy mô hàng chục nghìn token
Theo mốc 250 tác vụ của benchmark MCP Atlas từ Scale, khi chuyển toàn bộ 36 MCP server sang Tool Search, tổng lượng token sử dụng giảm 47% trong khi vẫn giữ nguyên độ chính xác

Gọi công cụ và hiệu năng agent

GPT-5.4 cải thiện độ chính xác và hiệu quả về thời điểm và cách thức sử dụng công cụ trong quá trình suy luận
Đạt 54.6% trên Toolathlon (GPT-5.2: 45.7%), đạt độ chính xác cao hơn với ít lượt hơn
- Đánh giá các tác vụ thực tế nhiều bước có sử dụng công cụ như đọc email, trích xuất tệp đính kèm của bài tập, tải lên, chấm điểm và ghi kết quả vào bảng tính
Ngay cả trong kịch bản độ trễ thấp không suy luận, vẫn đạt 64.3% trên τ2-bench Telecom (GPT-5.2: 57.2%, GPT-4.1: 43.6%)
Đạt 82.7% trên BrowseComp, còn GPT-5.4 Pro đạt 89.3%, thiết lập mức hiệu năng cao nhất mới (GPT-5.2: 65.8%)
- Cải thiện khả năng tìm kiếm bền bỉ qua nhiều vòng trong các bài toán truy tìm thông tin khó kiểu "mò kim đáy bể"

Hiệu năng công việc chuyên môn và lao động tri thức

Trên GDPval, đánh giá đầu ra công việc thực tế của 44 nghề thuộc 9 ngành lớn nhất theo GDP của Mỹ (bài thuyết trình bán hàng, bảng tính kế toán, lịch trực cấp cứu, sơ đồ sản xuất, video ngắn...)
- GPT-5.4: 83.0% đạt hoặc vượt mức chuyên gia (GPT-5.2: 70.9%)
Trên benchmark nội bộ về mô hình hóa bảng tính trong ngân hàng đầu tư, đạt trung bình 87.3% (GPT-5.2: 68.4%)
Trong đánh giá bài thuyết trình, người chấm là con người ưa thích kết quả của GPT-5.4 ở mức 68.0% (độ hoàn thiện thẩm mỹ, đa dạng trực quan và khả năng tận dụng tạo ảnh đều tốt hơn)
Giảm ảo giác và lỗi: trên tập prompt nơi người dùng đã báo lỗi thực tế, xác suất sai của từng phát biểu giảm 33%, và xác suất toàn bộ câu trả lời chứa lỗi giảm 18% so với GPT-5.2

Cửa sổ ngữ cảnh 1M và hiệu năng ngữ cảnh dài

Hỗ trợ tối đa ngữ cảnh 1M token, cho phép agent lập kế hoạch, thực thi và kiểm chứng các tác vụ có phạm vi dài
Trong Codex, hỗ trợ thử nghiệm cửa sổ ngữ cảnh 1M, có thể cấu hình bằng model_context_window và model_auto_compact_token_limit
- Các yêu cầu vượt cửa sổ ngữ cảnh chuẩn 272K sẽ bị tính phí gấp 2 lần
Graphwalks BFS 0K–128K: 93.0%, 256K–1M: 21.4%
OpenAI MRCR v2 8-needle: 97.3% ở 4K–8K, 79.3% ở 128K–256K, 36.6% ở 512K–1M

Suy luận trừu tượng và benchmark học thuật

ARC-AGI-1 (Verified): 93.7% (GPT-5.2: 86.2%), ARC-AGI-2 (Verified): 73.3% (GPT-5.2: 52.9%)
GPT-5.4 Pro đạt 83.3% trên ARC-AGI-2
Frontier Science Research: 33.0% (GPT-5.2: 25.2%), FrontierMath Tier 1–3: 47.6% (GPT-5.2: 40.7%)
FrontierMath Tier 4: 27.1% (GPT-5.2: 18.8%), GPT-5.4 Pro đạt 38.0%
GPQA Diamond: 92.8% (GPT-5.2: 92.4%)
Humanity's Last Exam: 39.8% khi không dùng công cụ, 52.1% khi dùng công cụ (GPT-5.2: lần lượt 34.5% và 45.5%)
- GPT-5.4 Pro đạt 58.7% khi dùng công cụ

An toàn và bảo mật

Tiếp tục cải thiện các lớp bảo vệ đã được giới thiệu từ GPT-5.3-Codex, và được xếp vào nhóm năng lực cyber mức High trong Preparedness Framework
Ngăn xếp an toàn cyber được mở rộng: bao gồm hệ thống giám sát, kiểm soát truy cập dựa trên độ tin cậy, và chặn bất đồng bộ trên các bề mặt Zero Data Retention (ZDR)
Áp dụng cách tiếp cận triển khai phòng ngừa có xét đến tính lưỡng dụng của năng lực an ninh mạng; việc cải thiện độ chính xác của bộ phân loại vẫn đang tiếp tục nên có thể còn tồn tại một số false positive
Mục tiêu là duy trì lớp bảo vệ chống lạm dụng đồng thời giảm các trường hợp từ chối không cần thiết và phản hồi gợi ý quá mức
Tiếp tục nghiên cứu về giám sát Chain-of-Thought (CoT), đồng thời công bố công cụ đánh giá mã nguồn mở mới CoT controllability
- Khả năng kiểm soát CoT của GPT-5.4 Thinking thấp, điều này tích cực về mặt an toàn vì mô hình khó che giấu suy luận hơn

Giá và thông tin phát hành

Tên model API: gpt-5.4, phiên bản Pro: gpt-5.4-pro
Giá API (tính theo mỗi triệu token):
- gpt-5.4: đầu vào $2.50, đầu vào cache $0.25, đầu ra $15
- gpt-5.4-pro: đầu vào $30, đầu ra $180
- gpt-5.2: đầu vào $1.75, đầu vào cache $0.175, đầu ra $14
Dù giá mỗi token cao hơn GPT-5.2, hiệu quả token được cải thiện giúp giảm tổng lượng token tiêu thụ trên mỗi tác vụ
Giá Batch và Flex bằng một nửa giá chuẩn, còn Priority Processing gấp 2 lần giá chuẩn
Trên ChatGPT, GPT-5.4 Thinking được cung cấp ngay cho người dùng Plus, Team, Pro, thay thế GPT-5.2 Thinking
- GPT-5.2 Thinking sẽ được giữ trong mục Legacy Models cho người dùng trả phí trong 3 tháng và ngừng vào ngày 5 tháng 6 năm 2026
- Gói Enterprise và Edu có thể bật quyền truy cập sớm trong phần cài đặt quản trị
- GPT-5.4 Pro được cung cấp trong các gói Pro và Enterprise
GPT-5.4 là mô hình suy luận dòng chính đầu tiên tích hợp năng lực lập trình frontier của GPT-5.3-Codex; model Instant và model Thinking dự kiến sẽ tiếp tục phát triển với tốc độ khác nhau

2 bình luận

helio 2026-03-06

> Khi bật chế độ /fast trong Codex, tốc độ token nhanh hơn tối đa 1,5 lần, vẫn giữ nguyên cùng mô hình và cùng mức độ thông minh. Trong API là Priority Processing.
> Priority Processing có giá gấp 2 lần tiêu chuẩn
> Các yêu cầu vượt quá cửa sổ ngữ cảnh tiêu chuẩn 272K sẽ bị tính phí gấp đôi

GN⁺ 2026-03-06

Ý kiến trên Hacker News

Hộp “Ask ChatGPT” ở cuối bài blog khá buồn cười
Khi nhập yêu cầu tóm tắt nội dung bài viết, một cửa sổ mới mở ra nhưng chỉ trả về câu trả lời “không thể truy cập URL bên ngoài”
Không rõ OpenAI có biết tính năng này thực ra không hoạt động hay không
- Có vẻ chỉ không hoạt động với người dùng chưa đăng nhập
  Khi đăng nhập thì nó chạy bình thường, và đã gửi báo cáo lỗi cho nhóm
- Khi tôi thử thì nó tóm tắt bình thường
  Xem liên kết ví dụ được chia sẻ
  Lúc đó tôi cũng đang đăng nhập
- Tôi cũng thấy phần tóm tắt hoạt động tốt khi đã đăng nhập
  Có lẽ quyền truy cập URL bên ngoài khác nhau tùy vào trạng thái đăng nhập
- Tôi mới dùng lại Claude sau một thời gian dài, và UX đã được cải thiện khá nhiều
  Có vẻ phía Anthropic chú ý hơn tới các chi tiết UX kiểu này
- Không biết thông báo đó có phải do vấn đề bản quyền hay không
Cảm giác dòng sản phẩm model của OpenAI đã trở nên quá phức tạp
GPT‑5.1, 5.2, 5.4 trộn cùng Codex 5.3 và Instant 5.3
Trong khi đó Anthropic chỉ phân tách rõ ba model, còn Google thì vẫn toàn model Preview
Có phàn nàn rằng với tư cách lập trình viên, rất khó dùng một phiên bản ổn định
- Làm tôi nhớ tới meme công cụ cũ của Google vs công cụ beta mới
  Tình huống lúc nào cũng lặp lại là phải chọn một trong hai
- Chê cách đánh số phiên bản khó hiểu có vẻ hơi bới lông tìm vết
  Nếu là kỹ sư thì 5.4 > 5.2 > 5.1 là chuyện rất dễ hiểu
- Google đã thông báo sẽ sớm ngừng hỗ trợ (deprecate) model 2.5
  Trong khi 3.x vẫn còn là Preview nên càng rối hơn
- Anthropic cũng có hệ thống phiên bản lộn xộn
  Phiên bản giữa Opus, Sonnet và Haiku không đồng bộ, và cấu trúc giá cũng phức tạp
  Cuối cùng công ty nào cũng đang gặp vấn đề tương tự
- Mỗi tháng lại có model tốt hơn ra mắt, nên chẳng có lý do gì phải cố chấp bám vào cùng một model
  Đây là thời đại chỉ cần đổi API là có thể chuyển đổi dễ dàng
Điểm cốt lõi của GPT‑5.4 là cửa sổ ngữ cảnh 1M token
Theo bảng giá chính thức, vượt 200k cũng không có phụ phí
Nó rẻ hơn Opus 4.6 rất nhiều, nhưng vẫn còn nghi ngờ liệu ngữ cảnh 1M có mang lại lợi ích thực tế hay không
Theo tài liệu cập nhật, nó thay thế GPT‑5.3‑Codex
- Theo tài liệu model
  nếu vượt 272K token thì đầu vào bị tính giá gấp 2, đầu ra gấp 1.5
- Ngữ cảnh dài vs nén (compaction) luôn là một bài toán phải cân nhắc
  Càng nhiều token thì chi phí và độ trễ càng tăng
  Trong thử nghiệm nội bộ của OpenAI, ngữ cảnh ngắn hiệu quả hơn trong đa số trường hợp
  (bình luận của nhân viên)
- Claude cần ít token hơn cho cùng một tác vụ
  nên phải so theo chi phí trên mỗi tác vụ
  Trên thực tế chi phí của GPT‑5.x và Opus khá tương đương
  Kết quả công việc thực tế quan trọng hơn benchmark
- Phần lớn mọi người chỉ xem bảng giá chính thức
  nhưng thực ra tài liệu dành cho nhà phát triển mới chính xác hơn
  Chỉ đến 272k mới áp dụng mức giá cơ bản
- Vấn đề context rot vẫn còn tồn tại
  nhưng Anthropic có kế hoạch giảm bớt nó bằng RL cho các tác vụ dài
Tôi đã dùng GPT‑5.4 vài lần, và thấy độ rõ ràng trong văn viết cùng khả năng phân tích rất ấn tượng
Nó dùng văn phong tự nhiên và giống con người hơn nhiều so với 5.3‑Codex
Cũng có thể là do AGENTS.md của tôi yêu cầu ngôn ngữ đơn giản
- Nhưng trong codebase của tôi, nó đã bỏ sót một lỗi mất dữ liệu nghiêm trọng
- Mỗi lần có model mới ra mắt lại xuất hiện bài viết kiểu “model trước đó thật nguyên thủy”
  Có vẻ mô-típ đó cứ lặp đi lặp lại
- Tôi cũng đã chuyển từ Opus sang Codex, và suy luận chậm hơn nhưng độ chính xác cao hơn
  Claude cho cảm giác tương đối lỏng tay hơn
- Không biết nếu dùng cùng một file AGENTS.md thì có cho ra kết quả giống nhau hay không
- Theo nghiên cứu mới nhất, việc đưa AGENTS.md vào còn có thể làm giảm hiệu năng
OpenAI đã tránh được sự rối rắm trong đánh số phiên bản suốt 8 tháng, nhưng cuối cùng lại phức tạp trở lại
Các tên như GPT‑5.3 Instant và GPT‑5.4 Thinking đang bị trộn lẫn
- Khó hiểu sự khác biệt giữa GPT‑5.3 Instant và gpt‑5.3‑chat
- Thực ra còn có cả 5.3 Codex
- Model Instant tốt cho tóm tắt hoặc tìm kiếm, nhưng trong hội thoại phức tạp thì dễ mất ngữ cảnh
  Phải dùng đúng theo mục đích
Demo game RPG trên blog khá ấn tượng
Nó đạt mức tương tự “Battle Brothers”, là một ví dụ tốt về kỹ thuật tự chủ
- Thật ngạc nhiên khi AI có thể làm ra một bản clone RollerCoaster Tycoon chỉ trong một lần
  Với tốc độ này, thị trường công cụ low-code có thể bị đe dọa
- Nhưng trên thực tế, nó có vẻ chỉ ở mức demo đơn giản
- Có lẽ là nhờ tích hợp Playwright
  Codex giờ có thể debug và test web app theo cách trực quan
Có lẽ model này cũng sẽ được dùng trong lĩnh vực quân sự và an ninh
- Điểm an toàn liên quan tới bạo lực được nói là đã giảm từ 91% xuống 83%
- Không biết họ có công bố luôn kết quả benchmark quân sự (ArtificialSuperSoldier v.v.) hay không
- Cũng tò mò liệu nó có thể được dùng theo kiểu Anthropic như các model Claude không
- Ngành quảng cáo chắc cũng sẽ rất thèm công nghệ này
- Quân đội hiện vẫn đang dùng bản 4.1, nên việc nâng cấp có lẽ sẽ mất thời gian
GPT‑5.4 đã trình diễn khả năng diễn giải ảnh chụp màn hình trình duyệt để bấm vào UI của Gmail và gửi email
Nhưng tôi nghĩ dùng Gmail API sẽ hiệu quả hơn kiểu này
- Phần lớn website không có API hoặc tài liệu rất kém
  Ảnh chụp màn hình đồng thời cung cấp tài liệu, API và phương tiện điều hướng trong một
- Cảm giác như đang chế tạo robot hình người để dùng các công cụ vốn được thiết kế cho tay người
  Nếu thành công thì tính phổ dụng sẽ cao hơn, nhưng cách tiếp cận dựa trên API vẫn còn giá trị
- Nhiều dịch vụ không hề muốn công khai API
  Cách này có thể lách qua những ràng buộc đó
- Model học được khả năng sử dụng máy tính thì có thể dùng ở khắp nơi
  còn model chỉ biết xử lý API thì không làm được vậy
  Xét về mức độ lan tỏa kinh tế, cách thứ nhất có giá trị hơn
- Điều này cũng giống lý do Wikipedia bị web scraping nhiều hơn là dùng API
  Cuối cùng sự tiện lợi vẫn là ưu tiên số một
Trong công việc code hằng ngày của tôi, top 3 coding agent là đã đủ
Theo SWE‑bench Verified, GPT‑5.2 Codex đạt 72.8 điểm, còn GPT‑5.4 tăng khoảng 2 điểm
Không phải bước nhảy lớn nhưng vẫn có cải thiện
Trên SWE‑bench, Claude 4.6 Opus vẫn dẫn trước với 75.6 điểm
Tuy vậy, khả năng agent của Codex CLI đã cải thiện nhiều và tiệm cận mức của Claude Code
Việc OpenAI từng hợp nhất model rồi lại tung ra các phiên bản phân mảnh một lần nữa khá gây rối
GPT‑5.1, 5.2 Thinking, 5.3 Codex, 5.3 Instant, 5.4 Thinking, 5.4 Pro... quá nhiều
Dù vậy, hỗ trợ cửa sổ ngữ cảnh 1M vẫn là điều đáng mừng
- Tôi thích có các lựa chọn như vậy
  Có thể chọn theo nhu cầu, còn người dùng phổ thông thì vẫn chỉ cần dùng chế độ Auto
- Tùy chọn Auto vẫn còn đó nên cũng không phải vấn đề lớn
- Có lẽ ở backend, GPT‑5 hoạt động theo cấu trúc tự động định tuyến giữa nhiều model