- Mô hình frontier mới nhất được triển khai trên toàn bộ ChatGPT, API và Codex, hợp nhất hiệu năng về suy luận, lập trình và agent workflow
- Tích hợp sẵn tính năng computer-use gốc, cho phép agent trực tiếp thao tác website và phần mềm để thực hiện các workflow phức tạp
- Hỗ trợ cửa sổ ngữ cảnh tối đa 1M token và giảm chi phí lẫn độ trễ nhờ Tool Search cùng cách sử dụng token hiệu quả
- Trong chế độ Thinking của ChatGPT, có thể điều chỉnh quá trình suy nghĩ ngay giữa lúc phản hồi đang được tạo, đồng thời cải thiện nghiên cứu web chuyên sâu và khả năng giữ ngữ cảnh
- Hấp thụ năng lực lập trình của GPT-5.3-Codex đồng thời cải thiện mạnh độ chính xác và hiệu quả cho bảng tính, bài thuyết trình và công việc tài liệu
Tổng quan về GPT‑5.4
- GPT‑5.4 là mô hình mạnh mẽ và hiệu quả nhất được phát hành đồng thời trên ChatGPT (chế độ Thinking), API và Codex
- Phiên bản GPT‑5.4 Pro cung cấp hiệu năng tối đa cho các tác vụ phức tạp
- Tích hợp năng lực lập trình của GPT‑5.3‑Codex, đồng thời tăng cường độ chính xác và hiệu quả trong các môi trường công việc chuyên môn như bảng tính, bài thuyết trình và tài liệu
- Cải thiện khả năng liên kết giữa các công cụ và môi trường phần mềm, giúp giảm số vòng hội thoại qua lại khi thực hiện công việc thực tế
Cải tiến chế độ Thinking của ChatGPT
- GPT-5.4 Thinking đưa ra kế hoạch mở đầu (preamble) cho quá trình suy nghĩ khi bắt đầu tác vụ, để người dùng có thể điều chỉnh hướng đi ngay trong lúc phản hồi đang được tạo
- Được thiết kế để đầu ra cuối cùng khớp chính xác hơn với ý định của người dùng mà không cần thêm lượt hội thoại
- Hiệu năng nghiên cứu web chuyên sâu được cải thiện, đặc biệt hiệu quả với các truy vấn rất cụ thể
- Ở những câu hỏi cần suy nghĩ dài, khả năng duy trì ngữ cảnh trước đó được cải thiện, cho phép đưa ra câu trả lời chất lượng cao hơn với tốc độ nhanh hơn
- Có thể sử dụng ngay trên chatgpt.com và ứng dụng Android, ứng dụng iOS sẽ được hỗ trợ sau
Tính năng sử dụng máy tính và thị giác
- GPT-5.4 là mô hình đa dụng đầu tiên được trang bị tính năng computer-use gốc
- Hỗ trợ cả thao tác máy tính dựa trên mã thông qua các thư viện như Playwright và phát lệnh chuột, bàn phím dựa trên ảnh chụp màn hình
- Có thể điều chỉnh hành vi qua developer message, đồng thời cho phép đặt riêng chính sách xác nhận tùy chỉnh (confirmation policy) theo mức độ chấp nhận rủi ro
- Đạt 75.0% trên OSWorld-Verified, vượt hiệu năng con người 72.4% và tăng mạnh so với 47.3% của GPT-5.2
- Đạt 67.3% trên WebArena-Verified với tương tác dựa trên DOM + screenshot (GPT-5.2: 65.4%)
- Đạt 92.8% trên Online-Mind2Web chỉ với quan sát dựa trên screenshot (ChatGPT Atlas Agent Mode: 70.9%)
Cải thiện nhận thức thị giác và phân tích tài liệu
- Năng lực nhận thức thị giác đa dụng được cải thiện là nền tảng cho tính năng computer-use
- Trên MMMU-Pro, đạt 81.2% khi không dùng công cụ (GPT-5.2: 79.5%) và 82.1% khi dùng công cụ (GPT-5.2: 80.4%)
- Trên OmniDocBench, đạt lỗi trung bình (khoảng cách chỉnh sửa chuẩn hóa) 0.109 mà không cần suy luận (GPT-5.2: 0.140)
- Giới thiệu mức độ chi tiết đầu vào hình ảnh
original mới: hỗ trợ nhận diện với độ trung thực đầy đủ lên tới 10.24M pixel hoặc kích thước chiều tối đa 6000px
- Mức
high được mở rộng lên tối đa 2.56M pixel hoặc chiều tối đa 2048px
- Trong thử nghiệm ban đầu với người dùng API, ghi nhận cải thiện rõ rệt về khả năng định vị, hiểu ảnh và độ chính xác khi nhấp
Hiệu năng lập trình
- Kết hợp thế mạnh lập trình của GPT-5.3-Codex với các tính năng công việc chuyên môn và computer-use
- Đạt 57.7% trên SWE-Bench Pro (GPT-5.3-Codex: 56.8%, GPT-5.2: 55.6%)
- Cung cấp độ trễ thấp hơn so với GPT-5.3-Codex ở mọi mức suy luận
- Khi bật chế độ /fast trong Codex, tốc độ token nhanh hơn tới 1.5 lần mà vẫn giữ nguyên cùng mô hình và cùng mức trí tuệ
- Trên API, có thể tiếp cận cùng hiệu năng tốc độ cao thông qua Priority Processing
- Tạo ra kết quả rõ rệt đẹp hơn và giàu chức năng hơn trong các tác vụ frontend phức tạp so với các mô hình trước
- Công bố kỹ năng Codex thử nghiệm "Playwright (Interactive)": hỗ trợ debug trực quan cho web và ứng dụng Electron, có thể kiểm thử ứng dụng đang được build theo thời gian thực
Tính năng Tool Search
- Trước đây, toàn bộ định nghĩa công cụ đều được đưa sẵn vào prompt, tiêu tốn từ hàng nghìn đến hàng chục nghìn token; với Tool Search, chỉ cung cấp danh sách công cụ nhẹ và truy xuất định nghĩa động khi cần
- Giảm mạnh lượng token sử dụng trong các workflow phụ thuộc nhiều vào công cụ, đồng thời giữ cache để cải thiện cả tốc độ lẫn chi phí
- Đặc biệt hiệu quả với các định nghĩa công cụ của MCP server có quy mô hàng chục nghìn token
- Theo mốc 250 tác vụ của benchmark MCP Atlas từ Scale, khi chuyển toàn bộ 36 MCP server sang Tool Search, tổng lượng token sử dụng giảm 47% trong khi vẫn giữ nguyên độ chính xác
Gọi công cụ và hiệu năng agent
- GPT-5.4 cải thiện độ chính xác và hiệu quả về thời điểm và cách thức sử dụng công cụ trong quá trình suy luận
- Đạt 54.6% trên Toolathlon (GPT-5.2: 45.7%), đạt độ chính xác cao hơn với ít lượt hơn
- Đánh giá các tác vụ thực tế nhiều bước có sử dụng công cụ như đọc email, trích xuất tệp đính kèm của bài tập, tải lên, chấm điểm và ghi kết quả vào bảng tính
- Ngay cả trong kịch bản độ trễ thấp không suy luận, vẫn đạt 64.3% trên τ2-bench Telecom (GPT-5.2: 57.2%, GPT-4.1: 43.6%)
- Đạt 82.7% trên BrowseComp, còn GPT-5.4 Pro đạt 89.3%, thiết lập mức hiệu năng cao nhất mới (GPT-5.2: 65.8%)
- Cải thiện khả năng tìm kiếm bền bỉ qua nhiều vòng trong các bài toán truy tìm thông tin khó kiểu "mò kim đáy bể"
Hiệu năng công việc chuyên môn và lao động tri thức
- Trên GDPval, đánh giá đầu ra công việc thực tế của 44 nghề thuộc 9 ngành lớn nhất theo GDP của Mỹ (bài thuyết trình bán hàng, bảng tính kế toán, lịch trực cấp cứu, sơ đồ sản xuất, video ngắn...)
- GPT-5.4: 83.0% đạt hoặc vượt mức chuyên gia (GPT-5.2: 70.9%)
- Trên benchmark nội bộ về mô hình hóa bảng tính trong ngân hàng đầu tư, đạt trung bình 87.3% (GPT-5.2: 68.4%)
- Trong đánh giá bài thuyết trình, người chấm là con người ưa thích kết quả của GPT-5.4 ở mức 68.0% (độ hoàn thiện thẩm mỹ, đa dạng trực quan và khả năng tận dụng tạo ảnh đều tốt hơn)
- Giảm ảo giác và lỗi: trên tập prompt nơi người dùng đã báo lỗi thực tế, xác suất sai của từng phát biểu giảm 33%, và xác suất toàn bộ câu trả lời chứa lỗi giảm 18% so với GPT-5.2
Cửa sổ ngữ cảnh 1M và hiệu năng ngữ cảnh dài
- Hỗ trợ tối đa ngữ cảnh 1M token, cho phép agent lập kế hoạch, thực thi và kiểm chứng các tác vụ có phạm vi dài
- Trong Codex, hỗ trợ thử nghiệm cửa sổ ngữ cảnh 1M, có thể cấu hình bằng
model_context_window và model_auto_compact_token_limit
- Các yêu cầu vượt cửa sổ ngữ cảnh chuẩn 272K sẽ bị tính phí gấp 2 lần
- Graphwalks BFS 0K–128K: 93.0%, 256K–1M: 21.4%
- OpenAI MRCR v2 8-needle: 97.3% ở 4K–8K, 79.3% ở 128K–256K, 36.6% ở 512K–1M
Suy luận trừu tượng và benchmark học thuật
- ARC-AGI-1 (Verified): 93.7% (GPT-5.2: 86.2%), ARC-AGI-2 (Verified): 73.3% (GPT-5.2: 52.9%)
- GPT-5.4 Pro đạt 83.3% trên ARC-AGI-2
- Frontier Science Research: 33.0% (GPT-5.2: 25.2%), FrontierMath Tier 1–3: 47.6% (GPT-5.2: 40.7%)
- FrontierMath Tier 4: 27.1% (GPT-5.2: 18.8%), GPT-5.4 Pro đạt 38.0%
- GPQA Diamond: 92.8% (GPT-5.2: 92.4%)
- Humanity's Last Exam: 39.8% khi không dùng công cụ, 52.1% khi dùng công cụ (GPT-5.2: lần lượt 34.5% và 45.5%)
- GPT-5.4 Pro đạt 58.7% khi dùng công cụ
An toàn và bảo mật
- Tiếp tục cải thiện các lớp bảo vệ đã được giới thiệu từ GPT-5.3-Codex, và được xếp vào nhóm năng lực cyber mức High trong Preparedness Framework
- Ngăn xếp an toàn cyber được mở rộng: bao gồm hệ thống giám sát, kiểm soát truy cập dựa trên độ tin cậy, và chặn bất đồng bộ trên các bề mặt Zero Data Retention (ZDR)
- Áp dụng cách tiếp cận triển khai phòng ngừa có xét đến tính lưỡng dụng của năng lực an ninh mạng; việc cải thiện độ chính xác của bộ phân loại vẫn đang tiếp tục nên có thể còn tồn tại một số false positive
- Mục tiêu là duy trì lớp bảo vệ chống lạm dụng đồng thời giảm các trường hợp từ chối không cần thiết và phản hồi gợi ý quá mức
- Tiếp tục nghiên cứu về giám sát Chain-of-Thought (CoT), đồng thời công bố công cụ đánh giá mã nguồn mở mới CoT controllability
- Khả năng kiểm soát CoT của GPT-5.4 Thinking thấp, điều này tích cực về mặt an toàn vì mô hình khó che giấu suy luận hơn
Giá và thông tin phát hành
- Tên model API:
gpt-5.4, phiên bản Pro: gpt-5.4-pro
- Giá API (tính theo mỗi triệu token):
- gpt-5.4: đầu vào $2.50, đầu vào cache $0.25, đầu ra $15
- gpt-5.4-pro: đầu vào $30, đầu ra $180
- gpt-5.2: đầu vào $1.75, đầu vào cache $0.175, đầu ra $14
- Dù giá mỗi token cao hơn GPT-5.2, hiệu quả token được cải thiện giúp giảm tổng lượng token tiêu thụ trên mỗi tác vụ
- Giá Batch và Flex bằng một nửa giá chuẩn, còn Priority Processing gấp 2 lần giá chuẩn
- Trên ChatGPT, GPT-5.4 Thinking được cung cấp ngay cho người dùng Plus, Team, Pro, thay thế GPT-5.2 Thinking
- GPT-5.2 Thinking sẽ được giữ trong mục Legacy Models cho người dùng trả phí trong 3 tháng và ngừng vào ngày 5 tháng 6 năm 2026
- Gói Enterprise và Edu có thể bật quyền truy cập sớm trong phần cài đặt quản trị
- GPT-5.4 Pro được cung cấp trong các gói Pro và Enterprise
- GPT-5.4 là mô hình suy luận dòng chính đầu tiên tích hợp năng lực lập trình frontier của GPT-5.3-Codex; model Instant và model Thinking dự kiến sẽ tiếp tục phát triển với tốc độ khác nhau
2 bình luận
> Khi bật chế độ /fast trong Codex, tốc độ token nhanh hơn tối đa 1,5 lần, vẫn giữ nguyên cùng mô hình và cùng mức độ thông minh. Trong API là Priority Processing.
> Priority Processing có giá gấp 2 lần tiêu chuẩn
> Các yêu cầu vượt quá cửa sổ ngữ cảnh tiêu chuẩn 272K sẽ bị tính phí gấp đôi
Ý kiến trên Hacker News
Hộp “Ask ChatGPT” ở cuối bài blog khá buồn cười
Khi nhập yêu cầu tóm tắt nội dung bài viết, một cửa sổ mới mở ra nhưng chỉ trả về câu trả lời “không thể truy cập URL bên ngoài”
Không rõ OpenAI có biết tính năng này thực ra không hoạt động hay không
Khi đăng nhập thì nó chạy bình thường, và đã gửi báo cáo lỗi cho nhóm
Xem liên kết ví dụ được chia sẻ
Lúc đó tôi cũng đang đăng nhập
Có lẽ quyền truy cập URL bên ngoài khác nhau tùy vào trạng thái đăng nhập
Có vẻ phía Anthropic chú ý hơn tới các chi tiết UX kiểu này
Cảm giác dòng sản phẩm model của OpenAI đã trở nên quá phức tạp
GPT‑5.1, 5.2, 5.4 trộn cùng Codex 5.3 và Instant 5.3
Trong khi đó Anthropic chỉ phân tách rõ ba model, còn Google thì vẫn toàn model Preview
Có phàn nàn rằng với tư cách lập trình viên, rất khó dùng một phiên bản ổn định
Tình huống lúc nào cũng lặp lại là phải chọn một trong hai
Nếu là kỹ sư thì 5.4 > 5.2 > 5.1 là chuyện rất dễ hiểu
Trong khi 3.x vẫn còn là Preview nên càng rối hơn
Phiên bản giữa Opus, Sonnet và Haiku không đồng bộ, và cấu trúc giá cũng phức tạp
Cuối cùng công ty nào cũng đang gặp vấn đề tương tự
Đây là thời đại chỉ cần đổi API là có thể chuyển đổi dễ dàng
Điểm cốt lõi của GPT‑5.4 là cửa sổ ngữ cảnh 1M token
Theo bảng giá chính thức, vượt 200k cũng không có phụ phí
Nó rẻ hơn Opus 4.6 rất nhiều, nhưng vẫn còn nghi ngờ liệu ngữ cảnh 1M có mang lại lợi ích thực tế hay không
Theo tài liệu cập nhật, nó thay thế GPT‑5.3‑Codex
nếu vượt 272K token thì đầu vào bị tính giá gấp 2, đầu ra gấp 1.5
Càng nhiều token thì chi phí và độ trễ càng tăng
Trong thử nghiệm nội bộ của OpenAI, ngữ cảnh ngắn hiệu quả hơn trong đa số trường hợp
(bình luận của nhân viên)
nên phải so theo chi phí trên mỗi tác vụ
Trên thực tế chi phí của GPT‑5.x và Opus khá tương đương
Kết quả công việc thực tế quan trọng hơn benchmark
nhưng thực ra tài liệu dành cho nhà phát triển mới chính xác hơn
Chỉ đến 272k mới áp dụng mức giá cơ bản
nhưng Anthropic có kế hoạch giảm bớt nó bằng RL cho các tác vụ dài
Tôi đã dùng GPT‑5.4 vài lần, và thấy độ rõ ràng trong văn viết cùng khả năng phân tích rất ấn tượng
Nó dùng văn phong tự nhiên và giống con người hơn nhiều so với 5.3‑Codex
Cũng có thể là do AGENTS.md của tôi yêu cầu ngôn ngữ đơn giản
Có vẻ mô-típ đó cứ lặp đi lặp lại
Claude cho cảm giác tương đối lỏng tay hơn
OpenAI đã tránh được sự rối rắm trong đánh số phiên bản suốt 8 tháng, nhưng cuối cùng lại phức tạp trở lại
Các tên như GPT‑5.3 Instant và GPT‑5.4 Thinking đang bị trộn lẫn
Phải dùng đúng theo mục đích
Demo game RPG trên blog khá ấn tượng
Nó đạt mức tương tự “Battle Brothers”, là một ví dụ tốt về kỹ thuật tự chủ
Với tốc độ này, thị trường công cụ low-code có thể bị đe dọa
Codex giờ có thể debug và test web app theo cách trực quan
Có lẽ model này cũng sẽ được dùng trong lĩnh vực quân sự và an ninh
GPT‑5.4 đã trình diễn khả năng diễn giải ảnh chụp màn hình trình duyệt để bấm vào UI của Gmail và gửi email
Nhưng tôi nghĩ dùng Gmail API sẽ hiệu quả hơn kiểu này
Ảnh chụp màn hình đồng thời cung cấp tài liệu, API và phương tiện điều hướng trong một
Nếu thành công thì tính phổ dụng sẽ cao hơn, nhưng cách tiếp cận dựa trên API vẫn còn giá trị
Cách này có thể lách qua những ràng buộc đó
còn model chỉ biết xử lý API thì không làm được vậy
Xét về mức độ lan tỏa kinh tế, cách thứ nhất có giá trị hơn
Cuối cùng sự tiện lợi vẫn là ưu tiên số một
Trong công việc code hằng ngày của tôi, top 3 coding agent là đã đủ
Theo SWE‑bench Verified, GPT‑5.2 Codex đạt 72.8 điểm, còn GPT‑5.4 tăng khoảng 2 điểm
Không phải bước nhảy lớn nhưng vẫn có cải thiện
Trên SWE‑bench, Claude 4.6 Opus vẫn dẫn trước với 75.6 điểm
Tuy vậy, khả năng agent của Codex CLI đã cải thiện nhiều và tiệm cận mức của Claude Code
Việc OpenAI từng hợp nhất model rồi lại tung ra các phiên bản phân mảnh một lần nữa khá gây rối
GPT‑5.1, 5.2 Thinking, 5.3 Codex, 5.3 Instant, 5.4 Thinking, 5.4 Pro... quá nhiều
Dù vậy, hỗ trợ cửa sổ ngữ cảnh 1M vẫn là điều đáng mừng
Có thể chọn theo nhu cầu, còn người dùng phổ thông thì vẫn chỉ cần dùng chế độ Auto