Ra mắt GPT-5
(openai.com)- GPT-5 mang lại hiệu năng vượt trội hơn các mô hình trước đây trên mọi lĩnh vực như lập trình, toán học, viết lách, sức khỏe và nhận thức thị giác, đồng thời là một hệ thống tích hợp kết hợp phản hồi nhanh với suy luận sâu tùy theo ngữ cảnh
- ‘GPT-5 Thinking’ áp dụng chuỗi suy luận dài hơn cho các vấn đề phức tạp để tăng độ chính xác, và người dùng gói Pro có thể sử dụng GPT-5 Pro — phiên bản mở rộng của nó — để đạt hiệu năng ở mức cao nhất
- Trong sử dụng thực tế, tỷ lệ hallucination (tạo ra thông tin sai) đã giảm đáng kể, đồng thời khả năng hiểu đa phương thức, thực hiện chỉ thị và xử lý các tác vụ liên kết công cụ phức tạp được cải thiện
- Hỗ trợ cho nhà phát triển được tăng cường với các khả năng như tạo UI frontend và gỡ lỗi quy mô lớn; trong lĩnh vực sức khỏe, mô hình đạt điểm cao nhất trên HealthBench và đóng vai trò như một đối tác sức khỏe chủ động
- Về an toàn, mô hình áp dụng huấn luyện “safe completion” để giảm các từ chối không cần thiết, đồng thời có hệ thống phòng vệ nhiều lớp ở mức cao đối với các lĩnh vực sinh học và hóa học
Tổng quan GPT-5
Hệ thống tích hợp
- Trong một hệ thống duy nhất có mô hình thông minh và hiệu quả, mô hình suy luận sâu (GPT-5 Thinking), cùng bộ định tuyến thời gian thực chọn mô hình phù hợp theo tình huống, độ phức tạp, nhu cầu công cụ và ý định người dùng
- Khi vượt quá giới hạn sử dụng, phiên bản
minicủa từng mô hình sẽ xử lý các truy vấn còn lại - Trong tương lai, các tính năng này sẽ được hợp nhất thành một mô hình duy nhất
Cải thiện hiệu năng và tính hữu dụng
- Hiệu năng vượt trội rõ rệt so với GPT-4o trên hầu hết các benchmark
- Giảm hallucination, cải thiện khả năng làm theo chỉ thị, giảm thiểu phản hồi mang tính xu nịnh (sycophancy)
- Cải thiện ở ba lĩnh vực cốt lõi
- Lập trình: tăng cường khả năng tạo frontend phức tạp, gỡ lỗi kho mã quy mô lớn, và tạo UI/UX có tính thẩm mỹ
- Viết lách: có thể xử lý tính mơ hồ về cấu trúc và diễn đạt với chiều sâu văn chương cùng nhịp điệu, đồng thời tăng cường hỗ trợ viết và biên tập tài liệu hằng ngày
- Sức khỏe: lập kỷ lục cao nhất trên HealthBench, cung cấp câu trả lời an toàn và chính xác phù hợp với bối cảnh, mức độ hiểu biết và khu vực
Kết quả đánh giá
- Đạt SOTA với toán học 94.6% (AIME 2025), lập trình SWE-bench Verified 74.9%, đa phương thức MMMU 84.2%, sức khỏe HealthBench Hard 46.2%
- Trên GPQA, GPT-5 Pro đạt mức cao nhất là 88.4%
- Khả năng xử lý đa phương thức, liên kết công cụ và tác vụ nhiều bước được cải thiện mạnh
Suy luận hiệu quả
- Giảm 50~80% lượng token sử dụng cho cùng mức hiệu năng
- Với các bài toán phức tạp và khó, GPT-5 Thinking giảm rõ rệt tỷ lệ lỗi và hallucination so với o3
Tăng cường độ tin cậy và tính đúng sự thật
- Trong bài kiểm tra tính xác thực mở, tỷ lệ hallucination giảm 6 lần
- Giải thích rõ ràng giới hạn khi gặp tác vụ bất khả thi hoặc thiếu thông tin
- Tỷ lệ sycophantic giảm từ 14.5% xuống dưới 6%
Cải thiện an toàn
- Huấn luyện “safe completion” cho phép đưa ra câu trả lời an toàn và hữu ích ngay cả với các yêu cầu có khả năng rủi ro
- Áp dụng hệ thống phòng vệ nhiều lớp cho các kịch bản rủi ro cao trong lĩnh vực sinh học và hóa học
GPT-5 Pro
- Mô hình suy luận mở rộng dành cho các tác vụ khó nhất
- Trong đánh giá của chuyên gia, được ưa chuộng hơn GPT-5 Thinking 67.8% và giảm 22% các lỗi quan trọng
- Hiệu năng cao nhất trong các lĩnh vực sức khỏe, khoa học, toán học và lập trình
Cách sử dụng và quyền truy cập
- GPT-5 được áp dụng làm mô hình mặc định của ChatGPT, thay thế các mô hình trước đó như GPT-4o, o3...
- Có thể ép buộc chế độ suy luận bằng cách nhập
think hard about this - Được triển khai lần lượt cho Plus·Pro·Team·Free, còn Enterprise·Edu sẽ được áp dụng sau 1 tuần
- Người dùng miễn phí sẽ chuyển sang GPT-5 mini khi vượt quá giới hạn
Nội dung chính cho nhà phát triển về GPT-5
Hiệu năng và đặc điểm
-
Hiệu năng lập trình:
- SWE-bench Verified 74.9% (o3: 69.1%), số token sử dụng giảm 22%, số lần gọi công cụ giảm 45%
- Aider polyglot đạt 88%, giảm một phần ba tỷ lệ lỗi khi chỉnh sửa mã
- Khi tạo mã frontend, được ưa chuộng hơn o3 tới 70%
-
Tác vụ agent:
- τ 2-bench telecom 96.7%, độ ổn định của gọi nhiều công cụ và gọi song song được cải thiện
- Có thể xuất thông điệp mở đầu để hiển thị tiến độ và kế hoạch cho người dùng một cách trực quan
-
Ngữ cảnh dài:
- OpenAI-MRCR(2 needle 128k) 95.2%, BrowseComp Long Context(256k) 88.8%
- Xử lý tối đa ngữ cảnh 400 nghìn token
Tính năng API mới
reasoning_effort: điều chỉnh thời gian suy luận trong phạm viminimal~highverbosity: đặt mặc định độ dài câu trả lời từlow~high- Công cụ tùy chỉnh: có thể gọi bằng plaintext thay vì JSON, hỗ trợ ràng buộc regex/ngữ pháp
- Tích hợp sẵn các công cụ cơ bản như gọi công cụ song song, tìm kiếm web, tìm kiếm tệp, tạo ảnh
- Hỗ trợ các tính năng tiết kiệm chi phí như prompt caching và Batch API
Độ ổn định và độ tin cậy
- Trên các benchmark LongFact và FactScore, tỷ lệ hallucination giảm khoảng 80% so với o3
- Tăng cường khả năng nhận thức giới hạn của bản thân và ứng phó với tình huống bất ngờ
- Phù hợp cho các tác vụ rủi ro cao hoặc đòi hỏi độ chính xác cao (mã, dữ liệu, ra quyết định)
Availability & pricing
Các kích cỡ và endpoint được cung cấp
- Các phiên bản kích cỡ:
gpt-5·gpt-5-mini·gpt-5-nano - Giao diện được hỗ trợ: có thể dùng dưới dạng mặc định trong Responses API, Chat Completions API, Codex CLI
- Đặc tính mô hình: dòng GPT‑5 trong API là reasoning model, còn non‑reasoning model của ChatGPT được cung cấp bằng ID riêng
Bảng giá và đơn vị tính phí
gpt-5: đầu vào $1.25/triệu token, đầu ra $10/triệu tokengpt-5-mini: đầu vào $0.25/triệu, đầu ra $2/triệugpt-5-nano: đầu vào $0.05/triệu, đầu ra $0.40/triệugpt-5-chat-latest(không suy luận): đầu vào $1.25/triệu, đầu ra $10/triệu, giốnggpt-5
Tóm tắt tính năng hỗ trợ
- Điều khiển suy luận: chỉ định
reasoning_effortvớiminimal·low·medium·highđể điều chỉnh đánh đổi tốc độ ↔ độ chính xác - Độ dài phản hồi: dùng
verbosityđể đặt xu hướng mặc định ngắn / mặc định / dài - Tooling: custom tools hỗ trợ gọi bằng đối số plaintext và có thể áp dụng ràng buộc regex/CFG
- Khả năng thực thi: hỗ trợ gọi công cụ song song, công cụ tích hợp sẵn (web search, file search, image generation...), streaming, Structured Outputs
- Tối ưu chi phí: giảm chi phí token và độ trễ bằng prompt caching và Batch API
- Kênh triển khai: GPT‑5 được áp dụng trên toàn bộ Microsoft 365 Copilot, Copilot, GitHub Copilot, Azure AI Foundry
Ví dụ chi phí đơn giản
- Với
gpt-5, khi xử lý 50k token đầu vào + 5k token đầu ra, tổng chi phí ≈ $0.1125- Công thức: đầu vào 0.05M × $1.25 = $0.0625, đầu ra 0.005M × $10 = $0.05, tổng $0.1125
- Với cùng tác vụ bằng
gpt-5-mini, tổng chi phí ≈ $0.0175- 0.05M đầu vào × $0.25 = $0.0125, 0.005M đầu ra × $2 = $0.01, tổng đúng ra là $0.0225, nhưng khi xét đơn giá đầu ra thì khối lượng công việc thiên về đầu vào sẽ cho thấy chênh lệch lớn hơn
- Các pipeline có khối lượng đầu ra tạo sinh lớn có động lực chọn mô hình có đơn giá đầu ra thấp
Ghi chú hướng dẫn lựa chọn
- Nếu độ chính xác là ưu tiên hàng đầu và cần chuỗi công cụ phức tạp cho backend agent, hãy cân nhắc
gpt-5 - Với chỉnh sửa mã hằng ngày, agent nhẹ và xử lý batch số lượng lớn,
gpt-5-minicó lợi thế hơn về cân bằng chi phí/chất lượng - Với các tác vụ tiền xử lý, kiểm tra quy tắc, tóm tắt đơn giản đòi hỏi độ trễ cực thấp và chi phí cực thấp,
gpt-5-nanolà lựa chọn phù hợp
Tham khảo
- Nếu muốn tiếp tục dùng mô hình mặc định non‑reasoning của ChatGPT, hãy chọn
gpt-5-chat-latesttrong API - Vì chỉ thị tường minh về độ dài được ưu tiên, nên bất kể
verbosity, nếu chỉ định độ dài cụ thể như “bài luận 5 đoạn”, mô hình sẽ tuân theo chỉ thị
Chưa có bình luận nào.