Ra mắt GPT-5

(openai.com)

14 điểm bởi GN⁺ 2025-08-08 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

GPT-5 mang lại hiệu năng vượt trội hơn các mô hình trước đây trên mọi lĩnh vực như lập trình, toán học, viết lách, sức khỏe và nhận thức thị giác, đồng thời là một hệ thống tích hợp kết hợp phản hồi nhanh với suy luận sâu tùy theo ngữ cảnh
‘GPT-5 Thinking’ áp dụng chuỗi suy luận dài hơn cho các vấn đề phức tạp để tăng độ chính xác, và người dùng gói Pro có thể sử dụng GPT-5 Pro — phiên bản mở rộng của nó — để đạt hiệu năng ở mức cao nhất
Trong sử dụng thực tế, tỷ lệ hallucination (tạo ra thông tin sai) đã giảm đáng kể, đồng thời khả năng hiểu đa phương thức, thực hiện chỉ thị và xử lý các tác vụ liên kết công cụ phức tạp được cải thiện
Hỗ trợ cho nhà phát triển được tăng cường với các khả năng như tạo UI frontend và gỡ lỗi quy mô lớn; trong lĩnh vực sức khỏe, mô hình đạt điểm cao nhất trên HealthBench và đóng vai trò như một đối tác sức khỏe chủ động
Về an toàn, mô hình áp dụng huấn luyện “safe completion” để giảm các từ chối không cần thiết, đồng thời có hệ thống phòng vệ nhiều lớp ở mức cao đối với các lĩnh vực sinh học và hóa học

Tổng quan GPT-5

Hệ thống tích hợp

Trong một hệ thống duy nhất có mô hình thông minh và hiệu quả, mô hình suy luận sâu (GPT-5 Thinking), cùng bộ định tuyến thời gian thực chọn mô hình phù hợp theo tình huống, độ phức tạp, nhu cầu công cụ và ý định người dùng
Khi vượt quá giới hạn sử dụng, phiên bản mini của từng mô hình sẽ xử lý các truy vấn còn lại
Trong tương lai, các tính năng này sẽ được hợp nhất thành một mô hình duy nhất

Cải thiện hiệu năng và tính hữu dụng

Hiệu năng vượt trội rõ rệt so với GPT-4o trên hầu hết các benchmark
Giảm hallucination, cải thiện khả năng làm theo chỉ thị, giảm thiểu phản hồi mang tính xu nịnh (sycophancy)
Cải thiện ở ba lĩnh vực cốt lõi
- Lập trình: tăng cường khả năng tạo frontend phức tạp, gỡ lỗi kho mã quy mô lớn, và tạo UI/UX có tính thẩm mỹ
- Viết lách: có thể xử lý tính mơ hồ về cấu trúc và diễn đạt với chiều sâu văn chương cùng nhịp điệu, đồng thời tăng cường hỗ trợ viết và biên tập tài liệu hằng ngày
- Sức khỏe: lập kỷ lục cao nhất trên HealthBench, cung cấp câu trả lời an toàn và chính xác phù hợp với bối cảnh, mức độ hiểu biết và khu vực

Kết quả đánh giá

Đạt SOTA với toán học 94.6% (AIME 2025), lập trình SWE-bench Verified 74.9%, đa phương thức MMMU 84.2%, sức khỏe HealthBench Hard 46.2%
Trên GPQA, GPT-5 Pro đạt mức cao nhất là 88.4%
Khả năng xử lý đa phương thức, liên kết công cụ và tác vụ nhiều bước được cải thiện mạnh

Suy luận hiệu quả

Giảm 50~80% lượng token sử dụng cho cùng mức hiệu năng
Với các bài toán phức tạp và khó, GPT-5 Thinking giảm rõ rệt tỷ lệ lỗi và hallucination so với o3

Tăng cường độ tin cậy và tính đúng sự thật

Trong bài kiểm tra tính xác thực mở, tỷ lệ hallucination giảm 6 lần
Giải thích rõ ràng giới hạn khi gặp tác vụ bất khả thi hoặc thiếu thông tin
Tỷ lệ sycophantic giảm từ 14.5% xuống dưới 6%

Cải thiện an toàn

Huấn luyện “safe completion” cho phép đưa ra câu trả lời an toàn và hữu ích ngay cả với các yêu cầu có khả năng rủi ro
Áp dụng hệ thống phòng vệ nhiều lớp cho các kịch bản rủi ro cao trong lĩnh vực sinh học và hóa học

GPT-5 Pro

Mô hình suy luận mở rộng dành cho các tác vụ khó nhất
Trong đánh giá của chuyên gia, được ưa chuộng hơn GPT-5 Thinking 67.8% và giảm 22% các lỗi quan trọng
Hiệu năng cao nhất trong các lĩnh vực sức khỏe, khoa học, toán học và lập trình

Cách sử dụng và quyền truy cập

GPT-5 được áp dụng làm mô hình mặc định của ChatGPT, thay thế các mô hình trước đó như GPT-4o, o3...
Có thể ép buộc chế độ suy luận bằng cách nhập think hard about this
Được triển khai lần lượt cho Plus·Pro·Team·Free, còn Enterprise·Edu sẽ được áp dụng sau 1 tuần
Người dùng miễn phí sẽ chuyển sang GPT-5 mini khi vượt quá giới hạn

Nội dung chính cho nhà phát triển về GPT-5

Hiệu năng và đặc điểm

Hiệu năng lập trình:
- SWE-bench Verified 74.9% (o3: 69.1%), số token sử dụng giảm 22%, số lần gọi công cụ giảm 45%
- Aider polyglot đạt 88%, giảm một phần ba tỷ lệ lỗi khi chỉnh sửa mã
- Khi tạo mã frontend, được ưa chuộng hơn o3 tới 70%
Tác vụ agent:
- τ 2-bench telecom 96.7%, độ ổn định của gọi nhiều công cụ và gọi song song được cải thiện
- Có thể xuất thông điệp mở đầu để hiển thị tiến độ và kế hoạch cho người dùng một cách trực quan
Ngữ cảnh dài:
- OpenAI-MRCR(2 needle 128k) 95.2%, BrowseComp Long Context(256k) 88.8%
- Xử lý tối đa ngữ cảnh 400 nghìn token

Tính năng API mới

reasoning_effort: điều chỉnh thời gian suy luận trong phạm vi minimal~high
verbosity: đặt mặc định độ dài câu trả lời từ low~high
Công cụ tùy chỉnh: có thể gọi bằng plaintext thay vì JSON, hỗ trợ ràng buộc regex/ngữ pháp
Tích hợp sẵn các công cụ cơ bản như gọi công cụ song song, tìm kiếm web, tìm kiếm tệp, tạo ảnh
Hỗ trợ các tính năng tiết kiệm chi phí như prompt caching và Batch API

Độ ổn định và độ tin cậy

Trên các benchmark LongFact và FactScore, tỷ lệ hallucination giảm khoảng 80% so với o3
Tăng cường khả năng nhận thức giới hạn của bản thân và ứng phó với tình huống bất ngờ
Phù hợp cho các tác vụ rủi ro cao hoặc đòi hỏi độ chính xác cao (mã, dữ liệu, ra quyết định)

Availability & pricing

Các kích cỡ và endpoint được cung cấp

Các phiên bản kích cỡ: gpt-5·gpt-5-mini·gpt-5-nano
Giao diện được hỗ trợ: có thể dùng dưới dạng mặc định trong Responses API, Chat Completions API, Codex CLI
Đặc tính mô hình: dòng GPT‑5 trong API là reasoning model, còn non‑reasoning model của ChatGPT được cung cấp bằng ID riêng

Bảng giá và đơn vị tính phí

gpt-5: đầu vào $1.25/triệu token, đầu ra $10/triệu token
gpt-5-mini: đầu vào $0.25/triệu, đầu ra $2/triệu
gpt-5-nano: đầu vào $0.05/triệu, đầu ra $0.40/triệu
gpt-5-chat-latest (không suy luận): đầu vào $1.25/triệu, đầu ra $10/triệu, giống gpt-5

Tóm tắt tính năng hỗ trợ

Điều khiển suy luận: chỉ định reasoning_effort với minimal·low·medium·high để điều chỉnh đánh đổi tốc độ ↔ độ chính xác
Độ dài phản hồi: dùng verbosity để đặt xu hướng mặc định ngắn / mặc định / dài
Tooling: custom tools hỗ trợ gọi bằng đối số plaintext và có thể áp dụng ràng buộc regex/CFG
Khả năng thực thi: hỗ trợ gọi công cụ song song, công cụ tích hợp sẵn (web search, file search, image generation...), streaming, Structured Outputs
Tối ưu chi phí: giảm chi phí token và độ trễ bằng prompt caching và Batch API

Kênh triển khai: GPT‑5 được áp dụng trên toàn bộ Microsoft 365 Copilot, Copilot, GitHub Copilot, Azure AI Foundry

Ví dụ chi phí đơn giản

Với gpt-5, khi xử lý 50k token đầu vào + 5k token đầu ra, tổng chi phí ≈ $0.1125
- Công thức: đầu vào 0.05M × $1.25 = $0.0625, đầu ra 0.005M × $10 = $0.05, tổng $0.1125
Với cùng tác vụ bằng gpt-5-mini, tổng chi phí ≈ $0.0175
- 0.05M đầu vào × $0.25 = $0.0125, 0.005M đầu ra × $2 = $0.01, tổng đúng ra là $0.0225, nhưng khi xét đơn giá đầu ra thì khối lượng công việc thiên về đầu vào sẽ cho thấy chênh lệch lớn hơn
Các pipeline có khối lượng đầu ra tạo sinh lớn có động lực chọn mô hình có đơn giá đầu ra thấp

Ghi chú hướng dẫn lựa chọn

Nếu độ chính xác là ưu tiên hàng đầu và cần chuỗi công cụ phức tạp cho backend agent, hãy cân nhắc gpt-5
Với chỉnh sửa mã hằng ngày, agent nhẹ và xử lý batch số lượng lớn, gpt-5-mini có lợi thế hơn về cân bằng chi phí/chất lượng
Với các tác vụ tiền xử lý, kiểm tra quy tắc, tóm tắt đơn giản đòi hỏi độ trễ cực thấp và chi phí cực thấp, gpt-5-nano là lựa chọn phù hợp

Tham khảo

Nếu muốn tiếp tục dùng mô hình mặc định non‑reasoning của ChatGPT, hãy chọn gpt-5-chat-latest trong API
Vì chỉ thị tường minh về độ dài được ưu tiên, nên bất kể verbosity, nếu chỉ định độ dài cụ thể như “bài luận 5 đoạn”, mô hình sẽ tuân theo chỉ thị

Ra mắt GPT-5

Tổng quan GPT-5

Hệ thống tích hợp

Cải thiện hiệu năng và tính hữu dụng

Kết quả đánh giá

Suy luận hiệu quả

Tăng cường độ tin cậy và tính đúng sự thật

Cải thiện an toàn

GPT-5 Pro

Cách sử dụng và quyền truy cập

Nội dung chính cho nhà phát triển về GPT-5

Hiệu năng và đặc điểm

Tính năng API mới

Độ ổn định và độ tin cậy

Availability & pricing

Các kích cỡ và endpoint được cung cấp

Bảng giá và đơn vị tính phí

Tóm tắt tính năng hỗ trợ

Ví dụ chi phí đơn giản

Ghi chú hướng dẫn lựa chọn

Tham khảo

Bài viết liên quan

Chưa có bình luận nào.