- GPT-5 API đã được ra mắt chính thức, mang lại mức khả năng mã hóa và xử lý tác vụ tác tử mới cho các nhà phát triển
- Đạt SOTA (hiệu năng tốt nhất) tại các đánh giá quan trọng như SWE-bench Verified, Aider polyglot và thể hiện tính ưu việt trong nhiều trường hợp khách hàng như Cursor, Windsurf, Vercel
- Thể hiện sức mạnh trong các tác vụ tác tử thời gian chạy dài, tích hợp công cụ tinh xảo, xử lý ngữ cảnh dài và các công việc thực tế phức tạp khác
- Nhờ các tham số chi tiết như
verbosity, reasoning_effort và hỗ trợ công cụ tùy chỉnh, nhà phát triển có thể tự chủ điều chỉnh theo nhu cầu
- Cung cấp nhiều lựa chọn về chi phí/hiệu năng với gpt-5, gpt-5-mini, gpt-5-nano, đồng thời tích hợp với Microsoft và nhiều công cụ cho nhà phát triển
Ra mắt GPT-5 và tầm quan trọng
- OpenAI đã công bố GPT-5 trên nền tảng API, nhấn mạnh đây là mô hình có hiệu năng tối ưu nhất cho viết mã và tác vụ tác tử trong số các mô hình đã ra mắt
- Đạt SOTA trong các benchmark mã hóa chủ chốt, và được huấn luyện phối hợp cùng các nhóm thử nghiệm của startup và doanh nghiệp thực tế
- Tạo mã, sửa lỗi, chỉnh sửa mã, truy vấn cơ sở mã phức tạp... cho thấy GPT-5 hoạt động nổi trội như một cộng tác viên trong công việc phát triển thực tế
- Khả năng tuân thủ chỉ dẫn chi tiết đã được nâng cao, đồng thời cải thiện khả năng mô tả hành vi và kế hoạch trước và sau khi gọi công cụ
- Hiệu năng phát triển frontend cũng xuất sắc, được đánh giá cao hơn 70% so với các mô hình hiện có trong bài kiểm tra nội bộ
Các đối tác quan trọng và trường hợp sử dụng thực tế
- Cursor, Windsurf, Vercel, Manus, Notion, Inditex đánh giá cao trí thông minh, khả năng điều chỉnh, xử lý lỗi công cụ và chất lượng mã của GPT-5
- Trong môi trường triển khai thực tế, GPT-5 cho thấy độ ổn định và hiệu quả vượt trội hơn mô hình trước đó cho các công việc nền phức tạp, vai trò tác tử chạy dài hạn và tích hợp công cụ tinh xảo
Chỉ số benchmark và hiệu năng
- SWE-bench Verified (vá lỗi sự cố phần mềm thực tế): 74,9% hiệu năng cao hơn o3, đồng thời dùng ít token hơn 22% và ít gọi công cụ hơn 45%, cải thiện hiệu quả rõ rệt
- Aider polyglot (đánh giá chỉnh sửa mã): đạt 88%, giảm tỉ lệ lỗi còn 1/3 so với o3
- Phân tích cơ sở mã phức tạp, nâng cấp LLM lớn theo truy vấn của người gọi để nhà phát triển/nhà nghiên cứu dễ dàng khai thác hơn
- Tạo mã frontend thể hiện lợi thế 70% trong thử nghiệm về cả cảm giác thẩm mỹ và độ chính xác
Tác vụ tác tử và kết quả ngữ cảnh dài
- τ2-bench telecom (benchmark gọi công cụ) đạt 96,7%, ghi nhận SOTA mới nhất
- Khả năng hoàn thành nhiệm vụ cao khi thực thi hàng chục lời gọi công cụ theo chuỗi hoặc song song
- Đạt điểm cao nhất trong các đánh giá thực thi chỉ dẫn của COLLIE và Scale MultiChallenge
- Trong các bài Q&A ngữ cảnh dài OpenAI-MRCR, BrowseComp Long Context, GPT-5 vượt qua o3 và GPT-4.1
- Hỗ trợ độ dài ngữ cảnh lên tới 400.000 token, phù hợp cho phân tích tài liệu/cuộc hội thoại quy mô lớn
Độ tin cậy và an toàn
- Trong các đánh giá LongFact, FactScore, GPT-5 giảm hơn 80% lỗi sai sự thật so với o3
- Nhận diện và cảnh báo giới hạn của bản thân, đặc biệt tăng độ chính xác trong các câu hỏi về sức khỏe
- Trong sử dụng thực tế, ở những lĩnh vực quan trọng vẫn nên kiểm chứng bởi nhà phát triển
Khả năng kiểm soát cho nhà phát triển và tính năng mới của API
reasoning_effort: kiểm soát cân bằng giữa tốc độ phản hồi và chất lượng suy luận bằng các giá trị minimal/low/medium/high
- minimal: phản hồi nhanh, high: suy luận logic chất lượng cao
verbosity: điều chỉnh độ dài đầu ra bằng low/medium/high
- Nếu có chỉ thị rõ ràng thì chỉ thị sẽ được ưu tiên hơn tham số
- Công cụ tùy chỉnh: hỗ trợ định dạng thuần văn bản (plaintext), không chỉ JSON; có thể ràng buộc định dạng đầu vào công cụ bằng regex hoặc Context-Free Grammar
- Giảm lo ngại về lỗi escape JSON trong đoạn mã/lập báo cáo lớn, giúp việc tích hợp công cụ cho nhà phát triển dễ dàng hơn
Các mô hình API và chính sách giá đa dạng
- gpt-5: $1.25/1 triệu token đầu vào, $10/1 triệu token đầu ra
- gpt-5-mini: $0.25/1 triệu token đầu vào, $2/1 triệu token đầu ra
- gpt-5-nano: $0.05/1 triệu token đầu vào, $0.40/1 triệu token đầu ra
- Tất cả mô hình đều hỗ trợ các chức năng chính gồm reasoning_effort, verbosity, custom tools, gọi công cụ song song, công cụ tích hợp web/file/image, và streaming
- gpt-5-chat-latest là mô hình không có reasoning dành cho ChatGPT, được công bố với cùng mức giá
Tích hợp và khả năng mở rộng
- Ra mắt tích hợp trên nhiều nền tảng Microsoft như Microsoft 365 Copilot, GitHub Copilot, Azure AI Foundry
- Ứng dụng như động cơ lõi cho các hệ thống tác tử của nhà phát triển như Cursor, Windsurf, GitHub Copilot, Codex CLI
- Đánh giá nội bộ của nhóm alpha tester và các sản phẩm tự động hóa mã/công việc khác đặt ra chuẩn mới so với mô hình trước đây
An toàn, độ tin cậy và tài liệu bổ sung
- Khả năng trả về thông tin sai lệch (hallucination) giảm đáng kể, đồng thời mô tả trung thực hơn về quy trình thực thi và giới hạn của mô hình
- Thông qua System Card và blog nghiên cứu nội bộ, OpenAI công khai chi tiết về triển khai, đánh giá và các biện pháp an toàn
- GPT-5 là đối tác lập trình tự động hóa cao cấp và chuyên biệt cho tự động hóa luồng công việc tác tử phức tạp
Kết luận
- GPT-5 là mô hình tập trung cho công việc lập trình và tác tử mạnh nhất trong số các LLM đã ra đời đến nay, là đối tác đổi mới được tối ưu hóa cho môi trường phát triển và tự động hóa công việc thực tế.
- Với API và hệ sinh thái công cụ đã tiến hóa, nhiều tùy chọn dung lượng và giá khác nhau cùng thành tích benchmark cao, GPT-5 mở ra thời đại sản xuất mới cho nhà phát triển và tổ chức
Chưa có bình luận nào.