- Mô hình tác tử có thể tự lập kế hoạch cho các tác vụ phức tạp, kết hợp công cụ và thực hiện đến cùng, bao quát từ viết code và gỡ lỗi đến nghiên cứu web, phân tích dữ liệu, tạo tài liệu·bảng tính và thao tác phần mềm
- Duy trì per-token latency tương đương GPT-5.4, nhưng cải thiện hiệu năng trong coding, computer use, lao động tri thức và nghiên cứu khoa học giai đoạn đầu; đồng thời hoàn thành cùng một tác vụ Codex với ít token hơn nên hiệu quả cũng cao hơn
- Trong kỹ thuật phần mềm, đạt Terminal-Bench 2.0 82.7%, Expert-SWE 73.1%, SWE-Bench Pro 58.6%, cho thấy thế mạnh ở triển khai, refactor, debug, test, verification và duy trì ngữ cảnh của các codebase lớn
- Trong quy trình công việc và nghiên cứu nói chung, luồng làm việc từ tạo tài liệu·bảng tính·slide, computer use dựa trên thao tác màn hình, phân tích dữ liệu nhiều bước, kiểm chứng giả thuyết đến diễn giải kết quả đã được tăng cường; GPT-5.5 Pro nhắm đến độ chính xác và tính toàn diện cao hơn
- Trước khi phát hành, mô hình đã trải qua các biện pháp an toàn được tăng cường cùng thử nghiệm nội bộ và bên ngoài; hiện đang được triển khai tuần tự trên ChatGPT và Codex chủ yếu cho Plus, Pro, Business và Enterprise, cho thấy đây là bước mở rộng phạm vi ứng dụng AI trong công việc thực tế
Tổng quan mô hình và phạm vi triển khai
- GPT-5.5 được giới thiệu là mô hình hiểu ý định nhanh hơn, có thể tự lập kế hoạch cho các tác vụ nhiều bước đan xen và sử dụng công cụ để theo đuổi đến cùng
- Có thể thực hiện viết code và gỡ lỗi, nghiên cứu web, phân tích dữ liệu, soạn tài liệu và bảng tính, thao tác phần mềm, cũng như các công việc phải qua lại giữa nhiều công cụ
- Thay vì quản lý tỉ mỉ từng bước, mô hình được thiết kế để nhận trọn vẹn các tác vụ phức tạp, chưa được sắp xếp rõ ràng và tiếp tục từ lập kế hoạch, dùng công cụ, kiểm chứng đến xử lý sự mơ hồ
- Sự cải thiện trong các tác vụ mang tính tác tử được nhấn mạnh đặc biệt, với hiệu năng mạnh trong coding, computer use, knowledge work và nghiên cứu khoa học giai đoạn đầu
- Dù các mô hình lớn hơn thường chậm hơn, per-token latency trong dịch vụ thực tế vẫn được giữ ngang GPT-5.4
- Cùng một tác vụ Codex cũng được hoàn thành với ít token hơn, giúp tăng hiệu quả
- Trước khi phát hành, OpenAI đã tăng cường các biện pháp an toàn, phản ánh kết quả từ kiểm thử red team nội bộ và bên ngoài, các bài kiểm tra bổ sung về năng lực cybersecurity và biology nâng cao, cùng phản hồi sử dụng sớm từ khoảng 200 đối tác tin cậy
- Hiện mô hình đang được triển khai tuần tự trên ChatGPT và Codex cho người dùng Plus, Pro, Business, Enterprise; GPT-5.5 Pro được cung cấp cho Pro, Business và Enterprise trên ChatGPT
- API hiện đang đáp ứng các yêu cầu an toàn riêng và sẽ sớm cung cấp GPT-5.5 cùng GPT-5.5 Pro
Kỹ thuật phần mềm và coding mang tính tác tử
- OpenAI đang xây dựng hạ tầng agentic AI, và trong 1 năm qua AI đã tăng tốc mạnh mẽ cho kỹ thuật phần mềm
- Khi GPT-5.5 được đưa vào Codex và ChatGPT, sự thay đổi này bắt đầu mở rộng sang nghiên cứu khoa học và công việc máy tính nói chung
- Theo Artificial Analysis Coding Index, mô hình này cung cấp mức trí tuệ hàng đầu với chi phí bằng một nửa so với các frontier coding model cạnh tranh
- GPT-5.5 được OpenAI giới thiệu là mô hình agentic coding mạnh nhất của hãng
- Trên Terminal-Bench 2.0, mô hình đạt 82.7%; đây là bộ đánh giá các quy trình command-line phức tạp cần lập kế hoạch, lặp lại và kết hợp công cụ
- Trên SWE-Bench Pro, mô hình đạt 58.6% và giải quyết đầu-cuối nhiều vấn đề GitHub thực tế hơn so với mô hình trước chỉ trong một lần chạy
- Trong đánh giá nội bộ Expert-SWE, GPT-5.5 cũng vượt GPT-5.4
- Trên cả ba bài đánh giá coding, mô hình đạt điểm cao hơn trong khi dùng ít token hơn GPT-5.4
- Trong Codex, thế mạnh của mô hình thể hiện ở triển khai, refactor, debug, test và verification
- Mô hình mạnh hơn ở các hành vi kỹ thuật thực tế như giữ ngữ cảnh của hệ thống lớn, lần theo nguyên nhân thất bại mơ hồ, xác nhận giả định bằng công cụ và phản ánh thay đổi trên toàn bộ codebase
Ví dụ sử dụng coding và thử nghiệm ban đầu
- Có ví dụ prompt triển khai ứng dụng WebGL + Vite bằng dữ liệu thực tế của Artemis II
- Ứng dụng render quỹ đạo của Orion, Moon và Sun bằng dữ liệu vector từ NASA/JPL Horizons
- Áp dụng thang hiển thị để tăng khả năng đọc
- Các tester ban đầu đánh giá GPT-5.5 hiểu cấu trúc hệ thống tốt hơn
- Mô hình chỉ ra chính xác hơn điều gì thất bại và vì sao, cần sửa ở đâu, và ảnh hưởng sẽ lan sang những phần nào khác của codebase
- Dan Shipper đã thử tua lại một sự cố sau phát hành rồi kiểm tra xem mô hình có thể tạo ra bản thiết kế lại ở cùng mức độ hay không; GPT-5.4 thất bại còn GPT-5.5 thành công
- Pietro Schirano đã gộp trong một lần trong khoảng 20 phút một nhánh chứa hàng trăm thay đổi frontend và refactor vào nhánh main đã thay đổi rất nhiều
- Trong các bài test của kỹ sư cấp cao, reasoning và autonomy nổi bật hơn so với GPT-5.4 và Claude Opus 4.7
- Ngay cả khi không có prompt tường minh, mô hình vẫn chủ động phát hiện vấn đề trước và dự đoán cả nhu cầu test lẫn review
- Khi được yêu cầu thiết kế lại comment system của một collaborative markdown editor, mô hình đưa ra một stack 12-diff gần như hoàn chỉnh
- Cần ít chỉnh sửa triển khai hơn dự kiến, và mức độ tin cậy vào kế hoạch cũng cao hơn GPT-5.4
- Trích dẫn từ Michael Truell của Cursor cho thấy mô hình có đặc tính duy trì làm việc lâu hơn, phù hợp hơn với các tác vụ phức tạp và chạy dài mà không dừng sớm
Lao động tri thức nói chung và sử dụng máy tính
- Những thế mạnh thể hiện trong coding cũng được chuyển nguyên vẹn sang công việc máy tính hằng ngày
- Vì hiểu ý định tốt hơn, mô hình thực hiện tự nhiên hơn toàn bộ quá trình từ tìm kiếm thông tin, chọn lọc nội dung quan trọng, sử dụng công cụ, kiểm chứng kết quả đến biến nguyên liệu thô thành đầu ra hữu ích
- Trong Codex, GPT-5.5 mạnh hơn GPT-5.4 ở việc tạo tài liệu, bảng tính, slide
- Các alpha tester cho biết mô hình tốt hơn bản trước trong các tác vụ như nghiên cứu vận hành, lập mô hình bảng tính và biến đầu vào kinh doanh lộn xộn thành kế hoạch
- Khi kết hợp với năng lực computer use của Codex, mô hình có thể nhìn màn hình, nhấp chuột, gõ phím, điều hướng giao diện và di chuyển chính xác giữa nhiều công cụ
- OpenAI cũng đã dùng mô hình trong các quy trình công việc thực tế nội bộ; hiện hơn 85% nhân viên dùng Codex hằng tuần
- Mô hình được áp dụng trong kỹ thuật phần mềm, tài chính, truyền thông, marketing, khoa học dữ liệu và quản lý sản phẩm
- Đội truyền thông đã phân tích dữ liệu speaking request trong 6 tháng để tạo khung chấm điểm·rủi ro, đồng thời kiểm chứng một Slack agent có thể tự động xử lý các yêu cầu rủi ro thấp và chuyển các yêu cầu rủi ro cao cho con người xem xét
- Đội Finance đã rà soát 24.771 biểu mẫu thuế K-1, tổng cộng 71.637 trang, và nhờ quy trình loại trừ thông tin cá nhân đã đẩy nhanh tiến độ hơn 2 tuần so với năm trước
- Trong đội Go-to-Market, việc tự động hóa tạo báo cáo kinh doanh hằng tuần giúp tiết kiệm 5~10 giờ mỗi tuần
GPT-5.5 Thinking và GPT-5.5 Pro trong ChatGPT
- GPT-5.5 Thinking của ChatGPT được thiết kế để trả lời các vấn đề khó hơn nhanh hơn, đồng thời giúp xử lý công việc phức tạp hiệu quả hơn bằng các câu trả lời thông minh và súc tích hơn
- mạnh về coding, research, tổng hợp và phân tích thông tin, các công việc xoay quanh tài liệu, và đặc biệt có lợi khi dùng plugin
- GPT-5.5 Pro nhắm đến các tác vụ khó hơn và chất lượng cao hơn, đồng thời độ trễ giảm giúp tăng khả năng áp dụng vào công việc thực tế
- so với GPT-5.4 Pro, phản hồi trở nên toàn diện hơn, có cấu trúc tốt hơn, chính xác hơn, liên quan hơn và hữu ích hơn
- đặc biệt mạnh trong business, legal, education và data science
- Mô hình này cũng cho thấy các chỉ số cao trên những benchmark gần với công việc chuyên môn
- ghi nhận GDPval 84.9%, OSWorld-Verified 78.7%, và Tau2-bench Telecom 98.0%
- Tau2-bench Telecom được thực hiện không cần prompt tuning
- đồng thời công bố thêm FinanceAgent 60.0%, internal investment-banking modeling tasks 88.5%, và OfficeQA Pro 54.1%
- Trong trích dẫn của Justin Boitano từ NVIDIA, hệ thống được cung cấp trên NVIDIA GB200 NVL72, có thể triển khai chức năng end-to-end bằng prompt ngôn ngữ tự nhiên, rút ngắn thời gian debug từ nhiều ngày xuống còn vài giờ, và biến các thử nghiệm vốn mất nhiều tuần thành quy trình chạy qua một đêm
Quy trình nghiên cứu khoa học và kỹ thuật
- GPT-5.5 cũng cho thấy hiệu năng được cải thiện trong quy trình nghiên cứu khoa học và kỹ thuật
- vượt ra ngoài mức chỉ trả lời câu hỏi khó, mô hình duy trì tốt hơn vòng lặp từ khám phá ý tưởng, thu thập bằng chứng, kiểm chứng giả thuyết, diễn giải kết quả cho đến quyết định thí nghiệm tiếp theo
- Trên GeneBench, mô hình cho thấy cải thiện rõ rệt so với GPT-5.4
- đây là bài đánh giá mới nhắm vào phân tích dữ liệu nhiều bước trong genetics và quantitative biology
- xử lý dữ liệu mơ hồ hoặc có lỗi, confounder ẩn, thất bại QC, cùng việc triển khai và diễn giải các kỹ thuật thống kê hiện đại
- các tác vụ ở đây tương đương những dự án kéo dài nhiều ngày ngay cả với chuyên gia khoa học
- Trên BixBench, mô hình cũng đạt hiệu năng hàng đầu trong số các mô hình có điểm số công khai
- benchmark này được giới thiệu là phản ánh bioinformatics và phân tích dữ liệu trong thực tế
- cho thấy tiềm năng tăng tốc ở cấp độ co-scientist tại tuyến đầu của biomedical research
- Phiên bản nội bộ của GPT-5.5 cùng custom harness cũng được dùng để tìm ra chứng minh mới cho Ramsey numbers
- Liên kết chứng minh mới
- mô hình đã tìm được chứng minh cho một mệnh đề tiệm cận về off-diagonal Ramsey numbers lâu đời trong combinatorics, sau đó được kiểm chứng bằng Lean
- không chỉ vượt ra ngoài code hay giải thích, mà còn đóng góp vào các lập luận toán học hữu ích trong lĩnh vực nghiên cứu cốt lõi
- Những tester ban đầu sử dụng GPT-5.5 Pro gần như một đối tác nghiên cứu hơn là một bộ máy trả lời một lần
- họ để mô hình phản biện bản thảo qua nhiều vòng, stress test các lập luận kỹ thuật, đề xuất phân tích, và làm việc cùng ngữ cảnh từ code, ghi chú và PDF
- mô hình hỗ trợ tốt hơn cho dòng công việc nối từ câu hỏi đến thí nghiệm rồi đến đầu ra
Ví dụ nghiên cứu
- Derya Unutmaz của Jackson Laboratory for Genomic Medicine đã dùng GPT-5.5 Pro để phân tích bộ dữ liệu biểu hiện gen gồm 62 mẫu, khoảng 28.000 gene
- mô hình tạo ra báo cáo nghiên cứu chi tiết, không chỉ tóm tắt kết quả mà còn nêu bật các câu hỏi và insight quan trọng
- nếu đội ngũ của ông tự thực hiện thì đây là công việc có quy mô mất nhiều tháng
- Bartosz Naskręcki của Adam Mickiewicz University đã dùng Codex để tạo một ứng dụng algebraic-geometry chỉ trong 11 phút với một prompt duy nhất
- ứng dụng trực quan hóa giao của hai quadratic surface và chuyển đường cong kết quả sang Weierstrass model
- sau đó còn làm cho việc trực quan hóa singularity ổn định hơn, đồng thời bổ sung exact coefficients có thể tái sử dụng cho các công việc tiếp theo
- Codex cũng hỗ trợ triển khai các công cụ trực quan hóa toán học tùy biến và quy trình computer-algebra vốn trước đây cần công cụ chuyên dụng
- Credit: Bartosz Naskręcki
- Trong trích dẫn của Brandon White từ Axiom Bio, mô hình suy luận trên tập dữ liệu biochemical khổng lồ để dự đoán human drug outcomes, và cho thấy mức cải thiện độ chính xác có ý nghĩa trong những bài đánh giá drug discovery khó nhất
Hạ tầng suy luận và tối ưu hiệu năng
- Để phục vụ GPT-5.5 với độ trễ tương đương GPT-5.4, cần phải thiết kế lại suy luận như một hệ thống tích hợp thay vì một tập hợp các tối ưu riêng lẻ
- GPT-5.5 được đồng thiết kế, huấn luyện và triển khai dịch vụ với giả định sử dụng các hệ thống NVIDIA GB200 và GB300 NVL72
- Codex và chính GPT-5.5 đã đóng góp trực tiếp vào việc đạt được mục tiêu hiệu năng
- Codex được dùng để nhanh chóng chuyển ý tưởng thành triển khai có thể benchmark, phác thảo cách tiếp cận, nối các thí nghiệm, và tìm ra những tối ưu cần đầu tư sâu hơn
- GPT-5.5 giúp xác định và triển khai các điểm cải tiến then chốt bên trong stack
- cuối cùng, mô hình cũng góp phần cải thiện hạ tầng dùng để phục vụ chính nó
- Một ví dụ cải tiến tiêu biểu được nêu là load balancing và partitioning heuristics
- trước đây, các request trên accelerator được chia thành số lượng chunk cố định để các request lớn và nhỏ cùng chạy trên một GPU
- tuy nhiên, số lượng chunk tĩnh không tối ưu cho mọi dạng traffic
- Codex đã phân tích các mẫu production traffic trong nhiều tuần và viết một thuật toán heuristic tùy biến để phân chia và cân bằng công việc tối ưu
- công việc này giúp token generation speed tăng hơn 20%
An ninh mạng và các biện pháp bảo vệ
- Việc chuẩn bị để đưa ra thế giới một mô hình giỏi phát hiện lỗ hổng và vá lỗi gần giống như một môn thể thao đồng đội, và cần có khả năng phục hồi của toàn bộ hệ sinh thái cho kỷ nguyên phòng thủ mạng tiếp theo
- Năng lực an ninh mạng của các mô hình frontier đang ngày càng mạnh hơn, và vì năng lực này sẽ được phổ biến rộng rãi, nên con đường để nó được dùng nhằm tăng tốc phòng thủ mạng và củng cố hệ sinh thái trở nên quan trọng hơn
- GPT-5.5 được định vị là một bước tiến dần dần nhưng quan trọng hướng tới AI giải quyết các vấn đề khó như an ninh mạng
- Từ GPT-5.2, OpenAI đã triển khai sớm các cyber safeguards để hạn chế khả năng bị lạm dụng vào mục đích mạng
- Với GPT-5.5, OpenAI triển khai classifier nghiêm ngặt hơn đối với rủi ro mạng tiềm ẩn, và điều này ban đầu có thể gây khó chịu cho một số người dùng
- Trong nhiều năm, OpenAI đã xem cybersecurity là một hạng mục riêng trong Preparedness Framework, đồng thời liên tục điều chỉnh các biện pháp giảm thiểu theo mức độ cải thiện năng lực
- OpenAI đã triển khai các biện pháp bảo vệ ở mức dẫn đầu ngành tương ứng với cấp độ năng lực mạng này
- OpenAI lần đầu giới thiệu các biện pháp bảo vệ chuyên biệt cho an ninh mạng ở GPT-5.2, và từ đó đã thử nghiệm, tinh chỉnh và mở rộng qua mỗi lần phát hành
- Với GPT-5.5, OpenAI tiếp tục tăng cường bảo vệ trước các hoạt động rủi ro cao, các yêu cầu mạng nhạy cảm và hành vi lạm dụng lặp lại
- Cách tiếp cận mở rộng hơn này có được nhờ đầu tư vào an toàn mô hình, người dùng đã được xác thực và giám sát việc sử dụng không được phép
- OpenAI đã cùng các chuyên gia bên ngoài phát triển, thử nghiệm và cải thiện độ vững trong nhiều tháng
- OpenAI đặt ra các kiểm soát mạnh hơn đối với những quy trình công việc mạng dễ bị tác nhân xấu lợi dụng để gây hại, đồng thời vẫn giúp nhà phát triển dễ dàng bảo vệ mã nguồn hơn
- Việc mở rộng quyền truy cập cho mục đích phòng thủ cũng được tiến hành song song
- Thông qua Trusted Access for Cyber, OpenAI cung cấp quyền truy cập vào các mô hình cyber-permissive, với điểm khởi đầu là Codex
- Với người dùng đã được xác minh đáp ứng các trust signals nhất định, OpenAI cung cấp các tính năng an ninh mạng nâng cao của GPT-5.5 với ít hạn chế hơn
- Các tổ chức phụ trách phòng thủ hạ tầng trọng yếu có thể đăng ký quyền truy cập vào các mô hình cyber-permissive như GPT-5.4-Cyber
- Mục tiêu là cung cấp cho những người phụ trách phòng thủ đã được xác minh các công cụ phục vụ công việc bảo mật chính đáng với ít ma sát hơn
- Liên kết đăng ký: chatgpt.com/cyber
- Cũng bao gồm hợp tác với các đối tác chính phủ
- OpenAI đang cùng họ tìm hiểu cách AI tiên tiến có thể hỗ trợ các nhân sự công phụ trách bảo vệ hạ tầng trọng yếu như hệ thống số bảo vệ dữ liệu thuế, lưới điện và hệ thống cấp nước cộng đồng
- Năng lực biological/chemical và cybersecurity của GPT-5.5 được xếp loại High theo Preparedness Framework
- Dù chưa đạt đến mức năng lực an ninh mạng Critical, các đánh giá và thử nghiệm cho thấy năng lực mạng của GPT-5.5 đã tăng thêm một bậc so với GPT-5.4
- Trước khi phát hành, GPT-5.5 đã trải qua toàn bộ quy trình safety and governance
- Bao gồm đánh giá preparedness, kiểm thử theo từng lĩnh vực, các đánh giá mục tiêu mới dành cho biology và cybersecurity nâng cao, cũng như thử nghiệm độ vững chắc với chuyên gia bên ngoài
- Thông tin chi tiết có trong GPT-5.5 system card
- Cách tiếp cận này là một phần của chiến lược AI resilience cần thiết trong kỷ nguyên các mô hình mạnh hơn
- AI mạnh mẽ cũng phải được cung cấp cho những người đang bảo vệ hệ thống, thể chế và công chúng; các hướng đi cốt lõi được nêu ra gồm quyền truy cập dựa trên niềm tin, các biện pháp bảo vệ được tăng cường tương xứng với năng lực, và năng lực vận hành để phát hiện và ứng phó với các hành vi lạm dụng nghiêm trọng
Gói khả dụng và giá
- Hiện tại, trên ChatGPT và Codex, GPT-5.5 đang được triển khai cho người dùng Plus, Pro, Business và Enterprise; còn GPT-5.5 Pro được cung cấp trên ChatGPT cho Pro, Business và Enterprise
- Trên ChatGPT, GPT-5.5 Thinking được cung cấp cho Plus, Pro, Business và Enterprise
- GPT-5.5 Pro nhắm tới các câu hỏi khó hơn và độ chính xác cao hơn, có sẵn cho Pro, Business và Enterprise
- Trên Codex, GPT-5.5 được cung cấp cho các gói Plus, Pro, Business, Enterprise, Edu, Go và có 400K context window
- Fast mode cũng được cung cấp, với tốc độ tạo token nhanh hơn 1.5 lần và chi phí gấp 2.5 lần
- Với nhà phát triển API, gpt-5.5 sẽ sớm có trên Responses API và Chat Completions API
- Giá được ghi là 5 USD cho mỗi 1 triệu token đầu vào, 30 USD cho mỗi 1 triệu token đầu ra, với 1M context window
- Batch và Flex có giá bằng một nửa mức phí API tiêu chuẩn, còn Priority processing có mức phí gấp 2.5 lần
- gpt-5.5-pro cũng sẽ ra mắt trên API, hướng tới độ chính xác cao hơn
- Mức giá được ghi là 30 USD cho mỗi 1 triệu token đầu vào và 180 USD cho mỗi 1 triệu token đầu ra
- Thông tin giá đầy đủ được liên kết tại pricing page
- GPT-5.5 có mức giá cao hơn GPT-5.4, nhưng cũng có trí tuệ và hiệu quả token tốt hơn
- Trên Codex, trải nghiệm đã được điều chỉnh để với phần lớn người dùng, GPT-5.5 cho kết quả tốt hơn GPT-5.4 với ít token hơn
- OpenAI tiếp tục cung cấp hạn mức sử dụng hào phóng trên toàn bộ các bậc thuê bao
Benchmark chi tiết
-
Coding
- Trên SWE-Bench Pro (Public), GPT-5.5 đạt 58.6%, GPT-5.4 đạt 57.7%, Claude Opus 4.7 đạt 64.3%, Gemini 3.1 Pro đạt 54.2%
- Terminal-Bench 2.0 ghi nhận GPT-5.5 82.7%, GPT-5.4 75.1%, Claude Opus 4.7 69.4%, Gemini 3.1 Pro 68.5%
- Expert-SWE (Internal) cho thấy GPT-5.5 73.1%, GPT-5.4 68.5%
-
Công việc chuyên môn
- GDPval (wins or ties): GPT-5.5 84.9%, GPT-5.4 83.0%, GPT-5.5 Pro 82.3%, GPT-5.4 Pro 82.0%, Claude Opus 4.7 80.3%, Gemini 3.1 Pro 67.3%
- FinanceAgent v1.1: GPT-5.5 60.0%, GPT-5.4 56.0%, GPT-5.4 Pro 61.5%, Claude Opus 4.7 64.4%, Gemini 3.1 Pro 59.7%
- Investment Banking Modeling Tasks (Internal): GPT-5.5 88.5%, GPT-5.4 87.3%, GPT-5.5 Pro 88.6%, GPT-5.4 Pro 83.6%
- OfficeQA Pro: GPT-5.5 54.1%, GPT-5.4 53.2%, Claude Opus 4.7 43.6%, Gemini 3.1 Pro 18.1%
-
Sử dụng máy tính và thị giác
- OSWorld-Verified: GPT-5.5 78.7%, GPT-5.4 75.0%, Claude Opus 4.7 78.0%
- MMMU Pro (no tools): GPT-5.5 và GPT-5.4 cùng đạt 81.2%, Gemini 3.1 Pro đạt 80.5%
- MMMU Pro (with tools): GPT-5.5 83.2%, GPT-5.4 82.1%
-
Sử dụng công cụ
- BrowseComp: GPT-5.5 84.4%, GPT-5.4 82.7%, GPT-5.5 Pro 90.1%, GPT-5.4 Pro 89.3%, Claude Opus 4.7 79.3%, Gemini 3.1 Pro 85.9%
- MCP Atlas: GPT-5.5 75.3%, GPT-5.4 70.6%, Claude Opus 4.7 79.1%, Gemini 3.1 Pro 78.2%
- Toolathlon: GPT-5.5 55.6%, GPT-5.4 54.6%, Gemini 3.1 Pro 48.8%
- Tau2-bench Telecom: theo prompt gốc, GPT-5.5 đạt 98.0%, GPT-5.4 đạt 92.8%
- Chú thích của MCP Atlas ghi rõ đây là kết quả sau bản cập nhật mới nhất vào tháng 4/2026 của Scale AI
- Chú thích của Tau2-bench Telecom nêu rõ đây là kết quả được đánh giá không có prompt adjustment, và đã loại trừ kết quả prompt adjustment của các phòng thí nghiệm khác
-
Học thuật
- GeneBench: GPT-5.5 25.0%, GPT-5.4 19.0%, GPT-5.5 Pro 33.2%, GPT-5.4 Pro 25.6%
- FrontierMath Tier 1–3: GPT-5.5 51.7%, GPT-5.4 47.6%, GPT-5.5 Pro 52.4%, GPT-5.4 Pro 50.0%, Claude Opus 4.7 43.8%, Gemini 3.1 Pro 36.9%
- FrontierMath Tier 4: GPT-5.5 35.4%, GPT-5.4 27.1%, GPT-5.5 Pro 39.6%, GPT-5.4 Pro 38.0%, Claude Opus 4.7 22.9%, Gemini 3.1 Pro 16.7%
- BixBench: GPT-5.5 80.5%, GPT-5.4 74.0%
- GPQA Diamond: GPT-5.5 93.6%, GPT-5.4 92.8%, GPT-5.4 Pro 94.4%, Claude Opus 4.7 94.2%, Gemini 3.1 Pro 94.3%
- Humanity's Last Exam (no tools): GPT-5.5 41.4%, GPT-5.4 39.8%, GPT-5.5 Pro 43.1%, GPT-5.4 Pro 42.7%, Claude Opus 4.7 46.9%, Gemini 3.1 Pro 44.4%
- Humanity's Last Exam (with tools): GPT-5.5 52.2%, GPT-5.4 52.1%, GPT-5.5 Pro 57.2%, GPT-5.4 Pro 58.7%, Claude Opus 4.7 54.7%, Gemini 3.1 Pro 51.4%
-
An ninh mạng
- Capture-the-Flags challenge tasks (Internal): GPT-5.5 88.1%, GPT-5.4 83.7%
- CyberGym: GPT-5.5 81.8%, GPT-5.4 79.0%, Claude Opus 4.7 73.1%
- Chú thích cho biết đây là kết quả mở rộng từ CTF khó nhất được viết trong system card và bổ sung thêm các thử thách độ khó cao khác
-
Ngữ cảnh dài
- Graphwalks BFS 256k f1: GPT-5.5 73.7%, GPT-5.4 62.5%, Claude Opus 4.7 76.9%
- Graphwalks BFS 1mil f1: GPT-5.5 45.4%, GPT-5.4 9.4%, Claude Opus 4.6 41.2%
- Graphwalks parents 256k f1: GPT-5.5 90.1%, GPT-5.4 82.8%, Claude Opus 4.7 93.6%
- Graphwalks parents 1mil f1: GPT-5.5 58.5%, GPT-5.4 44.4%, Claude Opus 4.6 72.0%
- OpenAI MRCR v2 8-needle được trình bày theo từng độ dài ngữ cảnh: 4K-8K 98.1%, 8K-16K 93.0%, 16K-32K 96.5%, 32K-64K 90.0%, 64K-128K 83.1%, 128K-256K 87.5%, 256K-512K 81.5%, 512K-1M 74.0%
- Ở cùng hạng mục này, GPT-5.4 lần lượt đạt 97.3%, 91.4%, 97.2%, 90.5%, 86.0%, 79.3%, 57.5%, 36.6%
- Ở khoảng 128K-256K có ghi Claude Opus 4.7 59.2%, còn ở khoảng 512K-1M có ghi Claude Opus 4.7 32.2%
-
Suy luận trừu tượng
- ARC-AGI-1 (Verified): GPT-5.5 95.0%, GPT-5.4 93.7%, GPT-5.4 Pro 94.5%, Claude Opus 4.7 93.5%, Gemini 3.1 Pro 98.0%
- ARC-AGI-2 (Verified): GPT-5.5 85.0%, GPT-5.4 73.3%, GPT-5.4 Pro 83.3%, Claude Opus 4.7 75.8%, Gemini 3.1 Pro 77.1%
- Đánh giá dòng GPT được thực hiện trong môi trường nghiên cứu với reasoning effort đặt ở
xhigh, và có ghi chú rằng trong một số trường hợp đầu ra có thể hơi khác so với ChatGPT trong môi trường sản xuất
Chưa có bình luận nào.