4 điểm bởi GN⁺ 6 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Mô hình tác tử có thể tự lập kế hoạch cho các tác vụ phức tạp, kết hợp công cụ và thực hiện đến cùng, bao quát từ viết code và gỡ lỗi đến nghiên cứu web, phân tích dữ liệu, tạo tài liệu·bảng tính và thao tác phần mềm
  • Duy trì per-token latency tương đương GPT-5.4, nhưng cải thiện hiệu năng trong coding, computer use, lao động tri thức và nghiên cứu khoa học giai đoạn đầu; đồng thời hoàn thành cùng một tác vụ Codex với ít token hơn nên hiệu quả cũng cao hơn
  • Trong kỹ thuật phần mềm, đạt Terminal-Bench 2.0 82.7%, Expert-SWE 73.1%, SWE-Bench Pro 58.6%, cho thấy thế mạnh ở triển khai, refactor, debug, test, verification và duy trì ngữ cảnh của các codebase lớn
  • Trong quy trình công việc và nghiên cứu nói chung, luồng làm việc từ tạo tài liệu·bảng tính·slide, computer use dựa trên thao tác màn hình, phân tích dữ liệu nhiều bước, kiểm chứng giả thuyết đến diễn giải kết quả đã được tăng cường; GPT-5.5 Pro nhắm đến độ chính xác và tính toàn diện cao hơn
  • Trước khi phát hành, mô hình đã trải qua các biện pháp an toàn được tăng cường cùng thử nghiệm nội bộ và bên ngoài; hiện đang được triển khai tuần tự trên ChatGPT và Codex chủ yếu cho Plus, Pro, Business và Enterprise, cho thấy đây là bước mở rộng phạm vi ứng dụng AI trong công việc thực tế

Tổng quan mô hình và phạm vi triển khai

  • GPT-5.5 được giới thiệu là mô hình hiểu ý định nhanh hơn, có thể tự lập kế hoạch cho các tác vụ nhiều bước đan xen và sử dụng công cụ để theo đuổi đến cùng
    • Có thể thực hiện viết code và gỡ lỗi, nghiên cứu web, phân tích dữ liệu, soạn tài liệu và bảng tính, thao tác phần mềm, cũng như các công việc phải qua lại giữa nhiều công cụ
    • Thay vì quản lý tỉ mỉ từng bước, mô hình được thiết kế để nhận trọn vẹn các tác vụ phức tạp, chưa được sắp xếp rõ ràng và tiếp tục từ lập kế hoạch, dùng công cụ, kiểm chứng đến xử lý sự mơ hồ
  • Sự cải thiện trong các tác vụ mang tính tác tử được nhấn mạnh đặc biệt, với hiệu năng mạnh trong coding, computer use, knowledge work và nghiên cứu khoa học giai đoạn đầu
    • Dù các mô hình lớn hơn thường chậm hơn, per-token latency trong dịch vụ thực tế vẫn được giữ ngang GPT-5.4
    • Cùng một tác vụ Codex cũng được hoàn thành với ít token hơn, giúp tăng hiệu quả
  • Trước khi phát hành, OpenAI đã tăng cường các biện pháp an toàn, phản ánh kết quả từ kiểm thử red team nội bộ và bên ngoài, các bài kiểm tra bổ sung về năng lực cybersecurity và biology nâng cao, cùng phản hồi sử dụng sớm từ khoảng 200 đối tác tin cậy
  • Hiện mô hình đang được triển khai tuần tự trên ChatGPT và Codex cho người dùng Plus, Pro, Business, Enterprise; GPT-5.5 Pro được cung cấp cho Pro, Business và Enterprise trên ChatGPT
    • API hiện đang đáp ứng các yêu cầu an toàn riêng và sẽ sớm cung cấp GPT-5.5 cùng GPT-5.5 Pro

Kỹ thuật phần mềm và coding mang tính tác tử

  • OpenAI đang xây dựng hạ tầng agentic AI, và trong 1 năm qua AI đã tăng tốc mạnh mẽ cho kỹ thuật phần mềm
    • Khi GPT-5.5 được đưa vào Codex và ChatGPT, sự thay đổi này bắt đầu mở rộng sang nghiên cứu khoa học và công việc máy tính nói chung
  • Theo Artificial Analysis Coding Index, mô hình này cung cấp mức trí tuệ hàng đầu với chi phí bằng một nửa so với các frontier coding model cạnh tranh
  • GPT-5.5 được OpenAI giới thiệu là mô hình agentic coding mạnh nhất của hãng
    • Trên Terminal-Bench 2.0, mô hình đạt 82.7%; đây là bộ đánh giá các quy trình command-line phức tạp cần lập kế hoạch, lặp lại và kết hợp công cụ
    • Trên SWE-Bench Pro, mô hình đạt 58.6% và giải quyết đầu-cuối nhiều vấn đề GitHub thực tế hơn so với mô hình trước chỉ trong một lần chạy
    • Trong đánh giá nội bộ Expert-SWE, GPT-5.5 cũng vượt GPT-5.4
  • Trên cả ba bài đánh giá coding, mô hình đạt điểm cao hơn trong khi dùng ít token hơn GPT-5.4
  • Trong Codex, thế mạnh của mô hình thể hiện ở triển khai, refactor, debug, test và verification
    • Mô hình mạnh hơn ở các hành vi kỹ thuật thực tế như giữ ngữ cảnh của hệ thống lớn, lần theo nguyên nhân thất bại mơ hồ, xác nhận giả định bằng công cụ và phản ánh thay đổi trên toàn bộ codebase

Ví dụ sử dụng coding và thử nghiệm ban đầu

  • Có ví dụ prompt triển khai ứng dụng WebGL + Vite bằng dữ liệu thực tế của Artemis II
    • Ứng dụng render quỹ đạo của Orion, Moon và Sun bằng dữ liệu vector từ NASA/JPL Horizons
    • Áp dụng thang hiển thị để tăng khả năng đọc
  • Các tester ban đầu đánh giá GPT-5.5 hiểu cấu trúc hệ thống tốt hơn
    • Mô hình chỉ ra chính xác hơn điều gì thất bại và vì sao, cần sửa ở đâu, và ảnh hưởng sẽ lan sang những phần nào khác của codebase
  • Dan Shipper đã thử tua lại một sự cố sau phát hành rồi kiểm tra xem mô hình có thể tạo ra bản thiết kế lại ở cùng mức độ hay không; GPT-5.4 thất bại còn GPT-5.5 thành công
  • Pietro Schirano đã gộp trong một lần trong khoảng 20 phút một nhánh chứa hàng trăm thay đổi frontend và refactor vào nhánh main đã thay đổi rất nhiều
  • Trong các bài test của kỹ sư cấp cao, reasoning và autonomy nổi bật hơn so với GPT-5.4 và Claude Opus 4.7
    • Ngay cả khi không có prompt tường minh, mô hình vẫn chủ động phát hiện vấn đề trước và dự đoán cả nhu cầu test lẫn review
    • Khi được yêu cầu thiết kế lại comment system của một collaborative markdown editor, mô hình đưa ra một stack 12-diff gần như hoàn chỉnh
    • Cần ít chỉnh sửa triển khai hơn dự kiến, và mức độ tin cậy vào kế hoạch cũng cao hơn GPT-5.4
  • Trích dẫn từ Michael Truell của Cursor cho thấy mô hình có đặc tính duy trì làm việc lâu hơn, phù hợp hơn với các tác vụ phức tạp và chạy dài mà không dừng sớm

Lao động tri thức nói chung và sử dụng máy tính

  • Những thế mạnh thể hiện trong coding cũng được chuyển nguyên vẹn sang công việc máy tính hằng ngày
    • Vì hiểu ý định tốt hơn, mô hình thực hiện tự nhiên hơn toàn bộ quá trình từ tìm kiếm thông tin, chọn lọc nội dung quan trọng, sử dụng công cụ, kiểm chứng kết quả đến biến nguyên liệu thô thành đầu ra hữu ích
  • Trong Codex, GPT-5.5 mạnh hơn GPT-5.4 ở việc tạo tài liệu, bảng tính, slide
    • Các alpha tester cho biết mô hình tốt hơn bản trước trong các tác vụ như nghiên cứu vận hành, lập mô hình bảng tính và biến đầu vào kinh doanh lộn xộn thành kế hoạch
  • Khi kết hợp với năng lực computer use của Codex, mô hình có thể nhìn màn hình, nhấp chuột, gõ phím, điều hướng giao diện và di chuyển chính xác giữa nhiều công cụ
  • OpenAI cũng đã dùng mô hình trong các quy trình công việc thực tế nội bộ; hiện hơn 85% nhân viên dùng Codex hằng tuần
    • Mô hình được áp dụng trong kỹ thuật phần mềm, tài chính, truyền thông, marketing, khoa học dữ liệu và quản lý sản phẩm
  • Đội truyền thông đã phân tích dữ liệu speaking request trong 6 tháng để tạo khung chấm điểm·rủi ro, đồng thời kiểm chứng một Slack agent có thể tự động xử lý các yêu cầu rủi ro thấp và chuyển các yêu cầu rủi ro cao cho con người xem xét
  • Đội Finance đã rà soát 24.771 biểu mẫu thuế K-1, tổng cộng 71.637 trang, và nhờ quy trình loại trừ thông tin cá nhân đã đẩy nhanh tiến độ hơn 2 tuần so với năm trước
  • Trong đội Go-to-Market, việc tự động hóa tạo báo cáo kinh doanh hằng tuần giúp tiết kiệm 5~10 giờ mỗi tuần

GPT-5.5 Thinking và GPT-5.5 Pro trong ChatGPT

  • GPT-5.5 Thinking của ChatGPT được thiết kế để trả lời các vấn đề khó hơn nhanh hơn, đồng thời giúp xử lý công việc phức tạp hiệu quả hơn bằng các câu trả lời thông minh và súc tích hơn
    • mạnh về coding, research, tổng hợp và phân tích thông tin, các công việc xoay quanh tài liệu, và đặc biệt có lợi khi dùng plugin
  • GPT-5.5 Pro nhắm đến các tác vụ khó hơn và chất lượng cao hơn, đồng thời độ trễ giảm giúp tăng khả năng áp dụng vào công việc thực tế
    • so với GPT-5.4 Pro, phản hồi trở nên toàn diện hơn, có cấu trúc tốt hơn, chính xác hơn, liên quan hơn và hữu ích hơn
    • đặc biệt mạnh trong business, legal, education và data science
  • Mô hình này cũng cho thấy các chỉ số cao trên những benchmark gần với công việc chuyên môn
    • ghi nhận GDPval 84.9%, OSWorld-Verified 78.7%, và Tau2-bench Telecom 98.0%
    • Tau2-bench Telecom được thực hiện không cần prompt tuning
    • đồng thời công bố thêm FinanceAgent 60.0%, internal investment-banking modeling tasks 88.5%, và OfficeQA Pro 54.1%
  • Trong trích dẫn của Justin Boitano từ NVIDIA, hệ thống được cung cấp trên NVIDIA GB200 NVL72, có thể triển khai chức năng end-to-end bằng prompt ngôn ngữ tự nhiên, rút ngắn thời gian debug từ nhiều ngày xuống còn vài giờ, và biến các thử nghiệm vốn mất nhiều tuần thành quy trình chạy qua một đêm

Quy trình nghiên cứu khoa học và kỹ thuật

  • GPT-5.5 cũng cho thấy hiệu năng được cải thiện trong quy trình nghiên cứu khoa học và kỹ thuật
    • vượt ra ngoài mức chỉ trả lời câu hỏi khó, mô hình duy trì tốt hơn vòng lặp từ khám phá ý tưởng, thu thập bằng chứng, kiểm chứng giả thuyết, diễn giải kết quả cho đến quyết định thí nghiệm tiếp theo
  • Trên GeneBench, mô hình cho thấy cải thiện rõ rệt so với GPT-5.4
    • đây là bài đánh giá mới nhắm vào phân tích dữ liệu nhiều bước trong genetics và quantitative biology
    • xử lý dữ liệu mơ hồ hoặc có lỗi, confounder ẩn, thất bại QC, cùng việc triển khai và diễn giải các kỹ thuật thống kê hiện đại
    • các tác vụ ở đây tương đương những dự án kéo dài nhiều ngày ngay cả với chuyên gia khoa học
  • Trên BixBench, mô hình cũng đạt hiệu năng hàng đầu trong số các mô hình có điểm số công khai
    • benchmark này được giới thiệu là phản ánh bioinformatics và phân tích dữ liệu trong thực tế
    • cho thấy tiềm năng tăng tốc ở cấp độ co-scientist tại tuyến đầu của biomedical research
  • Phiên bản nội bộ của GPT-5.5 cùng custom harness cũng được dùng để tìm ra chứng minh mới cho Ramsey numbers
    • Liên kết chứng minh mới
    • mô hình đã tìm được chứng minh cho một mệnh đề tiệm cận về off-diagonal Ramsey numbers lâu đời trong combinatorics, sau đó được kiểm chứng bằng Lean
    • không chỉ vượt ra ngoài code hay giải thích, mà còn đóng góp vào các lập luận toán học hữu ích trong lĩnh vực nghiên cứu cốt lõi
  • Những tester ban đầu sử dụng GPT-5.5 Pro gần như một đối tác nghiên cứu hơn là một bộ máy trả lời một lần
    • họ để mô hình phản biện bản thảo qua nhiều vòng, stress test các lập luận kỹ thuật, đề xuất phân tích, và làm việc cùng ngữ cảnh từ code, ghi chú và PDF
    • mô hình hỗ trợ tốt hơn cho dòng công việc nối từ câu hỏi đến thí nghiệm rồi đến đầu ra

Ví dụ nghiên cứu

  • Derya Unutmaz của Jackson Laboratory for Genomic Medicine đã dùng GPT-5.5 Pro để phân tích bộ dữ liệu biểu hiện gen gồm 62 mẫu, khoảng 28.000 gene
    • mô hình tạo ra báo cáo nghiên cứu chi tiết, không chỉ tóm tắt kết quả mà còn nêu bật các câu hỏi và insight quan trọng
    • nếu đội ngũ của ông tự thực hiện thì đây là công việc có quy mô mất nhiều tháng
  • Bartosz Naskręcki của Adam Mickiewicz University đã dùng Codex để tạo một ứng dụng algebraic-geometry chỉ trong 11 phút với một prompt duy nhất
    • ứng dụng trực quan hóa giao của hai quadratic surface và chuyển đường cong kết quả sang Weierstrass model
    • sau đó còn làm cho việc trực quan hóa singularity ổn định hơn, đồng thời bổ sung exact coefficients có thể tái sử dụng cho các công việc tiếp theo
    • Codex cũng hỗ trợ triển khai các công cụ trực quan hóa toán học tùy biến và quy trình computer-algebra vốn trước đây cần công cụ chuyên dụng
  • Credit: Bartosz Naskręcki
  • Trong trích dẫn của Brandon White từ Axiom Bio, mô hình suy luận trên tập dữ liệu biochemical khổng lồ để dự đoán human drug outcomes, và cho thấy mức cải thiện độ chính xác có ý nghĩa trong những bài đánh giá drug discovery khó nhất

Hạ tầng suy luận và tối ưu hiệu năng

  • Để phục vụ GPT-5.5 với độ trễ tương đương GPT-5.4, cần phải thiết kế lại suy luận như một hệ thống tích hợp thay vì một tập hợp các tối ưu riêng lẻ
    • GPT-5.5 được đồng thiết kế, huấn luyện và triển khai dịch vụ với giả định sử dụng các hệ thống NVIDIA GB200 và GB300 NVL72
  • Codex và chính GPT-5.5 đã đóng góp trực tiếp vào việc đạt được mục tiêu hiệu năng
    • Codex được dùng để nhanh chóng chuyển ý tưởng thành triển khai có thể benchmark, phác thảo cách tiếp cận, nối các thí nghiệm, và tìm ra những tối ưu cần đầu tư sâu hơn
    • GPT-5.5 giúp xác định và triển khai các điểm cải tiến then chốt bên trong stack
    • cuối cùng, mô hình cũng góp phần cải thiện hạ tầng dùng để phục vụ chính nó
  • Một ví dụ cải tiến tiêu biểu được nêu là load balancing và partitioning heuristics
    • trước đây, các request trên accelerator được chia thành số lượng chunk cố định để các request lớn và nhỏ cùng chạy trên một GPU
    • tuy nhiên, số lượng chunk tĩnh không tối ưu cho mọi dạng traffic
    • Codex đã phân tích các mẫu production traffic trong nhiều tuần và viết một thuật toán heuristic tùy biến để phân chia và cân bằng công việc tối ưu
    • công việc này giúp token generation speed tăng hơn 20%

An ninh mạng và các biện pháp bảo vệ

  • Việc chuẩn bị để đưa ra thế giới một mô hình giỏi phát hiện lỗ hổng và vá lỗi gần giống như một môn thể thao đồng đội, và cần có khả năng phục hồi của toàn bộ hệ sinh thái cho kỷ nguyên phòng thủ mạng tiếp theo
  • Năng lực an ninh mạng của các mô hình frontier đang ngày càng mạnh hơn, và vì năng lực này sẽ được phổ biến rộng rãi, nên con đường để nó được dùng nhằm tăng tốc phòng thủ mạng và củng cố hệ sinh thái trở nên quan trọng hơn
  • GPT-5.5 được định vị là một bước tiến dần dần nhưng quan trọng hướng tới AI giải quyết các vấn đề khó như an ninh mạng
    • Từ GPT-5.2, OpenAI đã triển khai sớm các cyber safeguards để hạn chế khả năng bị lạm dụng vào mục đích mạng
    • Với GPT-5.5, OpenAI triển khai classifier nghiêm ngặt hơn đối với rủi ro mạng tiềm ẩn, và điều này ban đầu có thể gây khó chịu cho một số người dùng
  • Trong nhiều năm, OpenAI đã xem cybersecurity là một hạng mục riêng trong Preparedness Framework, đồng thời liên tục điều chỉnh các biện pháp giảm thiểu theo mức độ cải thiện năng lực
  • OpenAI đã triển khai các biện pháp bảo vệ ở mức dẫn đầu ngành tương ứng với cấp độ năng lực mạng này
    • OpenAI lần đầu giới thiệu các biện pháp bảo vệ chuyên biệt cho an ninh mạng ở GPT-5.2, và từ đó đã thử nghiệm, tinh chỉnh và mở rộng qua mỗi lần phát hành
    • Với GPT-5.5, OpenAI tiếp tục tăng cường bảo vệ trước các hoạt động rủi ro cao, các yêu cầu mạng nhạy cảm và hành vi lạm dụng lặp lại
    • Cách tiếp cận mở rộng hơn này có được nhờ đầu tư vào an toàn mô hình, người dùng đã được xác thực và giám sát việc sử dụng không được phép
    • OpenAI đã cùng các chuyên gia bên ngoài phát triển, thử nghiệm và cải thiện độ vững trong nhiều tháng
    • OpenAI đặt ra các kiểm soát mạnh hơn đối với những quy trình công việc mạng dễ bị tác nhân xấu lợi dụng để gây hại, đồng thời vẫn giúp nhà phát triển dễ dàng bảo vệ mã nguồn hơn
  • Việc mở rộng quyền truy cập cho mục đích phòng thủ cũng được tiến hành song song
    • Thông qua Trusted Access for Cyber, OpenAI cung cấp quyền truy cập vào các mô hình cyber-permissive, với điểm khởi đầu là Codex
    • Với người dùng đã được xác minh đáp ứng các trust signals nhất định, OpenAI cung cấp các tính năng an ninh mạng nâng cao của GPT-5.5 với ít hạn chế hơn
    • Các tổ chức phụ trách phòng thủ hạ tầng trọng yếu có thể đăng ký quyền truy cập vào các mô hình cyber-permissive như GPT-5.4-Cyber
    • Mục tiêu là cung cấp cho những người phụ trách phòng thủ đã được xác minh các công cụ phục vụ công việc bảo mật chính đáng với ít ma sát hơn
    • Liên kết đăng ký: chatgpt.com/cyber
  • Cũng bao gồm hợp tác với các đối tác chính phủ
    • OpenAI đang cùng họ tìm hiểu cách AI tiên tiến có thể hỗ trợ các nhân sự công phụ trách bảo vệ hạ tầng trọng yếu như hệ thống số bảo vệ dữ liệu thuế, lưới điện và hệ thống cấp nước cộng đồng
  • Năng lực biological/chemical và cybersecurity của GPT-5.5 được xếp loại High theo Preparedness Framework
    • Dù chưa đạt đến mức năng lực an ninh mạng Critical, các đánh giá và thử nghiệm cho thấy năng lực mạng của GPT-5.5 đã tăng thêm một bậc so với GPT-5.4
  • Trước khi phát hành, GPT-5.5 đã trải qua toàn bộ quy trình safety and governance
    • Bao gồm đánh giá preparedness, kiểm thử theo từng lĩnh vực, các đánh giá mục tiêu mới dành cho biology và cybersecurity nâng cao, cũng như thử nghiệm độ vững chắc với chuyên gia bên ngoài
    • Thông tin chi tiết có trong GPT-5.5 system card
  • Cách tiếp cận này là một phần của chiến lược AI resilience cần thiết trong kỷ nguyên các mô hình mạnh hơn
    • AI mạnh mẽ cũng phải được cung cấp cho những người đang bảo vệ hệ thống, thể chế và công chúng; các hướng đi cốt lõi được nêu ra gồm quyền truy cập dựa trên niềm tin, các biện pháp bảo vệ được tăng cường tương xứng với năng lực, và năng lực vận hành để phát hiện và ứng phó với các hành vi lạm dụng nghiêm trọng

Gói khả dụng và giá

  • Hiện tại, trên ChatGPT và Codex, GPT-5.5 đang được triển khai cho người dùng Plus, Pro, Business và Enterprise; còn GPT-5.5 Pro được cung cấp trên ChatGPT cho Pro, Business và Enterprise
  • Trên ChatGPT, GPT-5.5 Thinking được cung cấp cho Plus, Pro, Business và Enterprise
    • GPT-5.5 Pro nhắm tới các câu hỏi khó hơn và độ chính xác cao hơn, có sẵn cho Pro, Business và Enterprise
  • Trên Codex, GPT-5.5 được cung cấp cho các gói Plus, Pro, Business, Enterprise, Edu, Go và có 400K context window
    • Fast mode cũng được cung cấp, với tốc độ tạo token nhanh hơn 1.5 lần và chi phí gấp 2.5 lần
  • Với nhà phát triển API, gpt-5.5 sẽ sớm có trên Responses API và Chat Completions API
    • Giá được ghi là 5 USD cho mỗi 1 triệu token đầu vào, 30 USD cho mỗi 1 triệu token đầu ra, với 1M context window
    • Batch và Flex có giá bằng một nửa mức phí API tiêu chuẩn, còn Priority processing có mức phí gấp 2.5 lần
  • gpt-5.5-pro cũng sẽ ra mắt trên API, hướng tới độ chính xác cao hơn
    • Mức giá được ghi là 30 USD cho mỗi 1 triệu token đầu vào và 180 USD cho mỗi 1 triệu token đầu ra
    • Thông tin giá đầy đủ được liên kết tại pricing page
  • GPT-5.5 có mức giá cao hơn GPT-5.4, nhưng cũng có trí tuệ và hiệu quả token tốt hơn
    • Trên Codex, trải nghiệm đã được điều chỉnh để với phần lớn người dùng, GPT-5.5 cho kết quả tốt hơn GPT-5.4 với ít token hơn
    • OpenAI tiếp tục cung cấp hạn mức sử dụng hào phóng trên toàn bộ các bậc thuê bao

Benchmark chi tiết

  • Coding

    • Trên SWE-Bench Pro (Public), GPT-5.5 đạt 58.6%, GPT-5.4 đạt 57.7%, Claude Opus 4.7 đạt 64.3%, Gemini 3.1 Pro đạt 54.2%
    • Terminal-Bench 2.0 ghi nhận GPT-5.5 82.7%, GPT-5.4 75.1%, Claude Opus 4.7 69.4%, Gemini 3.1 Pro 68.5%
    • Expert-SWE (Internal) cho thấy GPT-5.5 73.1%, GPT-5.4 68.5%
  • Công việc chuyên môn

    • GDPval (wins or ties): GPT-5.5 84.9%, GPT-5.4 83.0%, GPT-5.5 Pro 82.3%, GPT-5.4 Pro 82.0%, Claude Opus 4.7 80.3%, Gemini 3.1 Pro 67.3%
    • FinanceAgent v1.1: GPT-5.5 60.0%, GPT-5.4 56.0%, GPT-5.4 Pro 61.5%, Claude Opus 4.7 64.4%, Gemini 3.1 Pro 59.7%
    • Investment Banking Modeling Tasks (Internal): GPT-5.5 88.5%, GPT-5.4 87.3%, GPT-5.5 Pro 88.6%, GPT-5.4 Pro 83.6%
    • OfficeQA Pro: GPT-5.5 54.1%, GPT-5.4 53.2%, Claude Opus 4.7 43.6%, Gemini 3.1 Pro 18.1%
  • Sử dụng máy tính và thị giác

    • OSWorld-Verified: GPT-5.5 78.7%, GPT-5.4 75.0%, Claude Opus 4.7 78.0%
    • MMMU Pro (no tools): GPT-5.5 và GPT-5.4 cùng đạt 81.2%, Gemini 3.1 Pro đạt 80.5%
    • MMMU Pro (with tools): GPT-5.5 83.2%, GPT-5.4 82.1%
  • Sử dụng công cụ

    • BrowseComp: GPT-5.5 84.4%, GPT-5.4 82.7%, GPT-5.5 Pro 90.1%, GPT-5.4 Pro 89.3%, Claude Opus 4.7 79.3%, Gemini 3.1 Pro 85.9%
    • MCP Atlas: GPT-5.5 75.3%, GPT-5.4 70.6%, Claude Opus 4.7 79.1%, Gemini 3.1 Pro 78.2%
    • Toolathlon: GPT-5.5 55.6%, GPT-5.4 54.6%, Gemini 3.1 Pro 48.8%
    • Tau2-bench Telecom: theo prompt gốc, GPT-5.5 đạt 98.0%, GPT-5.4 đạt 92.8%
    • Chú thích của MCP Atlas ghi rõ đây là kết quả sau bản cập nhật mới nhất vào tháng 4/2026 của Scale AI
    • Chú thích của Tau2-bench Telecom nêu rõ đây là kết quả được đánh giá không có prompt adjustment, và đã loại trừ kết quả prompt adjustment của các phòng thí nghiệm khác
  • Học thuật

    • GeneBench: GPT-5.5 25.0%, GPT-5.4 19.0%, GPT-5.5 Pro 33.2%, GPT-5.4 Pro 25.6%
    • FrontierMath Tier 1–3: GPT-5.5 51.7%, GPT-5.4 47.6%, GPT-5.5 Pro 52.4%, GPT-5.4 Pro 50.0%, Claude Opus 4.7 43.8%, Gemini 3.1 Pro 36.9%
    • FrontierMath Tier 4: GPT-5.5 35.4%, GPT-5.4 27.1%, GPT-5.5 Pro 39.6%, GPT-5.4 Pro 38.0%, Claude Opus 4.7 22.9%, Gemini 3.1 Pro 16.7%
    • BixBench: GPT-5.5 80.5%, GPT-5.4 74.0%
    • GPQA Diamond: GPT-5.5 93.6%, GPT-5.4 92.8%, GPT-5.4 Pro 94.4%, Claude Opus 4.7 94.2%, Gemini 3.1 Pro 94.3%
    • Humanity's Last Exam (no tools): GPT-5.5 41.4%, GPT-5.4 39.8%, GPT-5.5 Pro 43.1%, GPT-5.4 Pro 42.7%, Claude Opus 4.7 46.9%, Gemini 3.1 Pro 44.4%
    • Humanity's Last Exam (with tools): GPT-5.5 52.2%, GPT-5.4 52.1%, GPT-5.5 Pro 57.2%, GPT-5.4 Pro 58.7%, Claude Opus 4.7 54.7%, Gemini 3.1 Pro 51.4%
  • An ninh mạng

    • Capture-the-Flags challenge tasks (Internal): GPT-5.5 88.1%, GPT-5.4 83.7%
    • CyberGym: GPT-5.5 81.8%, GPT-5.4 79.0%, Claude Opus 4.7 73.1%
    • Chú thích cho biết đây là kết quả mở rộng từ CTF khó nhất được viết trong system card và bổ sung thêm các thử thách độ khó cao khác
  • Ngữ cảnh dài

    • Graphwalks BFS 256k f1: GPT-5.5 73.7%, GPT-5.4 62.5%, Claude Opus 4.7 76.9%
    • Graphwalks BFS 1mil f1: GPT-5.5 45.4%, GPT-5.4 9.4%, Claude Opus 4.6 41.2%
    • Graphwalks parents 256k f1: GPT-5.5 90.1%, GPT-5.4 82.8%, Claude Opus 4.7 93.6%
    • Graphwalks parents 1mil f1: GPT-5.5 58.5%, GPT-5.4 44.4%, Claude Opus 4.6 72.0%
    • OpenAI MRCR v2 8-needle được trình bày theo từng độ dài ngữ cảnh: 4K-8K 98.1%, 8K-16K 93.0%, 16K-32K 96.5%, 32K-64K 90.0%, 64K-128K 83.1%, 128K-256K 87.5%, 256K-512K 81.5%, 512K-1M 74.0%
    • Ở cùng hạng mục này, GPT-5.4 lần lượt đạt 97.3%, 91.4%, 97.2%, 90.5%, 86.0%, 79.3%, 57.5%, 36.6%
    • Ở khoảng 128K-256K có ghi Claude Opus 4.7 59.2%, còn ở khoảng 512K-1M có ghi Claude Opus 4.7 32.2%
  • Suy luận trừu tượng

    • ARC-AGI-1 (Verified): GPT-5.5 95.0%, GPT-5.4 93.7%, GPT-5.4 Pro 94.5%, Claude Opus 4.7 93.5%, Gemini 3.1 Pro 98.0%
    • ARC-AGI-2 (Verified): GPT-5.5 85.0%, GPT-5.4 73.3%, GPT-5.4 Pro 83.3%, Claude Opus 4.7 75.8%, Gemini 3.1 Pro 77.1%
    • Đánh giá dòng GPT được thực hiện trong môi trường nghiên cứu với reasoning effort đặt ở xhigh, và có ghi chú rằng trong một số trường hợp đầu ra có thể hơi khác so với ChatGPT trong môi trường sản xuất

1 bình luận

 
Ý kiến trên Hacker News
  • Việc nói rằng mất quyền truy cập GPT-5.5 ở NVIDIA giống như mất tay chân nghe rùng rợn hơn nhiều so với chủ ý ban đầu
    Có vẻ đây là câu chuyện áp dụng chung cho toàn bộ mức độ phụ thuộc vào các mô hình coding tiên phong, và hiệu năng càng tốt thì càng nhanh dựa vào nó khi lập trình
    Tự mình trải qua rồi mới thấy cảm giác khó chịu lớn đến mức nào. Giờ thay vì kiên nhẫn ngồi code tay thì làm một phát bằng model nhanh hơn cỡ 10 lần, và vai trò của tôi cũng đã thay đổi
    Khả năng tạo ra được rất nhiều thứ vận hành là điều ấn tượng, nhưng khi hết token thì công việc thực chất cũng dừng lại
    Khi Claude chết thì đi dạo còn có leverage hơn là cố ép mình viết code. Một giờ sau nếu Claude sống lại, tôi vẫn tiến xa hơn là cố bám lấy đoạn code do LLM tạo ra rồi mệt mỏi giải quyết vấn đề thủ công
    Dù sao thì trạng thái này cứ khiến tôi hơi bất an

    • Cảm giác như chính lý thuyết lao động đang bị LLM lật ngược
      Thị trường hiện tại đứng trên giả định rằng lao động bị nguyên tử hóa và có ít quyền thương lượng, còn tư bản thì có sức mặc cả lớn hơn nhiều và gần như quyết định giá lao động
      Nhưng nếu thứ lao động đó lại do một công ty còn lớn hơn khác cung cấp, và thứ lao động ấy khác với lao động truyền thống ở chỗ có thể bị cắt nguồn vô thời hạn thì sao
      Giờ lao động đã trở thành một dạng tư bản khác, và tư bản thì không cần ăn cơm
      Những công ty không dùng model tự chủ có lẽ sẽ phải tự thân nếm hậu quả đó
    • Cũng có thể xem chuyện này không khác mấy so với việc dùng lớp trừu tượng thư viện
      Xây nhanh hơn, lượng code tự viết ít đi, còn quản lý trạng thái nội bộ hay bộ nhớ thì thư viện lo thay
      Có người sẽ thấy khó chịu khi phải dựa vào lời gọi thư viện thay vì tự đụng tay vào con trỏ và malloc(), nhưng với người khác đó lại là cảm giác giải phóng vì giúp tập trung vào kiến trúc ở tầng cao hơn mà không sa vào việc chuyển ngữ cảnh xuống mức thấp
    • Có một cách dùng có chủ ý để không tự đào mồ quá nhanh cho mình
      Tôi thường yêu cầu nó tạo ra CLI độc lập hoặc công cụ thay vì đáp án hoàn chỉnh ngay từ đầu
      Tôi cũng hỏi nó đã đi đến kết luận đó bằng cách nào để mở rộng góc nhìn của mình, và bắt nó giải thích cả cách phân loại ở cấp metadata của chính nó
      Đặc biệt với các codebase lớn nơi khó khăn nằm ở kích thước của đồ thị tham chiếu hơn là bản thân khái niệm, tôi cố tận dụng nó theo hướng cải thiện năng lực giải quyết vấn đề của mình
    • Nếu model local chỉ duy trì khoảng cách vừa phải với các model hosted mới nhất, chẳng hạn chỉ chậm hơn 12 tháng, và phần cứng local vẫn tiếp tục dễ tiếp cận thì rủi ro có thể bị giới hạn
      Vì kể cả model hosted biến mất hoặc trở nên quá đắt, ta cũng chỉ mất phần chênh lệch hiệu năng nhỏ đó
      Tất nhiên cả hai giả định này đều hoàn toàn không hiển nhiên, nên đây chỉ là hy vọng vậy thôi
    • Xét đến lợi ích giá cổ phiếu của NVIDIA và OpenAI thì phát biểu như vậy cũng không lạ
      Và việc khẩu hiệu năng suất gấp 10 lần vẫn còn được lặp đi lặp lại đến giờ thì thật lòng rất khó tin
  • GPT-5.5 ra mắt là hôm nay, nhưng việc phản ánh vào ChatGPT và Codex sẽ được triển khai dần trong vài giờ
    Để đảm bảo độ ổn định dịch vụ, họ mở theo từng giai đoạn như các đợt trước, thường bắt đầu từ Pro/Enterprise rồi xuống Plus
    Nếu chưa thấy ngay thì hãy kiểm tra lại sau
    Việc phải chờ ngẫu nhiên có thể gây khó chịu, nhưng họ nói làm vậy vì ổn định
    Người bình luận nói mình làm ở OpenAI

    • Tôi đã thử chạy OpenClaw bằng GPT-5.4 API xhigh, nhưng không thể khiến model thực sự làm việc
      Sau vụ Anthropic OAuthgate tôi muốn dùng nó như một lựa chọn thay thế, nhưng nó thậm chí không hoàn thành nổi những tác vụ phụ nhanh, an toàn và vô hại
      Cuộc hội thoại chỉ lặp đi lặp lại kiểu “đáng lẽ tôi phải làm X ở đây” “đúng rồi, tôi đã thất bại” “vậy giờ hãy làm đi” “lẽ ra phải làm nhưng tôi đã không làm” và xin lỗi vô tận
      Về sau thấy GLM, Kimi, Minimax làm được bình thường thì càng vô lý hơn, nên tôi buộc phải bỏ OpenAI ngay lập tức
    • Nếu có bảng điều khiển rollout công khai thì có lẽ sẽ giảm nhầm lẫn rất nhiều
      Tốt hơn nữa là trong UI có thể hiện model đó tồn tại nhưng chưa mở cho tài khoản của tôi
      Có ETA thì càng tuyệt, nhưng chắc khó dự đoán vì trong lúc rollout có thể phát sinh sự cố
    • Chúc mừng ra mắt
      Tôi tò mò không biết Images 2.0 có được mở cùng trong ChatGPT hay vẫn sẽ là tính năng chỉ dành cho API/Playground thêm một thời gian
    • Với người dùng Plus thì khá ngại thử Codex vì không biết nó sẽ ngốn hạn mức sử dụng đến mức nào
    • Tôi cũng tò mò liệu fine-tuning GPT-5.5 có sắp ra không
  • Hiện vẫn chưa có truy cập API chính thức, nhưng dạo này OpenAI có vẻ gần như ngầm cho phép backdoor Codex API mà OpenClaw đang dùng
    https://twitter.com/steipete/status/2046775849769148838https://twitter.com/romainhuet/status/2038699202834841962
    Backdoor API đó cũng đã có GPT-5.5
    Vì vậy tôi đã chạy ví dụ pelican, https://simonwillison.net/2026/Apr/23/gpt-5-5/#and-some-peli...
    bằng plugin mới cho LLM là https://github.com/simonw/llm-openai-via-codex
    Sau đó tăng reasoning effort lên xhigh thì ra được một con pelican tốt hơn nhiều
    https://gist.github.com/simonw/a6168e4165a258e4d664aeae8e602...

    • Con pelican model local tôi đăng hôm qua còn đẹp hơn cái này
      Dù sao thì bản này bắt chéo chân nên cũng buồn cười
    • Thật lòng thì cái này dở quá
      Đã đến phiên bản 5.5 rồi mà vẫn không vẽ nổi một bộ khung xe đạp cơ bản cho đúng thì sao được
      Bánh trước không có kết cấu để quay ngang mà hình lại không khớp nổi điều đó
    • Việc nó làm được chừng đó với mặc định chỉ dùng 39 reasoning tokens thật ra khá đáng kinh ngạc
      Tôi không rõ chính xác reasoning token là gì, nhưng dù sao số token đó trông vẫn thấp đến mức gây sốc
    • Tôi tò mò không biết kiểu dùng API trực tiếp này có được điều khoản cho phép không
      Tôi nhớ Anthropic cực kỳ ghét kiểu sử dụng như vậy
    • Tôi thắc mắc vì sao nó lại vẽ tệ hơn rất nhiều so với các thứ được đăng gần đây
      Ngay cả các model local open-weight như Qwen đăng hôm qua trông còn khá hơn
  • Mọi người chỉ nói về Mythos gating của Anthropic và màn marketing CyberGym 83%, trong khi OpenAI chỉ đơn giản tung GPT-5.5 ra và điểm là 82%
    Việc ai cũng có thể dùng thử quan trọng hơn nhiều
    Nếu bạn làm ở mảng an ninh mạng tấn công/phòng thủ thì tốt hơn là nên tự sờ vào một model được phát hành thực tế như vậy thay vì nghe quảng bá cường điệu
    Tôi không nghĩ có ngày mình nói điều này, nhưng giờ OpenAI lại trông giống lựa chọn cởi mở hơn

    • Cơn hype thật sự là khi Anthropic vừa công bố Mythos thì mọi người nhận ra OpenAI sẽ tung ra model cạnh tranh chỉ trong vài tuần, và Sam sẽ còn không chặn quyền truy cập
      Vì thế ngành bảo mật hoảng loạn vì họ cho rằng chỉ còn chừng hai tuần để chặn các zero-day mới, rồi sau đó có thể bước vào một mùa mở cửa nơi black hat sẽ tìm ra và khai thác hàng loạt
    • So với Anthropic thì OpenAI vốn đã cởi mở hơn rồi
      Anthropic chưa từng phát hành model công khai, cũng chưa từng tự nguyện công khai mã nguồn Claude Code, và cũng không phát hành tokenizer
    • Có phải OpenAI sẽ nổi nóng khi gặp câu hỏi an ninh mạng, yêu cầu tải lên giấy tờ tùy thân của chính phủ, và nếu không làm thì âm thầm route sang model kém hơn không
      Trong tài liệu cũng ghi rằng các tác vụ liên quan đến an ninh mạng nếu bị hệ thống tự động phát hiện thì có thể fallback về GPT-5.2
      https://developers.openai.com/codex/concepts/cyber-safety
      https://chatgpt.com/cyber
    • Tôi bỏ qua toàn bộ tin tức hype
      Với tôi, Anthropic gần như là hiện thân của sự ba hoa
      Từ sau khi đọc Cialdini thì kiểu dàn dựng của Anthropic trở nên nhàm chán
      Ngược lại, OpenAI rất khôn ngoan. Khi Claude nổi lên, họ biến mất khỏi headline một thời gian, còn bây giờ nhờ lượng người dùng khổng lồ, chỉ cần bám theo chu kỳ phát hành của Anthropic là cũng đủ khiến đối thủ trông lố bịch
      Từ góc nhìn của Anthropic thì có lẽ mỗi phiên bản GPT mới ra sẽ càng thảm hơn, và cục diện trông như OpenAI sẽ chiếm trọn
    • Tôi cũng nghi OpenAI sẽ chuyển câu hỏi cyber sang model ngu hơn
  • Tôi muốn mọi người xem mục giá/hạn mức sử dụng trên trang này
    https://developers.openai.com/codex/pricing?codex-usage-limi...
    Chỉ cần nhìn chênh lệch Local Messages giữa 5.3, 5.4 và 5.5
    Tôi có đọc lập luận rằng 5.5 hiệu quả hơn nên điểm hòa vốn gần giống 5.4, nhưng dù sao xu hướng vẫn là hạn mức chặt hơn và giá cao hơn

    • Theo API thì giá GPT-5.5 gấp 2 lần GPT-5.4, khoảng 4 lần GPT-5.1, và khoảng 10 lần Kimi-2.6
      Bài học rút ra sau trường hợp Anthropic có vẻ là: nhà phát triển sẽ nhanh chóng phụ thuộc, thậm chí nghiện coding agent, nên chỉ cần cải thiện nhỏ thôi họ cũng sẵn sàng trả tiền
  • Prototype đấu trường dungeon 3D làm bằng Codex và GPT trông khá ổn
    Nghe nói Codex lo kiến trúc game, triển khai TypeScript/Three.js, hệ thống chiến đấu, chạm trán kẻ địch và phản hồi HUD, còn texture môi trường do GPT tạo ra, model nhân vật và animation thì làm bằng công cụ tạo asset bên thứ ba
    Có lẽ lý do phần nhìn ổn là vì mesh không phải do GPT-5.5 trực tiếp tạo ra mà do công cụ khác làm
    Nhìn vào đây có cảm giác một thời đại giống kỷ nguyên Flash đang quay lại, nơi gamer hay hobby developer cũng có thể nhanh chóng tạo concept game và công bố ngay lên web
    Đặc biệt là Three.js, dù không phải game engine, lại đang nổi lên như công cụ gần như cốt lõi để thiết kế game bằng AI

    • Tôi đã liên tục thử nghiệm Three.js và AI suốt 3 năm qua, và ở 5.4 tôi cảm nhận được một bước nhảy rất lớn
      Riêng mảng Three.js thì đó là cú nhảy thế hệ đơn lớn nhất, đặc biệt rõ ở shader GLSL, và cả việc tổ chức scene chia thành nhiều trang/component cũng tốt hơn
      Tự tạo một shader hoàn chỉnh từ đầu vẫn còn khó, nhưng khả năng chỉnh sửa shader có sẵn giờ đã khá dùng được
      Ở 5.2 trở xuống nó thật sự làm rất tệ với pattern one canvas, multiple page là giữ một background canvas xuyên nhiều route, còn 5.4 dù vẫn cần nắm tay chỉ việc đôi chút nhưng phản hồi tốt hơn nhiều với các prompt refactor và tối ưu hóa
      Tôi rất háo hức muốn thử xem 5.5 thực tế ra sao
    • Kỷ nguyên giống Flash thật ra đã đến từ lâu rồi, nút thắt cổ chai luôn là sự sáng tạo
    • Tôi đã nhận rất nhiều trợ giúp từ LLM cho các game và dự án dựa trên Three.js, và kết quả rất tốt
      Cả phần lớn hình ảnh hóa chiếc đồng hồ kỳ quặc tôi làm cũng dựa nhiều vào nó
      Nó không phải game engine, nhưng với WebGL 3D trên web thì gần như là tiêu chuẩn thực tế, và vì tồn tại lâu nên cũng có lượng dữ liệu huấn luyện khổng lồ
      Trước thời LLM tôi phụ thuộc nhiều hơn vào Babylon.js, vốn có nhiều tính năng tầng cao hơn
    • Một người quen của tôi đang làm Jamboree
      Trước đây tên là Spielwerk, là ứng dụng tạo và chia sẻ game trên iOS
      Mọi thứ đều dựa trên web nên rất dễ chia sẻ
      https://apps.apple.com/uz/app/jamboree-game-maker/id67473110...
    • LLM vẫn chưa làm được suy luận không gian
      Tôi chưa thử GPT, nhưng với Claude thì dù prompt engineering thế nào cũng không giải được Rubik's Cube, và ngay cả Opus 4.6 cũng chỉ làm đúng khoảng 70% câu đố rồi mắc kẹt
      Mỗi lần thử tốn tới 20 USD nên chi phí cũng khó chịu nổi
      Nếu có thể khiến nó thật sự suy luận được trong 3 chiều thì có lẽ có thể mở rộng cùng cách tiếp cận đó sang các bài toán hiện chưa giải được trong toán học
      Tôi đang nghĩ đến chuyện công khai Rubik's Cube MCP server của mình để xem có ai giải được khối Rubik chỉ bằng prompt không
  • Trong lần công bố này, điều thú vị hơn benchmark là chi tiết Codex đã phân tích vài tuần mẫu lưu lượng thực tế để tăng mức sử dụng GPU, rồi viết thuật toán heuristic tùy biến cho việc chia và cân bằng tác vụ nhằm kéo tốc độ sinh token lên hơn 20%
    Những mảng mà LLM dạng agent có thể làm kiểu tối ưu hiệu quả tính toán như vậy có tác động rất lớn, nhưng dường như lại được kiểm thử ít hơn benchmark
    Theo trải nghiệm của tôi thì ở phần này Opus vẫn hơn GPT/Codex, nhưng vì OpenAI đang thu lợi ích thực tế từ kiểu tối đa hóa hiệu năng này trong bối cảnh áp lực về chi phí và công suất, có lẽ họ sẽ tiếp tục đẩy mạnh hướng này

    • Tôi đang xử lý dữ liệu hiệu năng cao bằng Rust thì gặp một rào cản hiệu năng đòi hỏi phải cải thiện hơn 100 lần
      Tôi chợt nhớ đến màn tối ưu code golf FizzBuzz của Intel từng nổi tiếng trước đây, nên đưa code của mình cho gemini pro và bảo “hãy đề xuất những tối ưu thông minh kiểu đó”, và các gợi ý thật sự rất tuyệt
      LLM ngày nào cũng khiến tôi ngạc nhiên
    • Thực ra đã có KernelBench để kiểm thử tối ưu hóa CUDA kernel
      Và vì công ty nào cũng biết tối ưu hạ tầng và model của chính mình là con đường then chốt để thắng cuộc, nên tôi nghĩ phần này chắc chắn đang được làm rất nghiêm túc
    • Vấn đề là kiểu tuyên bố này quá mang tính kinh nghiệm nên khó tái lập
      Tôi mừng vì mọi thứ đang vượt ra ngoài các benchmark truyền thống như MMLU, nhưng nêu những con số kiểu này mà không có thí nghiệm đối chứng phù hợp thì không giúp ích nhiều
  • Nếu so Mythos và GPT-5.5 bằng số liệu thì ở SWE-bench Pro vẫn còn cách biệt lớn, nhưng ngoài ra nhìn khá giống nhau
    SWE-bench Pro 77.8% so với 58.6%
    Terminal-bench-2.0 82.0% so với 82.7%
    GPQA Diamond 94.6% so với 93.6%
    H. Last Exam 56.8% so với 41.4%
    H. Last Exam (tools) 64.7% so với 52.2%
    BrowseComp 86.9% so với 84.4%, bản Pro là 90.1%
    OSWorld-Verified 79.6% so với 78.7%
    Nguồn số liệu Mythos là https://www.anthropic.com/glasswing

    • Mythos chỉ có ý nghĩa khi thực sự dùng được
      Dùng Opus 4.7 lúc này thì cảm giác mức tự chủ đã bị nerf cực mạnh, bị ràng buộc nặng vì cái gọi là an toàn
      Nên tôi không thật sự chắc nó có đáng gờm như Anthropic quảng cáo hay không
    • Theo trang phát hành của Anthropic, đội Claude đã xác nhận việc ghi nhớ SWE-bench, và bài test thực sự đã có trong dữ liệu huấn luyện
      Ở đây
      https://www.anthropic.com/news/claude-opus-4-7#:~:text=memor...
    • Tôi đã xem qua SWE-bench Verified, và số liệu Mythos để lại khá nhiều nghi vấn
      Tôi lọc trong các bài nộp chính thức tại https://github.com/SWE-bench/experiments/tree/main/evaluatio... chỉ những model từ Sonnet 4 trở đi, rồi cộng trên toàn bộ 500 bài, thì tỷ lệ giải được của tất cả model cộng lại chính xác là 93%
      Thế mà Mythos đạt 93.7%, tức là nó giải được cả những bài mà không model nào khác giải nổi, và khi tôi tự xem các bài đó thì lại càng thấy đáng ngờ
      7% bài còn lại trông gần như không thể giải nếu không thấy trước test patch, và cách giải thực tế lại đi quá xa so với mô tả bài toán đến mức có cảm giác như đang giải một bài hoàn toàn khác
      Tôi không khẳng định Mythos gian lận, nhưng có thể nó nhớ quá rõ nhiều trạng thái của repository đến mức chỉ từ diff trong bộ nhớ nội bộ cũng có thể suy ngược ra phát biểu bài toán thật sự
      Nếu không thì khó mà giải thích được cách nó diễn giải chính xác đến vậy những mô tả bài toán mơ hồ như thế
    • Một benchmark đơn lẻ thì chẳng nói lên điều gì
      Benchmark nào rồi cũng có những kết quả kỳ lạ bật ra
  • Tôi vẫn thấy tiếc vì tỷ lệ hallucination 86%
    Để so thì Opus ở mức 36%
    Nguồn là https://artificialanalysis.ai/models?omniscience=omniscience...

    • Grok là 17% và đó là thấp nhất, còn đa số model đều trên 80% thì nghe rất lạ
      Tùy câu hỏi mà hallucination thậm chí còn gần 100%, nên benchmark này về mặt trực giác khá khó tin
    • Có gì đó không ổn, Haiku mà ra tốt đến vậy thì khó tin quá
    • Tôi đọc đây như một tín hiệu rằng các hãng muốn hành vi đó
      Người đặt câu hỏi có khả năng cao là chưa hiểu trọn vấn đề, nên có vẻ họ thích một câu trả lời tự tin bất kể kết quả ra sao
      Mục tiêu dường như là bán ấn tượng có năng lực hơn là năng lực thực tế của công nghệ
      LLM có thể phá hỏng sản phẩm, nhưng nếu bạn tin cái máy tư duy của các tỷ phú có thể thay thế nhân viên và định đổ 75% ngân sách lao động vào đó thì chỉ còn biết chúc may mắn mà thôi
  • Model này được nói là rất mạnh ở nhiệm vụ dài hạn, và Codex giờ còn có cả heartbeats để có thể tiếp tục kiểm tra trạng thái
    Họ nói rằng cứ giao cho nó một bài toán khó mất vài giờ, có các ràng buộc kiểm chứng được, thì sẽ thấy nó tốt đến đâu
    Người bình luận nói mình làm ở OpenAI

    • Nghe như một tính năng hay và tôi muốn thử sớm
      Dạo này tôi đã quá mệt với các model khác, đặc biệt là Opus, vì cứ hay dừng giữa chừng khi đang làm việc
    • Trong đánh giá nội bộ của Canva, GPT-5.5 đã giải được nhiều thử thách frontier dạng nhiệm vụ dài hạn, và trong nhiều trường hợp đây là model AI đầu tiên mà chúng tôi thử làm được điều đó
      Chúc mừng ra mắt
    • Cần giải thích rõ heartbeats chính xác là gì