4 điểm bởi GN⁺ 2026-04-24 | 1 bình luận | Chia sẻ qua WhatsApp
  • Mô hình kiểu tác tử có thể tự lập kế hoạch cho các tác vụ phức tạp, phối hợp công cụ và thực hiện đến cùng, bao quát rộng từ viết mã và gỡ lỗi đến nghiên cứu web, phân tích dữ liệu, tạo tài liệu·bảng tính và thao tác phần mềm
  • Vẫn giữ per-token latency tương đương GPT-5.4, nhưng hiệu năng ở coding, computer use, lao động tri thức và nghiên cứu khoa học giai đoạn đầu đã tăng lên; đồng thời hoàn thành cùng một tác vụ Codex với ít token hơn nên hiệu quả cũng cao hơn
  • Trong kỹ thuật phần mềm, mô hình đạt Terminal-Bench 2.0 82.7%, Expert-SWE 73.1%, SWE-Bench Pro 58.6%, cho thấy thế mạnh ở triển khai, refactor, gỡ lỗi, kiểm thử, xác minh và duy trì ngữ cảnh trong các codebase lớn
  • Ở các quy trình công việc phổ thông và nghiên cứu, luồng làm việc nối tiếp từ tạo tài liệu·bảng tính·slide, computer use dựa trên thao tác màn hình, phân tích dữ liệu nhiều bước, kiểm chứng giả thuyết đến diễn giải kết quả đã được tăng cường; GPT-5.5 Pro hướng tới độ chính xác và tính bao quát cao hơn
  • Trước khi ra mắt, mô hình đã trải qua các biện pháp an toàn được tăng cường cùng kiểm thử nội bộ và bên ngoài; hiện đang được triển khai dần trên ChatGPT và Codex chủ yếu cho Plus, Pro, Business, Enterprise, cho thấy đây là bước mở rộng phạm vi ứng dụng AI phục vụ công việc thực tế

Tổng quan mô hình và phạm vi triển khai

  • GPT-5.5 được giới thiệu là mô hình hiểu ý định nhanh hơn, có thể tự lập kế hoạch cho các tác vụ nhiều bước đan xen, sử dụng công cụ và theo đuổi đến khi hoàn tất
    • Có thể thực hiện viết mã và gỡ lỗi, nghiên cứu web, phân tích dữ liệu, soạn tài liệu và bảng tính, thao tác phần mềm, cũng như các công việc phải qua lại giữa nhiều công cụ
    • Thay vì phải quản lý chi tiết từng bước, mô hình được thiết kế để có thể giao trọn một công việc phức tạp, chưa được sắp xếp rõ ràng và để nó tiếp tục từ lập kế hoạch, dùng công cụ, xác minh đến xử lý điểm mơ hồ
  • Điểm cải thiện ở các tác vụ kiểu tác tử được nhấn mạnh đặc biệt, với hiệu năng mạnh trong coding, computer use, knowledge work và nghiên cứu khoa học giai đoạn đầu
    • Dù các mô hình lớn hơn thường chậm đi, per-token latency trong dịch vụ thực tế vẫn được giữ ngang GPT-5.4
    • Cùng một tác vụ Codex cũng được hoàn thành với ít token hơn, giúp nâng cao hiệu quả
  • Trước khi phát hành, OpenAI đã tăng cường các biện pháp an toàn, phản ánh kết quả kiểm thử red team nội bộ và bên ngoài, các bài kiểm tra bổ sung về năng lực cybersecurity và biology nâng cao, cùng phản hồi sử dụng sớm từ khoảng 200 đối tác tin cậy
  • Hiện mô hình đang được triển khai dần trên ChatGPT và Codex cho người dùng Plus, Pro, Business, Enterprise; GPT-5.5 Pro được cung cấp trong ChatGPT cho Pro, Business, Enterprise
    • API hiện đang trong quá trình đáp ứng các yêu cầu an toàn riêng, và dự kiến sớm cung cấp GPT-5.5 cùng GPT-5.5 Pro

Kỹ thuật phần mềm và coding kiểu tác tử

  • OpenAI đang xây dựng hạ tầng agentic AI, và trong một năm qua AI đã tăng tốc đáng kể cho kỹ thuật phần mềm
    • Khi GPT-5.5 được đưa vào Codex và ChatGPT, thay đổi này cũng bắt đầu mở rộng sang nghiên cứu khoa học và các công việc máy tính nói chung
  • Theo Artificial Analysis Coding Index, mô hình mang lại trí tuệ hàng đầu với chi phí chỉ bằng một nửa so với các frontier coding model cạnh tranh
  • GPT-5.5 được giới thiệu là mô hình agentic coding mạnh nhất theo tiêu chuẩn của OpenAI
    • Mô hình đạt 82.7% trên Terminal-Bench 2.0, bộ đánh giá các workflow dòng lệnh phức tạp cần lập kế hoạch, lặp và phối hợp công cụ
    • Trên SWE-Bench Pro, mô hình đạt 58.6% và giải quyết được nhiều tác vụ hơn theo kiểu end-to-end trong một lượt duy nhất đối với các issue GitHub thực tế so với các mô hình trước
    • Trong đánh giá nội bộ Expert-SWE, GPT-5.5 cũng vượt GPT-5.4
  • Trên cả ba bài đánh giá coding, mô hình đạt điểm cao hơn trong khi dùng ít token hơn GPT-5.4
  • Thế mạnh trong Codex thể hiện ở toàn bộ quá trình triển khai, refactor, gỡ lỗi, kiểm thử và xác minh
    • Mô hình mạnh hơn trong các hành vi kỹ thuật thực tế như giữ được ngữ cảnh của hệ thống lớn, truy vết nguyên nhân thất bại mơ hồ, xác nhận giả định qua công cụ và phản ánh thay đổi trên toàn bộ codebase

Ví dụ sử dụng cho coding và kiểm thử ban đầu

  • Một prompt triển khai ứng dụng WebGL + Vite sử dụng dữ liệu thực từ Artemis II được đưa ra làm ví dụ
    • Ứng dụng render quỹ đạo của Orion, Moon và Sun bằng dữ liệu vector từ NASA/JPL Horizons
    • Áp dụng tỷ lệ hiển thị để tăng khả năng đọc
    Quảng cáo
  • Các tester ban đầu đánh giá GPT-5.5 hiểu cấu trúc hệ thống tốt hơn
    • Mô hình chỉ ra chính xác hơn điều gì thất bại và vì sao, chỗ nào cần chỉnh sửa, và tác động sẽ lan sang phần nào khác của codebase
  • Dan Shipper đã thử quay lui một sự cố sau phát hành rồi kiểm tra xem mô hình có thể tạo lại một bản redesign ở cùng cấp độ hay không; GPT-5.4 thất bại còn GPT-5.5 thành công
  • Pietro Schirano đã gộp trong khoảng 20 phút chỉ trong một lần một nhánh chứa hàng trăm thay đổi frontend và refactor vào nhánh main đã thay đổi nhiều
  • Trong các bài test với kỹ sư cấp cao, reasoning và autonomy nổi bật hơn so với GPT-5.4 và Claude Opus 4.7
    • Ngay cả khi không có prompt tường minh, mô hình vẫn phát hiện trước vấn đề và dự đoán được cả nhu cầu kiểm thử lẫn review
    • Khi được yêu cầu thiết kế lại comment system của một collaborative markdown editor, kết quả đưa ra là một stack 12-diff gần như đã hoàn thiện
    • Cần ít chỉnh sửa triển khai hơn dự kiến và mức độ tin cậy vào kế hoạch cũng cao hơn GPT-5.4
  • Trích dẫn từ Michael Truell của Cursor cho thấy mô hình duy trì làm việc lâu hơn, phù hợp hơn với các tác vụ phức tạp, chạy dài mà không bị dừng sớm

Lao động tri thức phổ thông và sử dụng máy tính

  • Những thế mạnh thể hiện trong coding cũng được chuyển nguyên vẹn sang các công việc máy tính thường nhật
    • Nhờ hiểu ý định tốt hơn, mô hình thực hiện tự nhiên hơn toàn bộ quy trình từ tìm kiếm thông tin, chọn lọc thông tin quan trọng, dùng công cụ, xác minh kết quả đến biến nguyên liệu thô thành đầu ra hữu ích
  • Trong Codex, GPT-5.5 mạnh hơn GPT-5.4 ở việc tạo tài liệu, bảng tính, slide
    • Các alpha tester cho biết mô hình tốt hơn thế hệ trước trong các tác vụ như operations research, mô hình hóa bảng tính và chuyển đầu vào kinh doanh chưa được sắp xếp thành kế hoạch
  • Khi kết hợp với năng lực computer use của Codex, mô hình có thể nhìn màn hình, nhấp chuột, gõ phím, điều hướng giao diện và qua lại chính xác giữa nhiều công cụ
  • Bên trong OpenAI, mô hình đã được dùng trong các workflow thực tế, và hiện hơn 85% nhân viên dùng Codex mỗi tuần
    • Phạm vi sử dụng trải rộng từ kỹ thuật phần mềm, tài chính, truyền thông, marketing, data science đến quản lý sản phẩm
  • Đội ngũ truyền thông đã phân tích dữ liệu speaking request trong 6 tháng để xây dựng khung chấm điểm·rủi ro, đồng thời kiểm chứng một Slack agent để tự động xử lý các yêu cầu rủi ro thấp và chuyển con người xem xét các yêu cầu rủi ro cao
  • Đội ngũ Finance đã rà soát 24.771 biểu mẫu thuế K-1, tổng cộng 71.637 trang, và nhờ workflow loại trừ thông tin cá nhân đã hoàn thành sớm hơn 2 tuần so với năm trước
  • Ở đội ngũ Go-to-Market, việc tự động hóa khâu tạo báo cáo kinh doanh hằng tuần giúp tiết kiệm 5~10 giờ mỗi tuần

GPT-5.5 Thinking và GPT-5.5 Pro trong ChatGPT

  • GPT-5.5 Thinking của ChatGPT được thiết kế để trả lời các vấn đề khó nhanh hơn, đồng thời giúp xử lý công việc phức tạp hiệu quả hơn bằng các câu trả lời thông minh và súc tích hơn
    • mạnh về coding, research, tổng hợp và phân tích thông tin, công việc tập trung vào tài liệu, và đặc biệt có lợi khi dùng plugin
  • GPT-5.5 Pro nhắm tới các tác vụ khó hơn và chất lượng cao hơn, đồng thời độ trễ giảm giúp tăng khả năng ứng dụng trong công việc thực tế
    • so với GPT-5.4 Pro, phản hồi trở nên toàn diện hơn, cấu trúc tốt hơn, chính xác hơn, liên quan hơn và hữu ích hơn
    • đặc biệt mạnh trong business, legal, education và data science
    Quảng cáo
  • Mô hình cũng cho thấy các chỉ số cao trong những benchmark gần với công việc chuyên môn
    • ghi nhận GDPval 84.9%, OSWorld-Verified 78.7%, Tau2-bench Telecom 98.0%
    • Tau2-bench Telecom được thực hiện không cần prompt tuning
    • đồng thời cũng công bố FinanceAgent 60.0%, internal investment-banking modeling tasks 88.5%, OfficeQA Pro 54.1%
  • Trong trích dẫn của Justin Boitano từ NVIDIA, mô hình được cung cấp trên hệ thống NVIDIA GB200 NVL72, mang lại luồng triển khai khả năng end-to-end bằng natural language prompt, rút thời gian debug từ vài ngày xuống vài giờ, và biến các thử nghiệm vốn mất nhiều tuần thành công việc hoàn thành qua một đêm

Quy trình nghiên cứu khoa học và nghiên cứu kỹ thuật

  • GPT-5.5 cũng cho thấy hiệu năng cải thiện trong quy trình nghiên cứu khoa học và kỹ thuật
    • vượt ra ngoài mức chỉ trả lời câu hỏi khó, mô hình duy trì tốt hơn vòng lặp từ khám phá ý tưởng, thu thập bằng chứng, kiểm chứng giả định, diễn giải kết quả cho đến quyết định thí nghiệm tiếp theo
  • Trên GeneBench, mô hình cho thấy cải thiện rõ rệt so với GPT-5.4
    • đây là bài đánh giá mới nhắm vào phân tích dữ liệu nhiều bước trong genetics và quantitative biology
    • xử lý dữ liệu mơ hồ hoặc có lỗi, confounder ẩn, thất bại QC, cũng như việc triển khai và diễn giải các kỹ thuật thống kê hiện đại
    • các tác vụ ở đây tương đương dự án kéo dài nhiều ngày ngay cả với chuyên gia khoa học
  • Trên BixBench, mô hình cũng ghi nhận hiệu năng dẫn đầu trong số các model có điểm số công khai
    • benchmark này được giới thiệu là phản ánh bioinformatics và phân tích dữ liệu thực tế
    • cho thấy tiềm năng tăng tốc ở cấp độ co-scientist tại tuyến đầu của biomedical research
  • Phiên bản nội bộ GPT-5.5 và custom harness cũng được dùng để tìm chứng minh mới cho Ramsey numbers
    • liên kết tới chứng minh mới
    • mô hình đã tìm ra chứng minh cho một thực tế tiệm cận về off-diagonal Ramsey numbers lâu nay trong combinatorics, sau đó được kiểm chứng bằng Lean
    • đóng góp không chỉ ở mã hay diễn giải mà còn ở các lập luận toán học hữu ích trong những lĩnh vực nghiên cứu cốt lõi
  • Các tester ban đầu sử dụng GPT-5.5 Pro gần với vai trò đối tác nghiên cứu hơn là cỗ máy trả lời một lần
    • họ dùng mô hình để phản biện bản thảo nhiều vòng, stress test lập luận kỹ thuật, đề xuất phân tích, và làm việc cùng ngữ cảnh từ code, note và PDF
    • mô hình hỗ trợ tốt hơn luồng công việc nối từ câu hỏi đến thí nghiệm rồi đến đầu ra

Các trường hợp nghiên cứu

  • Derya Unutmaz của Jackson Laboratory for Genomic Medicine đã dùng GPT-5.5 Pro để phân tích dataset biểu hiện gene gồm 62 mẫu, khoảng 28.000 gene
    • mô hình tạo ra báo cáo nghiên cứu chi tiết, không chỉ tóm tắt kết quả mà còn làm lộ ra các câu hỏi và insight then chốt
    • nếu do đội ngũ của ông thực hiện, công việc đó có quy mô phải mất nhiều tháng
  • Bartosz Naskręcki của Adam Mickiewicz University đã dùng Codex để tạo một ứng dụng algebraic-geometry trong 11 phút chỉ với một prompt duy nhất
    • ứng dụng trực quan hóa giao của hai quadratic surface và chuyển đường cong kết quả sang Weierstrass model
    • sau đó còn làm cho việc trực quan hóa singularity ổn định hơn và bổ sung exact coefficients có thể tái sử dụng cho các công việc tiếp theo
    • Codex cũng hỗ trợ triển khai các quy trình tùy biến về trực quan hóa toán học và computer-algebra vốn trước đây cần công cụ chuyên dụng
    Quảng cáo
  • Credit: Bartosz Naskręcki
  • Trong trích dẫn của Brandon White từ Axiom Bio, mô hình suy luận trên biochemical dataset khổng lồ để dự đoán human drug outcomes, và cho thấy mức cải thiện độ chính xác có ý nghĩa trong các bài đánh giá drug discovery khó nhất

Hạ tầng suy luận và tối ưu hiệu năng

  • Để phục vụ GPT-5.5 với độ trễ tương đương GPT-5.4, cần phải thiết kế lại suy luận như một hệ thống tích hợp thay vì một tập hợp tối ưu hóa riêng lẻ
    • GPT-5.5 được đồng thiết kế, huấn luyện và phục vụ với giả định nền tảng là các hệ thống NVIDIA GB200 và GB300 NVL72
  • Codex và chính GPT-5.5 đã đóng góp trực tiếp vào việc đạt các mục tiêu hiệu năng
    • Codex được dùng để nhanh chóng chuyển ý tưởng thành các triển khai có thể benchmark, phác thảo cách tiếp cận, kết nối thí nghiệm và tìm ra các tối ưu hóa cần đầu tư sâu hơn
    • GPT-5.5 giúp xác định và triển khai các điểm cải tiến cốt lõi bên trong stack
    • cuối cùng, mô hình cũng góp phần cải thiện hạ tầng đang phục vụ chính nó
  • Một ví dụ cải tiến tiêu biểu là load balancing và partitioning heuristics
    • trước đây, các request trên accelerator được chia thành số lượng chunk cố định để request lớn và nhỏ cùng chạy trên một GPU
    • nhưng số lượng chunk tĩnh không phải lúc nào cũng tối ưu cho mọi dạng lưu lượng
    • Codex đã phân tích các mẫu production traffic trong nhiều tuần và viết thuật toán heuristic tùy biến để phân chia, cân bằng công việc tối ưu
    • nhờ đó, token generation speed tăng hơn 20%

An ninh mạng và các biện pháp bảo vệ

  • Việc chuẩn bị để đưa ra thế giới một mô hình giỏi phát hiện lỗ hổng và vá lỗi gần giống một môn thể thao đồng đội, và cần khả năng phục hồi của toàn bộ hệ sinh thái cho kỷ nguyên phòng thủ mạng tiếp theo
  • Năng lực an ninh mạng của các mô hình frontier đang ngày càng mạnh hơn, và vì năng lực này sẽ được phổ biến rộng rãi, nên con đường để nó được dùng nhằm tăng tốc phòng thủ mạng và củng cố hệ sinh thái trở nên quan trọng
  • GPT-5.5 được định vị là một bước tiến dần nhưng quan trọng hướng tới AI giải các vấn đề khó như an ninh mạng
    • Ở thời GPT-5.2, OpenAI đã chủ động triển khai cyber safeguards để hạn chế khả năng bị lạm dụng cho mục đích mạng
    • Với GPT-5.5, OpenAI triển khai các bộ phân loại nghiêm ngặt hơn đối với rủi ro mạng tiềm ẩn, và ban đầu điều này có thể gây khó chịu cho một số người dùng
  • Trong nhiều năm, OpenAI đã xử lý an ninh mạng như một hạng mục riêng trong Preparedness Framework, đồng thời liên tục điều chỉnh các biện pháp giảm thiểu theo mức nâng cao năng lực
  • OpenAI triển khai các biện pháp bảo vệ ở mức dẫn đầu ngành tương ứng với cấp độ năng lực mạng này
    • OpenAI lần đầu đưa vào các biện pháp bảo vệ dành riêng cho an ninh mạng ở GPT-5.2, rồi sau đó thử nghiệm, tinh chỉnh và mở rộng qua mỗi lần phát hành
    • Với GPT-5.5, OpenAI tiếp tục tăng cường bảo vệ đối với hoạt động rủi ro cao, các yêu cầu mạng nhạy cảm và hành vi lạm dụng lặp lại
    • Việc mở rộng quyền truy cập là nhờ đầu tư vào độ an toàn của mô hình, xác thực người dùng và giám sát việc sử dụng không được phép
    • OpenAI đã cùng các chuyên gia bên ngoài phát triển, thử nghiệm và cải thiện độ bền vững trong nhiều tháng
    • OpenAI giúp nhà phát triển bảo vệ mã dễ hơn, đồng thời áp dụng kiểm soát mạnh hơn với các quy trình làm việc mạng mà tác nhân xấu có thể dễ gây hại
  • Việc mở rộng quyền truy cập cho mục đích phòng thủ cũng được triển khai song song
    • Thông qua Trusted Access for Cyber, OpenAI cung cấp quyền truy cập vào các mô hình permissive hơn về cyber, với điểm khởi đầu là Codex
    • Với người dùng đã được xác minh đáp ứng các trust signals cụ thể, OpenAI cung cấp các tính năng an ninh mạng nâng cao của GPT-5.5 với ít hạn chế hơn
    • Các tổ chức phụ trách bảo vệ hạ tầng trọng yếu có thể đăng ký truy cập các mô hình permissive về cyber như GPT-5.4-Cyber
    • Mục tiêu là cung cấp cho những người làm công tác phòng thủ đã được xác minh các công cụ phục vụ công việc bảo mật chính đáng với ít trở ngại hơn
    • Liên kết đăng ký: chatgpt.com/cyber
  • Nội dung này cũng bao gồm hợp tác với các đối tác chính phủ
    • OpenAI đang cùng họ khám phá cách AI tiên tiến có thể hỗ trợ các cán bộ công phụ trách bảo vệ hạ tầng quan trọng như hệ thống số bảo vệ dữ liệu thuế, lưới điện và hệ thống cấp nước sinh hoạt của cộng đồng địa phương
    Quảng cáo
  • Năng lực biological/chemical và cybersecurity của GPT-5.5 được phân loại là High theo Preparedness Framework
    • Dù chưa đạt đến mức năng lực an ninh mạng Critical, các đánh giá và thử nghiệm cho thấy năng lực mạng của GPT-5.5 đã cao hơn GPT-5.4 một bậc
  • Trước khi phát hành, GPT-5.5 đã trải qua toàn bộ quy trình safety and governance
    • Bao gồm đánh giá preparedness, thử nghiệm theo từng lĩnh vực, đánh giá mục tiêu mới dành cho biology và cybersecurity nâng cao, cùng thử nghiệm độ vững chắc với chuyên gia bên ngoài
    • Chi tiết được cung cấp trong GPT-5.5 system card
  • Cách tiếp cận này là một phần của chiến lược AI resilience cần có trong kỷ nguyên các mô hình mạnh hơn
    • AI mạnh cần được cung cấp cả cho những người bảo vệ hệ thống, tổ chức và công chúng; quyền truy cập dựa trên độ tin cậy, các biện pháp bảo vệ được tăng cường tương ứng với năng lực, và năng lực vận hành để phát hiện rồi ứng phó với lạm dụng nghiêm trọng được nêu là các hướng đi cốt lõi

Các gói khả dụng và giá

  • Hiện tại trên ChatGPT và Codex, GPT-5.5 đang được triển khai cho người dùng Plus, Pro, Business và Enterprise, còn GPT-5.5 Pro được cung cấp cho Pro, Business và Enterprise trên ChatGPT
  • Trên ChatGPT, GPT-5.5 Thinking được cung cấp cho Plus, Pro, Business và Enterprise
    • GPT-5.5 Pro nhắm tới các câu hỏi khó hơn và độ chính xác cao hơn, đồng thời khả dụng trên Pro, Business và Enterprise
  • Trên Codex, GPT-5.5 được cung cấp cho các gói Plus, Pro, Business, Enterprise, Edu, Go và có 400K context window
    • Fast mode cũng được cung cấp, với tốc độ sinh token nhanh hơn 1,5 lần và chi phí gấp 2,5 lần
  • gpt-5.5 cho nhà phát triển API sẽ sớm có mặt trên Responses API và Chat Completions API
    • Được niêm yết ở mức 5 USD cho mỗi 1M token đầu vào, 30 USD cho mỗi 1M token đầu ra, với 1M context window
    • Giá Batch và Flex bằng một nửa mức giá API tiêu chuẩn, còn Priority processing có mức giá gấp 2,5 lần
  • gpt-5.5-pro cũng dự kiến ra mắt trên API và hướng tới độ chính xác cao hơn
    • Được ghi ở mức 30 USD cho mỗi 1M token đầu vào và 180 USD cho mỗi 1M token đầu ra
    • Thông tin giá đầy đủ được liên kết tại pricing page
  • GPT-5.5 đắt hơn GPT-5.4, nhưng cũng có trí tuệ và hiệu quả token cao hơn
    • Trên Codex, OpenAI điều chỉnh trải nghiệm để với đa số người dùng, GPT-5.5 cho kết quả tốt hơn với ít token hơn so với GPT-5.4
    • OpenAI tiếp tục cung cấp hạn mức sử dụng hào phóng trên toàn bộ các tầng đăng ký
    Quảng cáo

Benchmark chi tiết

  • Coding

    • Trên SWE-Bench Pro (Public), GPT-5.5 đạt 58.6%, GPT-5.4 đạt 57.7%, Claude Opus 4.7 đạt 64.3%, Gemini 3.1 Pro đạt 54.2%
    • Terminal-Bench 2.0: GPT-5.5 82.7%, GPT-5.4 75.1%, Claude Opus 4.7 69.4%, Gemini 3.1 Pro 68.5%
    • Expert-SWE (Internal) được công bố với GPT-5.5 73.1%, GPT-5.4 68.5%
  • Công việc chuyên môn

    • GDPval (wins or ties): GPT-5.5 84.9%, GPT-5.4 83.0%, GPT-5.5 Pro 82.3%, GPT-5.4 Pro 82.0%, Claude Opus 4.7 80.3%, Gemini 3.1 Pro 67.3%
    • FinanceAgent v1.1: GPT-5.5 60.0%, GPT-5.4 56.0%, GPT-5.4 Pro 61.5%, Claude Opus 4.7 64.4%, Gemini 3.1 Pro 59.7%
    • Investment Banking Modeling Tasks (Internal): GPT-5.5 88.5%, GPT-5.4 87.3%, GPT-5.5 Pro 88.6%, GPT-5.4 Pro 83.6%
    • OfficeQA Pro: GPT-5.5 54.1%, GPT-5.4 53.2%, Claude Opus 4.7 43.6%, Gemini 3.1 Pro 18.1%
  • Sử dụng máy tính và thị giác

    • OSWorld-Verified: GPT-5.5 78.7%, GPT-5.4 75.0%, Claude Opus 4.7 78.0%
    • MMMU Pro (no tools): GPT-5.5 và GPT-5.4 cùng đạt 81.2%, Gemini 3.1 Pro đạt 80.5%
    • MMMU Pro (with tools): GPT-5.5 83.2%, GPT-5.4 82.1%
  • Sử dụng công cụ

    • BrowseComp: GPT-5.5 84.4%, GPT-5.4 82.7%, GPT-5.5 Pro 90.1%, GPT-5.4 Pro 89.3%, Claude Opus 4.7 79.3%, Gemini 3.1 Pro 85.9%
    • MCP Atlas: GPT-5.5 75.3%, GPT-5.4 70.6%, Claude Opus 4.7 79.1%, Gemini 3.1 Pro 78.2%
    • Toolathlon: GPT-5.5 55.6%, GPT-5.4 54.6%, Gemini 3.1 Pro 48.8%
    • Tau2-bench Telecom: theo prompt gốc, GPT-5.5 đạt 98.0%, GPT-5.4 đạt 92.8%
    • Chú thích của MCP Atlas ghi rằng đây là kết quả sau bản cập nhật mới nhất tháng 4/2026 của Scale AI
    • Chú thích của Tau2-bench Telecom nêu rõ đây là kết quả được đánh giá không có prompt adjustment, và loại trừ các kết quả prompt adjustment từ các phòng nghiên cứu khác
  • Học thuật

    • GeneBench: GPT-5.5 25.0%, GPT-5.4 19.0%, GPT-5.5 Pro 33.2%, GPT-5.4 Pro 25.6%
    • FrontierMath Tier 1–3: GPT-5.5 51.7%, GPT-5.4 47.6%, GPT-5.5 Pro 52.4%, GPT-5.4 Pro 50.0%, Claude Opus 4.7 43.8%, Gemini 3.1 Pro 36.9%
    • FrontierMath Tier 4: GPT-5.5 35.4%, GPT-5.4 27.1%, GPT-5.5 Pro 39.6%, GPT-5.4 Pro 38.0%, Claude Opus 4.7 22.9%, Gemini 3.1 Pro 16.7%
    • BixBench: GPT-5.5 80.5%, GPT-5.4 74.0%
    • GPQA Diamond: GPT-5.5 93.6%, GPT-5.4 92.8%, GPT-5.4 Pro 94.4%, Claude Opus 4.7 94.2%, Gemini 3.1 Pro 94.3%
    • Humanity's Last Exam (no tools): GPT-5.5 41.4%, GPT-5.4 39.8%, GPT-5.5 Pro 43.1%, GPT-5.4 Pro 42.7%, Claude Opus 4.7 46.9%, Gemini 3.1 Pro 44.4%
    • Humanity's Last Exam (with tools): GPT-5.5 52.2%, GPT-5.4 52.1%, GPT-5.5 Pro 57.2%, GPT-5.4 Pro 58.7%, Claude Opus 4.7 54.7%, Gemini 3.1 Pro 51.4%
  • An ninh mạng

    • Capture-the-Flags challenge tasks (Internal): GPT-5.5 88.1%, GPT-5.4 83.7%
    • CyberGym: GPT-5.5 81.8%, GPT-5.4 79.0%, Claude Opus 4.7 73.1%
    • Chú thích cho biết đây là kết quả sau khi mở rộng CTF khó nhất được nêu trong system card và bổ sung thêm các thử thách độ khó cao khác
  • Ngữ cảnh dài

    • Graphwalks BFS 256k f1: GPT-5.5 73.7%, GPT-5.4 62.5%, Claude Opus 4.7 76.9%
    • Graphwalks BFS 1mil f1: GPT-5.5 45.4%, GPT-5.4 9.4%, Claude Opus 4.6 đạt 41.2%
    • Graphwalks parents 256k f1: GPT-5.5 90.1%, GPT-5.4 82.8%, Claude Opus 4.7 93.6%
    • Graphwalks parents 1mil f1: GPT-5.5 58.5%, GPT-5.4 44.4%, Claude Opus 4.6 đạt 72.0%
    • OpenAI MRCR v2 8-needle được trình bày theo từng độ dài ngữ cảnh, lần lượt là 4K-8K 98.1%, 8K-16K 93.0%, 16K-32K 96.5%, 32K-64K 90.0%, 64K-128K 83.1%, 128K-256K 87.5%, 256K-512K 81.5%, 512K-1M 74.0%
    • Ở cùng hạng mục, GPT-5.4 lần lượt đạt 97.3%, 91.4%, 97.2%, 90.5%, 86.0%, 79.3%, 57.5%, 36.6%
    • Ở khoảng 128K-256K có ghi Claude Opus 4.7 đạt 59.2%, còn ở khoảng 512K-1M có ghi Claude Opus 4.7 đạt 32.2%
  • Suy luận trừu tượng

    • ARC-AGI-1 (Verified): GPT-5.5 95.0%, GPT-5.4 93.7%, GPT-5.4 Pro 94.5%, Claude Opus 4.7 93.5%, Gemini 3.1 Pro 98.0%
    • ARC-AGI-2 (Verified): GPT-5.5 85.0%, GPT-5.4 73.3%, GPT-5.4 Pro 83.3%, Claude Opus 4.7 75.8%, Gemini 3.1 Pro 77.1%
    • Có nêu rõ rằng các đánh giá của dòng GPT được thực hiện trong môi trường nghiên cứu với reasoning effort đặt ở xhigh, và trong một số trường hợp đầu ra có thể hơi khác so với ChatGPT trong môi trường sản xuất

1 bình luận

 
GN⁺ 2026-04-24
Ý kiến trên Hacker News
  • Việc nói rằng mất quyền truy cập GPT-5.5 ở NVIDIA giống như mất tay chân nghe rùng rợn hơn nhiều so với chủ ý ban đầu
    Có vẻ đây là câu chuyện áp dụng chung cho toàn bộ mức độ phụ thuộc vào các mô hình coding tiên phong, và hiệu năng càng tốt thì càng nhanh dựa vào nó khi lập trình
    Tự mình trải qua rồi mới thấy cảm giác khó chịu lớn đến mức nào. Giờ thay vì kiên nhẫn ngồi code tay thì làm một phát bằng model nhanh hơn cỡ 10 lần, và vai trò của tôi cũng đã thay đổi
    Khả năng tạo ra được rất nhiều thứ vận hành là điều ấn tượng, nhưng khi hết token thì công việc thực chất cũng dừng lại
    Khi Claude chết thì đi dạo còn có leverage hơn là cố ép mình viết code. Một giờ sau nếu Claude sống lại, tôi vẫn tiến xa hơn là cố bám lấy đoạn code do LLM tạo ra rồi mệt mỏi giải quyết vấn đề thủ công
    Dù sao thì trạng thái này cứ khiến tôi hơi bất an

    • Cảm giác như chính lý thuyết lao động đang bị LLM lật ngược
      Thị trường hiện tại đứng trên giả định rằng lao động bị nguyên tử hóa và có ít quyền thương lượng, còn tư bản thì có sức mặc cả lớn hơn nhiều và gần như quyết định giá lao động
      Nhưng nếu thứ lao động đó lại do một công ty còn lớn hơn khác cung cấp, và thứ lao động ấy khác với lao động truyền thống ở chỗ có thể bị cắt nguồn vô thời hạn thì sao
      Giờ lao động đã trở thành một dạng tư bản khác, và tư bản thì không cần ăn cơm
      Những công ty không dùng model tự chủ có lẽ sẽ phải tự thân nếm hậu quả đó
    • Cũng có thể xem chuyện này không khác mấy so với việc dùng lớp trừu tượng thư viện
      Xây nhanh hơn, lượng code tự viết ít đi, còn quản lý trạng thái nội bộ hay bộ nhớ thì thư viện lo thay
      Có người sẽ thấy khó chịu khi phải dựa vào lời gọi thư viện thay vì tự đụng tay vào con trỏ và malloc(), nhưng với người khác đó lại là cảm giác giải phóng vì giúp tập trung vào kiến trúc ở tầng cao hơn mà không sa vào việc chuyển ngữ cảnh xuống mức thấp
    • Có một cách dùng có chủ ý để không tự đào mồ quá nhanh cho mình
      Tôi thường yêu cầu nó tạo ra CLI độc lập hoặc công cụ thay vì đáp án hoàn chỉnh ngay từ đầu
      Tôi cũng hỏi nó đã đi đến kết luận đó bằng cách nào để mở rộng góc nhìn của mình, và bắt nó giải thích cả cách phân loại ở cấp metadata của chính nó
      Đặc biệt với các codebase lớn nơi khó khăn nằm ở kích thước của đồ thị tham chiếu hơn là bản thân khái niệm, tôi cố tận dụng nó theo hướng cải thiện năng lực giải quyết vấn đề của mình
    • Nếu model local chỉ duy trì khoảng cách vừa phải với các model hosted mới nhất, chẳng hạn chỉ chậm hơn 12 tháng, và phần cứng local vẫn tiếp tục dễ tiếp cận thì rủi ro có thể bị giới hạn
      Vì kể cả model hosted biến mất hoặc trở nên quá đắt, ta cũng chỉ mất phần chênh lệch hiệu năng nhỏ đó
      Tất nhiên cả hai giả định này đều hoàn toàn không hiển nhiên, nên đây chỉ là hy vọng vậy thôi
    • Xét đến lợi ích giá cổ phiếu của NVIDIA và OpenAI thì phát biểu như vậy cũng không lạ
      Và việc khẩu hiệu năng suất gấp 10 lần vẫn còn được lặp đi lặp lại đến giờ thì thật lòng rất khó tin
  • GPT-5.5 ra mắt là hôm nay, nhưng việc phản ánh vào ChatGPT và Codex sẽ được triển khai dần trong vài giờ
    Để đảm bảo độ ổn định dịch vụ, họ mở theo từng giai đoạn như các đợt trước, thường bắt đầu từ Pro/Enterprise rồi xuống Plus
    Nếu chưa thấy ngay thì hãy kiểm tra lại sau
    Việc phải chờ ngẫu nhiên có thể gây khó chịu, nhưng họ nói làm vậy vì ổn định
    Người bình luận nói mình làm ở OpenAI

    • Tôi đã thử chạy OpenClaw bằng GPT-5.4 API xhigh, nhưng không thể khiến model thực sự làm việc
      Sau vụ Anthropic OAuthgate tôi muốn dùng nó như một lựa chọn thay thế, nhưng nó thậm chí không hoàn thành nổi những tác vụ phụ nhanh, an toàn và vô hại
      Cuộc hội thoại chỉ lặp đi lặp lại kiểu “đáng lẽ tôi phải làm X ở đây” “đúng rồi, tôi đã thất bại” “vậy giờ hãy làm đi” “lẽ ra phải làm nhưng tôi đã không làm” và xin lỗi vô tận
      Về sau thấy GLM, Kimi, Minimax làm được bình thường thì càng vô lý hơn, nên tôi buộc phải bỏ OpenAI ngay lập tức
    • Nếu có bảng điều khiển rollout công khai thì có lẽ sẽ giảm nhầm lẫn rất nhiều
      Tốt hơn nữa là trong UI có thể hiện model đó tồn tại nhưng chưa mở cho tài khoản của tôi
      Có ETA thì càng tuyệt, nhưng chắc khó dự đoán vì trong lúc rollout có thể phát sinh sự cố
    • Chúc mừng ra mắt
      Tôi tò mò không biết Images 2.0 có được mở cùng trong ChatGPT hay vẫn sẽ là tính năng chỉ dành cho API/Playground thêm một thời gian
    • Với người dùng Plus thì khá ngại thử Codex vì không biết nó sẽ ngốn hạn mức sử dụng đến mức nào
    • Tôi cũng tò mò liệu fine-tuning GPT-5.5 có sắp ra không
  • Hiện vẫn chưa có truy cập API chính thức, nhưng dạo này OpenAI có vẻ gần như ngầm cho phép backdoor Codex API mà OpenClaw đang dùng
    https://twitter.com/steipete/status/2046775849769148838https://twitter.com/romainhuet/status/2038699202834841962
    Backdoor API đó cũng đã có GPT-5.5
    Vì vậy tôi đã chạy ví dụ pelican, https://simonwillison.net/2026/Apr/23/gpt-5-5/#and-some-peli...
    bằng plugin mới cho LLM là https://github.com/simonw/llm-openai-via-codex
    Sau đó tăng reasoning effort lên xhigh thì ra được một con pelican tốt hơn nhiều
    https://gist.github.com/simonw/a6168e4165a258e4d664aeae8e602...

    • Con pelican model local tôi đăng hôm qua còn đẹp hơn cái này
      Dù sao thì bản này bắt chéo chân nên cũng buồn cười
    • Thật lòng thì cái này dở quá
      Đã đến phiên bản 5.5 rồi mà vẫn không vẽ nổi một bộ khung xe đạp cơ bản cho đúng thì sao được
      Bánh trước không có kết cấu để quay ngang mà hình lại không khớp nổi điều đó
    • Việc nó làm được chừng đó với mặc định chỉ dùng 39 reasoning tokens thật ra khá đáng kinh ngạc
      Tôi không rõ chính xác reasoning token là gì, nhưng dù sao số token đó trông vẫn thấp đến mức gây sốc
    • Tôi tò mò không biết kiểu dùng API trực tiếp này có được điều khoản cho phép không
      Tôi nhớ Anthropic cực kỳ ghét kiểu sử dụng như vậy
    • Tôi thắc mắc vì sao nó lại vẽ tệ hơn rất nhiều so với các thứ được đăng gần đây
      Ngay cả các model local open-weight như Qwen đăng hôm qua trông còn khá hơn
  • Mọi người chỉ nói về Mythos gating của Anthropic và màn marketing CyberGym 83%, trong khi OpenAI chỉ đơn giản tung GPT-5.5 ra và điểm là 82%
    Việc ai cũng có thể dùng thử quan trọng hơn nhiều
    Nếu bạn làm ở mảng an ninh mạng tấn công/phòng thủ thì tốt hơn là nên tự sờ vào một model được phát hành thực tế như vậy thay vì nghe quảng bá cường điệu
    Tôi không nghĩ có ngày mình nói điều này, nhưng giờ OpenAI lại trông giống lựa chọn cởi mở hơn

    • Cơn hype thật sự là khi Anthropic vừa công bố Mythos thì mọi người nhận ra OpenAI sẽ tung ra model cạnh tranh chỉ trong vài tuần, và Sam sẽ còn không chặn quyền truy cập
      Vì thế ngành bảo mật hoảng loạn vì họ cho rằng chỉ còn chừng hai tuần để chặn các zero-day mới, rồi sau đó có thể bước vào một mùa mở cửa nơi black hat sẽ tìm ra và khai thác hàng loạt
    • So với Anthropic thì OpenAI vốn đã cởi mở hơn rồi
      Anthropic chưa từng phát hành model công khai, cũng chưa từng tự nguyện công khai mã nguồn Claude Code, và cũng không phát hành tokenizer
    • Có phải OpenAI sẽ nổi nóng khi gặp câu hỏi an ninh mạng, yêu cầu tải lên giấy tờ tùy thân của chính phủ, và nếu không làm thì âm thầm route sang model kém hơn không
      Trong tài liệu cũng ghi rằng các tác vụ liên quan đến an ninh mạng nếu bị hệ thống tự động phát hiện thì có thể fallback về GPT-5.2
      https://developers.openai.com/codex/concepts/cyber-safety
      https://chatgpt.com/cyber
    • Tôi bỏ qua toàn bộ tin tức hype
      Với tôi, Anthropic gần như là hiện thân của sự ba hoa
      Từ sau khi đọc Cialdini thì kiểu dàn dựng của Anthropic trở nên nhàm chán
      Ngược lại, OpenAI rất khôn ngoan. Khi Claude nổi lên, họ biến mất khỏi headline một thời gian, còn bây giờ nhờ lượng người dùng khổng lồ, chỉ cần bám theo chu kỳ phát hành của Anthropic là cũng đủ khiến đối thủ trông lố bịch
      Từ góc nhìn của Anthropic thì có lẽ mỗi phiên bản GPT mới ra sẽ càng thảm hơn, và cục diện trông như OpenAI sẽ chiếm trọn
    • Tôi cũng nghi OpenAI sẽ chuyển câu hỏi cyber sang model ngu hơn
  • Tôi muốn mọi người xem mục giá/hạn mức sử dụng trên trang này
    https://developers.openai.com/codex/pricing?codex-usage-limi...
    Chỉ cần nhìn chênh lệch Local Messages giữa 5.3, 5.4 và 5.5
    Tôi có đọc lập luận rằng 5.5 hiệu quả hơn nên điểm hòa vốn gần giống 5.4, nhưng dù sao xu hướng vẫn là hạn mức chặt hơn và giá cao hơn

    • Theo API thì giá GPT-5.5 gấp 2 lần GPT-5.4, khoảng 4 lần GPT-5.1, và khoảng 10 lần Kimi-2.6
      Bài học rút ra sau trường hợp Anthropic có vẻ là: nhà phát triển sẽ nhanh chóng phụ thuộc, thậm chí nghiện coding agent, nên chỉ cần cải thiện nhỏ thôi họ cũng sẵn sàng trả tiền
  • Prototype đấu trường dungeon 3D làm bằng Codex và GPT trông khá ổn
    Nghe nói Codex lo kiến trúc game, triển khai TypeScript/Three.js, hệ thống chiến đấu, chạm trán kẻ địch và phản hồi HUD, còn texture môi trường do GPT tạo ra, model nhân vật và animation thì làm bằng công cụ tạo asset bên thứ ba
    Có lẽ lý do phần nhìn ổn là vì mesh không phải do GPT-5.5 trực tiếp tạo ra mà do công cụ khác làm
    Nhìn vào đây có cảm giác một thời đại giống kỷ nguyên Flash đang quay lại, nơi gamer hay hobby developer cũng có thể nhanh chóng tạo concept game và công bố ngay lên web
    Đặc biệt là Three.js, dù không phải game engine, lại đang nổi lên như công cụ gần như cốt lõi để thiết kế game bằng AI

    • Tôi đã liên tục thử nghiệm Three.js và AI suốt 3 năm qua, và ở 5.4 tôi cảm nhận được một bước nhảy rất lớn
      Riêng mảng Three.js thì đó là cú nhảy thế hệ đơn lớn nhất, đặc biệt rõ ở shader GLSL, và cả việc tổ chức scene chia thành nhiều trang/component cũng tốt hơn
      Tự tạo một shader hoàn chỉnh từ đầu vẫn còn khó, nhưng khả năng chỉnh sửa shader có sẵn giờ đã khá dùng được
      Ở 5.2 trở xuống nó thật sự làm rất tệ với pattern one canvas, multiple page là giữ một background canvas xuyên nhiều route, còn 5.4 dù vẫn cần nắm tay chỉ việc đôi chút nhưng phản hồi tốt hơn nhiều với các prompt refactor và tối ưu hóa
      Tôi rất háo hức muốn thử xem 5.5 thực tế ra sao
    • Kỷ nguyên giống Flash thật ra đã đến từ lâu rồi, nút thắt cổ chai luôn là sự sáng tạo
    • Tôi đã nhận rất nhiều trợ giúp từ LLM cho các game và dự án dựa trên Three.js, và kết quả rất tốt
      Cả phần lớn hình ảnh hóa chiếc đồng hồ kỳ quặc tôi làm cũng dựa nhiều vào nó
      Nó không phải game engine, nhưng với WebGL 3D trên web thì gần như là tiêu chuẩn thực tế, và vì tồn tại lâu nên cũng có lượng dữ liệu huấn luyện khổng lồ
      Trước thời LLM tôi phụ thuộc nhiều hơn vào Babylon.js, vốn có nhiều tính năng tầng cao hơn
    • Một người quen của tôi đang làm Jamboree
      Trước đây tên là Spielwerk, là ứng dụng tạo và chia sẻ game trên iOS
      Mọi thứ đều dựa trên web nên rất dễ chia sẻ
      https://apps.apple.com/uz/app/jamboree-game-maker/id67473110...
    • LLM vẫn chưa làm được suy luận không gian
      Tôi chưa thử GPT, nhưng với Claude thì dù prompt engineering thế nào cũng không giải được Rubik's Cube, và ngay cả Opus 4.6 cũng chỉ làm đúng khoảng 70% câu đố rồi mắc kẹt
      Mỗi lần thử tốn tới 20 USD nên chi phí cũng khó chịu nổi
      Nếu có thể khiến nó thật sự suy luận được trong 3 chiều thì có lẽ có thể mở rộng cùng cách tiếp cận đó sang các bài toán hiện chưa giải được trong toán học
      Tôi đang nghĩ đến chuyện công khai Rubik's Cube MCP server của mình để xem có ai giải được khối Rubik chỉ bằng prompt không
  • Trong lần công bố này, điều thú vị hơn benchmark là chi tiết Codex đã phân tích vài tuần mẫu lưu lượng thực tế để tăng mức sử dụng GPU, rồi viết thuật toán heuristic tùy biến cho việc chia và cân bằng tác vụ nhằm kéo tốc độ sinh token lên hơn 20%
    Những mảng mà LLM dạng agent có thể làm kiểu tối ưu hiệu quả tính toán như vậy có tác động rất lớn, nhưng dường như lại được kiểm thử ít hơn benchmark
    Theo trải nghiệm của tôi thì ở phần này Opus vẫn hơn GPT/Codex, nhưng vì OpenAI đang thu lợi ích thực tế từ kiểu tối đa hóa hiệu năng này trong bối cảnh áp lực về chi phí và công suất, có lẽ họ sẽ tiếp tục đẩy mạnh hướng này

    • Tôi đang xử lý dữ liệu hiệu năng cao bằng Rust thì gặp một rào cản hiệu năng đòi hỏi phải cải thiện hơn 100 lần
      Tôi chợt nhớ đến màn tối ưu code golf FizzBuzz của Intel từng nổi tiếng trước đây, nên đưa code của mình cho gemini pro và bảo “hãy đề xuất những tối ưu thông minh kiểu đó”, và các gợi ý thật sự rất tuyệt
      LLM ngày nào cũng khiến tôi ngạc nhiên
    • Thực ra đã có KernelBench để kiểm thử tối ưu hóa CUDA kernel
      Và vì công ty nào cũng biết tối ưu hạ tầng và model của chính mình là con đường then chốt để thắng cuộc, nên tôi nghĩ phần này chắc chắn đang được làm rất nghiêm túc
    • Vấn đề là kiểu tuyên bố này quá mang tính kinh nghiệm nên khó tái lập
      Tôi mừng vì mọi thứ đang vượt ra ngoài các benchmark truyền thống như MMLU, nhưng nêu những con số kiểu này mà không có thí nghiệm đối chứng phù hợp thì không giúp ích nhiều
  • Nếu so Mythos và GPT-5.5 bằng số liệu thì ở SWE-bench Pro vẫn còn cách biệt lớn, nhưng ngoài ra nhìn khá giống nhau
    SWE-bench Pro 77.8% so với 58.6%
    Terminal-bench-2.0 82.0% so với 82.7%
    GPQA Diamond 94.6% so với 93.6%
    H. Last Exam 56.8% so với 41.4%
    H. Last Exam (tools) 64.7% so với 52.2%
    BrowseComp 86.9% so với 84.4%, bản Pro là 90.1%
    OSWorld-Verified 79.6% so với 78.7%
    Nguồn số liệu Mythos là https://www.anthropic.com/glasswing

    • Mythos chỉ có ý nghĩa khi thực sự dùng được
      Dùng Opus 4.7 lúc này thì cảm giác mức tự chủ đã bị nerf cực mạnh, bị ràng buộc nặng vì cái gọi là an toàn
      Nên tôi không thật sự chắc nó có đáng gờm như Anthropic quảng cáo hay không
    • Theo trang phát hành của Anthropic, đội Claude đã xác nhận việc ghi nhớ SWE-bench, và bài test thực sự đã có trong dữ liệu huấn luyện
      Ở đây
      https://www.anthropic.com/news/claude-opus-4-7#:~:text=memor...
    • Tôi đã xem qua SWE-bench Verified, và số liệu Mythos để lại khá nhiều nghi vấn
      Tôi lọc trong các bài nộp chính thức tại https://github.com/SWE-bench/experiments/tree/main/evaluatio... chỉ những model từ Sonnet 4 trở đi, rồi cộng trên toàn bộ 500 bài, thì tỷ lệ giải được của tất cả model cộng lại chính xác là 93%
      Thế mà Mythos đạt 93.7%, tức là nó giải được cả những bài mà không model nào khác giải nổi, và khi tôi tự xem các bài đó thì lại càng thấy đáng ngờ
      7% bài còn lại trông gần như không thể giải nếu không thấy trước test patch, và cách giải thực tế lại đi quá xa so với mô tả bài toán đến mức có cảm giác như đang giải một bài hoàn toàn khác
      Tôi không khẳng định Mythos gian lận, nhưng có thể nó nhớ quá rõ nhiều trạng thái của repository đến mức chỉ từ diff trong bộ nhớ nội bộ cũng có thể suy ngược ra phát biểu bài toán thật sự
      Nếu không thì khó mà giải thích được cách nó diễn giải chính xác đến vậy những mô tả bài toán mơ hồ như thế
    • Một benchmark đơn lẻ thì chẳng nói lên điều gì
      Benchmark nào rồi cũng có những kết quả kỳ lạ bật ra
  • Tôi vẫn thấy tiếc vì tỷ lệ hallucination 86%
    Để so thì Opus ở mức 36%
    Nguồn là https://artificialanalysis.ai/models?omniscience=omniscience...

    • Grok là 17% và đó là thấp nhất, còn đa số model đều trên 80% thì nghe rất lạ
      Tùy câu hỏi mà hallucination thậm chí còn gần 100%, nên benchmark này về mặt trực giác khá khó tin
    • Có gì đó không ổn, Haiku mà ra tốt đến vậy thì khó tin quá
    • Tôi đọc đây như một tín hiệu rằng các hãng muốn hành vi đó
      Người đặt câu hỏi có khả năng cao là chưa hiểu trọn vấn đề, nên có vẻ họ thích một câu trả lời tự tin bất kể kết quả ra sao
      Mục tiêu dường như là bán ấn tượng có năng lực hơn là năng lực thực tế của công nghệ
      LLM có thể phá hỏng sản phẩm, nhưng nếu bạn tin cái máy tư duy của các tỷ phú có thể thay thế nhân viên và định đổ 75% ngân sách lao động vào đó thì chỉ còn biết chúc may mắn mà thôi
  • Model này được nói là rất mạnh ở nhiệm vụ dài hạn, và Codex giờ còn có cả heartbeats để có thể tiếp tục kiểm tra trạng thái
    Họ nói rằng cứ giao cho nó một bài toán khó mất vài giờ, có các ràng buộc kiểm chứng được, thì sẽ thấy nó tốt đến đâu
    Người bình luận nói mình làm ở OpenAI

    • Nghe như một tính năng hay và tôi muốn thử sớm
      Dạo này tôi đã quá mệt với các model khác, đặc biệt là Opus, vì cứ hay dừng giữa chừng khi đang làm việc
    • Trong đánh giá nội bộ của Canva, GPT-5.5 đã giải được nhiều thử thách frontier dạng nhiệm vụ dài hạn, và trong nhiều trường hợp đây là model AI đầu tiên mà chúng tôi thử làm được điều đó
      Chúc mừng ra mắt
    • Cần giải thích rõ heartbeats chính xác là gì