5 điểm bởi GN⁺ 2026-04-26 | 2 bình luận | Chia sẻ qua WhatsApp
  • Đã phát hành GPT-5.5 trên Chat Completions API và Responses API, đồng thời bổ sung GPT-5.5 pro cho các yêu cầu qua Responses API dành cho những bài toán khó có lợi khi dùng nhiều năng lực tính toán hơn
  • GPT-5.5 hỗ trợ cửa sổ ngữ cảnh 1 triệu token, đầu vào hình ảnh, đầu ra có cấu trúc, gọi hàm, lưu đệm prompt, Batch, tool search, computer use tích hợp sẵn, hosted shell, apply patch, Skills, MCP và tìm kiếm web
  • Giá trị reasoning effort mặc định được đặt là medium, và khi image_detail chưa được thiết lập hoặc là auto thì sẽ giữ hành vi hiện có
  • Cơ chế cache của GPT-5.5 chỉ hoạt động với extended prompt caching và không hỗ trợ in-memory prompt caching: behavioral changes
  • Các thay đổi ngày 21 tháng 4
    • Đã phát hành GPT Image 2 như mô hình tạo ảnh mới nhất cho việc tạo và chỉnh sửa hình ảnh
    • GPT Image 2 bao gồm kích thước ảnh linh hoạt, đầu vào hình ảnh độ trung thực cao, tính phí hình ảnh theo token và hỗ trợ Batch API với mức giảm giá 50%

2 bình luận

 
ragingwind 2026-04-26

Giờ từ 5.4 trở đi, bản pro dường như không còn cung cấp Chat Completions API nữa nhỉ

 
GN⁺ 2026-04-26
Ý kiến trên Hacker News
  • Tôi gặp sự cố production nên thử ngay, và GPT-5.5 lại làm kiểu mà Claude không làm
    Nó bảo dùng câu lệnh update sau khi troubleshooting, rồi khi tôi nói "được, bọc cái này trong transaction và thêm rollback nhé" thì nó trả theo kiểu cũ
    BEGIN TRAN;
    -- put the query here
    commit;
    chỉ vậy thôi
    Đã lâu rồi tôi không phải đẩy ngược lại model để nó thực sự làm điều mình yêu cầu, nên vụ này khá sốc
    Tôi hiểu là nó muốn dùng ít token hơn, nhưng mình đang trả tiền cho một mô hình tối tân, nên kiểu lười như vậy rất khó chịu
    Tôi chỉ thấy nó hiện trong bộ chọn model của Cursor nên thử thôi

    • Từ sau gpt-5.3-codex, 2~3 thế hệ gần đây có cảm giác không phải là cải thiện lớn, mà là thay cái này cái kia để tạo ra những tradeoff khác
    • Có thể tôi hiểu sai, nhưng tôi tò mò chính xác vấn đề là gì
      Nếu vấn đề là câu trả lời chỉ có -- put the query here và không lặp lại câu query, thì tôi không chắc đó hẳn là vấn đề
      Nếu mục tiêu thật sự là lấy câu query để chạy và bạn nói "hãy làm cái này thành transaction", thì việc chỉ ra rằng bạn chỉ cần thêm begin ở trước cũng khá hợp lý
      Nếu query dài thì còn tiết kiệm token, giống như khi gặp permission denied thì bảo thêm sudo ở đầu thay vì viết lại toàn bộ lệnh
      Ngược lại, nếu bạn kỳ vọng model thật sự thực thi câu query mà nó lại kiểu "đây nhé, tự chạy đi", thì đúng là lười và đủ khiến người ta ngỡ ngàng
    • OpenAI có vẻ là công ty đầu tiên cuối cùng cũng đạt đến mức trí tuệ biết giao việc lại cho người dùng
      Đúng là một kiểu emergent behavior khá thú vị
      Nói đùa vậy thôi, nhưng sự ám ảnh của OpenAI với tối ưu hóa intelligence trên mỗi token làm tôi nhớ đến thời Apple trước M1 quá tập trung vào việc làm MacBook siêu mỏng
      Cảm giác như họ theo đuổi một chỉ số duy nhất đến cùng và hy sinh mọi thứ khác
      GPT-5.3+ rõ ràng thuộc nhóm model thông minh nhất, nhưng nhiều lúc nó lười đến mức rất khó cộng tác
    • Tôi vẫn chưa rõ ví dụ trên là tốt hay xấu
    • GPT-5.5 có lẽ phá nát mọi benchmark về mức độ tin tưởng vào người dùng
  • Tôi vừa chạy nó qua benchmark Wordpress+GravityForms của mình, và xét theo hiệu năng thì nó nằm gần đáy bảng xếp hạng, còn hiệu quả chi phí thì tệ nhất: https://github.com/guilamu/llms-wordpress-plugin-benchmark
    Tôi biết đây chỉ là một benchmark, nhưng thật khó hiểu vì sao nó có thể tệ đến thế

    • Cảm giác như một junior đang nghịch ở garage trong lĩnh vực mình ít kinh nghiệm, làm một bài test sơ sài rồi gọi đó là benchmark
      Dạo này nghĩa của từ ngữ bị phá vỡ quá dễ, nên chuyện này xảy ra thường xuyên
      Những diễn đàn trước đây có nhiều người làm kỹ thuật thật sự giờ cũng đang bị lấp đầy bởi đám vibe researcher, và khi vượt ngưỡng phổ biến thì vốn dĩ chuyện gì cũng thành thế
      HN có vẻ vẫn là một trong những pháo đài cuối cùng còn tinh thần tìm hiểu nghiêm túc, nhưng nhìn bình luận gốc thì rõ là cũng không hoàn toàn miễn nhiễm
    • Trong benchmark của bạn, gemma4-e4b còn tốt hơn gemma4-26b tới 50%, nên có vẻ có gì đó không ổn
    • Trong benchmark của bạn, Opus 4.7 kém hơn rất nhiều so với Sonnet 4.6, mà kể cả điều đó đúng trong benchmark này thì cũng không đại diện cho hiệu năng tổng thể của model
    • Đúng kiểu du hành thời gian mang benchmark này tới đây
      Tôi khá thích kiểu benchmarking này
      Tôi tò mò benchmark judge benchmark được chấm như thế nào, vì tôi cũng muốn tự dựng một benchmark tương tự
    • Cái này có vẻ giống benchmark đo model vibe coding giỏi đến đâu hơn
      Prompt thì cực kỳ mỏng nhưng tiêu chí chấm điểm lại rất nhiều
  • Mức giá theo độ dài context là thế này
    Input là $5/M nếu dưới hoặc bằng 272K, trên mức đó là $10/M
    Output là $30/M nếu dưới hoặc bằng 272K, trên mức đó là $45/M
    Cache read là $0.50/M nếu dưới hoặc bằng 272K, trên mức đó là $1/M
    Nếu vượt 272K thì rõ ràng còn đắt hơn Opus 4.7, và ít nhất với công việc của tôi, hiệu quả token không có vẻ tốt hơn tới mức đó
    Không đủ để bù cho chênh lệch giá
    GPT-5.4 có điểm mạnh là context 400k và compaction đáng tin cậy, nhưng có vẻ cả hai đều đã thụt lùi đôi chút
    Dù vậy, tôi chưa muốn khẳng định chắc rằng độ tin cậy của compaction thật sự đã giảm
    Phần output frontend vẫn còn xu hướng nghiêng về kiểu template xanh dương với đống thẻ bài rất dễ nhận ra đó
    Đó là phong cách đã trông đáng ngờ từ thời Horizon Alpha/Beta trước khi GPT-5 ra mắt, nhưng lúc đó task adherence tốt đến mức vẫn hữu ích dù có nhược điểm lớn ấy
    Thế nên việc GPT-5.5 được nói là một foundation hoàn toàn mới mà phần đó vẫn còn hạn chế như vậy thì hơi lạ

  • Kết quả benchmark suy luận lập trình tổng hợp của GPT 5.5 đã được đăng lên https://gertlabs.com/
    Live decision và các bài eval agentic nặng hơn sẽ tiếp tục được thêm trong 24 giờ tới, nhưng có vẻ thứ hạng leaderboard giờ sẽ không đổi nữa
    GPT 5.5 là model thông minh nhất trong số các model công khai, và rõ ràng nhanh hơn phiên bản trước

  • Hôm qua họ còn nói thế này

    API deployments require different safeguards and we are working closely with partners and customers on the safety and security requirements for serving it at scale.
    Thế mà hôm nay đã thành thế này
    Một ngày thì đúng là "very soon", nhưng tôi vẫn thắc mắc chính xác safeguardssecurity requirements đó nghĩa là gì

    • Khi ai đó nói một thứ bị chậm lại vì safeguards, thì đa phần chỉ có nghĩa là hiện tại họ chưa có đủ compute ngay lúc này
    • GPT-5.5 vốn đã có trong API chỉ dành cho Codex, và họ còn nói rõ có thể dùng nó cho mục đích khác nữa
      https://simonwillison.net/2026/Apr/23/gpt-5-5/#the-openclaw-backdoor
      nên tôi cũng nghĩ chuyện đó có thể đã đẩy nhanh lần phát hành này
    • Một người đã nói dối trắng trợn về vấn đề an toàn đến mức đó mà vẫn còn điều hành công ty, thì tôi không hiểu tại sao người ta lại kỳ vọng tương lai sẽ khác
      Cũng có tiền lệ rồi

      In 2023, the company was preparing to release its GPT-4 Turbo model. As Sutskever details in the memos, Altman apparently told Murati that the model didn’t need safety approval, citing the company’s general counsel, Jason Kwon. But when she asked Kwon, over Slack, he replied, “ugh . . . confused where sam got that impression.”
      Altman đã nhiều lần không hoàn toàn trung thực về việc safety quan trọng đến mức nào ở OpenAI
      https://www.newyorker.com/magazine/2026/04/13/sam-altman-may-control-our-future-can-he-be-trusted (https://archive.is/a2vqW)

  • Không biết có phải chỉ mình tôi không, nhưng tôi có cảm giác mỗi lần có tin kiểu này, OpenAI lại dùng bình luận viên được trả tiền hoặc bot để dìm Claude và đẩy luận điệu rằng Codex vượt trội hẳn
    Số lượng nhiều quá, và có khá nhiều khẳng định rất khó tin nếu bạn dùng Claude hằng ngày

    • Đúng vậy, kỳ lạ một cách bất thường
      Nó giống với việc ai cũng dường như quên mất OpenAI đã phản bội nền dân chủ khi đồng ý hợp tác về vũ khí tự động không giám sát và giám sát quy mô lớn trong nước
    • Tôi cũng thấy nó khá lộ liễu
      Ít nhất thì dấu hiệu bề mặt bắt đầu xuất hiện ngay sau đợt Opus 4.6 hype
    • Tất nhiên họ có làm vậy
      Mấy công ty quảng bá sản phẩm của mình giờ đều tương tự nhau cả
  • Tôi là người dùng Enterprise mà vẫn chỉ thấy 5.4
    Thông báo hôm qua nói phải mất vài giờ mới rollout hết cho mọi người, nhưng OpenAI nên làm GTM tốt hơn để quản lý kỳ vọng

    • Tôi vừa refresh lại thì đã thấy 5.5
      Phát hành nhanh thế là tốt
      Chắc lần sau phải phàn nàn sớm hơn
  • Đây là model thứ hai đạt 25/25 trong benchmark của tôi
    Model đầu tiên là Opus 4.7, và kết quả ở đây: https://sql-benchmark.nicklothian.com/?highlight=openai_gpt-5.5
    Rẻ hơn Opus nhưng chậm hơn

  • Trên trang API, knowledge cutoff được ghi là 2025-12-01, nhưng nếu hỏi trực tiếp model thì nó trả lời là tháng 6 năm 2024
    Knowledge cutoff: 2024-06
    Current date: 2026-04-24
    You are an AI assistant accessed via an API.

    • Tôi không hiểu sao chuyện này cứ lặp đi lặp lại
      Từ xưa đến nay, hỏi chính model về ngày cutoff luôn là cách kém đáng tin nhất để kiểm tra
      Nó thậm chí có thể đã học cả những bình luận như thế này
      Cứ hỏi về một sự kiện xảy ra ngay trước 2025-12-01 là được
      Nếu có thể thì trận đấu thể thao là lựa chọn tốt
    • Tôi cũng không chắc có nên tin điều model tự nói không
      Trên các trang API của model cũ cũng thường ghi cutoff là tháng 6 năm 2024, nên có thể nó chỉ đang nhặt lại thông tin đó để nói
    • Nếu không được báo trong system prompt thì model không biết cutoff date của chính nó
      Cách đúng để kiểm tra cutoff thật là hỏi về điều gì đó vốn chưa tồn tại hoặc chưa xảy ra trước thời điểm đó
      Tôi thử đại vài lần thì có vẻ cutoff kiến thức phổ thông của 5.5 vẫn quanh đầu năm 2025
    • Vậy có thể test bằng cách hỏi ai thắng bầu cử tổng thống Mỹ 2024 không
  • Tổ hợp GPT 5.5 + Codex thật sự rất tốt
    Dù là hỏi đáp, lập kế hoạch hay triển khai code, giờ tôi gần như giao luôn mà không nghi ngờ nhiều
    Opus 4.7 thì vẫn khiến tôi phải kiểm tra chéo liên tục
    Nó không tuân thủ tốt chỉ dẫn trong CLAUDE.md, hallucination nhiều, và khi không tìm ra đáp án thì mặc định hay bịa ra, nên đó là vấn đề khá lớn
    Năm ngoái, khi mọi người nói OpenAI đang tụt lại, là code red, thì điều đó đến cực nhanh; còn nhìn vào hiện tại thì tình hình đã thay đổi hoàn toàn