OpenAI ra mắt GPT-5.5 và GPT-5.5 Pro trên API
(developers.openai.com)- Đã phát hành GPT-5.5 trên Chat Completions API và Responses API, đồng thời bổ sung GPT-5.5 pro cho các yêu cầu qua Responses API dành cho những bài toán khó có lợi khi dùng nhiều năng lực tính toán hơn
- GPT-5.5 hỗ trợ cửa sổ ngữ cảnh 1 triệu token, đầu vào hình ảnh, đầu ra có cấu trúc, gọi hàm, lưu đệm prompt, Batch, tool search, computer use tích hợp sẵn, hosted shell, apply patch, Skills, MCP và tìm kiếm web
- Giá trị reasoning effort mặc định được đặt là
medium, và khiimage_detailchưa được thiết lập hoặc làautothì sẽ giữ hành vi hiện có - Cơ chế cache của GPT-5.5 chỉ hoạt động với extended prompt caching và không hỗ trợ in-memory prompt caching: behavioral changes
- Các thay đổi ngày 21 tháng 4
- Đã phát hành GPT Image 2 như mô hình tạo ảnh mới nhất cho việc tạo và chỉnh sửa hình ảnh
- GPT Image 2 bao gồm kích thước ảnh linh hoạt, đầu vào hình ảnh độ trung thực cao, tính phí hình ảnh theo token và hỗ trợ Batch API với mức giảm giá 50%
2 bình luận
Giờ từ 5.4 trở đi, bản pro dường như không còn cung cấp Chat Completions API nữa nhỉ
Ý kiến trên Hacker News
Tôi gặp sự cố production nên thử ngay, và GPT-5.5 lại làm kiểu mà Claude không làm
Nó bảo dùng câu lệnh update sau khi troubleshooting, rồi khi tôi nói "được, bọc cái này trong transaction và thêm rollback nhé" thì nó trả theo kiểu cũ
BEGIN TRAN;-- put the query herecommit;chỉ vậy thôi
Đã lâu rồi tôi không phải đẩy ngược lại model để nó thực sự làm điều mình yêu cầu, nên vụ này khá sốc
Tôi hiểu là nó muốn dùng ít token hơn, nhưng mình đang trả tiền cho một mô hình tối tân, nên kiểu lười như vậy rất khó chịu
Tôi chỉ thấy nó hiện trong bộ chọn model của Cursor nên thử thôi
Nếu vấn đề là câu trả lời chỉ có
-- put the query herevà không lặp lại câu query, thì tôi không chắc đó hẳn là vấn đềNếu mục tiêu thật sự là lấy câu query để chạy và bạn nói "hãy làm cái này thành transaction", thì việc chỉ ra rằng bạn chỉ cần thêm
beginở trước cũng khá hợp lýNếu query dài thì còn tiết kiệm token, giống như khi gặp
permission deniedthì bảo thêmsudoở đầu thay vì viết lại toàn bộ lệnhNgược lại, nếu bạn kỳ vọng model thật sự thực thi câu query mà nó lại kiểu "đây nhé, tự chạy đi", thì đúng là lười và đủ khiến người ta ngỡ ngàng
Đúng là một kiểu emergent behavior khá thú vị
Nói đùa vậy thôi, nhưng sự ám ảnh của OpenAI với tối ưu hóa intelligence trên mỗi token làm tôi nhớ đến thời Apple trước M1 quá tập trung vào việc làm MacBook siêu mỏng
Cảm giác như họ theo đuổi một chỉ số duy nhất đến cùng và hy sinh mọi thứ khác
GPT-5.3+ rõ ràng thuộc nhóm model thông minh nhất, nhưng nhiều lúc nó lười đến mức rất khó cộng tác
Tôi vừa chạy nó qua benchmark Wordpress+GravityForms của mình, và xét theo hiệu năng thì nó nằm gần đáy bảng xếp hạng, còn hiệu quả chi phí thì tệ nhất: https://github.com/guilamu/llms-wordpress-plugin-benchmark
Tôi biết đây chỉ là một benchmark, nhưng thật khó hiểu vì sao nó có thể tệ đến thế
Dạo này nghĩa của từ ngữ bị phá vỡ quá dễ, nên chuyện này xảy ra thường xuyên
Những diễn đàn trước đây có nhiều người làm kỹ thuật thật sự giờ cũng đang bị lấp đầy bởi đám vibe researcher, và khi vượt ngưỡng phổ biến thì vốn dĩ chuyện gì cũng thành thế
HN có vẻ vẫn là một trong những pháo đài cuối cùng còn tinh thần tìm hiểu nghiêm túc, nhưng nhìn bình luận gốc thì rõ là cũng không hoàn toàn miễn nhiễm
Tôi khá thích kiểu benchmarking này
Tôi tò mò benchmark judge benchmark được chấm như thế nào, vì tôi cũng muốn tự dựng một benchmark tương tự
Prompt thì cực kỳ mỏng nhưng tiêu chí chấm điểm lại rất nhiều
Mức giá theo độ dài context là thế này
Input là $5/M nếu dưới hoặc bằng 272K, trên mức đó là $10/M
Output là $30/M nếu dưới hoặc bằng 272K, trên mức đó là $45/M
Cache read là $0.50/M nếu dưới hoặc bằng 272K, trên mức đó là $1/M
Nếu vượt 272K thì rõ ràng còn đắt hơn Opus 4.7, và ít nhất với công việc của tôi, hiệu quả token không có vẻ tốt hơn tới mức đó
Không đủ để bù cho chênh lệch giá
GPT-5.4 có điểm mạnh là context 400k và compaction đáng tin cậy, nhưng có vẻ cả hai đều đã thụt lùi đôi chút
Dù vậy, tôi chưa muốn khẳng định chắc rằng độ tin cậy của compaction thật sự đã giảm
Phần output frontend vẫn còn xu hướng nghiêng về kiểu template xanh dương với đống thẻ bài rất dễ nhận ra đó
Đó là phong cách đã trông đáng ngờ từ thời Horizon Alpha/Beta trước khi GPT-5 ra mắt, nhưng lúc đó task adherence tốt đến mức vẫn hữu ích dù có nhược điểm lớn ấy
Thế nên việc GPT-5.5 được nói là một foundation hoàn toàn mới mà phần đó vẫn còn hạn chế như vậy thì hơi lạ
Kết quả benchmark suy luận lập trình tổng hợp của GPT 5.5 đã được đăng lên https://gertlabs.com/
Live decision và các bài eval agentic nặng hơn sẽ tiếp tục được thêm trong 24 giờ tới, nhưng có vẻ thứ hạng leaderboard giờ sẽ không đổi nữa
GPT 5.5 là model thông minh nhất trong số các model công khai, và rõ ràng nhanh hơn phiên bản trước
Hôm qua họ còn nói thế này
https://simonwillison.net/2026/Apr/23/gpt-5-5/#the-openclaw-backdoor
nên tôi cũng nghĩ chuyện đó có thể đã đẩy nhanh lần phát hành này
Cũng có tiền lệ rồi
Không biết có phải chỉ mình tôi không, nhưng tôi có cảm giác mỗi lần có tin kiểu này, OpenAI lại dùng bình luận viên được trả tiền hoặc bot để dìm Claude và đẩy luận điệu rằng Codex vượt trội hẳn
Số lượng nhiều quá, và có khá nhiều khẳng định rất khó tin nếu bạn dùng Claude hằng ngày
Nó giống với việc ai cũng dường như quên mất OpenAI đã phản bội nền dân chủ khi đồng ý hợp tác về vũ khí tự động không giám sát và giám sát quy mô lớn trong nước
Ít nhất thì dấu hiệu bề mặt bắt đầu xuất hiện ngay sau đợt Opus 4.6 hype
Mấy công ty quảng bá sản phẩm của mình giờ đều tương tự nhau cả
Tôi là người dùng Enterprise mà vẫn chỉ thấy 5.4
Thông báo hôm qua nói phải mất vài giờ mới rollout hết cho mọi người, nhưng OpenAI nên làm GTM tốt hơn để quản lý kỳ vọng
Phát hành nhanh thế là tốt
Chắc lần sau phải phàn nàn sớm hơn
Đây là model thứ hai đạt 25/25 trong benchmark của tôi
Model đầu tiên là Opus 4.7, và kết quả ở đây: https://sql-benchmark.nicklothian.com/?highlight=openai_gpt-5.5
Rẻ hơn Opus nhưng chậm hơn
Trên trang API, knowledge cutoff được ghi là 2025-12-01, nhưng nếu hỏi trực tiếp model thì nó trả lời là tháng 6 năm 2024
Knowledge cutoff: 2024-06Current date: 2026-04-24You are an AI assistant accessed via an API.Từ xưa đến nay, hỏi chính model về ngày cutoff luôn là cách kém đáng tin nhất để kiểm tra
Nó thậm chí có thể đã học cả những bình luận như thế này
Cứ hỏi về một sự kiện xảy ra ngay trước 2025-12-01 là được
Nếu có thể thì trận đấu thể thao là lựa chọn tốt
Trên các trang API của model cũ cũng thường ghi cutoff là tháng 6 năm 2024, nên có thể nó chỉ đang nhặt lại thông tin đó để nói
Cách đúng để kiểm tra cutoff thật là hỏi về điều gì đó vốn chưa tồn tại hoặc chưa xảy ra trước thời điểm đó
Tôi thử đại vài lần thì có vẻ cutoff kiến thức phổ thông của 5.5 vẫn quanh đầu năm 2025
Tổ hợp GPT 5.5 + Codex thật sự rất tốt
Dù là hỏi đáp, lập kế hoạch hay triển khai code, giờ tôi gần như giao luôn mà không nghi ngờ nhiều
Opus 4.7 thì vẫn khiến tôi phải kiểm tra chéo liên tục
Nó không tuân thủ tốt chỉ dẫn trong
CLAUDE.md, hallucination nhiều, và khi không tìm ra đáp án thì mặc định hay bịa ra, nên đó là vấn đề khá lớnNăm ngoái, khi mọi người nói OpenAI đang tụt lại, là code red, thì điều đó đến cực nhanh; còn nhìn vào hiện tại thì tình hình đã thay đổi hoàn toàn