4 điểm bởi GN⁺ 11 giờ trước | 2 bình luận | Chia sẻ qua WhatsApp
  • GPT-5.5 là mẫu mới nhất được bổ sung vào Chat Completions API và Responses API, còn GPT-5.5 pro cũng được thêm vào các yêu cầu Responses API dành cho những bài toán khó có lợi khi có nhiều năng lực tính toán hơn
  • Hỗ trợ rộng rãi cửa sổ ngữ cảnh 1 triệu token, nhập hình ảnh, đầu ra có cấu trúc, gọi hàm, prompt caching, Batch, tool search, computer use tích hợp sẵn, hosted shell, apply patch, Skills, MCP và cả tìm kiếm web
  • Giá trị mặc định của reasoning effort được đặt là medium, và khi image_detail không được thiết lập hoặc là auto thì vẫn giữ hành vi hiện có
  • Caching của GPT-5.5 chỉ hoạt động trong extended prompt caching và không hỗ trợ in-memory prompt caching
  • Dòng thay đổi API gần đây đã mở rộng vượt ra ngoài việc ra mắt mô hình sang cả image, audio, realtime, video và công cụ agent; dòng GPT-5.5 là hạng mục bổ sung chủ lực mới nhất trong số đó

Nhật ký thay đổi

Tháng 4 năm 2026

  • Ngày 24 tháng 4

    • Đã ra mắt GPT-5.5 trên Chat Completions API và Responses API, đồng thời thêm GPT-5.5 pro vào các yêu cầu Responses API dành cho những bài toán khó có lợi khi có nhiều năng lực tính toán hơn
    • GPT-5.5 hỗ trợ cửa sổ ngữ cảnh 1 triệu token, nhập hình ảnh, đầu ra có cấu trúc, gọi hàm, prompt caching, Batch, tool search, computer use tích hợp sẵn, hosted shell, apply patch, Skills, MCP và tìm kiếm web
    • Thay đổi chính là giá trị mặc định của reasoning effort được đặt thành medium
    • Khi image_detail không được thiết lập hoặc là auto thì sẽ dùng hành vi hiện có
    • Caching của GPT-5.5 chỉ hoạt động trong extended prompt caching và không hỗ trợ in-memory prompt caching
  • Ngày 21 tháng 4

    • Đã ra mắt GPT Image 2 là mẫu tạo ảnh mới nhất cho tạo và chỉnh sửa hình ảnh
    • GPT Image 2 bao gồm kích thước ảnh linh hoạt, đầu vào hình ảnh độ trung thực cao, tính phí hình ảnh dựa trên token và hỗ trợ Batch API với mức giảm giá 50%
  • Ngày 15 tháng 4

    • Đã bổ sung tính năng mới cho Agents SDK
      • Có thể chạy agent trong sandbox được kiểm soát
      • Có thể kiểm tra và tùy chỉnh harness mã nguồn mở
      • Có thể kiểm soát thời điểm tạo memory và nơi lưu trữ

Tháng 3 năm 2026

  • Ngày 17 tháng 3

    • Đã ra mắt GPT-5.4 miniGPT-5.4 nano trên Chat Completions API và Responses API
    • GPT-5.4 mini mang lại hiệu năng cấp GPT-5.4 dưới dạng nhanh hơn và hiệu quả hơn, phù hợp với các workload có lưu lượng xử lý lớn
    • GPT-5.4 nano được tối ưu cho các tác vụ đơn giản với khối lượng lớn, nơi tốc độ và chi phí là quan trọng nhất
    • GPT-5.4 mini hỗ trợ tool search, computer use tích hợp sẵn và compaction
    • GPT-5.4 nano hỗ trợ compaction nhưng không hỗ trợ tool search và computer use
  • Ngày 16 tháng 3

    • Slug gpt-5.3-chat-latest đã được cập nhật để trỏ tới mẫu mới nhất hiện đang được dùng trong ChatGPT
  • Ngày 13 tháng 3

    • Đã cập nhật bộ mã hóa hình ảnh để sửa một lỗi nhỏ xảy ra ở đầu vào input_image của GPT-5.4
    • Chất lượng có thể được cải thiện trong một số trường hợp sử dụng hiểu hình ảnh
    • Không cần thực hiện hành động nào thêm
  • Ngày 12 tháng 3

    • Đã mở rộng Sora API để bổ sung character reference có thể tái sử dụng, thời lượng tạo dài hơn lên tới 20 giây, đầu ra 1080p cho sora-2-pro, video extension và hỗ trợ Batch API cho POST /v1/videos
    • Việc tạo 1080p của sora-2-pro được tính phí $0.70 mỗi giây
    • Xem chi tiết: video generation guide
  • Cập nhật ngày 12 tháng 3

    • Đã thêm POST /v1/videos/edits cho chỉnh sửa video hiện có
    • POST /v1/videos/{video_id}/remix là đường dẫn thay thế cho API này và dự kiến sẽ ngừng hỗ trợ sau 6 tháng
    • Xem chi tiết: edit existing videos
  • Ngày 5 tháng 3

    • Đã ra mắt GPT-5.4 trên Chat Completions API và Responses API, đồng thời thêm GPT-5.4 pro vào Responses API dành cho những bài toán khó có lợi khi có nhiều năng lực tính toán hơn
    • Đồng thời ra mắt tool search của Responses API để mô hình có thể trì hoãn việc lộ toàn bộ bề mặt công cụ lớn đến thời điểm chạy, qua đó giảm lượng token sử dụng, giữ hiệu năng cache và cải thiện độ trễ
    • Đã bổ sung hỗ trợ computer use tích hợp sẵn cho GPT-5.4 thông qua công cụ computer của Responses API, cho phép tương tác UI dựa trên ảnh chụp màn hình
    • Cung cấp cửa sổ ngữ cảnh 1 triệu token và hỗ trợ Compaction gốc cho các workflow agent chạy dài hơn
  • Ngày 3 tháng 3

    • Đã ra mắt gpt-5.3-chat-latest trên Chat Completions API và Responses API
    • Mẫu này trỏ tới snapshot GPT-5.3 Instant hiện đang được sử dụng trong ChatGPT
    • Xem chi tiết: gpt-5.3-chat-latest

Tháng 2 năm 2026

  • Ngày 24 tháng 2

    • Mở rộng phạm vi hỗ trợ của input_file để có thể nhận thêm nhiều định dạng tệp tài liệu, bài thuyết trình, bảng tính, mã nguồn và văn bản
    • Chi tiết: file inputs
  • Responses API ngày 24 tháng 2

    • Thêm phase vào Responses API
    • Gắn nhãn để phân biệt thông điệp assistant thành phần diễn giải trung gian commentary và câu trả lời cuối cùng final_answer
    • Chi tiết: phase
  • gpt-5.3-codex ngày 24 tháng 2

    • Ra mắt gpt-5.3-codex trên Responses API
    • Chi tiết: gpt-5.3-codex
  • Ngày 23 tháng 2

    • Giới thiệu WebSocket mode cho Responses API
    • Chi tiết: websocket mode
  • Mô hình âm thanh và thời gian thực ngày 23 tháng 2

    • Ra mắt gpt-realtime-1.5 trên Realtime API
    • Ra mắt gpt-audio-1.5 trên Chat Completions API
  • GPT Image Batch ngày 10 tháng 2

    • Hỗ trợ Batch API cho gpt-image-1.5, chatgpt-image-latest, gpt-image-1, gpt-image-1-mini
  • gpt-5.2-chat-latest ngày 10 tháng 2

    • Cập nhật slug gpt-5.2-chat-latest để trỏ tới mô hình mới nhất hiện được ChatGPT sử dụng
  • compaction ngày 10 tháng 2

  • Skills ngày 10 tháng 2

    • Giới thiệu hỗ trợ Skills cho Responses API
    • Hỗ trợ Skills cả trong môi trường chạy cục bộ lẫn môi trường chạy dựa trên hosted container
  • Hosted Shell ngày 10 tháng 2

    • Giới thiệu công cụ Hosted Shell mới và cũng hỗ trợ kết nối mạng bên trong container
  • Ngày 9 tháng 2

    • Bổ sung hỗ trợ yêu cầu application/json cho /v1/images/edits của các mô hình GPT image
    • Yêu cầu JSON sử dụng tham chiếu image_url hoặc file_id cho imagesmask tùy chọn thay cho multipart upload
  • Ngày 3 tháng 2

    • Tối ưu hóa ngăn xếp suy luận cho khách hàng API, giúp GPT-5.2GPT-5.2-Codex chạy nhanh hơn khoảng 40%
    • Mô hình và trọng số mô hình không thay đổi

Tháng 1 năm 2026

  • Ngày 15 tháng 1

    • Công bố Open Responses
    • Đây là đặc tả mã nguồn mở cho giao diện LLM tương tác đa nhà cung cấp, được xây dựng trên OpenAI Responses API
  • Ngày 14 tháng 1

    • Ra mắt gpt-5.2-codex trên Responses API
    • GPT-5.2-Codex là một biến thể của GPT-5.2 được tối ưu cho các tác vụ lập trình agentic trong Codex hoặc môi trường tương tự
    • Chi tiết: gpt-5.2-codex
  • Realtime SIP ngày 13 tháng 1

    • Thêm dải IP SIP chuyên dụng vào Realtime API
    • sip.api.openai.com thực hiện định tuyến GeoIP và gửi lưu lượng SIP tới khu vực gần nhất
    • Chi tiết: dedicated SIP IP ranges
  • Cập nhật slug mô hình ngày 13 tháng 1

    • Cập nhật slug gpt-realtime-minigpt-audio-mini để trỏ tới snapshot 2025-12-15
    • Nếu cần snapshot mô hình cũ, có thể dùng gpt-realtime-mini-2025-10-06gpt-audio-mini-2025-10-06
    • Cập nhật slug sora-2 để trỏ tới sora-2-2025-12-08
    • Nếu cần snapshot sora-2 cũ, có thể dùng sora-2-2025-10-06
    • Cập nhật slug gpt-4o-mini-ttsgpt-4o-mini-transcribe để trỏ tới snapshot 2025-12-15
    • Nếu cần snapshot mô hình cũ, có thể dùng gpt-4o-mini-tts-2025-03-20gpt-4o-mini-transcribe-2025-03-20
    • Hiện tại khuyến nghị dùng gpt-4o-mini-transcribe thay cho gpt-4o-transcribe để có kết quả tốt nhất
  • Ngày 9 tháng 1

    • Sửa lỗi khiến gpt-image-1.5chatgpt-image-latest trên /v1/images/edits vẫn dùng high fidelity một cách không chính xác ngay cả khi fidelity được đặt rõ là low

Tháng 12 năm 2025

  • Ngày 19 tháng 12

    • Đã thêm gpt-image-1.5chatgpt-image-latest vào công cụ tạo ảnh của Responses API
  • Ngày 16 tháng 12

  • Ngày 15 tháng 12

    • Đã phát hành 4 bản snapshot âm thanh theo ngày mới
    • Bản cập nhật này cải thiện độ tin cậy, chất lượng và độ trung thực giọng nói cho các ứng dụng thời gian thực dựa trên giọng nói
    • Chi tiết: updates audio models
    • gpt-realtime-mini-2025-12-15
    • gpt-audio-mini-2025-12-15
    • gpt-4o-mini-transcribe-2025-12-15
    • gpt-4o-mini-tts-2025-12-15
    • Đợt phát hành này cũng bao gồm hỗ trợ Custom voices cho khách hàng đủ điều kiện
  • Ngày 11 tháng 12 GPT-5.2

    • Đã phát hành GPT-5.2 như mô hình flagship mới nhất của dòng GPT-5
    • So với GPT-5.1, các điểm được cải thiện gồm trí tuệ tổng quát, khả năng làm theo chỉ dẫn, độ chính xác và hiệu quả token, tính đa phương thức đặc biệt là thị giác, sinh mã đặc biệt là tạo UI frontend, tool calling và quản lý context trong API, cũng như khả năng hiểu và tạo bảng tính
    • Đã bổ sung mức reasoning effort xhigh, reasoning summary ngắn gọn, và cơ chế quản lý context mới sử dụng compaction
  • Ngày 11 tháng 12 client-side compaction

    • Đã phát hành client-side compaction
    • Trong các cuộc hội thoại chạy dài của Responses API, có thể giảm lượng context gửi ở mỗi lượt bằng endpoint /responses/compact
  • Ngày 4 tháng 12

    • Đã phát hành gpt-5.1-codex-max trên Responses API
    • GPT-5.1-Codex là mô hình lập trình thông minh nhất, được tối ưu cho các tác vụ agentic coding có tầm nhìn dài hạn
    • Chi tiết: gpt-5.1-codex-max

Tháng 11 năm 2025

  • Ngày 20 tháng 11

    • Đã thêm hỗ trợ nhập phím DTMF vào Realtime API
    • Có thể nhận sự kiện DTMF khi sử dụng Realtime sideband connection
    • Chi tiết: dtmf_event_received
  • Ngày 13 tháng 11 GPT-5.1

    • Đã phát hành GPT-5.1 như mô hình flagship mới nhất của dòng GPT-5
    • Mô hình được huấn luyện để mạnh hơn đặc biệt ở steerability, phản hồi nhanh hơn trong các tình huống ít cần suy nghĩ, sinh mã và các trường hợp sử dụng lập trình, cũng như agentic workflow
    • GPT-5.1 dùng mặc định thiết lập reasoning none mới để phản hồi nhanh trong các tình huống ít cần suy nghĩ
    • Giá trị mặc định này khác với mặc định trước đây của GPT-5 là medium
  • Ngày 13 tháng 11 RBAC

  • Ngày 13 tháng 11 GPT-5.1-Codex

    • Đã phát hành gpt-5.1-codexgpt-5.1-codex-mini trên Responses API
    • GPT-5.1-Codex là một biến thể của GPT-5.1 được tối ưu cho các tác vụ agentic coding trong Codex hoặc môi trường tương tự
    • Chi tiết: gpt-5.1-codex
  • Ngày 13 tháng 11 extended prompt caching

    • Đã phát hành extended prompt cache retention
    • Giữ cached prefix hoạt động lâu hơn, tối đa tới 24 giờ
    • Khi bộ nhớ đầy, key/value tensor được offload sang GPU local storage để tăng mạnh dung lượng lưu trữ có thể dùng cho caching

Tháng 10 năm 2025

  • Ngày 29 tháng 10

    • gpt-oss-safeguard-120bgpt-oss-safeguard-20b là các mô hình suy luận an toàn được xây dựng trên gpt-oss
    • Chi tiết: gpt-oss-safeguard collection
  • Ngày 24 tháng 10

  • Ngày 6 tháng 10 OpenAI DevDay

  • Ngày 1 tháng 10

    • Ra mắt IP allowlist
    • Giới hạn chỉ các địa chỉ IP hoặc dải IP được chỉ định mới có thể truy cập API

Tháng 9 năm 2025

  • Ngày 26 tháng 9

  • Ngày 23 tháng 9

    • Ra mắt gpt-5-codex như một mô hình chuyên dụng
    • Được xây dựng và tối ưu hóa để phù hợp với việc sử dụng Codex CLI

Tháng 8 năm 2025

  • Ngày 28 tháng 8

  • Ngày 21 tháng 8

    • Thêm hỗ trợ connectors vào Responses API
    • connector là các MCP wrapper do OpenAI duy trì cho những dịch vụ phổ biến như Google apps, Dropbox, và có thể dùng để cho phép mô hình quyền đọc dữ liệu được lưu trữ trong các dịch vụ đó
  • Ngày 20 tháng 8

    • Ra mắt Conversations API
    • Có thể tạo và quản lý các cuộc hội thoại chạy dài cùng với Responses API
    • Cách chuyển từ tích hợp Assistants API sang Responses và Conversations, cùng phần so sánh song song, có thể xem trong migration guide
  • Ngày 7 tháng 8

    • Ra mắt các mô hình dòng GPT-5 trên API: gpt-5, gpt-5-mini, gpt-5-nano
    • Giới thiệu giá trị reasoning effort minimal để tối ưu phản hồi nhanh trên các mô hình GPT-5 hỗ trợ reasoning
    • Giới thiệu kiểu tool call custom, cho phép đầu vào và đầu ra tự do

Tháng 6 năm 2025

  • Ngày 27 tháng 6

    • Ra mắt hỗ trợ Priority processing
    • Có độ trễ thấp hơn nhiều và ổn định hơn so với Standard processing, đồng thời vẫn giữ được tính linh hoạt của hình thức tính phí theo mức sử dụng
  • Ngày 24 tháng 6

  • Ngày 13 tháng 6

    • Cho phép sử dụng reusable prompts mới trong Dashboard và Responses API
    • Trong API, có thể tham chiếu các mẫu tạo trên Dashboard bằng tham số prompt, đồng thời truyền id của prompt, version tùy chọn và variables động có thể bao gồm đầu vào chuỗi, hình ảnh và tệp
    • Không thể dùng reusable prompts trong Chat Completions
    • Xem chi tiết: reusable prompts
  • Ngày 10 tháng 6

    • Ra mắt o3-pro trên Responses API và Batch API
    • Được thiết kế để sử dụng nhiều tài nguyên tính toán hơn mô hình suy luận o3, nhờ đó trả lời các bài toán khó với khả năng suy luận và độ nhất quán tốt hơn
    • Đã giảm giá mô hình o3 cho mọi yêu cầu API, bao gồm cả batch và flex processing
  • Ngày 4 tháng 6

  • Ngày 3 tháng 6

Tháng 5 năm 2025

  • Ngày 20 tháng 5 công cụ tích hợp sẵn

  • Ngày 20 tháng 5 schema

    • Trong Responses API và Chat Completions API, cho phép dùng chế độ strict trong schema công cụ khi gọi tool song song với các mô hình chưa fine-tuning
    • Cũng đã bổ sung các tính năng schema mới, bao gồm kiểm tra chuỗi cho email và các mẫu khác, cùng thiết lập phạm vi cho số và mảng
  • Ngày 15 tháng 5

  • Ngày 7 tháng 5

Tháng 4 năm 2025

  • Ngày 30 tháng 4

  • Ngày 23 tháng 4

    • Bổ sung mô hình tạo ảnh gpt-image-1
    • Mô hình này cải thiện chất lượng và instruction following, thiết lập tiêu chuẩn mới cho tạo ảnh
    • Các endpoint Image Generation và Edit cũng được cập nhật để hỗ trợ các tham số mới dành riêng cho gpt-image-1
  • Ngày 16 tháng 4

    • Bổ sung hai mô hình suy luận o-series là o3o4-mini vào Chat Completions API và Responses API
    • Thiết lập tiêu chuẩn mới trong toán học, khoa học, lập trình, các tác vụ suy luận thị giác và soạn thảo tài liệu kỹ thuật
    • Đồng thời ra mắt công cụ CLI sinh mã Codex
  • Ngày 14 tháng 4

    • Bổ sung gpt-4.1, gpt-4.1-mini, gpt-4.1-nano vào API
    • Cung cấp khả năng instruction following, lập trình và cửa sổ ngữ cảnh lớn hơn lên tới 1 triệu token
    • gpt-4.1gpt-4.1-mini hỗ trợ supervised fine-tuning
    • Đồng thời công bố ngừng hỗ trợ gpt-4.5-preview

Tháng 3 năm 2025

  • Ngày 20 tháng 3

    • Thêm các mô hình gpt-4o-mini-tts, gpt-4o-transcribe, gpt-4o-mini-transcribe, whisper-1 vào Audio API
  • Ngày 19 tháng 3

    • Ra mắt o1-pro trên Responses API và Batch API
    • Được thiết kế để dùng nhiều tài nguyên tính toán hơn so với mô hình suy luận o1, nhờ đó trả lời các bài toán khó với khả năng suy luận và độ nhất quán tốt hơn
  • Ngày 11 tháng 3

    • Ra mắt nhiều mô hình, công cụ mới và API mới cho agentic workflow
    • Ra mắt Responses API để có thể xây dựng và sử dụng agent cùng công cụ
    • Ra mắt bộ công cụ tích hợp sẵn cho Responses API gồm web search, file search, computer use
    • Ra mắt Agents SDK, một orchestration framework để thiết kế, xây dựng và triển khai agent
    • Công bố các mô hình gpt-4o-search-preview, gpt-4o-mini-search-preview, computer-use-preview
    • Cho biết có kế hoạch chuyển toàn bộ tính năng của Assistants API sang Responses API dễ dùng hơn, đồng thời thông báo mốc dự kiến ngừng Assistants vào năm 2026 sau khi đạt được mức tương đương đầy đủ về tính năng
  • Ngày 3 tháng 3

    • Bổ sung hỗ trợ trường metadata cho fine-tuning job

Tháng 2 năm 2025

  • Ngày 27 tháng 2

    • Ra mắt GPT-4.5 dưới dạng research preview trên Chat Completions API, Assistants API và Batch API
    • GPT-4.5 được giới thiệu là mô hình chat lớn nhất và có hiệu năng cao nhất, mạnh hơn trong các tác vụ sáng tạo và agentic planning nhờ EQ cao và khả năng hiểu ý định người dùng
  • Ngày 25 tháng 2

    • Ra mắt API Usage Dashboard Update
    • Phản ánh các yêu cầu bổ sung bộ lọc dữ liệu như chọn dự án, bộ chọn ngày và khoảng thời gian chi tiết
    • Giúp quan sát mức sử dụng tốt hơn trên nhiều sản phẩm và các service tier khác nhau
  • Ngày 5 tháng 2

    • Giới thiệu data residency tại châu Âu
    • Chi tiết: your data

Tháng 1 năm 2025

  • Ngày 31 tháng 1

    • Ra mắt o3-mini như một mô hình suy luận nhỏ gọn
    • Được tối ưu cho các tác vụ khoa học, toán học và lập trình
  • Ngày 21 tháng 1

    • Mở rộng phạm vi truy cập o1 model
    • Dòng mô hình o1 được huấn luyện để thực hiện suy luận phức tạp bằng học tăng cường

Tháng 12 năm 2024

Tháng 11 năm 2024

  • Ngày 20 tháng 11

    • Ra mắt gpt-4o-2024-11-20 trên v1/chat/completions
    • Đây là mô hình mới nhất của dòng gpt-4o
  • Ngày 4 tháng 11

    • Ra mắt Predicted Outputs
    • Giảm đáng kể độ trễ phản hồi của mô hình trong những tình huống đã biết trước phần lớn nội dung phản hồi
    • Đặc biệt thường được dùng khi tạo lại nội dung tài liệu và tệp mã nguồn chỉ với những thay đổi nhỏ

Tháng 10 năm 2024

  • Ngày 30 tháng 10

    • Đã bổ sung 5 kiểu giọng nói mới vào Realtime APIChat Completions API
    • Các mô hình áp dụng là gpt-4o-realtime-preview, gpt-4o-audio-preview, và endpoint v1/chat/completions cũng được nêu kèm
  • Ngày 17 tháng 10

  • Ngày 1 tháng 10 OpenAI DevDay tại San Francisco

    • Đã cùng công bố nhiều tính năng tại OpenAI DevDay in San Francisco
    • Realtime API cho phép xây dựng trải nghiệm speech-to-speech nhanh cho ứng dụng bằng giao diện WebSockets
    • Model distillation cho phép fine-tune mô hình tiết kiệm chi phí bằng cách tận dụng đầu ra của các mô hình frontier cỡ lớn
    • Image fine-tuning cho phép fine-tune GPT-4o bằng hình ảnh và văn bản để cải thiện năng lực thị giác
    • Evals cung cấp khả năng chạy đánh giá tùy chỉnh để đo hiệu năng mô hình trên các tác vụ cụ thể
    • Prompt caching cung cấp mức giá ưu đãi và thời gian xử lý nhanh hơn cho các token đầu vào đã được xem gần đây
    • Generate in playground cho phép dễ dàng tạo prompt, định nghĩa hàm và schema đầu ra có cấu trúc bằng nút Generate

Tháng 9 năm 2024

  • Ngày 26 tháng 9

    • Đã công bố mô hình moderation omni-moderation-latest mới
    • Hỗ trợ hình ảnh và văn bản, đồng thời ở một số danh mục có thể xử lý cả văn bản lẫn hình ảnh cùng lúc
    • Hỗ trợ thêm 2 danh mục harm chỉ dành cho văn bản và độ chính xác của điểm số cũng được cải thiện
  • Ngày 12 tháng 9

    • Đã công bố o1-preview và o1-mini
    • Hai mô hình này là các mô hình ngôn ngữ lớn mới được huấn luyện bằng học tăng cường và nhắm tới việc thực hiện các tác vụ suy luận phức tạp
    • Endpoint được ghi là v1/chat/completions

Tháng 8 năm 2024

Tháng 7 năm 2024

  • Ngày 24 tháng 7

    • Đã ra mắt self-serve SSO configuration
    • Khách hàng Enterprise dùng gói custom và unlimited billing có thể thiết lập xác thực phù hợp với IDP mong muốn
  • Ngày 23 tháng 7

    • Đã ra mắt fine-tuning GPT-4o mini, giúp nhắm tới hiệu năng cao hơn trong một số trường hợp sử dụng cụ thể
  • Ngày 18 tháng 7

    • Đã công bố GPT-4o mini
    • Được giới thiệu là mô hình nhỏ chi phí thấp cho các tác vụ nhanh và nhẹ
  • Ngày 17 tháng 7

    • Đã ra mắt Uploads, cho phép tải lên các tệp lớn bằng cách chia thành nhiều phần

Tháng 6 năm 2024

  • Ngày 6 tháng 6

    • Trong Chat Completions và Assistants API, giờ đây có thể truyền parallel_tool_calls=false để vô hiệu hóa gọi hàm song song
    • .NET SDK đã được phát hành dưới dạng Beta
  • Ngày 3 tháng 6

Tháng 5 năm 2024

  • Ngày 15 tháng 5

  • Ngày 13 tháng 5

    • Ra mắt GPT-4o trên API
    • Được mô tả là mô hình flagship nhanh nhất và rẻ nhất
  • Ngày 9 tháng 5

  • Ngày 7 tháng 5

  • Ngày 6 tháng 5

    • Đã thêm tham số stream_options: {"include_usage": true} vào Chat Completions API và Completions API
    • Khi dùng thiết lập này, có thể truy cập thống kê usage khi sử dụng streaming
  • Ngày 2 tháng 5

    • Đã thêm endpoint mới để xóa message trong thread trên Assistants API

Tháng 4 năm 2024

Tháng 3 năm 2024

Tháng 2 năm 2024

Tháng 1 năm 2024

  • Ngày 25 tháng 1

    • Công bố mô hình embedding V3 và bản preview GPT-4 Turbo đã được cập nhật
    • Đã thêm tham số dimensions vào Embeddings API

Tháng 12 năm 2023

Tháng 11 năm 2023

Tháng 10 năm 2023

2 bình luận

 
ragingwind 8 giờ trước

Giờ từ 5.4 trở đi, bản pro dường như không còn cung cấp Chat Completions API nữa nhỉ

 
Ý kiến trên Hacker News
  • Tôi gặp sự cố production nên thử ngay, và GPT-5.5 lại làm kiểu mà Claude không làm
    Nó bảo dùng câu lệnh update sau khi troubleshooting, rồi khi tôi nói "được, bọc cái này trong transaction và thêm rollback nhé" thì nó trả theo kiểu cũ
    BEGIN TRAN;
    -- put the query here
    commit;
    chỉ vậy thôi
    Đã lâu rồi tôi không phải đẩy ngược lại model để nó thực sự làm điều mình yêu cầu, nên vụ này khá sốc
    Tôi hiểu là nó muốn dùng ít token hơn, nhưng mình đang trả tiền cho một mô hình tối tân, nên kiểu lười như vậy rất khó chịu
    Tôi chỉ thấy nó hiện trong bộ chọn model của Cursor nên thử thôi

    • Từ sau gpt-5.3-codex, 2~3 thế hệ gần đây có cảm giác không phải là cải thiện lớn, mà là thay cái này cái kia để tạo ra những tradeoff khác
    • Có thể tôi hiểu sai, nhưng tôi tò mò chính xác vấn đề là gì
      Nếu vấn đề là câu trả lời chỉ có -- put the query here và không lặp lại câu query, thì tôi không chắc đó hẳn là vấn đề
      Nếu mục tiêu thật sự là lấy câu query để chạy và bạn nói "hãy làm cái này thành transaction", thì việc chỉ ra rằng bạn chỉ cần thêm begin ở trước cũng khá hợp lý
      Nếu query dài thì còn tiết kiệm token, giống như khi gặp permission denied thì bảo thêm sudo ở đầu thay vì viết lại toàn bộ lệnh
      Ngược lại, nếu bạn kỳ vọng model thật sự thực thi câu query mà nó lại kiểu "đây nhé, tự chạy đi", thì đúng là lười và đủ khiến người ta ngỡ ngàng
    • OpenAI có vẻ là công ty đầu tiên cuối cùng cũng đạt đến mức trí tuệ biết giao việc lại cho người dùng
      Đúng là một kiểu emergent behavior khá thú vị
      Nói đùa vậy thôi, nhưng sự ám ảnh của OpenAI với tối ưu hóa intelligence trên mỗi token làm tôi nhớ đến thời Apple trước M1 quá tập trung vào việc làm MacBook siêu mỏng
      Cảm giác như họ theo đuổi một chỉ số duy nhất đến cùng và hy sinh mọi thứ khác
      GPT-5.3+ rõ ràng thuộc nhóm model thông minh nhất, nhưng nhiều lúc nó lười đến mức rất khó cộng tác
    • Tôi vẫn chưa rõ ví dụ trên là tốt hay xấu
    • GPT-5.5 có lẽ phá nát mọi benchmark về mức độ tin tưởng vào người dùng
  • Tôi vừa chạy nó qua benchmark Wordpress+GravityForms của mình, và xét theo hiệu năng thì nó nằm gần đáy bảng xếp hạng, còn hiệu quả chi phí thì tệ nhất: https://github.com/guilamu/llms-wordpress-plugin-benchmark
    Tôi biết đây chỉ là một benchmark, nhưng thật khó hiểu vì sao nó có thể tệ đến thế

    • Cảm giác như một junior đang nghịch ở garage trong lĩnh vực mình ít kinh nghiệm, làm một bài test sơ sài rồi gọi đó là benchmark
      Dạo này nghĩa của từ ngữ bị phá vỡ quá dễ, nên chuyện này xảy ra thường xuyên
      Những diễn đàn trước đây có nhiều người làm kỹ thuật thật sự giờ cũng đang bị lấp đầy bởi đám vibe researcher, và khi vượt ngưỡng phổ biến thì vốn dĩ chuyện gì cũng thành thế
      HN có vẻ vẫn là một trong những pháo đài cuối cùng còn tinh thần tìm hiểu nghiêm túc, nhưng nhìn bình luận gốc thì rõ là cũng không hoàn toàn miễn nhiễm
    • Trong benchmark của bạn, gemma4-e4b còn tốt hơn gemma4-26b tới 50%, nên có vẻ có gì đó không ổn
    • Trong benchmark của bạn, Opus 4.7 kém hơn rất nhiều so với Sonnet 4.6, mà kể cả điều đó đúng trong benchmark này thì cũng không đại diện cho hiệu năng tổng thể của model
    • Đúng kiểu du hành thời gian mang benchmark này tới đây
      Tôi khá thích kiểu benchmarking này
      Tôi tò mò benchmark judge benchmark được chấm như thế nào, vì tôi cũng muốn tự dựng một benchmark tương tự
    • Cái này có vẻ giống benchmark đo model vibe coding giỏi đến đâu hơn
      Prompt thì cực kỳ mỏng nhưng tiêu chí chấm điểm lại rất nhiều
  • Mức giá theo độ dài context là thế này
    Input là $5/M nếu dưới hoặc bằng 272K, trên mức đó là $10/M
    Output là $30/M nếu dưới hoặc bằng 272K, trên mức đó là $45/M
    Cache read là $0.50/M nếu dưới hoặc bằng 272K, trên mức đó là $1/M
    Nếu vượt 272K thì rõ ràng còn đắt hơn Opus 4.7, và ít nhất với công việc của tôi, hiệu quả token không có vẻ tốt hơn tới mức đó
    Không đủ để bù cho chênh lệch giá
    GPT-5.4 có điểm mạnh là context 400k và compaction đáng tin cậy, nhưng có vẻ cả hai đều đã thụt lùi đôi chút
    Dù vậy, tôi chưa muốn khẳng định chắc rằng độ tin cậy của compaction thật sự đã giảm
    Phần output frontend vẫn còn xu hướng nghiêng về kiểu template xanh dương với đống thẻ bài rất dễ nhận ra đó
    Đó là phong cách đã trông đáng ngờ từ thời Horizon Alpha/Beta trước khi GPT-5 ra mắt, nhưng lúc đó task adherence tốt đến mức vẫn hữu ích dù có nhược điểm lớn ấy
    Thế nên việc GPT-5.5 được nói là một foundation hoàn toàn mới mà phần đó vẫn còn hạn chế như vậy thì hơi lạ

  • Kết quả benchmark suy luận lập trình tổng hợp của GPT 5.5 đã được đăng lên https://gertlabs.com/
    Live decision và các bài eval agentic nặng hơn sẽ tiếp tục được thêm trong 24 giờ tới, nhưng có vẻ thứ hạng leaderboard giờ sẽ không đổi nữa
    GPT 5.5 là model thông minh nhất trong số các model công khai, và rõ ràng nhanh hơn phiên bản trước

  • Hôm qua họ còn nói thế này

    API deployments require different safeguards and we are working closely with partners and customers on the safety and security requirements for serving it at scale.
    Thế mà hôm nay đã thành thế này
    Một ngày thì đúng là "very soon", nhưng tôi vẫn thắc mắc chính xác safeguardssecurity requirements đó nghĩa là gì

    • Khi ai đó nói một thứ bị chậm lại vì safeguards, thì đa phần chỉ có nghĩa là hiện tại họ chưa có đủ compute ngay lúc này
    • GPT-5.5 vốn đã có trong API chỉ dành cho Codex, và họ còn nói rõ có thể dùng nó cho mục đích khác nữa
      https://simonwillison.net/2026/Apr/23/gpt-5-5/#the-openclaw-backdoor
      nên tôi cũng nghĩ chuyện đó có thể đã đẩy nhanh lần phát hành này
    • Một người đã nói dối trắng trợn về vấn đề an toàn đến mức đó mà vẫn còn điều hành công ty, thì tôi không hiểu tại sao người ta lại kỳ vọng tương lai sẽ khác
      Cũng có tiền lệ rồi

      In 2023, the company was preparing to release its GPT-4 Turbo model. As Sutskever details in the memos, Altman apparently told Murati that the model didn’t need safety approval, citing the company’s general counsel, Jason Kwon. But when she asked Kwon, over Slack, he replied, “ugh . . . confused where sam got that impression.”
      Altman đã nhiều lần không hoàn toàn trung thực về việc safety quan trọng đến mức nào ở OpenAI
      https://www.newyorker.com/magazine/2026/04/13/sam-altman-may-control-our-future-can-he-be-trusted (https://archive.is/a2vqW)

  • Không biết có phải chỉ mình tôi không, nhưng tôi có cảm giác mỗi lần có tin kiểu này, OpenAI lại dùng bình luận viên được trả tiền hoặc bot để dìm Claude và đẩy luận điệu rằng Codex vượt trội hẳn
    Số lượng nhiều quá, và có khá nhiều khẳng định rất khó tin nếu bạn dùng Claude hằng ngày

    • Đúng vậy, kỳ lạ một cách bất thường
      Nó giống với việc ai cũng dường như quên mất OpenAI đã phản bội nền dân chủ khi đồng ý hợp tác về vũ khí tự động không giám sát và giám sát quy mô lớn trong nước
    • Tôi cũng thấy nó khá lộ liễu
      Ít nhất thì dấu hiệu bề mặt bắt đầu xuất hiện ngay sau đợt Opus 4.6 hype
    • Tất nhiên họ có làm vậy
      Mấy công ty quảng bá sản phẩm của mình giờ đều tương tự nhau cả
  • Tôi là người dùng Enterprise mà vẫn chỉ thấy 5.4
    Thông báo hôm qua nói phải mất vài giờ mới rollout hết cho mọi người, nhưng OpenAI nên làm GTM tốt hơn để quản lý kỳ vọng

    • Tôi vừa refresh lại thì đã thấy 5.5
      Phát hành nhanh thế là tốt
      Chắc lần sau phải phàn nàn sớm hơn
  • Đây là model thứ hai đạt 25/25 trong benchmark của tôi
    Model đầu tiên là Opus 4.7, và kết quả ở đây: https://sql-benchmark.nicklothian.com/?highlight=openai_gpt-5.5
    Rẻ hơn Opus nhưng chậm hơn

  • Trên trang API, knowledge cutoff được ghi là 2025-12-01, nhưng nếu hỏi trực tiếp model thì nó trả lời là tháng 6 năm 2024
    Knowledge cutoff: 2024-06
    Current date: 2026-04-24
    You are an AI assistant accessed via an API.

    • Tôi không hiểu sao chuyện này cứ lặp đi lặp lại
      Từ xưa đến nay, hỏi chính model về ngày cutoff luôn là cách kém đáng tin nhất để kiểm tra
      Nó thậm chí có thể đã học cả những bình luận như thế này
      Cứ hỏi về một sự kiện xảy ra ngay trước 2025-12-01 là được
      Nếu có thể thì trận đấu thể thao là lựa chọn tốt
    • Tôi cũng không chắc có nên tin điều model tự nói không
      Trên các trang API của model cũ cũng thường ghi cutoff là tháng 6 năm 2024, nên có thể nó chỉ đang nhặt lại thông tin đó để nói
    • Nếu không được báo trong system prompt thì model không biết cutoff date của chính nó
      Cách đúng để kiểm tra cutoff thật là hỏi về điều gì đó vốn chưa tồn tại hoặc chưa xảy ra trước thời điểm đó
      Tôi thử đại vài lần thì có vẻ cutoff kiến thức phổ thông của 5.5 vẫn quanh đầu năm 2025
    • Vậy có thể test bằng cách hỏi ai thắng bầu cử tổng thống Mỹ 2024 không
  • Tổ hợp GPT 5.5 + Codex thật sự rất tốt
    Dù là hỏi đáp, lập kế hoạch hay triển khai code, giờ tôi gần như giao luôn mà không nghi ngờ nhiều
    Opus 4.7 thì vẫn khiến tôi phải kiểm tra chéo liên tục
    Nó không tuân thủ tốt chỉ dẫn trong CLAUDE.md, hallucination nhiều, và khi không tìm ra đáp án thì mặc định hay bịa ra, nên đó là vấn đề khá lớn
    Năm ngoái, khi mọi người nói OpenAI đang tụt lại, là code red, thì điều đó đến cực nhanh; còn nhìn vào hiện tại thì tình hình đã thay đổi hoàn toàn