App mới trong ChatGPT và Apps SDK
- Đã công bố tính năng sử dụng ứng dụng tương tác ngay bên trong ChatGPT
- Các ứng dụng mới được thiết kế để hoạt động tự nhiên trong luồng hội thoại, và sẽ được tự động gợi ý khi người dùng cần
- Ví dụ: “Spotify, hãy tạo playlist cho bữa tiệc cuối tuần này” → ứng dụng tự động chạy và cung cấp kết quả dựa trên ngữ cảnh
- Trong cuộc trò chuyện về bất động sản, có thể gợi ý ứng dụng Zillow để hiển thị ngay bản đồ các bất động sản phù hợp với ngân sách
- Chuyển dàn ý tạo trong cuộc trò chuyện thành slide thông qua Canva
- Vừa học khóa học Coursera vừa yêu cầu ChatGPT giải thích bổ sung
- Ứng dụng kết hợp lệnh ngôn ngữ tự nhiên và giao diện trực quan, mang lại trải nghiệm sử dụng trực giác hơn so với web app truyền thống
- Các ứng dụng đối tác ra mắt đợt đầu gồm Booking.com, Canva, Coursera, Figma, Expedia, Spotify, Zillow
- Dự kiến sẽ có thêm 11 ứng dụng trong năm nay: Doordash, Khan Academy, Instacart, Peloton, OpenTable, target, Uber,...
- Quy trình gửi và xét duyệt ứng dụng sẽ bắt đầu vào cuối năm nay, đồng thời sẽ lần lượt được triển khai cho các phiên bản ChatGPT Business·Enterprise·Edu
- Có thêm thư mục ứng dụng mới để người dùng duyệt và tìm kiếm ứng dụng; các ứng dụng có thiết kế và tính năng xuất sắc sẽ được đề xuất trong hội thoại và hiển thị nổi bật
-
Apps SDK
- Nhà phát triển có thể trực tiếp tạo và thử nghiệm ứng dụng bằng bản preview của Apps SDK
- SDK có cấu trúc mở rộng từ Model Context Protocol(MCP), cho phép định nghĩa cả logic lẫn giao diện của ứng dụng
- SDK được phát hành dưới dạng mã nguồn mở, nên có thể chạy theo cùng tiêu chuẩn trên cả các nền tảng ngoài ChatGPT
- Nhà phát triển có thể kết nối trực tiếp với backend hiện có, hỗ trợ đăng nhập và truy cập các tính năng trả phí
- Trong năm nay, ChatGPT dự kiến sẽ hỗ trợ mô hình kiếm tiền từ ứng dụng và tính năng thanh toán tức thời dựa trên Agentic Commerce Protocol
- Nhờ đó, ChatGPT sẽ vượt khỏi vai trò trợ lý hội thoại đơn thuần để tiến hóa thành nền tảng tích hợp tương tác với hệ sinh thái ứng dụng
Công bố AgentKit – bộ công cụ hoàn chỉnh để phát triển·triển khai·tối ưu agent
- AgentKit là công cụ kế nhiệm của Responses API và Agents SDK, một nền tảng tích hợp giúp đơn giản hóa quá trình xây dựng agent và nâng cao độ tin cậy
- Trước đây, các phần như connector, pipeline đánh giá, tinh chỉnh prompt, xây dựng frontend phải được xử lý riêng lẻ, còn nay có thể quản lý tích hợp trong một môi trường duy nhất
-
Agent Builder – công cụ thiết kế workflow trực quan
- Agent Builder cung cấp môi trường dùng canvas trực quan theo kiểu kéo-thả để xây dựng logic agent và quản lý phiên bản
- Được tối ưu cho phát triển lặp nhanh với chạy preview, thiết lập đánh giá inline và cấu hình guardrail tùy chỉnh (Guardrails)
- Ramp cho biết nhờ công cụ này, họ đã hoàn thành dàn phối phức tạp vốn mất hàng tháng chỉ trong vài giờ, đồng thời rút ngắn chu kỳ phát triển 70%
- LY Corporation của Nhật Bản cũng đã xây dựng workflow multi-agent đầu tiên chỉ trong 2 giờ
-
Guardrails – bảo vệ agent an toàn
- Guardrails là lớp an toàn mã nguồn mở, cung cấp các chức năng che PII, phát hiện jailbreak, chặn phản hồi bất thường
- Có thể chạy độc lập hoặc tích hợp trong Agent Builder thông qua thư viện Guardrails cho Python và JavaScript
-
Connector Registry – quản lý tích hợp dữ liệu
- Connector Registry là bảng quản trị tích hợp giúp quản lý tập trung các kết nối dữ liệu giữa nhiều workspace và tổ chức
- Bao gồm connector mặc định như Dropbox, Google Drive, SharePoint, Microsoft Teams cùng hỗ trợ MCP bên thứ ba
- Quản trị viên có thể quản lý tập trung domain, SSO và tổ chức API qua Global Admin Console, đây là điều kiện bắt buộc để kích hoạt Connector Registry
-
ChatKit – toolkit tích hợp UI hội thoại
- ChatKit là toolkit giúp nhúng UI chat cho agent vào sản phẩm một cách đơn giản
- Tự động hỗ trợ xử lý phản hồi streaming, quản lý thread hội thoại và hiển thị quá trình suy nghĩ của mô hình
- Có thể đưa trực tiếp vào web hoặc app, đồng thời tùy biến theme theo thiết kế thương hiệu
- Đang được sử dụng trong nhiều kịch bản như trợ lý tri thức, hướng dẫn onboarding, hỗ trợ nghiên cứu như agent hỗ trợ khách hàng của HubSpot
-
Evals – tăng cường khả năng đo hiệu năng
- Để xây dựng agent đáng tin cậy hơn, Evals được bổ sung 4 tính năng mới sau
- Datasets: nhanh chóng xây dựng và mở rộng tập đánh giá bằng bộ chấm điểm tự động và chú thích của con người
- Trace grading: đánh giá toàn bộ quá trình chạy workflow để tự động phát hiện điểm yếu
- Automated prompt optimization: tự động cải thiện prompt dựa trên kết quả đánh giá
- Third-party model support: hỗ trợ đánh giá cả mô hình bên ngoài
-
Reinforcement Fine-Tuning nâng cao
- RFT là tính năng cho phép nhà phát triển điều chỉnh mô hình suy luận OpenAI theo mục đích cụ thể
- Đã phát hành rộng rãi trên mô hình o4-mini, còn RFT cho GPT-5 đang ở giai đoạn private beta với hàng chục doanh nghiệp thử nghiệm
- Các tính năng beta mới
- Custom tool calls: huấn luyện để mô hình gọi đúng công cụ vào đúng thời điểm
- Custom graders: thiết lập tiêu chí đánh giá tùy chỉnh phù hợp với từng trường hợp sử dụng
- ChatKit và Evals được phát hành rộng rãi cho mọi nhà phát triển từ hôm nay. Agent Builder và Connector Registry sẽ được cung cấp dần ở giai đoạn beta và được bao gồm trong gói giá tiêu chuẩn của API
- Sắp tới cũng sẽ bổ sung Workflows API và tùy chọn triển khai agent trong ChatGPT
Codex chính thức ra mắt – mở rộng agent viết code tích hợp cho đội ngũ phát triển
- OpenAI công bố ra mắt chính thức nền tảng agent code trên nền tảng đám mây Codex, đồng thời bổ sung 3 tính năng cốt lõi gồm tích hợp Slack, Codex SDK và công cụ quản trị
- Codex hoạt động thống nhất trên IDE·CLI·môi trường cloud dựa trên mô hình GPT-5-Codex
- Sau khi ra mắt, mức sử dụng hằng ngày đã tăng gấp 10 lần so với tháng 8, xử lý 40 nghìn tỷ token trong 3 tuần và được đánh giá là một trong những mô hình tăng trưởng nhanh nhất
- Ngay trong nội bộ OpenAI, hơn 70% kỹ sư toàn công ty cũng đang dùng Codex, giúp số lượng PR được merge hằng tuần tăng 70%, và Codex tự động thực hiện phần lớn việc review code
-
Tích hợp Slack
- Khi gắn thẻ
@Codex trong kênh nhóm, Codex sẽ tự động thu thập ngữ cảnh hội thoại và chọn môi trường phù hợp để phản hồi
- Kết quả sẽ được liên kết qua Codex Cloud link, cho phép merge thay đổi, chỉnh sửa lặp, hoặc tải về máy cục bộ
- Tích hợp Slack giúp thực hiện tự nhiên các tác vụ như review code, sửa lỗi tự động, yêu cầu chạy build trong môi trường phát triển cộng tác
-
Codex SDK
- Codex SDK là bộ công cụ phát triển cho phép sử dụng cùng một implementation agent mã nguồn mở của Codex CLI trong các ứng dụng bên ngoài
- SDK trước tiên được cung cấp cho TypeScript, và sẽ hỗ trợ thêm các ngôn ngữ khác sau
- Tính năng chính
- Parse phản hồi của agent bằng đầu ra có cấu trúc
- Quản lý ngữ cảnh tích hợp sẵn để khôi phục phiên làm việc
- Hỗ trợ tự động hóa pipeline CI/CD thông qua tích hợp GitHub Action
- Trong môi trường shell có thể chạy trực tiếp bằng lệnh
codex exec
- Instacart đã tích hợp SDK vào nền tảng Olive của mình để xây dựng môi trường phát triển tự động end-to-end, qua đó xác nhận hiệu quả trong việc giảm nợ kỹ thuật và nâng cao chất lượng code
-
Tăng cường tính năng quản trị
- Thông qua tính năng kiểm soát và xóa môi trường, có thể quản lý dữ liệu nhạy cảm và dọn dẹp các môi trường không cần thiết
- Cung cấp dashboard phân tích mức sử dụng Codex và chất lượng review code trên CLI·IDE·web
- Quản trị viên có thể kiểm soát tập trung chính sách và cấu hình sử dụng cục bộ của Codex, phù hợp với vận hành ở quy mô tổ chức lớn
- Cisco cho biết nhờ Codex, họ đã rút ngắn tối đa 50% thời gian review các PR phức tạp, giúp kỹ sư tập trung hơn vào các công việc mang tính chiến lược
- Tích hợp Slack và Codex SDK có thể dùng ngay trên các gói ChatGPT Plus, Pro, Business, Edu, Enterprise
- Từ ngày 20 tháng 10, khối lượng công việc trên Codex Cloud sẽ được tính vào mức sử dụng
- Gói Plus: trong 5 giờ có thể thực hiện khoảng 30~150 tin nhắn cục bộ hoặc 5~40 tác vụ cloud
- Gói Pro: trong 5 giờ có thể thực hiện khoảng 300~1.500 tin nhắn cục bộ hoặc 50~400 tác vụ cloud
- Khi vượt giới hạn, việc sử dụng Codex sẽ tạm thời bị dừng, và có thể dùng lại sau khi mức sử dụng được đặt lại
- Code Review tạm thời chưa bị tính vào mức sử dụng
- Chỉ những trường hợp dùng thẻ
@codex review trên GitHub hoặc bật tính năng review tự động mới được tính là mức sử dụng Code Review
Công bố API tạo video dùng Sora
- Sora là mô hình media tạo sinh thế hệ mới của OpenAI, tạo ra video chân thực và sống động có kèm âm thanh
- Được phát triển dựa trên nghiên cứu multi-modal diffusion, mô hình này học được nhận thức không gian 3D, chuyển động camera và tính nhất quán của chuyển động vật lý
- Nhà phát triển có thể dùng nó để tự động tạo nội dung theo dạng text→video hoặc image→video
- Video API mới được công bố gồm 5 endpoint chức năng chính sau
- Create video: tạo tác vụ render mới từ prompt văn bản hoặc video hiện có
- Get video status: kiểm tra tiến độ render
- Download video: tải video MP4 đã hoàn thành
- List videos: quản lý danh sách video đã tạo và hỗ trợ phân trang
- Delete videos: xóa video cụ thể khỏi không gian lưu trữ
- Thông qua API, có thể tự động hóa bằng lập trình các tác vụ tạo, quản lý, mở rộng và remix video
-
Các loại mô hình
-
Sora 2 – cho lặp nhanh và thử nghiệm
- Đây là mô hình tập trung vào tốc độ và tính linh hoạt, phù hợp để thử nghiệm concept hoặc tạo rough cut
- Có thể cho ra kết quả trong thời gian ngắn, hữu ích để tạo nội dung mạng xã hội hoặc video prototype
- Tập trung vào khám phá ý tưởng và xác định định hướng hình ảnh hơn là chất lượng hoàn hảo
-
Sora 2 Pro – cho sản xuất chất lượng cao
- Mô hình được thiết kế với mục tiêu đạt mức độ hoàn thiện điện ảnh
- Tốc độ render chậm hơn và chi phí cao hơn, nhưng độ ổn định và chi tiết của video được cải thiện đáng kể
- Phù hợp cho video marketing độ phân giải cao, tài sản thương hiệu, hoặc cảnh quay mang phong cách điện ảnh
Có thể dùng GPT-5 Pro qua API
- GPT-5 Pro là mô hình suy luận (reasoning) cao cấp nhất của OpenAI, sử dụng nhiều năng lực tính toán hơn để tạo ra phản hồi tinh vi và chính xác hơn
- Dù chậm hơn GPT-5 thông thường, mô hình này mang lại khả năng giải quyết vấn đề phức tạp và chất lượng ổn định hơn
- Đây là mô hình chỉ dành cho Responses API, hỗ trợ xử lý yêu cầu hội thoại nhiều lượt và các tính năng API nâng cao, đồng thời chỉ hỗ trợ chế độ
reasoning.effort: high
- Không hỗ trợ Code Interpreter và streaming thời gian thực
- Các yêu cầu phức tạp có thể cần thời gian xử lý tính bằng phút, và khi chạy dài nên dùng Background Mode
- Context window 400.000 token, đầu ra tối đa 272.000 token, Knowledge Cutoff ngày 30 tháng 9 năm 2024
- Giá (Pricing): trên 1 triệu token
- Input: $15.00 (bao gồm cả input hình ảnh)
- Output: $120.00
Mô hình GPT Realtime Mini cho dịch vụ giọng nói chi phí thấp
- GPT-Realtime-Mini là phiên bản chi phí thấp, tốc độ cao của mô hình hội thoại thời gian thực, hỗ trợ input văn bản·hình ảnh·âm thanh và tạo output văn bản lẫn âm thanh
- Có thể phản hồi giọng nói·văn bản theo thời gian thực qua kết nối WebRTC, WebSocket, SIP, với chi phí thấp hơn hơn 6 lần so với gpt-realtime
- Context window 32.000 token, đầu ra tối đa 4.096 token, Knowledge Cutoff ngày 1 tháng 10 năm 2023
- Giá (Pricing): trên 1 triệu token
- Token văn bản
- Input: $0.60
- Cached input: $0.06
- Output: $2.40
- So sánh với các mô hình hiện có
- Input: gpt-realtime: $4, GPT-5: $1.25, gpt-realtime-mini: $0.60 (rẻ nhất)
- Output: gpt-realtime: $16, GPT-5: $10, gpt-realtime-mini: $2.4 (rẻ nhất)
- Token âm thanh
- Input: $10
- Cached input: $0.3
- Output: $20
- Token hình ảnh
- Input: $0.8
- Cached input: $0.08
Mô hình GPT Image 1 Mini
- GPT-Image-1-Mini là phiên bản chi phí thấp của GPT Image 1, một mô hình đa phương thức nhận input văn bản và hình ảnh để tạo output hình ảnh
- Mô hình tập trung vào hiệu quả và chi phí thấp hơn là chất lượng cao, phù hợp để tạo ảnh số lượng lớn hoặc prototype trực quan
- Có thể nhận input văn bản và hình ảnh, còn output chỉ là hình ảnh
- Tốc độ chậm hơn, nhưng hiệu quả chi phí so với hiệu năng rất cao
- Giá (Pricing): trên 1 triệu token
- Token văn bản
- Input: $2.00
- Cached input: $0.20
- Output: $8.00
- So sánh với mô hình hiện có
- Input: GPT Image 1: $5.00, GPT Image 1 Mini: $2.00 (giảm khoảng 60%)
- Output: GPT Image 1: $20.00, GPT Image 1 Mini: $8.00 (giảm khoảng 60%)
- Token hình ảnh
- Input: $2.50
- Cached input: $0.25
- Output: $8.00
- Tạo hình ảnh (tính theo 1 ảnh)
- Chất lượng Low
- 1024×1024: $0.005
- 1024×1536: $0.006
- 1536×1024: $0.006
- Chất lượng Medium
- 1024×1024: $0.011
- 1024×1536: $0.015
- 1536×1024: $0.015
1 bình luận
Hacker News cũng vậy, yên ắng hơn tôi tưởng khá nhiều. Có lẽ vì họ cứ công bố và phát hành nhỏ giọt liên tục.