OpenAI công bố các công cụ dành cho nhà phát triển để xây dựng AI agent

xguru · 2025-03-12T09:08:31+09:00

Web Search: Tìm kiếm thông tin mới nhất trên web và trả về URL trích dẫn File Search: Tìm kiếm ngữ nghĩa/từ khóa trong danh sách tệp đã tải lên Computer Use: Điều khiển máy tính và thực hiện tác vụ Responses API: Giao diện phản hồi tích hợp nâng cao. Hỗ trợ đầu vào văn bản/hình ảnh và có thể sử dụng đầy đủ web search, file search và tính năng CUA Agents SDK: Framework điều phối để phát triển agent Một số nhà phát triển/công ty đủ điều kiện có thể chia sẻ prompt với OpenAI để giúp cải thiện mô hình Đến cuối tháng 4 năm nay, có thể dùng miễn phí tối đa 1 triệu token mỗi ngày cho gpt-4.5-preview, gpt-4o, o1, và tối đa 10 triệu token cho gpt-4o-mini, o1-mini, o3-mini Có thể kiểm tra điều kiện đủ trên bảng điều khiển nhà phát triển của OpenAI Bài giới thiệu của OpenAI: New tools for building agents Web Search Có thể tìm kiếm trực tiếp thông tin trên web để cung cấp thông tin mới nhất trong ChatGPT Có thể sử dụng trực tiếp các mô hình đã được tinh chỉnh và công cụ tìm kiếm thông qua Chat Completions API Cách dùng web search trong Chat Completions API Mô hình luôn tìm kiếm thông tin mới nhất trên web trước khi phản hồi Nếu muốn chỉ dùng công cụ web search (web_search_preview) khi cần, phải chuyển sang Responses API Các mô hình hỗ trợ web search gpt-4o-search-preview gpt-4o-mini-search-preview File Search Cho phép mô hình tìm thông tin liên quan trong tệp của người dùng trước khi tạo phản hồi Được cung cấp trong Responses API, tìm kiếm thông tin trong kho tri thức của các tệp đã tải lên thông qua tìm kiếm ngữ nghĩa và tìm kiếm từ khóa Tận dụng Vector Store và tìm kiếm ngữ nghĩa Có thể mở rộng kiến thức nền của mô hình bằng cách tạo Vector Store và tải tệp lên Đây là công cụ do OpenAI quản lý nên người dùng không cần tự triển khai mã Khi mô hình xác định là cần thiết, nó sẽ tự động gọi công cụ để tìm thông tin trong tệp và tạo phản hồi Cách sử dụng Trước tiên cần thiết lập kho tri thức trong vector store và tải tệp lên Sau khi thiết lập vector store, có thể thêm công cụ file_search vào danh sách công cụ mà mô hình có thể dùng Hiện tại chỉ có thể tìm kiếm từ một vector store tại một thời điểm (chỉ dùng được một ID vector store) Computer Use Dựa trên mô hình Computer-Using Agent (CUA) có thể thực hiện tác vụ trên máy tính của người dùng Kết hợp khả năng xử lý thị giác và suy luận nâng cao của GPT-4o để điều khiển giao diện máy tính và thực hiện tác vụ Được cung cấp qua Responses API, không dùng được trong Chat Completions Hiện là bản beta, có thể phát sinh lỗ hổng hoặc sai sót. Không khuyến nghị dùng trong môi trường đã xác thực hoàn toàn hoặc cho các tác vụ quan trọng Cách hoạt động Mô hình gửi lệnh thao tác máy tính như nhấp chuột (x, y), nhập liệu (text) Mã của người dùng sẽ thực thi các thao tác đó trong môi trường máy tính hoặc trình duyệt và trả về ảnh chụp màn hình kết quả Mô hình hiểu trạng thái môi trường dựa trên ảnh chụp màn hình và đề xuất thao tác tiếp theo Qua vòng lặp liên tục, có thể tự động hóa nhiều thao tác như nhấp, nhập, cuộn Ví dụ ứng dụng: đặt vé máy bay, tìm kiếm sản phẩm, điền biểu mẫu Responses API Giao diện mô hình tiên tiến nhất của OpenAI Hỗ trợ đầu vào văn bản và hình ảnh, tạo đầu ra văn bản Cung cấp tương tác có trạng thái cho phép dùng đầu ra của phản hồi trước làm đầu vào tiếp theo Có thể mở rộng chức năng Có thể mở rộng khả năng của mô hình thông qua các công cụ tích hợp sẵn File Search – Có thể tìm kiếm ngữ nghĩa và từ khóa trong các tệp đã tải lên Web Search – Có thể tìm kiếm thông tin web mới nhất Computer Use – Có thể điều khiển giao diện máy tính và thực hiện tác vụ tự động hóa Function Calling – Có thể truy cập hệ thống và dữ liệu bên ngoài Có thể gọi hàm Python và tương tác với các hệ thống bên ngoài Agents SDK Có thể phát triển ứng dụng AI dựa trên Agent bằng một gói đơn giản, dễ dùng mà không cần các lớp trừu tượng phức tạp Là phiên bản nâng cấp cấp độ production của nền tảng thử nghiệm trước đó là Swarm Các thành phần chính (Primitive): Agents – Agent dựa trên LLM có chỉ thị và công cụ Handoffs – Ủy quyền một tác vụ cụ thể cho agent khác Guardrails – Xác thực và lọc giá trị đầu vào của agent Tích hợp Python và các tính năng mạnh mẽ Khi dùng cùng Python, có thể thiết lập quan hệ mạnh mẽ giữa các công cụ và xây dựng workflow phức tạp Bao gồm tính năng Tracing để trực quan hóa và gỡ lỗi Hỗ trợ cả đánh giá, gỡ lỗi và tinh chỉnh mô hình Các đặc điểm chính của Agents SDK Nguyên tắc thiết kế Đủ mạnh về tính năng nhưng ít thứ phải học, giúp nhanh chóng làm quen Cung cấp hiệu năng tốt ngay ở trạng thái mặc định, đồng thời cho phép tinh chỉnh chi tiết khi cần Tính năng cơ bản Agent Loop: Vòng lặp tích hợp tự động xử lý từ gọi công cụ → xử lý kết quả → tạo phản hồi LLM → kết thúc Thiết kế Python-first: Có thể dùng nguyên vẹn các tính năng của ngôn ngữ Python để kết nối và điều phối agent Handoffs: Có thể ủy quyền và điều phối công việc giữa nhiều agent Guardrails: Thực hiện xác thực đầu vào và kiểm tra song song, có thể kết thúc sớm khi xảy ra lỗi Function Tools: Tự động biến hàm Python thành công cụ → tự động tạo schema và thực hiện xác thực Tracing: Dùng tính năng tracing tích hợp để trực quan hóa workflow, gỡ lỗi, đánh giá và cải thiện

(x.com/OpenAIDevs)

21 điểm bởi xguru 2025-03-12 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Web Search: Tìm kiếm thông tin mới nhất trên web và trả về URL trích dẫn
File Search: Tìm kiếm ngữ nghĩa/từ khóa trong danh sách tệp đã tải lên
Computer Use: Điều khiển máy tính và thực hiện tác vụ
Responses API: Giao diện phản hồi tích hợp nâng cao. Hỗ trợ đầu vào văn bản/hình ảnh và có thể sử dụng đầy đủ web search, file search và tính năng CUA
Agents SDK: Framework điều phối để phát triển agent

Một số nhà phát triển/công ty đủ điều kiện có thể chia sẻ prompt với OpenAI để giúp cải thiện mô hình
- Đến cuối tháng 4 năm nay, có thể dùng miễn phí tối đa 1 triệu token mỗi ngày cho gpt-4.5-preview, gpt-4o, o1, và tối đa 10 triệu token cho gpt-4o-mini, o1-mini, o3-mini
- Có thể kiểm tra điều kiện đủ trên bảng điều khiển nhà phát triển của OpenAI

Bài giới thiệu của OpenAI: New tools for building agents

Web Search

Có thể tìm kiếm trực tiếp thông tin trên web để cung cấp thông tin mới nhất trong ChatGPT
Có thể sử dụng trực tiếp các mô hình đã được tinh chỉnh và công cụ tìm kiếm thông qua Chat Completions API
Cách dùng web search trong Chat Completions API
- Mô hình luôn tìm kiếm thông tin mới nhất trên web trước khi phản hồi
- Nếu muốn chỉ dùng công cụ web search (web_search_preview) khi cần, phải chuyển sang Responses API
Các mô hình hỗ trợ web search
- gpt-4o-search-preview
- gpt-4o-mini-search-preview

File Search

Cho phép mô hình tìm thông tin liên quan trong tệp của người dùng trước khi tạo phản hồi
Được cung cấp trong Responses API, tìm kiếm thông tin trong kho tri thức của các tệp đã tải lên thông qua tìm kiếm ngữ nghĩa và tìm kiếm từ khóa
Tận dụng Vector Store và tìm kiếm ngữ nghĩa
- Có thể mở rộng kiến thức nền của mô hình bằng cách tạo Vector Store và tải tệp lên
- Đây là công cụ do OpenAI quản lý nên người dùng không cần tự triển khai mã
- Khi mô hình xác định là cần thiết, nó sẽ tự động gọi công cụ để tìm thông tin trong tệp và tạo phản hồi
Cách sử dụng
- Trước tiên cần thiết lập kho tri thức trong vector store và tải tệp lên
- Sau khi thiết lập vector store, có thể thêm công cụ file_search vào danh sách công cụ mà mô hình có thể dùng
- Hiện tại chỉ có thể tìm kiếm từ một vector store tại một thời điểm (chỉ dùng được một ID vector store)

Computer Use

Dựa trên mô hình Computer-Using Agent (CUA) có thể thực hiện tác vụ trên máy tính của người dùng
Kết hợp khả năng xử lý thị giác và suy luận nâng cao của GPT-4o để điều khiển giao diện máy tính và thực hiện tác vụ
Được cung cấp qua Responses API, không dùng được trong Chat Completions
Hiện là bản beta, có thể phát sinh lỗ hổng hoặc sai sót. Không khuyến nghị dùng trong môi trường đã xác thực hoàn toàn hoặc cho các tác vụ quan trọng
Cách hoạt động
- Mô hình gửi lệnh thao tác máy tính như nhấp chuột (x, y), nhập liệu (text)
- Mã của người dùng sẽ thực thi các thao tác đó trong môi trường máy tính hoặc trình duyệt và trả về ảnh chụp màn hình kết quả
- Mô hình hiểu trạng thái môi trường dựa trên ảnh chụp màn hình và đề xuất thao tác tiếp theo
- Qua vòng lặp liên tục, có thể tự động hóa nhiều thao tác như nhấp, nhập, cuộn
Ví dụ ứng dụng: đặt vé máy bay, tìm kiếm sản phẩm, điền biểu mẫu

Responses API

Giao diện mô hình tiên tiến nhất của OpenAI
Hỗ trợ đầu vào văn bản và hình ảnh, tạo đầu ra văn bản
Cung cấp tương tác có trạng thái cho phép dùng đầu ra của phản hồi trước làm đầu vào tiếp theo
Có thể mở rộng chức năng
- Có thể mở rộng khả năng của mô hình thông qua các công cụ tích hợp sẵn
  - File Search – Có thể tìm kiếm ngữ nghĩa và từ khóa trong các tệp đã tải lên
  - Web Search – Có thể tìm kiếm thông tin web mới nhất
  - Computer Use – Có thể điều khiển giao diện máy tính và thực hiện tác vụ tự động hóa
- Function Calling – Có thể truy cập hệ thống và dữ liệu bên ngoài
  - Có thể gọi hàm Python và tương tác với các hệ thống bên ngoài

Agents SDK

Có thể phát triển ứng dụng AI dựa trên Agent bằng một gói đơn giản, dễ dùng mà không cần các lớp trừu tượng phức tạp
Là phiên bản nâng cấp cấp độ production của nền tảng thử nghiệm trước đó là Swarm
Các thành phần chính (Primitive):
- Agents – Agent dựa trên LLM có chỉ thị và công cụ
- Handoffs – Ủy quyền một tác vụ cụ thể cho agent khác
- Guardrails – Xác thực và lọc giá trị đầu vào của agent
Tích hợp Python và các tính năng mạnh mẽ
- Khi dùng cùng Python, có thể thiết lập quan hệ mạnh mẽ giữa các công cụ và xây dựng workflow phức tạp
- Bao gồm tính năng Tracing để trực quan hóa và gỡ lỗi
- Hỗ trợ cả đánh giá, gỡ lỗi và tinh chỉnh mô hình
Các đặc điểm chính của Agents SDK
- Nguyên tắc thiết kế
  - Đủ mạnh về tính năng nhưng ít thứ phải học, giúp nhanh chóng làm quen
  - Cung cấp hiệu năng tốt ngay ở trạng thái mặc định, đồng thời cho phép tinh chỉnh chi tiết khi cần
- Tính năng cơ bản
  - Agent Loop: Vòng lặp tích hợp tự động xử lý từ gọi công cụ → xử lý kết quả → tạo phản hồi LLM → kết thúc
  - Thiết kế Python-first: Có thể dùng nguyên vẹn các tính năng của ngôn ngữ Python để kết nối và điều phối agent
  - Handoffs: Có thể ủy quyền và điều phối công việc giữa nhiều agent
  - Guardrails: Thực hiện xác thực đầu vào và kiểm tra song song, có thể kết thúc sớm khi xảy ra lỗi
  - Function Tools: Tự động biến hàm Python thành công cụ → tự động tạo schema và thực hiện xác thực
  - Tracing: Dùng tính năng tracing tích hợp để trực quan hóa workflow, gỡ lỗi, đánh giá và cải thiện