- Operator, sản phẩm mới được OpenAI giới thiệu, là một tác tử AI có thể tự chủ duyệt web và thực hiện công việc
- Sử dụng trình duyệt riêng để xem trang web và tương tác thông qua nhập liệu, nhấp chuột, cuộn trang
- Hiện đang ở giai đoạn research preview nên vẫn còn một số hạn chế và sẽ tiếp tục được cải thiện dựa trên phản hồi của người dùng
- Đây là một trong những tác tử đầu tiên có thể tự thực hiện công việc một cách độc lập; khi người dùng giao nhiệm vụ, nó sẽ tiến hành thực hiện
- Giúp tiết kiệm thời gian bằng cách xử lý các tác vụ trình duyệt lặp đi lặp lại, như điền biểu mẫu, đặt hàng tạp hóa, tạo meme, v.v.
- Đang được phát hành ưu tiên cho người dùng Pro tại Mỹ; sau đó có thể mở rộng sang Plus, Team, Enterprise và có khả năng được tích hợp vào ChatGPT
Cách Operator hoạt động
- Dựa trên mô hình mới Computer-Using Agent (CUA)
- Kết hợp khả năng thị giác của GPT-4o với phương pháp suy luận nâng cao dựa trên reinforcement learning để cho phép tương tác với GUI (nút bấm, menu, trường văn bản, v.v.)
- Có thể “nhìn” màn hình trình duyệt qua ảnh chụp màn hình và thực hiện tác vụ bằng cách điều khiển chuột cùng bàn phím
- Khi gặp lỗi hoặc trở ngại trong lúc làm việc, hệ thống sẽ dùng suy luận tự hiệu chỉnh hoặc, khi cần, chuyển quyền thao tác cho người dùng theo cách cộng tác
- Đang cho thấy hiệu năng cao trên các benchmark sử dụng trình duyệt như WebArena, WebVoyager; có thể xem chi tiết trong blog nghiên cứu
Cách sử dụng
- Chỉ cần mô tả ngắn gọn công việc mong muốn, Operator sẽ tự động tiến hành thực hiện
- Người dùng có thể lấy lại quyền điều khiển trình duyệt trực tiếp bất cứ lúc nào trong quá trình này
- Ở các bước nhạy cảm như đăng nhập, nhập thông tin thanh toán, giải CAPTCHA, Operator sẽ không tự xử lý mà người dùng phải trực tiếp thực hiện
- Có thể phản ánh sở thích hay tùy chọn của người dùng thông qua thiết lập cho từng trang hoặc toàn bộ các trang
- Có thể lưu các prompt thường dùng để chạy nhanh những tác vụ lặp lại, như đặt lại đơn hàng tạp hóa trên Instacart
- Có thể xử lý đồng thời nhiều công việc như nhiều tab, đồng thời tách riêng các phiên trò chuyện để làm song song những việc khác nhau
Hệ sinh thái và người dùng
- Operator giúp AI phát triển từ một công cụ đơn thuần thành một thành phần tham gia chủ động trong hệ sinh thái số
- OpenAI đang hợp tác với DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber và các bên khác để phản ánh nhu cầu thực tế của người dùng cùng các tiêu chuẩn ngành
- Trong khu vực công, khả năng ứng dụng cũng đang được xem xét nhằm nâng cao hiệu quả công việc và khả năng tiếp cận; ví dụ đang tìm kiếm phương án vận dụng dịch vụ hành chính đô thị cùng City of Stockton
- Daniel Danker, Chief Product Officer của Instacart, đã đưa ra đánh giá tích cực về quy trình đặt hàng dễ dàng thông qua Operator
An toàn và quyền riêng tư
- Operator đặt an toàn lên hàng đầu và triển khai ba lớp biện pháp bảo vệ
- Kiểm soát do người dùng chủ động: khi cần nhập thông tin nhạy cảm (đăng nhập, thanh toán, v.v.), Operator sẽ yêu cầu takeover để người dùng tự nhập trực tiếp
- Xác nhận trước hành động quan trọng: trước các tác vụ quan trọng như gửi đơn hàng hoặc gửi email, hệ thống sẽ yêu cầu người dùng phê duyệt
- Giới hạn tác vụ: Operator được huấn luyện để từ chối các công việc có độ nhạy cảm cao như nghiệp vụ ngân hàng hoặc quyết định liên quan đến việc làm
- Khi truy cập các trang nhạy cảm, người dùng có thể trực tiếp giám sát hoạt động của Operator thông qua chế độ Watch
- Cung cấp các tính năng quản lý quyền riêng tư dữ liệu
- Nếu tắt ‘Improve the model for everyone’, dữ liệu của Operator cũng sẽ không được dùng để huấn luyện mô hình
- Trong mục Privacy của phần cài đặt, người dùng có thể dễ dàng xóa dữ liệu duyệt web, đăng xuất khỏi mọi trang web, xóa lịch sử trò chuyện, v.v.
- Cũng áp dụng hệ thống phòng vệ để bảo vệ Operator khỏi các website độc hại
- Được thiết kế để phát hiện và bỏ qua các prompt ẩn, mã độc hoặc các nỗ lực lừa đảo
- Một mô hình giám sát chuyên trách theo dõi hành vi đáng ngờ theo thời gian thực và có thể dừng tác vụ khi cần
- Kết hợp tự động hóa và rà soát thủ công để nhanh chóng cập nhật biện pháp an toàn khi phát hiện mối đe dọa mới
- Để ngăn công nghệ bị lạm dụng cho mục đích gây hại, Operator sẽ từ chối một số yêu cầu nhất định; nếu vi phạm chính sách lặp lại, cảnh báo hoặc chặn truy cập có thể được áp dụng
- Vì vẫn đang ở giai đoạn research preview nên chưa hoàn hảo và sẽ tiếp tục được cải thiện qua phản hồi từ sử dụng thực tế
Hạn chế
- Operator hiện vẫn ở giai đoạn đầu và có thể gặp khó khăn với các tác vụ giao diện phức tạp như tạo slideshow hoặc quản lý lịch
- Phản hồi của người dùng sẽ được sử dụng như nguồn lực quan trọng để cải thiện độ chính xác, độ ổn định và độ an toàn
Kế hoạch tiếp theo
- Dự kiến sẽ cung cấp API cho CUA để tạo nền tảng giúp các nhà phát triển xây dựng tác tử riêng của họ
- Sẽ tiếp tục nâng cấp Operator bằng cách tăng cường khả năng xử lý tác vụ dài và workflow phức tạp
- Sẽ dần mở rộng ra ngoài nhóm người dùng Pro sang Plus, Team, Enterprise và về lâu dài tích hợp tính năng vào ChatGPT để hỗ trợ thực hiện tác vụ theo thời gian thực và bất đồng bộ
1 bình luận
Ý kiến trên Hacker News
Nhiều người cho rằng các công ty như OpenAI không chi tiền để cung cấp trợ lý cá nhân cho mọi người, mà đang huấn luyện AI nhằm cắt giảm chi phí nhân công về sau
Ý kiến về việc ra mắt OpenAI Operator khá trái chiều
Operator tương tự bản demo Computer Use của Claude từ vài tháng trước, với kiến trúc phải chạy VM và có xu hướng thiếu chính xác
Trong slide về rủi ro an toàn và biện pháp giảm thiểu của Operator có cụm từ "người dùng bị lệch căn chỉnh"
Có ý kiến chỉ trích việc đầu tư 50 tỷ USD vào những tác vụ như tạo meme
CogAgent: một lựa chọn thay thế mã nguồn mở từ Trung Quốc
Có kỳ vọng rằng trong tương lai, khi sản phẩm và mô hình được cải thiện đáng kể, có thể trò chuyện với ChatGPT để xử lý những việc nhàm chán trên web như đặt chỗ ăn tối, đặt vé máy bay, mua hàng tạp hóa
Có ý kiến cho rằng các công ty như Instacart hay Doordash có thể mở ra hướng UI mới thông qua tối ưu hóa marketing cho LLM
Có ý kiến cho rằng cách một "agent" dùng chuột và bàn phím để nhìn các pixel là khá gượng gạo
Có niềm tin mạnh mẽ rằng cần sử dụng Open APIs cho agent