OpenAI ra mắt dịch vụ tác tử "Operator"

(openai.com)

6 điểm bởi GN⁺ 2025-01-24 | 1 bình luận | Chia sẻ qua WhatsApp

Operator, sản phẩm mới được OpenAI giới thiệu, là một tác tử AI có thể tự chủ duyệt web và thực hiện công việc
- Sử dụng trình duyệt riêng để xem trang web và tương tác thông qua nhập liệu, nhấp chuột, cuộn trang
Hiện đang ở giai đoạn research preview nên vẫn còn một số hạn chế và sẽ tiếp tục được cải thiện dựa trên phản hồi của người dùng
Đây là một trong những tác tử đầu tiên có thể tự thực hiện công việc một cách độc lập; khi người dùng giao nhiệm vụ, nó sẽ tiến hành thực hiện
Giúp tiết kiệm thời gian bằng cách xử lý các tác vụ trình duyệt lặp đi lặp lại, như điền biểu mẫu, đặt hàng tạp hóa, tạo meme, v.v.
Đang được phát hành ưu tiên cho người dùng Pro tại Mỹ; sau đó có thể mở rộng sang Plus, Team, Enterprise và có khả năng được tích hợp vào ChatGPT

Cách Operator hoạt động

Dựa trên mô hình mới Computer-Using Agent (CUA)
Kết hợp khả năng thị giác của GPT-4o với phương pháp suy luận nâng cao dựa trên reinforcement learning để cho phép tương tác với GUI (nút bấm, menu, trường văn bản, v.v.)
Có thể “nhìn” màn hình trình duyệt qua ảnh chụp màn hình và thực hiện tác vụ bằng cách điều khiển chuột cùng bàn phím
Khi gặp lỗi hoặc trở ngại trong lúc làm việc, hệ thống sẽ dùng suy luận tự hiệu chỉnh hoặc, khi cần, chuyển quyền thao tác cho người dùng theo cách cộng tác
Đang cho thấy hiệu năng cao trên các benchmark sử dụng trình duyệt như WebArena, WebVoyager; có thể xem chi tiết trong blog nghiên cứu

Cách sử dụng

Chỉ cần mô tả ngắn gọn công việc mong muốn, Operator sẽ tự động tiến hành thực hiện
Người dùng có thể lấy lại quyền điều khiển trình duyệt trực tiếp bất cứ lúc nào trong quá trình này
Ở các bước nhạy cảm như đăng nhập, nhập thông tin thanh toán, giải CAPTCHA, Operator sẽ không tự xử lý mà người dùng phải trực tiếp thực hiện
Có thể phản ánh sở thích hay tùy chọn của người dùng thông qua thiết lập cho từng trang hoặc toàn bộ các trang
Có thể lưu các prompt thường dùng để chạy nhanh những tác vụ lặp lại, như đặt lại đơn hàng tạp hóa trên Instacart
Có thể xử lý đồng thời nhiều công việc như nhiều tab, đồng thời tách riêng các phiên trò chuyện để làm song song những việc khác nhau

Hệ sinh thái và người dùng

Operator giúp AI phát triển từ một công cụ đơn thuần thành một thành phần tham gia chủ động trong hệ sinh thái số
OpenAI đang hợp tác với DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber và các bên khác để phản ánh nhu cầu thực tế của người dùng cùng các tiêu chuẩn ngành
Trong khu vực công, khả năng ứng dụng cũng đang được xem xét nhằm nâng cao hiệu quả công việc và khả năng tiếp cận; ví dụ đang tìm kiếm phương án vận dụng dịch vụ hành chính đô thị cùng City of Stockton
Daniel Danker, Chief Product Officer của Instacart, đã đưa ra đánh giá tích cực về quy trình đặt hàng dễ dàng thông qua Operator

An toàn và quyền riêng tư

Operator đặt an toàn lên hàng đầu và triển khai ba lớp biện pháp bảo vệ
- Kiểm soát do người dùng chủ động: khi cần nhập thông tin nhạy cảm (đăng nhập, thanh toán, v.v.), Operator sẽ yêu cầu takeover để người dùng tự nhập trực tiếp
- Xác nhận trước hành động quan trọng: trước các tác vụ quan trọng như gửi đơn hàng hoặc gửi email, hệ thống sẽ yêu cầu người dùng phê duyệt
- Giới hạn tác vụ: Operator được huấn luyện để từ chối các công việc có độ nhạy cảm cao như nghiệp vụ ngân hàng hoặc quyết định liên quan đến việc làm
- Khi truy cập các trang nhạy cảm, người dùng có thể trực tiếp giám sát hoạt động của Operator thông qua chế độ Watch
Cung cấp các tính năng quản lý quyền riêng tư dữ liệu
- Nếu tắt ‘Improve the model for everyone’, dữ liệu của Operator cũng sẽ không được dùng để huấn luyện mô hình
- Trong mục Privacy của phần cài đặt, người dùng có thể dễ dàng xóa dữ liệu duyệt web, đăng xuất khỏi mọi trang web, xóa lịch sử trò chuyện, v.v.
Quảng cáo
Cũng áp dụng hệ thống phòng vệ để bảo vệ Operator khỏi các website độc hại
- Được thiết kế để phát hiện và bỏ qua các prompt ẩn, mã độc hoặc các nỗ lực lừa đảo
- Một mô hình giám sát chuyên trách theo dõi hành vi đáng ngờ theo thời gian thực và có thể dừng tác vụ khi cần
- Kết hợp tự động hóa và rà soát thủ công để nhanh chóng cập nhật biện pháp an toàn khi phát hiện mối đe dọa mới
Để ngăn công nghệ bị lạm dụng cho mục đích gây hại, Operator sẽ từ chối một số yêu cầu nhất định; nếu vi phạm chính sách lặp lại, cảnh báo hoặc chặn truy cập có thể được áp dụng
Vì vẫn đang ở giai đoạn research preview nên chưa hoàn hảo và sẽ tiếp tục được cải thiện qua phản hồi từ sử dụng thực tế

Hạn chế

Operator hiện vẫn ở giai đoạn đầu và có thể gặp khó khăn với các tác vụ giao diện phức tạp như tạo slideshow hoặc quản lý lịch
Phản hồi của người dùng sẽ được sử dụng như nguồn lực quan trọng để cải thiện độ chính xác, độ ổn định và độ an toàn

Kế hoạch tiếp theo

Dự kiến sẽ cung cấp API cho CUA để tạo nền tảng giúp các nhà phát triển xây dựng tác tử riêng của họ
Sẽ tiếp tục nâng cấp Operator bằng cách tăng cường khả năng xử lý tác vụ dài và workflow phức tạp
Sẽ dần mở rộng ra ngoài nhóm người dùng Pro sang Plus, Team, Enterprise và về lâu dài tích hợp tính năng vào ChatGPT để hỗ trợ thực hiện tác vụ theo thời gian thực và bất đồng bộ

1 bình luận

GN⁺ 2025-01-24

Ý kiến trên Hacker News

Nhiều người cho rằng các công ty như OpenAI không chi tiền để cung cấp trợ lý cá nhân cho mọi người, mà đang huấn luyện AI nhằm cắt giảm chi phí nhân công về sau
- Đến khi AI đủ hữu ích để làm trợ lý cá nhân, tính năng đó có thể sẽ được phát hành với mức giá mà người bình thường khó có thể chi trả
Ý kiến về việc ra mắt OpenAI Operator khá trái chiều
- Có cả góc nhìn hoài nghi về tính năng hiện tại, chi phí và khả năng bị thổi phồng quá mức, lẫn góc nhìn tích cực về tự động hóa công việc và khả năng cải thiện theo thời gian
- Các vấn đề đạo đức, quyền riêng tư và tác động đến ngành công nghiệp cũng được thảo luận
- Nhìn chung là sự lạc quan thận trọng, đồng thời thừa nhận những thách thức và khả năng cải thiện
Operator tương tự bản demo Computer Use của Claude từ vài tháng trước, với kiến trúc phải chạy VM và có xu hướng thiếu chính xác
- Việc triển khai Computer Use của Claude đã không tạo được tiếng vang lớn trong ngành AI agent sau khi công bố
Trong slide về rủi ro an toàn và biện pháp giảm thiểu của Operator có cụm từ "người dùng bị lệch căn chỉnh"
- Có ý kiến muốn thấy thêm các ví dụ mà OpenAI xem người dùng là "bị lệch căn chỉnh"
Có ý kiến chỉ trích việc đầu tư 50 tỷ USD vào những tác vụ như tạo meme
- Đồng thời bày tỏ tiếc nuối vì không đầu tư để biến Trái Đất thành nơi đáng sống hơn cho thế hệ tiếp theo
CogAgent: một lựa chọn thay thế mã nguồn mở từ Trung Quốc
- Có cung cấp các liên kết tới bài báo, mã nguồn và mô hình
Có kỳ vọng rằng trong tương lai, khi sản phẩm và mô hình được cải thiện đáng kể, có thể trò chuyện với ChatGPT để xử lý những việc nhàm chán trên web như đặt chỗ ăn tối, đặt vé máy bay, mua hàng tạp hóa
- Rất mong chờ các tính năng như vậy
Có ý kiến cho rằng các công ty như Instacart hay Doordash có thể mở ra hướng UI mới thông qua tối ưu hóa marketing cho LLM
- Ví dụ, nếu được yêu cầu tìm trứng giàu dinh dưỡng, agent có thể tham chiếu bảng thành phần dinh dưỡng để đưa ra quyết định
Có ý kiến cho rằng cách một "agent" dùng chuột và bàn phím để nhìn các pixel là khá gượng gạo
- Họ hình dung ra một tiêu chuẩn nơi ứng dụng và dịch vụ công khai một tập hành động được phê duyệt trước để có thể thực hiện thay cho người dùng
- Đồng thời đề xuất khái niệm "app store" cung cấp khả năng thêm hoặc thu hồi quyền của người dùng
Có niềm tin mạnh mẽ rằng cần sử dụng Open APIs cho agent
- Họ cho rằng OpenAPI là tiêu chuẩn đặc tả hoàn hảo để tạo ra một thế giới mở và internet mở cho agent
- Khi OpenAI lần đầu ra mắt GPT, họ dựa trên Open APIs, nhưng đang ngày càng rời xa điều đó
- Điều này bị nhìn nhận là nỗ lực nhằm kiểm soát thị trường và không muốn dựa trên các tiêu chuẩn mở
- Đây là điều rất đáng tiếc

OpenAI ra mắt dịch vụ tác tử "Operator"

Cách Operator hoạt động

Cách sử dụng

Hệ sinh thái và người dùng

An toàn và quyền riêng tư

Hạn chế

Kế hoạch tiếp theo

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News