6 điểm bởi GN⁺ 2025-01-24 | 1 bình luận | Chia sẻ qua WhatsApp
  • Operator, sản phẩm mới được OpenAI giới thiệu, là một tác tử AI có thể tự chủ duyệt web và thực hiện công việc
    • Sử dụng trình duyệt riêng để xem trang web và tương tác thông qua nhập liệu, nhấp chuột, cuộn trang
  • Hiện đang ở giai đoạn research preview nên vẫn còn một số hạn chế và sẽ tiếp tục được cải thiện dựa trên phản hồi của người dùng
  • Đây là một trong những tác tử đầu tiên có thể tự thực hiện công việc một cách độc lập; khi người dùng giao nhiệm vụ, nó sẽ tiến hành thực hiện
  • Giúp tiết kiệm thời gian bằng cách xử lý các tác vụ trình duyệt lặp đi lặp lại, như điền biểu mẫu, đặt hàng tạp hóa, tạo meme, v.v.
  • Đang được phát hành ưu tiên cho người dùng Pro tại Mỹ; sau đó có thể mở rộng sang Plus, Team, Enterprise và có khả năng được tích hợp vào ChatGPT

Cách Operator hoạt động

  • Dựa trên mô hình mới Computer-Using Agent (CUA)
  • Kết hợp khả năng thị giác của GPT-4o với phương pháp suy luận nâng cao dựa trên reinforcement learning để cho phép tương tác với GUI (nút bấm, menu, trường văn bản, v.v.)
  • Có thể “nhìn” màn hình trình duyệt qua ảnh chụp màn hình và thực hiện tác vụ bằng cách điều khiển chuột cùng bàn phím
  • Khi gặp lỗi hoặc trở ngại trong lúc làm việc, hệ thống sẽ dùng suy luận tự hiệu chỉnh hoặc, khi cần, chuyển quyền thao tác cho người dùng theo cách cộng tác
  • Đang cho thấy hiệu năng cao trên các benchmark sử dụng trình duyệt như WebArena, WebVoyager; có thể xem chi tiết trong blog nghiên cứu

Cách sử dụng

  • Chỉ cần mô tả ngắn gọn công việc mong muốn, Operator sẽ tự động tiến hành thực hiện
  • Người dùng có thể lấy lại quyền điều khiển trình duyệt trực tiếp bất cứ lúc nào trong quá trình này
  • Ở các bước nhạy cảm như đăng nhập, nhập thông tin thanh toán, giải CAPTCHA, Operator sẽ không tự xử lý mà người dùng phải trực tiếp thực hiện
  • Có thể phản ánh sở thích hay tùy chọn của người dùng thông qua thiết lập cho từng trang hoặc toàn bộ các trang
  • Có thể lưu các prompt thường dùng để chạy nhanh những tác vụ lặp lại, như đặt lại đơn hàng tạp hóa trên Instacart
  • Có thể xử lý đồng thời nhiều công việc như nhiều tab, đồng thời tách riêng các phiên trò chuyện để làm song song những việc khác nhau

Hệ sinh thái và người dùng

  • Operator giúp AI phát triển từ một công cụ đơn thuần thành một thành phần tham gia chủ động trong hệ sinh thái số
  • OpenAI đang hợp tác với DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber và các bên khác để phản ánh nhu cầu thực tế của người dùng cùng các tiêu chuẩn ngành
  • Trong khu vực công, khả năng ứng dụng cũng đang được xem xét nhằm nâng cao hiệu quả công việc và khả năng tiếp cận; ví dụ đang tìm kiếm phương án vận dụng dịch vụ hành chính đô thị cùng City of Stockton
  • Daniel Danker, Chief Product Officer của Instacart, đã đưa ra đánh giá tích cực về quy trình đặt hàng dễ dàng thông qua Operator

An toàn và quyền riêng tư

  • Operator đặt an toàn lên hàng đầu và triển khai ba lớp biện pháp bảo vệ
    • Kiểm soát do người dùng chủ động: khi cần nhập thông tin nhạy cảm (đăng nhập, thanh toán, v.v.), Operator sẽ yêu cầu takeover để người dùng tự nhập trực tiếp
    • Xác nhận trước hành động quan trọng: trước các tác vụ quan trọng như gửi đơn hàng hoặc gửi email, hệ thống sẽ yêu cầu người dùng phê duyệt
    • Giới hạn tác vụ: Operator được huấn luyện để từ chối các công việc có độ nhạy cảm cao như nghiệp vụ ngân hàng hoặc quyết định liên quan đến việc làm
    • Khi truy cập các trang nhạy cảm, người dùng có thể trực tiếp giám sát hoạt động của Operator thông qua chế độ Watch
  • Cung cấp các tính năng quản lý quyền riêng tư dữ liệu
    • Nếu tắt ‘Improve the model for everyone’, dữ liệu của Operator cũng sẽ không được dùng để huấn luyện mô hình
    • Trong mục Privacy của phần cài đặt, người dùng có thể dễ dàng xóa dữ liệu duyệt web, đăng xuất khỏi mọi trang web, xóa lịch sử trò chuyện, v.v.
  • Cũng áp dụng hệ thống phòng vệ để bảo vệ Operator khỏi các website độc hại
    • Được thiết kế để phát hiện và bỏ qua các prompt ẩn, mã độc hoặc các nỗ lực lừa đảo
    • Một mô hình giám sát chuyên trách theo dõi hành vi đáng ngờ theo thời gian thực và có thể dừng tác vụ khi cần
    • Kết hợp tự động hóa và rà soát thủ công để nhanh chóng cập nhật biện pháp an toàn khi phát hiện mối đe dọa mới
  • Để ngăn công nghệ bị lạm dụng cho mục đích gây hại, Operator sẽ từ chối một số yêu cầu nhất định; nếu vi phạm chính sách lặp lại, cảnh báo hoặc chặn truy cập có thể được áp dụng
  • Vì vẫn đang ở giai đoạn research preview nên chưa hoàn hảo và sẽ tiếp tục được cải thiện qua phản hồi từ sử dụng thực tế

Hạn chế

  • Operator hiện vẫn ở giai đoạn đầu và có thể gặp khó khăn với các tác vụ giao diện phức tạp như tạo slideshow hoặc quản lý lịch
  • Phản hồi của người dùng sẽ được sử dụng như nguồn lực quan trọng để cải thiện độ chính xác, độ ổn định và độ an toàn

Kế hoạch tiếp theo

  • Dự kiến sẽ cung cấp API cho CUA để tạo nền tảng giúp các nhà phát triển xây dựng tác tử riêng của họ
  • Sẽ tiếp tục nâng cấp Operator bằng cách tăng cường khả năng xử lý tác vụ dài và workflow phức tạp
  • Sẽ dần mở rộng ra ngoài nhóm người dùng Pro sang Plus, Team, Enterprise và về lâu dài tích hợp tính năng vào ChatGPT để hỗ trợ thực hiện tác vụ theo thời gian thực và bất đồng bộ

1 bình luận

 
GN⁺ 2025-01-24
Ý kiến trên Hacker News
  • Nhiều người cho rằng các công ty như OpenAI không chi tiền để cung cấp trợ lý cá nhân cho mọi người, mà đang huấn luyện AI nhằm cắt giảm chi phí nhân công về sau

    • Đến khi AI đủ hữu ích để làm trợ lý cá nhân, tính năng đó có thể sẽ được phát hành với mức giá mà người bình thường khó có thể chi trả
  • Ý kiến về việc ra mắt OpenAI Operator khá trái chiều

    • Có cả góc nhìn hoài nghi về tính năng hiện tại, chi phí và khả năng bị thổi phồng quá mức, lẫn góc nhìn tích cực về tự động hóa công việc và khả năng cải thiện theo thời gian
    • Các vấn đề đạo đức, quyền riêng tư và tác động đến ngành công nghiệp cũng được thảo luận
    • Nhìn chung là sự lạc quan thận trọng, đồng thời thừa nhận những thách thức và khả năng cải thiện
  • Operator tương tự bản demo Computer Use của Claude từ vài tháng trước, với kiến trúc phải chạy VM và có xu hướng thiếu chính xác

    • Việc triển khai Computer Use của Claude đã không tạo được tiếng vang lớn trong ngành AI agent sau khi công bố
  • Trong slide về rủi ro an toàn và biện pháp giảm thiểu của Operator có cụm từ "người dùng bị lệch căn chỉnh"

    • Có ý kiến muốn thấy thêm các ví dụ mà OpenAI xem người dùng là "bị lệch căn chỉnh"
  • Có ý kiến chỉ trích việc đầu tư 50 tỷ USD vào những tác vụ như tạo meme

    • Đồng thời bày tỏ tiếc nuối vì không đầu tư để biến Trái Đất thành nơi đáng sống hơn cho thế hệ tiếp theo
  • CogAgent: một lựa chọn thay thế mã nguồn mở từ Trung Quốc

    • Có cung cấp các liên kết tới bài báo, mã nguồn và mô hình
  • Có kỳ vọng rằng trong tương lai, khi sản phẩm và mô hình được cải thiện đáng kể, có thể trò chuyện với ChatGPT để xử lý những việc nhàm chán trên web như đặt chỗ ăn tối, đặt vé máy bay, mua hàng tạp hóa

    • Rất mong chờ các tính năng như vậy
  • Có ý kiến cho rằng các công ty như Instacart hay Doordash có thể mở ra hướng UI mới thông qua tối ưu hóa marketing cho LLM

    • Ví dụ, nếu được yêu cầu tìm trứng giàu dinh dưỡng, agent có thể tham chiếu bảng thành phần dinh dưỡng để đưa ra quyết định
  • Có ý kiến cho rằng cách một "agent" dùng chuột và bàn phím để nhìn các pixel là khá gượng gạo

    • Họ hình dung ra một tiêu chuẩn nơi ứng dụng và dịch vụ công khai một tập hành động được phê duyệt trước để có thể thực hiện thay cho người dùng
    • Đồng thời đề xuất khái niệm "app store" cung cấp khả năng thêm hoặc thu hồi quyền của người dùng
  • Có niềm tin mạnh mẽ rằng cần sử dụng Open APIs cho agent

    • Họ cho rằng OpenAPI là tiêu chuẩn đặc tả hoàn hảo để tạo ra một thế giới mở và internet mở cho agent
    • Khi OpenAI lần đầu ra mắt GPT, họ dựa trên Open APIs, nhưng đang ngày càng rời xa điều đó
    • Điều này bị nhìn nhận là nỗ lực nhằm kiểm soát thị trường và không muốn dựa trên các tiêu chuẩn mở
    • Đây là điều rất đáng tiếc