4 điểm bởi GN⁺ 2025-10-08 | 2 bình luận | Chia sẻ qua WhatsApp
  • Google đã công bố mô hình Computer Use dựa trên Gemini 2.5 Pro, hỗ trợ các nhà phát triển xây dựng tác nhân có thể trực tiếp thao tác giao diện người dùng
  • Trên các benchmark điều khiển web và di động, mô hình cho thấy hiệu năng nhanh và chính xác hơn các mô hình cạnh tranh, hiện có thể dùng ở bản preview trên Google AI Studio và Vertex AI
  • Mô hình nhận ảnh chụp màn hình, yêu cầu của người dùng và lịch sử hành động làm đầu vào, rồi tự động tạo lệnh thao tác UI như nhấp, nhập liệu và cuộn
  • Để bảo đảm an toàn, hệ thống bao gồm Per-step Safety Servicequy trình xác nhận của người dùng nhằm ngăn chặn lạm dụng và các mối đe dọa bảo mật
  • Mô hình đã được áp dụng vào Project Mariner, Firebase Testing Agent, AI Mode in Search và nhiều hệ thống khác, chứng minh hiệu quả tự động hóa ở mức thực tế và cải thiện hiệu suất kiểm thử

Tổng quan

  • Google DeepMind đã ra mắt mô hình Gemini 2.5 Computer Use
    • Đây là mô hình dành cho tác nhân có thể trực tiếp điều khiển UI web và di động, dựa trên khả năng hiểu thị giác và suy luận của Gemini 2.5 Pro
    • Tiến thêm một bước so với tự động hóa dựa trên API truyền thống, mô hình có thể thực hiện tương tác trên giao diện đồ họa như điền biểu mẫu, cuộn và xử lý đăng nhập
    • Mô hình hiện được cung cấp dưới dạng preview thông qua Google AI Studio và Vertex AI

Cách hoạt động

  • Mô hình hoạt động theo cấu trúc vòng lặp lặp lại thông qua công cụ computer_use mới
    • Đầu vào: yêu cầu của người dùng, ảnh chụp màn hình của UI hiện tại, lịch sử hành động gần đây
    • Đầu ra: lời gọi hàm hành động UI như nhấp, nhập liệu, kéo thả
    • Một số tác vụ rủi ro cao (ví dụ: thanh toán) sẽ yêu cầu quy trình xác nhận từ người dùng
  • Sau mỗi hành động, ảnh chụp màn hình mới và URL sẽ được gửi lại cho mô hình để thực hiện bước tiếp theo
  • Mô hình chủ yếu được tối ưu cho môi trường trình duyệt web, nhưng cũng cho thấy hiệu năng cao trong việc điều khiển UI trên di động

Hiệu năng

  • Trong đánh giá của Browserbase và chính Google, mô hình ghi nhận độ chính xác và độ trễ ở mức hàng đầu ngành
    • Trên các benchmark như Online-Mind2Web, mô hình cho thấy phản hồi nhanh hơn hơn 50% so với các mô hình cạnh tranh
    • Độ chính xác trong việc hiểu ngữ cảnh trên các màn hình phức tạp cũng được cải thiện, với mức tăng hiệu năng 18% được báo cáo
  • Mô hình cũng bao gồm khả năng tự phục hồi khi xảy ra lỗi trong quá trình điều khiển UI, hữu ích cho tự động hóa kiểm thử

Thiết kế an toàn

  • Để ngăn chặn việc tác nhân bị lạm dụng, Google đã tích hợp các tính năng an toàn ngay trong mô hình
    • Per-step Safety Service: kiểm tra hành động do mô hình đề xuất trước khi thực thi
    • System Instructions: có thể thiết lập quy tắc yêu cầu xác nhận từ người dùng hoặc từ chối đối với một số tác vụ nhất định (bảo mật, y tế, CAPTCHA, v.v.)
  • Hướng dẫn cho nhà phát triển cũng cung cấp các khuyến nghị bảo mật bổ sung, đồng thời khuyến nghị kiểm thử kỹ lưỡng trước khi triển khai vào dịch vụ thực tế

Các trường hợp áp dụng ban đầu

  • Các nhóm nội bộ của Google đã đưa mô hình vào tự động hóa kiểm thử UI, giúp giảm tỷ lệ lỗi 25%
  • Mô hình hiện đang được sử dụng trong môi trường production thực tế như Project Mariner, Firebase Testing Agent, AI Mode in Search
  • Đánh giá từ những người dùng bên ngoài giai đoạn đầu cũng ghi nhận hiệu quả cải thiện độ tin cậy khi phân tích dữ liệu và tăng tốc độ thực thi
    • Ví dụ: Autotab cải thiện 18% độ chính xác trong xử lý ngữ cảnh phức tạp
    • Nền tảng thanh toán của Google tự động khôi phục 60% các bài kiểm thử thất bại

Bắt đầu

2 bình luận

 
GN⁺ 2025-10-08
Ý kiến trên Hacker News
  • Trước đây tôi từng đợi ở một con đường hai làn có đèn tín hiệu và nghĩ rằng nếu đường chính không có xe thì có thể dùng hệ thống camera computer vision để chuyển đèn nhanh hơn
    Nhưng thời đó computer vision vẫn chưa đủ chín muồi, và rồi tôi biết rằng có thể phát hiện xe bằng cảm biến từ
    Đó là một vấn đề có thể giải quyết dễ dàng bằng phần cứng và phần mềm đơn giản hơn rất nhiều, còn cách tôi nghĩ ra thì quá phức tạp và tốn kém
    Khi dùng máy tính, tôi cũng tin rằng ML/AI nên được tối ưu cho dữ liệu có cấu trúc
    Nhưng thế giới đã trở nên phức tạp hơn và máy tính cũng nhanh hơn, nên giờ việc AI nhìn màn hình, di chuyển chuột và nhấp chuột lại là một tình huống thực tế hơn

    • Giờ đây camera computer vision đã được dùng rất phổ biến
      Cảm biến từ thường không phát hiện tốt người đi xe đạp nên ngày nay camera được ưa chuộng hơn
      Từ góc nhìn của cơ quan giao thông đô thị, camera còn có thể được dùng như công cụ giám sát ùn tắc nên ngày càng được ưa thích hơn

    • Khu tôi sống đã áp dụng một hệ thống gắn cảm biến ánh sáng đơn giản vào đèn tín hiệu ban đêm, để khi đến gần chỉ cần bật đèn pha là tín hiệu sẽ đổi
      Nếu không thì đường chính sẽ luôn giữ đèn xanh suốt đêm
      Kiểu như khi xe đến giao lộ thì đèn chỉ đổi nhờ tín hiệu đèn pha hoặc từ thông

    • Tôi đi xe đạp khá thường xuyên, và ngoài trời thì tính năng đang nghe podcast rồi nói "Hey Google, quay lại 30 giây" để nghe lại hoặc bỏ qua quảng cáo rất hữu ích
      Trong nhà tôi chủ yếu cast chương trình TV hoặc video YouTube để xem
      Thỉnh thoảng tôi muốn đổi video YouTube, nhưng lệnh thoại với YouTube chỉ hoạt động ở mức tạm được và kết quả không tốt lắm
      Các dịch vụ khác thì gần như không thể điều khiển bằng giọng nói
      Trong một thế giới lý tưởng, tôi muốn Google cung cấp một API thật tốt cho kiểu tích hợp này và mọi ứng dụng đều hỗ trợ nó tử tế
      Nếu có thể bỏ qua cả quá trình đó mà vẫn cho ra kết quả tuyệt vời thì với tôi đó sẽ là một trải nghiệm rất có giá trị
      Có thể đây là kịch bản chỉ riêng tôi quan tâm, nhưng đó thật sự là điều khiến tôi rất mong đợi

    • Việc sử dụng máy tính là benchmark quan trọng nhất khi dự đoán tác động của AI lên thị trường lao động
      Có rất nhiều cách tốt hơn để ML/AI thực hiện hiệu quả các tác vụ khác nhau trên máy tính
      Nhưng tất cả các cách đó đều phải được thiết kế riêng cho từng loại tác vụ
      Cách tiếp cận tổng quát mới là hướng mở rộng tốt hơn

    • Tham khảo thêm là loại camera giao thông này thực ra đã được dùng phổ biến từ lâu
      https://www.milesight.com/company/blog/types-of-traffic-cameras

  • Trong thời gian dài tôi tập trung vào ý tưởng "biến mọi thứ trên đời thành đối tượng cơ sở dữ liệu" để tự động hóa các công việc thủ công lặp đi lặp lại
    Tôi nghĩ máy tính có thể làm vô số việc chỉ với mức can thiệp tối thiểu từ con người
    Tôi cũng đã bỏ nhiều công sức cho machine learning
    Nhưng thật ra tôi chưa từng nghĩ đến chuyện có thể tận dụng nguyên xi dữ liệu bán cấu trúc của thế giới con người như screen buffer để khiến máy tính làm việc như con người bằng chuột và bàn phím
    Dĩ nhiên tôi hoàn toàn ủng hộ ý tưởng này
    Tôi nghĩ trong vòng 10 năm tới có thể sẽ xuất hiện thời đại mà máy tính mở Chrome, trò chuyện trong cuộc gọi video và xử lý công việc xong xuôi mà đối phương hoàn toàn không nhận ra đó là máy tính

    • Lý do AI thành công hơn những cách "về mặt lý thuyết là tốt hơn" là vì nó giải quyết một vấn đề mang tính "xã hội" ở cấp độ nền tảng
      Hệ sinh thái điện toán là một môi trường cạnh tranh và phòng thủ hơn là hợp tác
      Cấu trúc được thiết kế để không thể tự động hóa phần lớn các thao tác thủ công nhàm chán thực ra chính là cốt lõi của việc kiếm tiền trên Internet
      Nếu người dùng có thể né được các cơ chế dẫn dụ mua hàng hay hiển thị quảng cáo bằng tự động hóa thì doanh thu sẽ sụt giảm

    • Trong robotics cũng từng có tranh luận tương tự
      Nhiều người đặt câu hỏi kiểu: "Tại sao lại phải làm robot hình người, chẳng phải có thể có hình dạng hiệu quả hơn sao?"
      Nhưng rốt cuộc để công cụ được chấp nhận rộng rãi thì dù kém hiệu quả hơn, nó vẫn phải được thiết kế để phù hợp với môi trường lấy con người làm trung tâm
      Với các ứng dụng đặt nặng hiệu năng thì thiết kế tùy biến và tối ưu hóa là bắt buộc, nhưng để phổ biến rộng rãi thì cần cách tiếp cận thích ứng với con người

    • Sáng nay khi nghĩ về ứng dụng hẹn hò, tôi lại nhớ đến ý cuối đó
      Nếu "chatgpt của tôi" có thể đại diện cho tôi đủ tốt, thì tôi nghĩ có thể sẽ có kiểu ghép đôi mà chatgpt của đối phương và chatgpt của tôi gặp nhau trước như một buổi hẹn sơ bộ trong app hẹn hò
      Gần đây tôi nghe nói về "digital twin" trong một keynote doanh nghiệp, và có vẻ đây chính là khái niệm đó
      Còn quá sớm để đưa ra kết luận về chuyện này, nhưng tôi tò mò xem nó sẽ phát triển đến đâu

    • Tôi tự hỏi liệu mọi người có thật sự cho rằng việc để máy tính tự mở Chrome, gọi video và xử lý nhiệm vụ như người thật đến mức bên kia không nhận ra là máy tính là một kết quả đáng mong muốn hay không
      Về mặt kỹ thuật thì đó là một thành tựu cực kỳ lớn và ấn tượng, nhưng vẫn có cảm giác gì đó hơi rờn rợn

  • Tôi đã tự động hóa trình duyệt thành công từ Gemini CLI bằng Chrome devtools MCP(https://github.com/ChromeDevTools/chrome-devtools-mcp)
    Nên tôi nghĩ model lần này có lẽ sẽ cho hiệu năng tốt hơn

    • Tôi tò mò không biết bạn đã dùng MCP để tự động hóa thành công những tác vụ nào

    • Cách này chẳng liên quan gì đến model cần cho computer use cả
      Nó chỉ dùng các công cụ được Google định nghĩa sẵn từ máy chủ MCP chứ không phải một model đa dụng có thể áp dụng cho mọi phần mềm

  • Nếu ai có use case thực tế nào nhanh hơn việc cải thiện UX thì mong được nghe chia sẻ
    Tôi vẫn chưa hình dung rõ nên dùng cái này như thế nào
    Nhìn vào lượng đầu tư đổ vào thì rõ ràng phải có điều gì đó mà tôi chưa thấy
    Công nghệ và tính năng tự thân thì rất ấn tượng, nhưng tôi muốn biết các ví dụ ứng dụng cụ thể

  • Nếu bảo bot trình duyệt giải Wordle hôm nay thì có tình huống nó không đoán ra đáp án vì không nhìn được phản hồi màu chữ cái (xanh lá, vàng, xám)
    Nó có thể nhập từ nhưng không diễn giải được phần phản hồi

    • Không biết có phải nó đang duyệt web trên màn hình trắng đen hay không
  • Gemini đã vượt qua captcha thành công trên https://www.google.com/recaptcha/api2/demo

    • Tôi đã sửa bài: thực ra tôi nhìn nhầm, và việc giải Google CAPTCHA không phải do Gemini mà là do Browserbase thực hiện
      Chi tiết được tổng hợp ở đây

    • Tự động hóa chạy trên Browserbase, và Browserbase có tích hợp captcha solver
      Tôi không chắc đó là tự động hay do con người xử lý

    • Có lẽ nó vượt qua được vì yêu cầu được gửi từ IP thuộc mạng nội bộ của chính Google

  • (Tôi chỉ mới thử demo của Browserbase)
    Biết rằng điều đó khả thi về mặt lý thuyết và thực sự tận mắt thấy nó đăng nhập vào website, cuộn trang và để lại bình luận chỉ với một câu lệnh ngắn là hai trải nghiệm hoàn toàn khác nhau
    Hôm nay ở Wordle tôi cũng mắc đúng lỗi y như vậy ở lần đoán thứ hai nên hòa
    Hơi tiếc là không thể trò chuyện với nó trong lúc nó đang làm việc

  • Kiểu chức năng này nhất định phải có các hook/callback phục vụ governance trong hệ thống enterprise
    Trên các hệ thống dựa vào UI, việc xử lý hook/sự kiện agent khó hơn nhiều
    Có thể tham khảo tài liệu hook của claude code, tài liệu callback của google adk

    • Tôi biết Claude Code thường xuyên bỏ qua hook như thế nào, tự hoàn tất phần tính toán rồi không tận dụng kết quả, nên tôi cho rằng khái niệm "governance" gần như là bất khả thi
      LLM khó đoán hơn mọi người nghĩ và cũng khó kiểm soát hơn nhiều
      Tôi từng thấy nó vẫn tiếp tục tiến hành dù bài test đã thất bại và hiện rõ dòng "không được tiếp tục"
      Cuối cùng thứ duy nhất có thể chặn chắc chắn chỉ là những hook "claude-killing" thực sự nguy hiểm về mặt lý thuyết

    • Tôi phụ trách sản phẩm identity ở Browserbase
      Gần đây tôi đang suy nghĩ về cách đưa RBAC (kiểm soát truy cập dựa trên vai trò) lên toàn bộ web
      Tôi tò mò không biết callback có thể giúp ích cho cách tiếp cận này hay không

  • Khi thấy câu "OS-level control vẫn chưa được tối ưu" tôi nghĩ ngay rằng AGI vẫn chưa tới
    Nếu đạt được mức kiểm soát OS như vậy, và chi phí dùng LLM ở mức hợp lý, thì tôi nghĩ có thể bắt đầu một thứ gì đó tiệm cận AGI

    • Điều thú vị là đa số con người cũng không thật sự dùng máy tính giỏi
      Tôi có cảm giác khái niệm "trí thông minh" thực sự là thứ không thể định nghĩa nổi

    • Tôi tò mò vì sao bạn nghĩ việc kiểm soát toàn bộ OS lại là bước đệm để tiến tới AGI (trí tuệ nhân tạo tổng quát)

  • Trớ trêu thay, phần lớn công ty công nghệ kiếm tiền bằng cách buộc người dùng phải đi qua những thông tin vô nghĩa
    Ví dụ nếu có thể tự do lướt Internet mà không có quảng cáo, hoặc trên Twitter có thể chỉ xem nội dung mình muốn mà không bị nhồi thuật toán vô dụng, thì ai lại không dùng chứ

 
[Bình luận này đã bị ẩn.]