Ra mắt mô hình Gemini 2.5 Computer Use - AI cho tác nhân trực tiếp thao tác UI

(blog.google)

4 điểm bởi GN⁺ 2025-10-08 | 2 bình luận | Chia sẻ qua WhatsApp

Google đã công bố mô hình Computer Use dựa trên Gemini 2.5 Pro, hỗ trợ các nhà phát triển xây dựng tác nhân có thể trực tiếp thao tác giao diện người dùng
Trên các benchmark điều khiển web và di động, mô hình cho thấy hiệu năng nhanh và chính xác hơn các mô hình cạnh tranh, hiện có thể dùng ở bản preview trên Google AI Studio và Vertex AI
Mô hình nhận ảnh chụp màn hình, yêu cầu của người dùng và lịch sử hành động làm đầu vào, rồi tự động tạo lệnh thao tác UI như nhấp, nhập liệu và cuộn
Để bảo đảm an toàn, hệ thống bao gồm Per-step Safety Service và quy trình xác nhận của người dùng nhằm ngăn chặn lạm dụng và các mối đe dọa bảo mật
Mô hình đã được áp dụng vào Project Mariner, Firebase Testing Agent, AI Mode in Search và nhiều hệ thống khác, chứng minh hiệu quả tự động hóa ở mức thực tế và cải thiện hiệu suất kiểm thử

Tổng quan

Google DeepMind đã ra mắt mô hình Gemini 2.5 Computer Use
- Đây là mô hình dành cho tác nhân có thể trực tiếp điều khiển UI web và di động, dựa trên khả năng hiểu thị giác và suy luận của Gemini 2.5 Pro
- Tiến thêm một bước so với tự động hóa dựa trên API truyền thống, mô hình có thể thực hiện tương tác trên giao diện đồ họa như điền biểu mẫu, cuộn và xử lý đăng nhập
- Mô hình hiện được cung cấp dưới dạng preview thông qua Google AI Studio và Vertex AI

Cách hoạt động

Mô hình hoạt động theo cấu trúc vòng lặp lặp lại thông qua công cụ computer_use mới
- Đầu vào: yêu cầu của người dùng, ảnh chụp màn hình của UI hiện tại, lịch sử hành động gần đây
- Đầu ra: lời gọi hàm hành động UI như nhấp, nhập liệu, kéo thả
- Một số tác vụ rủi ro cao (ví dụ: thanh toán) sẽ yêu cầu quy trình xác nhận từ người dùng
Sau mỗi hành động, ảnh chụp màn hình mới và URL sẽ được gửi lại cho mô hình để thực hiện bước tiếp theo
Mô hình chủ yếu được tối ưu cho môi trường trình duyệt web, nhưng cũng cho thấy hiệu năng cao trong việc điều khiển UI trên di động

Hiệu năng

Trong đánh giá của Browserbase và chính Google, mô hình ghi nhận độ chính xác và độ trễ ở mức hàng đầu ngành
- Trên các benchmark như Online-Mind2Web, mô hình cho thấy phản hồi nhanh hơn hơn 50% so với các mô hình cạnh tranh
- Độ chính xác trong việc hiểu ngữ cảnh trên các màn hình phức tạp cũng được cải thiện, với mức tăng hiệu năng 18% được báo cáo
Mô hình cũng bao gồm khả năng tự phục hồi khi xảy ra lỗi trong quá trình điều khiển UI, hữu ích cho tự động hóa kiểm thử

Thiết kế an toàn

Để ngăn chặn việc tác nhân bị lạm dụng, Google đã tích hợp các tính năng an toàn ngay trong mô hình
- Per-step Safety Service: kiểm tra hành động do mô hình đề xuất trước khi thực thi
- System Instructions: có thể thiết lập quy tắc yêu cầu xác nhận từ người dùng hoặc từ chối đối với một số tác vụ nhất định (bảo mật, y tế, CAPTCHA, v.v.)
Hướng dẫn cho nhà phát triển cũng cung cấp các khuyến nghị bảo mật bổ sung, đồng thời khuyến nghị kiểm thử kỹ lưỡng trước khi triển khai vào dịch vụ thực tế

Các trường hợp áp dụng ban đầu

Các nhóm nội bộ của Google đã đưa mô hình vào tự động hóa kiểm thử UI, giúp giảm tỷ lệ lỗi 25%
Mô hình hiện đang được sử dụng trong môi trường production thực tế như Project Mariner, Firebase Testing Agent, AI Mode in Search
Đánh giá từ những người dùng bên ngoài giai đoạn đầu cũng ghi nhận hiệu quả cải thiện độ tin cậy khi phân tích dữ liệu và tăng tốc độ thực thi
- Ví dụ: Autotab cải thiện 18% độ chính xác trong xử lý ngữ cảnh phức tạp
- Nền tảng thanh toán của Google tự động khôi phục 60% các bài kiểm thử thất bại

Bắt đầu

Mô hình hiện được cung cấp ở dạng public preview, có thể truy cập qua các kênh sau
- Google AI Studio
- Vertex AI
- Có thể thử nghiệm theo thời gian thực trong môi trường demo của Browserbase
Nhà phát triển có thể dùng GitHub reference và tài liệu để xây dựng vòng lặp tác nhân trên môi trường Playwright hoặc cloud VM
Phản hồi hiện đang được thu thập trên Developer Forum

2 bình luận

GN⁺ 2025-10-08

Ý kiến trên Hacker News

Trước đây tôi từng đợi ở một con đường hai làn có đèn tín hiệu và nghĩ rằng nếu đường chính không có xe thì có thể dùng hệ thống camera computer vision để chuyển đèn nhanh hơn
Nhưng thời đó computer vision vẫn chưa đủ chín muồi, và rồi tôi biết rằng có thể phát hiện xe bằng cảm biến từ
Đó là một vấn đề có thể giải quyết dễ dàng bằng phần cứng và phần mềm đơn giản hơn rất nhiều, còn cách tôi nghĩ ra thì quá phức tạp và tốn kém
Khi dùng máy tính, tôi cũng tin rằng ML/AI nên được tối ưu cho dữ liệu có cấu trúc
Nhưng thế giới đã trở nên phức tạp hơn và máy tính cũng nhanh hơn, nên giờ việc AI nhìn màn hình, di chuyển chuột và nhấp chuột lại là một tình huống thực tế hơn
- Giờ đây camera computer vision đã được dùng rất phổ biến
  Cảm biến từ thường không phát hiện tốt người đi xe đạp nên ngày nay camera được ưa chuộng hơn
  Từ góc nhìn của cơ quan giao thông đô thị, camera còn có thể được dùng như công cụ giám sát ùn tắc nên ngày càng được ưa thích hơn
- Khu tôi sống đã áp dụng một hệ thống gắn cảm biến ánh sáng đơn giản vào đèn tín hiệu ban đêm, để khi đến gần chỉ cần bật đèn pha là tín hiệu sẽ đổi
  Nếu không thì đường chính sẽ luôn giữ đèn xanh suốt đêm
  Kiểu như khi xe đến giao lộ thì đèn chỉ đổi nhờ tín hiệu đèn pha hoặc từ thông
- Tôi đi xe đạp khá thường xuyên, và ngoài trời thì tính năng đang nghe podcast rồi nói "Hey Google, quay lại 30 giây" để nghe lại hoặc bỏ qua quảng cáo rất hữu ích
  Trong nhà tôi chủ yếu cast chương trình TV hoặc video YouTube để xem
  Thỉnh thoảng tôi muốn đổi video YouTube, nhưng lệnh thoại với YouTube chỉ hoạt động ở mức tạm được và kết quả không tốt lắm
  Các dịch vụ khác thì gần như không thể điều khiển bằng giọng nói
  Trong một thế giới lý tưởng, tôi muốn Google cung cấp một API thật tốt cho kiểu tích hợp này và mọi ứng dụng đều hỗ trợ nó tử tế
  Nếu có thể bỏ qua cả quá trình đó mà vẫn cho ra kết quả tuyệt vời thì với tôi đó sẽ là một trải nghiệm rất có giá trị
  Có thể đây là kịch bản chỉ riêng tôi quan tâm, nhưng đó thật sự là điều khiến tôi rất mong đợi
- Việc sử dụng máy tính là benchmark quan trọng nhất khi dự đoán tác động của AI lên thị trường lao động
  Có rất nhiều cách tốt hơn để ML/AI thực hiện hiệu quả các tác vụ khác nhau trên máy tính
  Nhưng tất cả các cách đó đều phải được thiết kế riêng cho từng loại tác vụ
  Cách tiếp cận tổng quát mới là hướng mở rộng tốt hơn
- Tham khảo thêm là loại camera giao thông này thực ra đã được dùng phổ biến từ lâu
  https://www.milesight.com/company/blog/types-of-traffic-cameras
Trong thời gian dài tôi tập trung vào ý tưởng "biến mọi thứ trên đời thành đối tượng cơ sở dữ liệu" để tự động hóa các công việc thủ công lặp đi lặp lại
Tôi nghĩ máy tính có thể làm vô số việc chỉ với mức can thiệp tối thiểu từ con người
Tôi cũng đã bỏ nhiều công sức cho machine learning
Nhưng thật ra tôi chưa từng nghĩ đến chuyện có thể tận dụng nguyên xi dữ liệu bán cấu trúc của thế giới con người như screen buffer để khiến máy tính làm việc như con người bằng chuột và bàn phím
Dĩ nhiên tôi hoàn toàn ủng hộ ý tưởng này
Tôi nghĩ trong vòng 10 năm tới có thể sẽ xuất hiện thời đại mà máy tính mở Chrome, trò chuyện trong cuộc gọi video và xử lý công việc xong xuôi mà đối phương hoàn toàn không nhận ra đó là máy tính
- Lý do AI thành công hơn những cách "về mặt lý thuyết là tốt hơn" là vì nó giải quyết một vấn đề mang tính "xã hội" ở cấp độ nền tảng
  Hệ sinh thái điện toán là một môi trường cạnh tranh và phòng thủ hơn là hợp tác
  Cấu trúc được thiết kế để không thể tự động hóa phần lớn các thao tác thủ công nhàm chán thực ra chính là cốt lõi của việc kiếm tiền trên Internet
  Nếu người dùng có thể né được các cơ chế dẫn dụ mua hàng hay hiển thị quảng cáo bằng tự động hóa thì doanh thu sẽ sụt giảm
- Trong robotics cũng từng có tranh luận tương tự
  Nhiều người đặt câu hỏi kiểu: "Tại sao lại phải làm robot hình người, chẳng phải có thể có hình dạng hiệu quả hơn sao?"
  Nhưng rốt cuộc để công cụ được chấp nhận rộng rãi thì dù kém hiệu quả hơn, nó vẫn phải được thiết kế để phù hợp với môi trường lấy con người làm trung tâm
  Với các ứng dụng đặt nặng hiệu năng thì thiết kế tùy biến và tối ưu hóa là bắt buộc, nhưng để phổ biến rộng rãi thì cần cách tiếp cận thích ứng với con người
- Sáng nay khi nghĩ về ứng dụng hẹn hò, tôi lại nhớ đến ý cuối đó
  Nếu "chatgpt của tôi" có thể đại diện cho tôi đủ tốt, thì tôi nghĩ có thể sẽ có kiểu ghép đôi mà chatgpt của đối phương và chatgpt của tôi gặp nhau trước như một buổi hẹn sơ bộ trong app hẹn hò
  Gần đây tôi nghe nói về "digital twin" trong một keynote doanh nghiệp, và có vẻ đây chính là khái niệm đó
  Còn quá sớm để đưa ra kết luận về chuyện này, nhưng tôi tò mò xem nó sẽ phát triển đến đâu
- Tôi tự hỏi liệu mọi người có thật sự cho rằng việc để máy tính tự mở Chrome, gọi video và xử lý nhiệm vụ như người thật đến mức bên kia không nhận ra là máy tính là một kết quả đáng mong muốn hay không
  Về mặt kỹ thuật thì đó là một thành tựu cực kỳ lớn và ấn tượng, nhưng vẫn có cảm giác gì đó hơi rờn rợn
Tôi đã tự động hóa trình duyệt thành công từ Gemini CLI bằng Chrome devtools MCP(https://github.com/ChromeDevTools/chrome-devtools-mcp)
Nên tôi nghĩ model lần này có lẽ sẽ cho hiệu năng tốt hơn
- Tôi tò mò không biết bạn đã dùng MCP để tự động hóa thành công những tác vụ nào
- Cách này chẳng liên quan gì đến model cần cho computer use cả
  Nó chỉ dùng các công cụ được Google định nghĩa sẵn từ máy chủ MCP chứ không phải một model đa dụng có thể áp dụng cho mọi phần mềm
Nếu ai có use case thực tế nào nhanh hơn việc cải thiện UX thì mong được nghe chia sẻ
Tôi vẫn chưa hình dung rõ nên dùng cái này như thế nào
Nhìn vào lượng đầu tư đổ vào thì rõ ràng phải có điều gì đó mà tôi chưa thấy
Công nghệ và tính năng tự thân thì rất ấn tượng, nhưng tôi muốn biết các ví dụ ứng dụng cụ thể
Nếu bảo bot trình duyệt giải Wordle hôm nay thì có tình huống nó không đoán ra đáp án vì không nhìn được phản hồi màu chữ cái (xanh lá, vàng, xám)
Nó có thể nhập từ nhưng không diễn giải được phần phản hồi
- Không biết có phải nó đang duyệt web trên màn hình trắng đen hay không
Gemini đã vượt qua captcha thành công trên https://www.google.com/recaptcha/api2/demo
- Tôi đã sửa bài: thực ra tôi nhìn nhầm, và việc giải Google CAPTCHA không phải do Gemini mà là do Browserbase thực hiện
  Chi tiết được tổng hợp ở đây
- Tự động hóa chạy trên Browserbase, và Browserbase có tích hợp captcha solver
  Tôi không chắc đó là tự động hay do con người xử lý
- Có lẽ nó vượt qua được vì yêu cầu được gửi từ IP thuộc mạng nội bộ của chính Google
(Tôi chỉ mới thử demo của Browserbase)
Biết rằng điều đó khả thi về mặt lý thuyết và thực sự tận mắt thấy nó đăng nhập vào website, cuộn trang và để lại bình luận chỉ với một câu lệnh ngắn là hai trải nghiệm hoàn toàn khác nhau
Hôm nay ở Wordle tôi cũng mắc đúng lỗi y như vậy ở lần đoán thứ hai nên hòa
Hơi tiếc là không thể trò chuyện với nó trong lúc nó đang làm việc
Kiểu chức năng này nhất định phải có các hook/callback phục vụ governance trong hệ thống enterprise
Trên các hệ thống dựa vào UI, việc xử lý hook/sự kiện agent khó hơn nhiều
Có thể tham khảo tài liệu hook của claude code, tài liệu callback của google adk
- Tôi biết Claude Code thường xuyên bỏ qua hook như thế nào, tự hoàn tất phần tính toán rồi không tận dụng kết quả, nên tôi cho rằng khái niệm "governance" gần như là bất khả thi
  LLM khó đoán hơn mọi người nghĩ và cũng khó kiểm soát hơn nhiều
  Tôi từng thấy nó vẫn tiếp tục tiến hành dù bài test đã thất bại và hiện rõ dòng "không được tiếp tục"
  Cuối cùng thứ duy nhất có thể chặn chắc chắn chỉ là những hook "claude-killing" thực sự nguy hiểm về mặt lý thuyết
- Tôi phụ trách sản phẩm identity ở Browserbase
  Gần đây tôi đang suy nghĩ về cách đưa RBAC (kiểm soát truy cập dựa trên vai trò) lên toàn bộ web
  Tôi tò mò không biết callback có thể giúp ích cho cách tiếp cận này hay không
Khi thấy câu "OS-level control vẫn chưa được tối ưu" tôi nghĩ ngay rằng AGI vẫn chưa tới
Nếu đạt được mức kiểm soát OS như vậy, và chi phí dùng LLM ở mức hợp lý, thì tôi nghĩ có thể bắt đầu một thứ gì đó tiệm cận AGI
- Điều thú vị là đa số con người cũng không thật sự dùng máy tính giỏi
  Tôi có cảm giác khái niệm "trí thông minh" thực sự là thứ không thể định nghĩa nổi
- Tôi tò mò vì sao bạn nghĩ việc kiểm soát toàn bộ OS lại là bước đệm để tiến tới AGI (trí tuệ nhân tạo tổng quát)
Trớ trêu thay, phần lớn công ty công nghệ kiếm tiền bằng cách buộc người dùng phải đi qua những thông tin vô nghĩa
Ví dụ nếu có thể tự do lướt Internet mà không có quảng cáo, hoặc trên Twitter có thể chỉ xem nội dung mình muốn mà không bị nhồi thuật toán vô dụng, thì ai lại không dùng chứ

2025-10-09

[Bình luận này đã bị ẩn.]

Ra mắt mô hình Gemini 2.5 Computer Use - AI cho tác nhân trực tiếp thao tác UI

Tổng quan

Cách hoạt động

Hiệu năng

Thiết kế an toàn

Các trường hợp áp dụng ban đầu

Bắt đầu

Bài viết liên quan

2 bình luận

Ý kiến trên Hacker News