- Google đã công bố mô hình Computer Use dựa trên Gemini 2.5 Pro, hỗ trợ các nhà phát triển xây dựng tác nhân có thể trực tiếp thao tác giao diện người dùng
- Trên các benchmark điều khiển web và di động, mô hình cho thấy hiệu năng nhanh và chính xác hơn các mô hình cạnh tranh, hiện có thể dùng ở bản preview trên Google AI Studio và Vertex AI
- Mô hình nhận ảnh chụp màn hình, yêu cầu của người dùng và lịch sử hành động làm đầu vào, rồi tự động tạo lệnh thao tác UI như nhấp, nhập liệu và cuộn
- Để bảo đảm an toàn, hệ thống bao gồm Per-step Safety Service và quy trình xác nhận của người dùng nhằm ngăn chặn lạm dụng và các mối đe dọa bảo mật
- Mô hình đã được áp dụng vào Project Mariner, Firebase Testing Agent, AI Mode in Search và nhiều hệ thống khác, chứng minh hiệu quả tự động hóa ở mức thực tế và cải thiện hiệu suất kiểm thử
Tổng quan
- Google DeepMind đã ra mắt mô hình Gemini 2.5 Computer Use
- Đây là mô hình dành cho tác nhân có thể trực tiếp điều khiển UI web và di động, dựa trên khả năng hiểu thị giác và suy luận của Gemini 2.5 Pro
- Tiến thêm một bước so với tự động hóa dựa trên API truyền thống, mô hình có thể thực hiện tương tác trên giao diện đồ họa như điền biểu mẫu, cuộn và xử lý đăng nhập
- Mô hình hiện được cung cấp dưới dạng preview thông qua Google AI Studio và Vertex AI
Cách hoạt động
- Mô hình hoạt động theo cấu trúc vòng lặp lặp lại thông qua công cụ
computer_use mới
- Đầu vào: yêu cầu của người dùng, ảnh chụp màn hình của UI hiện tại, lịch sử hành động gần đây
- Đầu ra: lời gọi hàm hành động UI như nhấp, nhập liệu, kéo thả
- Một số tác vụ rủi ro cao (ví dụ: thanh toán) sẽ yêu cầu quy trình xác nhận từ người dùng
- Sau mỗi hành động, ảnh chụp màn hình mới và URL sẽ được gửi lại cho mô hình để thực hiện bước tiếp theo
- Mô hình chủ yếu được tối ưu cho môi trường trình duyệt web, nhưng cũng cho thấy hiệu năng cao trong việc điều khiển UI trên di động
Hiệu năng
- Trong đánh giá của Browserbase và chính Google, mô hình ghi nhận độ chính xác và độ trễ ở mức hàng đầu ngành
- Trên các benchmark như Online-Mind2Web, mô hình cho thấy phản hồi nhanh hơn hơn 50% so với các mô hình cạnh tranh
- Độ chính xác trong việc hiểu ngữ cảnh trên các màn hình phức tạp cũng được cải thiện, với mức tăng hiệu năng 18% được báo cáo
- Mô hình cũng bao gồm khả năng tự phục hồi khi xảy ra lỗi trong quá trình điều khiển UI, hữu ích cho tự động hóa kiểm thử
Thiết kế an toàn
- Để ngăn chặn việc tác nhân bị lạm dụng, Google đã tích hợp các tính năng an toàn ngay trong mô hình
- Per-step Safety Service: kiểm tra hành động do mô hình đề xuất trước khi thực thi
- System Instructions: có thể thiết lập quy tắc yêu cầu xác nhận từ người dùng hoặc từ chối đối với một số tác vụ nhất định (bảo mật, y tế, CAPTCHA, v.v.)
- Hướng dẫn cho nhà phát triển cũng cung cấp các khuyến nghị bảo mật bổ sung, đồng thời khuyến nghị kiểm thử kỹ lưỡng trước khi triển khai vào dịch vụ thực tế
Các trường hợp áp dụng ban đầu
- Các nhóm nội bộ của Google đã đưa mô hình vào tự động hóa kiểm thử UI, giúp giảm tỷ lệ lỗi 25%
- Mô hình hiện đang được sử dụng trong môi trường production thực tế như Project Mariner, Firebase Testing Agent, AI Mode in Search
- Đánh giá từ những người dùng bên ngoài giai đoạn đầu cũng ghi nhận hiệu quả cải thiện độ tin cậy khi phân tích dữ liệu và tăng tốc độ thực thi
- Ví dụ: Autotab cải thiện 18% độ chính xác trong xử lý ngữ cảnh phức tạp
- Nền tảng thanh toán của Google tự động khôi phục 60% các bài kiểm thử thất bại
Bắt đầu
- Mô hình hiện được cung cấp ở dạng public preview, có thể truy cập qua các kênh sau
- Nhà phát triển có thể dùng GitHub reference và tài liệu để xây dựng vòng lặp tác nhân trên môi trường Playwright hoặc cloud VM
- Phản hồi hiện đang được thu thập trên Developer Forum
2 bình luận
Ý kiến trên Hacker News
Trước đây tôi từng đợi ở một con đường hai làn có đèn tín hiệu và nghĩ rằng nếu đường chính không có xe thì có thể dùng hệ thống camera computer vision để chuyển đèn nhanh hơn
Nhưng thời đó computer vision vẫn chưa đủ chín muồi, và rồi tôi biết rằng có thể phát hiện xe bằng cảm biến từ
Đó là một vấn đề có thể giải quyết dễ dàng bằng phần cứng và phần mềm đơn giản hơn rất nhiều, còn cách tôi nghĩ ra thì quá phức tạp và tốn kém
Khi dùng máy tính, tôi cũng tin rằng ML/AI nên được tối ưu cho dữ liệu có cấu trúc
Nhưng thế giới đã trở nên phức tạp hơn và máy tính cũng nhanh hơn, nên giờ việc AI nhìn màn hình, di chuyển chuột và nhấp chuột lại là một tình huống thực tế hơn
Giờ đây camera computer vision đã được dùng rất phổ biến
Cảm biến từ thường không phát hiện tốt người đi xe đạp nên ngày nay camera được ưa chuộng hơn
Từ góc nhìn của cơ quan giao thông đô thị, camera còn có thể được dùng như công cụ giám sát ùn tắc nên ngày càng được ưa thích hơn
Khu tôi sống đã áp dụng một hệ thống gắn cảm biến ánh sáng đơn giản vào đèn tín hiệu ban đêm, để khi đến gần chỉ cần bật đèn pha là tín hiệu sẽ đổi
Nếu không thì đường chính sẽ luôn giữ đèn xanh suốt đêm
Kiểu như khi xe đến giao lộ thì đèn chỉ đổi nhờ tín hiệu đèn pha hoặc từ thông
Tôi đi xe đạp khá thường xuyên, và ngoài trời thì tính năng đang nghe podcast rồi nói "Hey Google, quay lại 30 giây" để nghe lại hoặc bỏ qua quảng cáo rất hữu ích
Trong nhà tôi chủ yếu cast chương trình TV hoặc video YouTube để xem
Thỉnh thoảng tôi muốn đổi video YouTube, nhưng lệnh thoại với YouTube chỉ hoạt động ở mức tạm được và kết quả không tốt lắm
Các dịch vụ khác thì gần như không thể điều khiển bằng giọng nói
Trong một thế giới lý tưởng, tôi muốn Google cung cấp một API thật tốt cho kiểu tích hợp này và mọi ứng dụng đều hỗ trợ nó tử tế
Nếu có thể bỏ qua cả quá trình đó mà vẫn cho ra kết quả tuyệt vời thì với tôi đó sẽ là một trải nghiệm rất có giá trị
Có thể đây là kịch bản chỉ riêng tôi quan tâm, nhưng đó thật sự là điều khiến tôi rất mong đợi
Việc sử dụng máy tính là benchmark quan trọng nhất khi dự đoán tác động của AI lên thị trường lao động
Có rất nhiều cách tốt hơn để ML/AI thực hiện hiệu quả các tác vụ khác nhau trên máy tính
Nhưng tất cả các cách đó đều phải được thiết kế riêng cho từng loại tác vụ
Cách tiếp cận tổng quát mới là hướng mở rộng tốt hơn
Tham khảo thêm là loại camera giao thông này thực ra đã được dùng phổ biến từ lâu
https://www.milesight.com/company/blog/types-of-traffic-cameras
Trong thời gian dài tôi tập trung vào ý tưởng "biến mọi thứ trên đời thành đối tượng cơ sở dữ liệu" để tự động hóa các công việc thủ công lặp đi lặp lại
Tôi nghĩ máy tính có thể làm vô số việc chỉ với mức can thiệp tối thiểu từ con người
Tôi cũng đã bỏ nhiều công sức cho machine learning
Nhưng thật ra tôi chưa từng nghĩ đến chuyện có thể tận dụng nguyên xi dữ liệu bán cấu trúc của thế giới con người như screen buffer để khiến máy tính làm việc như con người bằng chuột và bàn phím
Dĩ nhiên tôi hoàn toàn ủng hộ ý tưởng này
Tôi nghĩ trong vòng 10 năm tới có thể sẽ xuất hiện thời đại mà máy tính mở Chrome, trò chuyện trong cuộc gọi video và xử lý công việc xong xuôi mà đối phương hoàn toàn không nhận ra đó là máy tính
Lý do AI thành công hơn những cách "về mặt lý thuyết là tốt hơn" là vì nó giải quyết một vấn đề mang tính "xã hội" ở cấp độ nền tảng
Hệ sinh thái điện toán là một môi trường cạnh tranh và phòng thủ hơn là hợp tác
Cấu trúc được thiết kế để không thể tự động hóa phần lớn các thao tác thủ công nhàm chán thực ra chính là cốt lõi của việc kiếm tiền trên Internet
Nếu người dùng có thể né được các cơ chế dẫn dụ mua hàng hay hiển thị quảng cáo bằng tự động hóa thì doanh thu sẽ sụt giảm
Trong robotics cũng từng có tranh luận tương tự
Nhiều người đặt câu hỏi kiểu: "Tại sao lại phải làm robot hình người, chẳng phải có thể có hình dạng hiệu quả hơn sao?"
Nhưng rốt cuộc để công cụ được chấp nhận rộng rãi thì dù kém hiệu quả hơn, nó vẫn phải được thiết kế để phù hợp với môi trường lấy con người làm trung tâm
Với các ứng dụng đặt nặng hiệu năng thì thiết kế tùy biến và tối ưu hóa là bắt buộc, nhưng để phổ biến rộng rãi thì cần cách tiếp cận thích ứng với con người
Sáng nay khi nghĩ về ứng dụng hẹn hò, tôi lại nhớ đến ý cuối đó
Nếu "chatgpt của tôi" có thể đại diện cho tôi đủ tốt, thì tôi nghĩ có thể sẽ có kiểu ghép đôi mà chatgpt của đối phương và chatgpt của tôi gặp nhau trước như một buổi hẹn sơ bộ trong app hẹn hò
Gần đây tôi nghe nói về "digital twin" trong một keynote doanh nghiệp, và có vẻ đây chính là khái niệm đó
Còn quá sớm để đưa ra kết luận về chuyện này, nhưng tôi tò mò xem nó sẽ phát triển đến đâu
Tôi tự hỏi liệu mọi người có thật sự cho rằng việc để máy tính tự mở Chrome, gọi video và xử lý nhiệm vụ như người thật đến mức bên kia không nhận ra là máy tính là một kết quả đáng mong muốn hay không
Về mặt kỹ thuật thì đó là một thành tựu cực kỳ lớn và ấn tượng, nhưng vẫn có cảm giác gì đó hơi rờn rợn
Tôi đã tự động hóa trình duyệt thành công từ Gemini CLI bằng Chrome devtools MCP(https://github.com/ChromeDevTools/chrome-devtools-mcp)
Nên tôi nghĩ model lần này có lẽ sẽ cho hiệu năng tốt hơn
Tôi tò mò không biết bạn đã dùng MCP để tự động hóa thành công những tác vụ nào
Cách này chẳng liên quan gì đến model cần cho computer use cả
Nó chỉ dùng các công cụ được Google định nghĩa sẵn từ máy chủ MCP chứ không phải một model đa dụng có thể áp dụng cho mọi phần mềm
Nếu ai có use case thực tế nào nhanh hơn việc cải thiện UX thì mong được nghe chia sẻ
Tôi vẫn chưa hình dung rõ nên dùng cái này như thế nào
Nhìn vào lượng đầu tư đổ vào thì rõ ràng phải có điều gì đó mà tôi chưa thấy
Công nghệ và tính năng tự thân thì rất ấn tượng, nhưng tôi muốn biết các ví dụ ứng dụng cụ thể
Nếu bảo bot trình duyệt giải Wordle hôm nay thì có tình huống nó không đoán ra đáp án vì không nhìn được phản hồi màu chữ cái (xanh lá, vàng, xám)
Nó có thể nhập từ nhưng không diễn giải được phần phản hồi
Gemini đã vượt qua captcha thành công trên https://www.google.com/recaptcha/api2/demo
Tôi đã sửa bài: thực ra tôi nhìn nhầm, và việc giải Google CAPTCHA không phải do Gemini mà là do Browserbase thực hiện
Chi tiết được tổng hợp ở đây
Tự động hóa chạy trên Browserbase, và Browserbase có tích hợp captcha solver
Tôi không chắc đó là tự động hay do con người xử lý
Có lẽ nó vượt qua được vì yêu cầu được gửi từ IP thuộc mạng nội bộ của chính Google
(Tôi chỉ mới thử demo của Browserbase)
Biết rằng điều đó khả thi về mặt lý thuyết và thực sự tận mắt thấy nó đăng nhập vào website, cuộn trang và để lại bình luận chỉ với một câu lệnh ngắn là hai trải nghiệm hoàn toàn khác nhau
Hôm nay ở Wordle tôi cũng mắc đúng lỗi y như vậy ở lần đoán thứ hai nên hòa
Hơi tiếc là không thể trò chuyện với nó trong lúc nó đang làm việc
Kiểu chức năng này nhất định phải có các hook/callback phục vụ governance trong hệ thống enterprise
Trên các hệ thống dựa vào UI, việc xử lý hook/sự kiện agent khó hơn nhiều
Có thể tham khảo tài liệu hook của claude code, tài liệu callback của google adk
Tôi biết Claude Code thường xuyên bỏ qua hook như thế nào, tự hoàn tất phần tính toán rồi không tận dụng kết quả, nên tôi cho rằng khái niệm "governance" gần như là bất khả thi
LLM khó đoán hơn mọi người nghĩ và cũng khó kiểm soát hơn nhiều
Tôi từng thấy nó vẫn tiếp tục tiến hành dù bài test đã thất bại và hiện rõ dòng "không được tiếp tục"
Cuối cùng thứ duy nhất có thể chặn chắc chắn chỉ là những hook "claude-killing" thực sự nguy hiểm về mặt lý thuyết
Tôi phụ trách sản phẩm identity ở Browserbase
Gần đây tôi đang suy nghĩ về cách đưa RBAC (kiểm soát truy cập dựa trên vai trò) lên toàn bộ web
Tôi tò mò không biết callback có thể giúp ích cho cách tiếp cận này hay không
Khi thấy câu "OS-level control vẫn chưa được tối ưu" tôi nghĩ ngay rằng AGI vẫn chưa tới
Nếu đạt được mức kiểm soát OS như vậy, và chi phí dùng LLM ở mức hợp lý, thì tôi nghĩ có thể bắt đầu một thứ gì đó tiệm cận AGI
Điều thú vị là đa số con người cũng không thật sự dùng máy tính giỏi
Tôi có cảm giác khái niệm "trí thông minh" thực sự là thứ không thể định nghĩa nổi
Tôi tò mò vì sao bạn nghĩ việc kiểm soát toàn bộ OS lại là bước đệm để tiến tới AGI (trí tuệ nhân tạo tổng quát)
Trớ trêu thay, phần lớn công ty công nghệ kiếm tiền bằng cách buộc người dùng phải đi qua những thông tin vô nghĩa
Ví dụ nếu có thể tự do lướt Internet mà không có quảng cáo, hoặc trên Twitter có thể chỉ xem nội dung mình muốn mà không bị nhồi thuật toán vô dụng, thì ai lại không dùng chứ