Google DeepMind công bố AI "Gemini Robotics On-Device" được tối ưu cho thiết bị robot

(deepmind.google)

5 điểm bởi GN⁺ 2025-06-26 | 1 bình luận | Chia sẻ qua WhatsApp

Mô hình VLA (thị giác-ngôn ngữ-hành động) đa dụng được tối ưu để chạy trực tiếp trên robot
Cung cấp khả năng thích ứng tác vụ nhanh và năng lực thao tác đa dụng, hoạt động cục bộ không cần kết nối Internet, đảm bảo độ trễ thấp và độ bền vận hành
Chỉ cần tài nguyên tính toán tối thiểu nhưng vẫn có khả năng thao tác chính xác trên robot hai tay và chuyển đổi công việc nhanh
Nhà phát triển có thể dùng Gemini Robotics SDK để thử nghiệm nhanh trong môi trường riêng, và chỉ với 50~100 bản demo quy mô nhỏ cũng có thể thích ứng tác vụ nhanh chóng
Cho thấy khả năng khái quát hóa và thích ứng cao hơn các mô hình on-device khác, thực hiện hiệu quả cả chỉ thị phức tạp lẫn tác vụ mới
Áp dụng các nguyên tắc an toàn và phát triển có trách nhiệm, đưa vào cơ chế giảm thiểu rủi ro và thu thập phản hồi đối với môi trường thực tế và tác động xã hội

We’re introducing an efficient, on-device robotics model with general-purpose dexterity and fast task adaptation

Gemini Robotics On-Device là mô hình VLA (thị giác-ngôn ngữ-hành động) hiệu quả cao, được thiết kế để chạy trực tiếp trên thiết bị robot cục bộ
Ứng dụng khả năng suy luận đa phương thức và năng lực hiểu thế giới thực của Gemini Robotics được công bố vào tháng 3 vào môi trường vật lý thực tế
Điểm mạnh của mô hình on-device
- Có thể hoạt động độc lập không cần mạng, phát huy thế mạnh trong các môi trường cần độ trễ thấp hoặc kết nối không ổn định
- Được tối ưu cho môi trường cục bộ, cho phép thực hiện tác vụ thời gian thực nhanh chóng
- Sở hữu nhiều năng lực khái quát hóa về thị giác, ngữ nghĩa và hành động
- Có thể thực hiện các thao tác chính xác trên robot hai tay (mở khóa kéo, gấp quần áo, v.v.)
- Có thể hiểu chỉ thị ngôn ngữ tự nhiên và thực hiện các tác vụ phức tạp nhiều bước

Cung cấp SDK để dễ triển khai và tùy biến

Thông qua Gemini Robotics SDK, nhà phát triển có thể thử nghiệm mô hình trong môi trường riêng, kiểm thử bằng trình mô phỏng vật lý MuJoCo và áp dụng cho nhiều tác vụ khác nhau
Chỉ với 50~100 bản demo quy mô nhỏ cũng có thể thích ứng nhanh với miền mới

Model capabilities and performance

Gemini Robotics On-Device được thiết kế cho robot hai tay với yêu cầu tài nguyên tính toán tối thiểu
Được tối ưu cho thử nghiệm nhanh, thao tác đòi hỏi độ khéo léo, chạy cục bộ và suy luận độ trễ thấp
Có thể nhận biết lệnh ngôn ngữ tự nhiên và trực tiếp thực hiện các thao tác khó như mở khóa kéo hay gấp quần áo
Vượt trội hơn các mô hình on-device hiện có về tính đa dụng và năng lực khái quát hóa, đồng thời xử lý hiệu quả các chỉ thị nhiều bước phức tạp
Nếu cần hiệu năng cao hơn hoặc môi trường ít ràng buộc hơn, cũng có mô hình Gemini Robotics (dựa trên máy chủ)

Adaptable to new tasks, generalizable across embodiments

Gemini Robotics On-Device là mô hình VLA đầu tiên có thể fine-tuning
Chỉ với 50~100 bản demo đã có thể thích ứng nhanh với tác vụ mới, và cho thấy hiệu năng thích ứng cao hơn các mô hình cạnh tranh trong nhiều tác vụ đòi hỏi độ khéo léo với mức độ khó khác nhau (kéo khóa kéo, rút thẻ, rót nước sốt, v.v.)
Dù được huấn luyện cho robot cụ thể (ALOHA), mô hình vẫn có thể mở rộng sang nhiều dạng robot khác như Franka FR3 và Apollo humanoid thông qua huấn luyện bổ sung
Cũng có thể xử lý nhiều loại chỉ thị, vật thể mới và các tác vụ công nghiệp phức tạp (như lắp ráp dây đai)

Responsible development and safety

Mô hình được phát triển dựa trên AI Principles và khung an toàn tích hợp
Sử dụng [Live API] để đảm bảo an toàn ngữ nghĩa và nội dung, đồng thời tăng cường an toàn khi vận hành thực tế bằng cách liên kết với bộ điều khiển an toàn mức thấp
Kiểm tra rủi ro thông qua nhiều hệ thống đánh giá như Semantic Safety Benchmark và Red-Teaming
Đội ngũ chuyên trách (Responsible Development & Innovation, RSC) liên tục thực hiện đánh giá tác động xã hội và thu thập phản hồi
Phát hành sớm cho một nhóm tester đáng tin cậy để thu thập đánh giá ban đầu về khả năng sử dụng và an toàn

Accelerating innovation in robotics

Gemini Robotics On-Device hỗ trợ cộng đồng robot bằng cách cung cấp mô hình AI đa dụng và thích ứng, giúp vượt qua các vấn đề về độ trễ và kết nối
Kỳ vọng đẩy nhanh đổi mới nhờ khả năng triển khai nhanh và thích ứng tác vụ thông qua SDK
Có thể truy cập mô hình và SDK thông qua Trusted Tester Program
Mở rộng việc áp dụng AI vào thế giới vật lý và đưa ra tầm nhìn dẫn dắt tương lai của lĩnh vực robot

1 bình luận

GN⁺ 2025-06-26

Ý kiến trên Hacker News

Tôi có cái nhìn lạc quan về robotics hình người, nhưng vẫn thắc mắc về vấn đề độ tin cậy. Tay chân và bàn tay của con người là một hệ thống đáng kinh ngạc: liên tục chạm vào thế giới, bị hao mòn tự nhiên mà vẫn tự phục hồi được
- Robot công nghiệp có độ tin cậy rất cao. MTBF (thời gian trung bình giữa các lần hỏng) thường vượt quá 100.000 giờ. Điểm quan trọng là robot công nghiệp được thiết kế để vận hành càng lâu càng tốt mà không hỏng nhằm tăng hiệu quả sinh lời. Các công ty Đức và Nhật đã thống trị thị trường robot công nghiệp bằng cách phát triển actuator điện với trọng tâm là độ tin cậy. Trước đây, robot thủy lực của Cincinnati Millicron ở Mỹ rất mạnh, nhưng độ tin cậy thấp nên đã thua trong cạnh tranh. Tuy vậy, cũng có quan điểm hoài nghi rằng bàn tay hình người khó có thể đạt được độ tin cậy như robot công nghiệp vì có nhiều bộ phận nhỏ phải chịu lực lớn liên kết liên quan
- Nghĩ đến khả năng trong tương lai gần thì vừa rất thú vị vừa hơi rợn người. Trước đây tôi nghĩ chúng sẽ tập trung vào mục đích cụ thể, ví dụ robot chỉ để dọn dẹp, nhưng thực tế có vẻ khi sẵn sàng thì chúng sẽ được dùng rất đa dụng. Sẽ cần nhiều cảm biến và động cơ, nhưng điều thú vị là so với xe tự lái thì rủi ro pháp lý thấp hơn và tài nguyên cần thiết cũng ít hơn
- Tôi nghĩ cũng có thể làm theo cách để robot khác tự động thay thế các bộ phận tiêu hao
- Tôi nghĩ nghiên cứu bổ sung trong khoa học vật liệu có thể giải quyết cả vấn đề này. Nếu kết hợp với servo có độ phản hồi tốt nhưng mô-men xoắn thấp thì đây cũng là bài toán có thể xử lý được
- Điều thú vị là robot sẽ dần "khác đi" theo thời gian theo từng cá thể. Ví dụ ở những nơi có môi trường khắc nghiệt như robot khai mỏ, linh kiện có thể bị bụi bẩn làm ô nhiễm nặng, mài mòn khắp nơi, hoặc bị đá rơi làm cong vênh. Dù một robot khác có sửa tạm thời cho nó đi nữa, theo thời gian có lẽ mọi robot sẽ đều thay đổi theo những cách hơi khác nhau. Giống như việc bảo dưỡng máy bay thương mại thường được thực hiện rất đặc thù tùy theo va chạm hay hư hại, có lẽ với robot thì tái chế lại là một lời giải dễ hơn
Tôi tò mò không biết có dễ tham gia "trusted tester program" hay không, và họ có cung cấp module để dễ dàng sử dụng SDK không
- Có người hướng dẫn rằng ở cuối bài viết có nút đăng ký tham gia
Tôi muốn biết SDK chạy trên phần cứng nào, liệu có hoạt động trên Raspberry Pi đời mới không
- Theo bài blog, tối thiểu cần NVIDIA Jetson Orin với 8GB RAM, và được tối ưu cho các module Jetson AGX Orin (64GB) và Orin NX (16GB)
- Có nhắc rằng một trong những người đóng góp cho dự án đã đăng trên x rằng nó chạy được trên card đồ họa 4090 liên kết x liên quan
- Về bản chất có thể xem hệ thống này là một multimodal LLM (mô hình ngôn ngữ lớn). Các model nhỏ như SmolVLA (0.5B tham số) nhanh và hiệu quả cho các tác vụ cụ thể, còn OpenVLA (Llama2 7B finetune) là model lớn dùng cho các tác vụ tổng quát hơn. Với Raspberry Pi cũng có thể chạy một số model chuyên dụng, còn các model tổng quát hơn thì phần cứng tiêu dùng hiệu năng cao là đủ khả thi
Liên kết MuJoCo thực ra đang trỏ tới github.com/google-deepmind/aloha_sim
- mujoco_menagerie có chứa các model XML MJCF của Mujoco cho nhiều robot khác nhau google-deepmind/mujoco_menagerie / model aloha
Tôi tò mò về kiến trúc model; đoán là nó sẽ rất khác LLM, nên nếu có liên kết giải thích chi tiết về kiến trúc VLA thì mong được chia sẻ
- Tôi nghĩ thực ra nó có cấu trúc rất gần với LLM. Đây là model VLA "Visual Language Action" và dựa trên Gemini 2.0. Gemini 2.0 vốn hỗ trợ ngôn ngữ, âm thanh và video một cách native, nên có thể suy đoán rằng nó cũng có thể bao gồm cả dữ liệu "action". Có vẻ nhiều khả năng đây là cấu trúc được bổ sung dữ liệu hành động ở giai đoạn fine-tuning đầu ra. Tôi cho rằng những LLM đa phương thức native như vậy sắp đóng vai trò như "bộ não"
Gần như chắc chắn các công nghệ này cuối cùng cũng sẽ được dùng cho máy móc chiến tranh. Tính tự chủ on-device là tối ưu cho việc né tránh quyền lực trung ương hoặc truy vết trách nhiệm. Không giống người điều khiển drone, sẽ không thể truy tố con người vì tội ác chiến tranh. Hợp đồng quân sự quá lớn nên rất khó kháng cự, và việc loại bỏ lao động nặng nhọc sẽ sớm dẫn tới loại bỏ con người trên diện rộng. Tương lai nơi "AI-Powered Automation for Every Decision" khiến cuộc sống sinh lợi của con người biến mất đang hiện ra rất rõ palantir.com
- Boston Dynamics, công ty thuộc hệ MIT được Google mua lại, từng hứa sẽ không quân sự hóa robot, nhưng thực tế lại có bối cảnh đầu tư quân sự như DARPA hay Bộ Quốc phòng Mỹ, nên rất khó để tin tưởng
- Thực tế hầu như mọi công nghệ hữu ích đều có ứng dụng quân sự. Tôi không hiểu vì sao chuyện này lại là chủ đề gây tranh cãi đến vậy
- Có vẻ robot này sẽ rất khó cạnh tranh với drone trên chiến trường. Có lẽ nó sẽ tốn chi phí cao tương đương 1000 drone tự hành, đồng thời cần gấp hơn 100 lần thời gian và tài nguyên. Drone đã chứng minh được vai trò nhỏ gọn nhưng mạnh mẽ trên chiến trường thực tế như ở Ukraine, và dù chuyển động có linh hoạt đến đâu thì cũng khó mà chạy thoát khỏi drone cảm tử. Dù Terminator có cầm shotgun đi nữa, việc triển khai 5 drone cho mỗi một robot vẫn quá dễ, và những drone đó thậm chí có thể do một robot tự động khác sản xuất ra
Tôi thấy ấn tượng với kiểu Google lặng lẽ công bố một sản phẩm đột phá rồi nhanh chóng bị lãng quên. Không có chiến dịch quảng bá rầm rộ, chỉ đăng một bài blog, lan truyền trong cộng đồng công nghệ rồi biến mất, vài năm sau mọi người lại hỏi "cái đó rồi sao nhỉ?". Nhưng sản phẩm này trông rất ngầu, nên tôi hy vọng ai đó sẽ dùng nó để tạo ra một startup thú vị
- Mục đích chính của các dự án kiểu này ở Google là để kiềm chế các cơ quan quản lý. Họ không hề có ý định kiếm tiền từ sản phẩm như vậy mà chỉ cố tình đốt tiền rồi bỏ qua, và sự tự do đó chỉ có thể có ở một doanh nghiệp độc quyền
Tôi sẽ đi uống một tách cà phê trong lúc chờ API trả lời
Tôi nghĩ cách duy nhất để ngăn robot jailbreak rồi đi cướp ngân hàng là chuyển GPU sang private SOTA security GPU cloud
Tôi tò mò liệu sẽ có guardrail kiểu Three Laws of Robotics để robot không phát điên khi thực thi prompt hay không
- Ba định luật robot vốn được tạo ra như một cấu trúc xung đột trong tiểu thuyết, nên hệ thống thực tế mà làm như vậy thì sẽ rất rắc rối. Trên thực tế, thiết kế an toàn của Gemini Robotics là một cấu trúc nhiều lớp. Model sẽ suy luận điều gì là an toàn, VLA đưa ra các lựa chọn thực thi, rồi cuối cùng low-level controller sẽ hoạt động với các chức năng cốt lõi về an toàn được tích hợp sẵn như giới hạn tốc độ hay lực
- Thuật ngữ phổ biến cho hướng nghiên cứu này là Constitutional AI, và nó đang được thử nghiệm/trích dẫn trong nhiều VLA robotics bài báo liên quan
- Tôi cho rằng các guardrail hiện nay gần với IEC 61508 (tiêu chuẩn quốc tế về an toàn chức năng) hơn là ba định luật
- Cũng có người nói đó là đoạn mã để cắt nguồn điện
- Có ý kiến cho rằng ba định luật robot trên thực tế là những quy tắc vô nghĩa

Google DeepMind công bố AI "Gemini Robotics On-Device" được tối ưu cho thiết bị robot

We’re introducing an efficient, on-device robotics model with general-purpose dexterity and fast task adaptation

Điểm mạnh của mô hình on-device

Cung cấp SDK để dễ triển khai và tùy biến

Model capabilities and performance

Adaptable to new tasks, generalizable across embodiments

Responsible development and safety

Accelerating innovation in robotics

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News