Google đã phát triển mô hình Gemini Robotics như thế nào

(blog.google)

6 điểm bởi GN⁺ 2025-04-04 | 1 bình luận | Chia sẻ qua WhatsApp

Google DeepMind đã phát triển Gemini Robotics, mô hình AI đa phương thức thế hệ mới dành cho robot có khả năng thực hiện các tác vụ vật lý
Mô hình này là phiên bản Gemini 2.0 được tinh chỉnh bằng dữ liệu chuyên biệt cho robot, để có thể không chỉ xử lý văn bản, video, âm thanh mà còn thực hiện hành động thực tế
Robot có thể thực hiện nhiều tác vụ khác nhau như làm salad, chơi cờ caro, gấp giấy và đóng gói hộp cơm trưa

Các ca kiểm thử thực tế và xác nhận tiềm năng

Đưa ra nhiều yêu cầu tác vụ khác nhau cho robot hai tay ALOHA dùng trong nghiên cứu
- Ví dụ: đặt bút vào trong giày, yêu cầu úp rổ bằng bóng rổ
- Dù là vật thể và tác vụ robot chưa từng thấy trước đó, robot vẫn hiểu yêu cầu và thực hiện thành công ngay từ lần thử đầu tiên
Khác với các mô hình hiện có, robot có thể hiểu và thực thi các mệnh lệnh vật lý phức tạp bằng ngôn ngữ tự nhiên

Các đặc điểm cốt lõi của Gemini Robotics

Sở hữu độ linh hoạt cao, khả năng tương tác và năng lực khái quát hóa
- Có thể thích nghi với vật thể, môi trường và chỉ thị mới mà không cần huấn luyện bổ sung
Đặt nền tảng để hiện thực hóa AI và robot như một tác tử tích hợp thống nhất
Cung cấp năng lực nhận thức, phán đoán và hành động tương tự con người

Giới thiệu các mô hình cấu thành

Gemini Robotics-ER (Embodied Reasoning):
- Dựa trên Gemini 2.0 Flash
- Tạo và thực thi mã thông qua nhận diện vật thể, xác định vị trí, dự đoán quỹ đạo di chuyển, thiết lập kiểu kẹp nắm, v.v.
- Hiện đang được mở cho các đối tác và nhóm thử nghiệm đáng tin cậy
Gemini Robotics:
- Mô hình tích hợp thị giác-ngôn ngữ-hành động
- Có thể hiểu cảnh, tương tác với người dùng và thực hiện tác vụ nhiều bước
- Ghi nhận hiệu năng thao tác tay ở mức tiên tiến hàng đầu hiện nay ngay cả trong các tác vụ đòi hỏi thao tác phức tạp và suy luận không gian

Năng lực kỹ thuật cụ thể

Phát hiện đối tượng 2D và 3D
Chức năng trỏ/chỉ định
Tìm điểm tương ứng từ nhiều góc nhìn
Đạt được năng lực thao tác dựa trên nhiều loại thông tin thị giác khác nhau

Cách tiếp cận huấn luyện và ưu điểm

Thay vì huấn luyện lặp lại cho một tác vụ đơn lẻ theo cách công nghiệp truyền thống, mô hình chọn học rộng trên nhiều tác vụ khác nhau
Kết quả là năng lực khái quát hóa xuất hiện một cách tự nhiên
Có thể áp dụng cho nhiều hình thái robot khác nhau
- Ví dụ: ALOHA (nghiên cứu), Apollo của Apptronik (robot hình người)

Hỗ trợ nhiều hình thái robot khác nhau

Nhiều loại robot khác nhau có thể thực hiện các tác vụ như đóng gói hộp cơm, lau bảng trắng, nhặt vật thể nhỏ
Điểm cốt lõi là một mô hình có thể thích nghi với nhiều robot

Tầm nhìn trong tương lai

Được kỳ vọng hữu ích trong các lĩnh vực công nghiệp đòi hỏi thao tác chính xác hoặc trong môi trường không phù hợp với con người
Có khả năng phát triển thành robot hữu ích trong môi trường lấy con người làm trung tâm như gia đình
Trong đời sống thực, robot có thể trở thành một giao diện khác với AI

1 bình luận

GN⁺ 2025-04-04

Ý kiến trên Hacker News

Họ có thể làm được điều đó, nhưng Gemini Assistant trên điện thoại Pixel vẫn không đặt được hẹn giờ hay thêm vào danh sách mua sắm. (Google Assistant thì làm tốt)
Hoàn toàn không có lời giải thích nào về "làm thế nào", nhưng nếu tính năng này hoạt động đáng tin cậy dù chỉ ở mức một nửa, nó sẽ có tác động lớn gấp khoảng 100 lần ChatGPT
Những tiến bộ trong AI và robot học rất thú vị. Với các hệ thống phức tạp như Gemini, các công ty có lẽ sẽ phải dựa vào những đội ngũ chuyên môn để biến các đổi mới này thành hiện thực
- Nếu thuê ngoài các vai trò chuyên biệt như nghiên cứu AI hoặc kỹ sư robot học, doanh nghiệp có thể tiếp cận nhân tài hàng đầu mà không phải gánh chi phí tuyển dụng toàn thời gian
- Thật thú vị khi thấy việc thuê ngoài có thể bổ trợ cho hoạt động R&D trong những ngành tiên tiến như robot học như thế nào
- Đặc biệt tò mò ngành này sẽ thay đổi ra sao về khả năng mở rộng và tốc độ thâm nhập thị trường
Cuối cùng thì có vẻ sẽ có ai đó giúp việc nhà
- À, hay đấy. Chỉ là đằng sau tất cả đều là mục đích quân sự, nhưng tôi thích việc họ cố khiến chúng ta nghĩ rằng chúng sẽ gấp quần áo giúp mình
"Nhặt quả bóng rổ lên và úp rổ đi". Đây chính là killer use case mà chúng ta chờ đợi bấy lâu nay :)
Dù công nghệ robot của Google (cả phần mềm lẫn phần cứng) có ở trình độ tối tân đi nữa, tôi vẫn nghi ngờ liệu họ có thực sự thương mại hóa được nó hay không
- Điều đó có vẻ giống như việc họ từng dẫn đầu về transformer nhưng lại đánh mất mọi lợi thế vào tay ChatGPT
- Có vẻ như Google có vấn đề gì đó trong việc chuyển đổi hiệu quả từ nghiên cứu sang sản phẩm
- Nếu bạn cho rằng Waymo ngày nay đã đạt được product/market fit, thì đó có thể là một phản ví dụ tốt, nhưng tôi vẫn không thoát khỏi cảm giác rằng Google thường либо không thể đưa sản phẩm ra thị trường, либо nếu có thì cũng từ bỏ trước khi nó kịp đứng vững
- Tôi tự hỏi có ai có cảm nhận mạnh mẽ hay góc nhìn sâu sắc nào về các nỗ lực robot học của họ không
Nghĩ đến khả năng những robot như thế này một ngày nào đó được dùng trong ngành quốc phòng thật đáng sợ
- Nếu robot có thể hiểu các mệnh lệnh chung chung như "cất cục tẩy đi", hãy tưởng tượng mệnh lệnh "loại bỏ mọi kẻ địch"
Chỉ tò mò thôi, nếu ra lệnh cho nó giết ai đó thì nó sẽ làm gì? Nó có tuân theo các định luật robot học không?
Cá tháng Tư!

Google đã phát triển mô hình Gemini Robotics như thế nào

Các ca kiểm thử thực tế và xác nhận tiềm năng

Các đặc điểm cốt lõi của Gemini Robotics

Giới thiệu các mô hình cấu thành

Năng lực kỹ thuật cụ thể

Cách tiếp cận huấn luyện và ưu điểm

Hỗ trợ nhiều hình thái robot khác nhau

Tầm nhìn trong tương lai

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News