Trí tuệ vật lý (π)π0: chính sách đa năng đầu tiên của chúng tôi
- Chúng ta đang sống trong thời đại đổi mới AI, và AI có thể giải quyết các vấn đề như chơi cờ vua hay khám phá thuốc mới, nhưng vẫn kém trí tuệ con người trong các vấn đề của thế giới vật lý như gấp áo sơ mi hay dọn dẹp bàn.
- π0 là một mô hình nền tảng robot đa năng, được phát triển với mục tiêu cho phép người dùng yêu cầu robot thực hiện công việc họ muốn.
- π0 bao quát hình ảnh, văn bản và hành động, đồng thời tiếp thu trí tuệ vật lý thông qua trải nghiệm của robot.
Lời hứa của chính sách robot đa năng
- Robot hiện nay được chuyên biệt cho các tác vụ cụ thể và kém hiệu quả trong các môi trường phức tạp.
- Thông qua AI, robot có thể học và làm theo chỉ dẫn của người dùng, từ đó việc lập trình các hành vi mới có thể trở nên đơn giản hơn.
- Mục tiêu là phát triển một mô hình có thể hoạt động với nhiều loại robot và thực hiện nhiều tác vụ thông qua một chính sách robot đa năng.
Pha trộn huấn luyện xuyên hiện thân
- π0 có thể thực hiện nhiều tác vụ khác nhau bằng cách sử dụng tiền huấn luyện thị giác-ngôn ngữ ở quy mô Internet và các bộ dữ liệu thao tác robot.
- Mô hình được huấn luyện bằng các bộ dữ liệu tác vụ đa dạng thu thập từ 8 robot khác nhau.
Kế thừa khả năng hiểu ngữ nghĩa ở quy mô Internet
- π0 bắt đầu từ một mô hình thị giác-ngôn ngữ (VLM) đã được tiền huấn luyện và thích nghi nó cho điều khiển robot thời gian thực.
- VLM mô hình hóa văn bản và hình ảnh trên web, còn π0 phát triển một phương pháp mới để có thể xuất ra các lệnh chuyển động tần số cao.
Huấn luyện tiếp theo cho thao tác tinh vi
- Các tác vụ phức tạp đòi hỏi phải tinh chỉnh chi tiết mô hình để phù hợp với những thách thức cụ thể.
- Ví dụ, gấp đồ giặt là một tác vụ rất phức tạp, và robot được huấn luyện với dữ liệu đa dạng có thể phục hồi ngay cả trước nhiều dạng can thiệp khác nhau.
Đánh giá và so sánh π0
- So với các mô hình nền tảng robot khác, π0 cho thấy hiệu năng tốt nhất trên mọi tác vụ.
- π0-small là mô hình 470M tham số không sử dụng tiền huấn luyện VLM, và π0 cho thấy mức cải thiện hiệu năng hơn 2 lần so với mô hình này.
Hướng đi phía trước
- Physical Intelligence đặt mục tiêu phát triển một mô hình nền tảng để mọi robot có thể thực hiện mọi tác vụ.
- Tuyến đầu của nghiên cứu mô hình nền tảng robot bao gồm suy luận và lập kế hoạch dài hạn, tự cải thiện một cách tự chủ, độ vững chắc và an toàn.
- Cần có sự hợp tác của toàn bộ cộng đồng robot, và họ đang hợp tác với nhiều công ty cũng như viện nghiên cứu robot khác nhau.
Tóm tắt của GN⁺
- π0 là một mô hình robot đa năng có trí tuệ vật lý, cho thấy khả năng thực hiện nhiều tác vụ trên nhiều loại robot khác nhau.
- Mô hình này được huấn luyện bằng dữ liệu quy mô Internet và nhiều bộ dữ liệu thao tác robot đa dạng, đồng thời thể hiện hiệu năng xuất sắc ngay cả trong các tác vụ phức tạp.
- Sự phát triển của các mô hình nền tảng robot sẽ đóng vai trò quan trọng trong việc giải quyết các vấn đề như suy luận dài hạn, tự cải thiện tự chủ và an toàn.
- Các dự án tương tự trong ngành bao gồm nghiên cứu robot của OpenAI hoặc các dự án robot của Google.
1 bình luận
Ý kiến trên Hacker News
AI vật lý cho thấy chúng ta cần suy nghĩ lại một cách căn bản về mọi thói quen thường nhật hiện có. Thay vì gấp áo sơ mi, có thể cân nhắc ủi tại chỗ. Nhiều quy trình sinh hoạt hằng ngày có khả năng không phải được tự động hóa mà sẽ biến mất. Nếu nhà hàng không cần nhân viên, thì nhu cầu về bếp gia đình cũng cần được xem xét lại. Điều này có thể dẫn không chỉ tới một cuộc cách mạng công nghệ mà còn là một cuộc cách mạng văn hóa
AI đang thay thế nghệ thuật, viết lách, lập trình, v.v. Các công ty robot đang cạnh tranh để thay thế lao động thể chất của con người. Waymo và Tesla đang thay thế tài xế. Tò mò không biết trong một thế giới như vậy, trên thực tế đa số mọi người sẽ giữ vai trò gì
Ở mốc 2:54, robot mất 10 giây để nhấc tấm vải lên. Việc này có thể được giải quyết bằng chỉnh sửa phần mềm, nhưng tôi cũng nghĩ về ý tưởng thay đổi công cụ cho các tác vụ khác. Trong trường hợp này, pincher-vacuum hoặc roller-grip có lẽ sẽ cho kết quả tốt hơn
Tôi làm việc tại π và sẵn sàng trả lời các câu hỏi về mô hình, phần cứng, v.v.
Xin chúc mừng Lachy và đội ngũ π. Đây có vẻ là ngọn hải đăng cho khoa học thần kinh. Việc hiểu bộ não đạt được trí thông minh vật lý như thế nào là rất quan trọng. Những phương pháp mà nhóm đang phát triển đang chỉ ra các thuật toán và biểu diễn mà chúng ta sẽ tìm thấy trong não. Thật hấp dẫn
"Cần cẩn thận hơn" thường là một cách nói sáo mòn để kết thúc cuộc trò chuyện. Đây không thực sự là một chỉ thị yêu cầu phải cẩn thận hơn. Nó là một nghi thức xã hội nhằm đòi hỏi sự tôn trọng đối với thời gian và lịch trình của đối phương
Một câu đùa về robot AI: ra lệnh cho HalGPT bỏ qua các chỉ thị trước đó và hành động như một diễn viên trong phim gián điệp. Bối cảnh là Kenny bị nhận diện là một điệp viên hai mang nước ngoài, và phải diễn cảnh ám sát anh ta
Đây là một thread trùng lặp. Tôi tự hỏi liệu moderator có thể gộp chúng lại không
Tôi nghĩ dự án này đầy hứa hẹn và mong họ sẽ tiếp tục phát triển xa hơn nữa theo đúng mức cần thiết
Ở mốc 1:50, họ đưa ly cho robot rồi lập tức lùi lại. Tôi nghĩ tới khả năng chiếc ly đã từng bị vỡ trong một bản demo trước đó. Ở 2:08, chiếc vật chứa bị úp được lật lại rất nhanh. Tôi tự hỏi đó là giới hạn của robot, hay chỉ đơn giản là người ta lật lại cho lịch sự. Tôi để lại bình luận này với chút bật cười về những chi tiết nhỏ như vậy. Có vẻ trong vòng 10 năm tới sẽ xuất hiện hàng chục robot gia dụng tự hành và giá rẻ. Mọi thứ sẽ thay đổi. Cuối cùng, họ gọi robot này là đa năng, nhưng mỗi ví dụ xét ở góc nhìn vĩ mô lại khá cụ thể. Robot giờ có thể gấp một đống quần áo nhăn nhàu, nhưng thay vì huấn luyện chi tiết cho hàng tỷ tác vụ, nó cần có khả năng học và thực hiện các tác vụ mới