Chính sách robot đa năng đầu tiên π0 của Physical Intelligence trình diễn cả gấp đồ giặt

(physicalintelligence.company)

1 điểm bởi GN⁺ 2024-11-12 | 1 bình luận | Chia sẻ qua WhatsApp

Physical Intelligence đã công bố mô hình nền tảng robot đa năng π0 (pi-zero), cho phép robot nhận chỉ dẫn bằng văn bản và thực hiện nhiều tác vụ vật lý khác nhau
π0 được huấn luyện bằng cách kết hợp tiền huấn luyện thị giác-ngôn ngữ ở quy mô Internet với Open X Embodiment Dataset và dữ liệu thao tác khéo léo thu thập từ 8 loại robot
Mô hình xử lý đồng thời hình ảnh, văn bản và hành động, đồng thời tạo đầu ra hành động liên tục dựa trên flow matching để sinh lệnh điều khiển động cơ cho robot tới 50 lần mỗi giây
Sau khi trải qua hậu huấn luyện, mô hình có thể thực hiện cả những tác vụ thao tác phức tạp với trạng thái thay đổi mỗi lần như gấp đồ giặt, dọn bàn hay lắp ráp hộp
Trên 5 tác vụ đánh giá, π0 cho hiệu năng trung bình cao hơn OpenVLA, Octo và π0-small, nhưng suy luận và lập kế hoạch dài hạn, tự cải thiện, độ bền vững và an toàn vẫn là các bài toán tiếp theo

Chính sách robot đa năng mà π0 hướng tới

Physical Intelligence đã phát triển mô hình nền tảng robot đa năng π0 (pi-zero) trong 8 tháng qua
Mục tiêu là để người dùng có thể nói cho robot biết công việc mình muốn như khi yêu cầu một LLM hay chatbot, và robot sẽ thực hiện công việc đó trong thế giới vật lý
Giống như LLM, π0 được huấn luyện trên dữ liệu rộng và đa dạng và tuân theo chỉ dẫn văn bản, nhưng khác với LLM ở chỗ nó xử lý đồng thời hình ảnh, văn bản và hành động
Mô hình học trí tuệ vật lý từ kinh nghiệm hiện thân của robot, đồng thời nhờ kiến trúc mới có thể trực tiếp xuất ra các lệnh điều khiển động cơ mức thấp
Nó có thể điều khiển nhiều robot, nhận chỉ dẫn tác vụ mong muốn dưới dạng prompt hoặc được fine-tune cho các kịch bản triển khai khó

Vì sao cần vượt ra ngoài tự động hóa hẹp

Robot hiện nay vẫn chủ yếu bị giới hạn trong các lĩnh vực chuyên biệt hẹp
- Robot công nghiệp được lập trình cho các động tác lặp đi lặp lại như hàn cùng một vị trí trên dây chuyền lắp ráp hoặc đặt cùng một món đồ vào cùng một chiếc hộp
- Ngay cả những động tác đơn giản như vậy cũng cần rất nhiều công sức kỹ thuật thủ công
- Việc thực hiện các hành vi phức tạp hơn trong môi trường thực tế lộn xộn như gia đình còn khó hơn nhiều
Để robot có thể học và làm theo chỉ dẫn của người dùng, cần có dữ liệu quy mô lớn
- Các mô hình ngôn ngữ và mô hình nền tảng khác tận dụng lượng lớn dữ liệu văn bản trên web
- Với dữ liệu robot, chưa có kho dữ liệu quy mô tương đương như vậy
- Để dạy một kỹ năng mới, cần thu thập rất nhiều dữ liệu phù hợp với một robot cụ thể và một ứng dụng cụ thể
Nếu một chính sách robot đa năng duy nhất có thể xử lý nhiều kỹ năng và nhiều robot, lượng dữ liệu cần cho từng robot và từng ứng dụng có thể được giảm xuống
Tương tự như cách mô hình ngôn ngữ thay thế các hệ thống xử lý ngôn ngữ chuyên biệt nhờ tiền huấn luyện đa dạng, chính sách robot đa năng sẽ đóng vai trò là mô hình nền tảng robot cho trí tuệ vật lý

Dữ liệu huấn luyện và cấu hình robot

π0 là nguyên mẫu đầu tiên của một chính sách robot đa năng được huấn luyện trên bộ dữ liệu tương tác robot lớn nhất từ trước đến nay
Hỗn hợp huấn luyện tổng thể bao gồm dữ liệu mã nguồn mở và dữ liệu thao tác khéo léo từ 8 loại robot do Physical Intelligence thu thập
Cấu thành dữ liệu huấn luyện
- Open X Embodiment Dataset
- Tiền huấn luyện ở quy mô Internet
- π Dataset gồm nhiều robot thao tác khéo léo
- Cấu hình robot bao gồm UR5e, Bimanual UR5e, Franka, Bimanual Trossen, Bimanual Arx, Mobile Trossen, Mobile Fibocom cùng các hệ khác
Các loại tác vụ được đưa vào
- Dọn đĩa
- Bỏ đồ vào phong bì
- Gấp quần áo
- Đi dây cáp
- Lắp ráp hộp
- Cắm phích điện
- Cho thức ăn vào hộp mang đi
- Gắp rác và bỏ đi
- Mục tiêu của việc chọn các tác vụ này không phải để giải quyết một ứng dụng cụ thể, mà là cung cấp cho mô hình hiểu biết tổng quát về tương tác vật lý

Hiểu ngữ nghĩa ở quy mô Internet và đầu ra hành động liên tục

π0 vừa được huấn luyện trên nhiều dữ liệu robot, vừa kế thừa tri thức ngữ nghĩa và khả năng hiểu hình ảnh từ mô hình thị giác-ngôn ngữ (VLM) đã được tiền huấn luyện
VLM được huấn luyện để mô hình hóa văn bản và hình ảnh trên web; GPT-4V và Gemini là những ví dụ phổ biến
π0 sử dụng VLM 3 tỷ tham số nhỏ hơn làm điểm khởi đầu rồi điều chỉnh nó cho phù hợp với điều khiển robot thao tác khéo léo thời gian thực
VLM có thể truyền tri thức ngữ nghĩa thu được từ web, nhưng ban đầu chỉ xuất ra các token ngôn ngữ rời rạc
Thao tác robot khéo léo cần đầu ra lệnh động cơ với tần suất cao
- π0 cần xuất lệnh động cơ tối đa 50 lần mỗi giây
- Để làm vậy, mô hình bổ sung đầu ra hành động liên tục vào VLM tiền huấn luyện bằng flow matching, một biến thể của mô hình diffusion
Mô hình cuối cùng là mô hình flow matching thị giác-ngôn ngữ-hành động, sau đó được hậu huấn luyện bằng dữ liệu robot chất lượng cao để giải quyết nhiều tác vụ downstream

Các tác vụ thao tác khéo léo được xử lý bằng hậu huấn luyện

Những tác vụ phức tạp hơn và đòi hỏi độ khéo léo cao hơn có thể cần fine-tune mô hình cho từng bài toán downstream
Quá trình fine-tune bằng dữ liệu chất lượng cao cho các tác vụ khó này tương tự hậu huấn luyện trong thiết kế LLM
Tiền huấn luyện dạy cho mô hình về thế giới vật lý, còn fine-tune giúp nó thực hiện tốt một tác vụ cụ thể
Gấp đồ giặt
- π0 được fine-tune cho tác vụ gấp đồ giặt bằng robot di động hoặc robot hai tay cố định
- Mục tiêu là tạo thành một chồng quần áo gọn gàng
- Một chiếc áo thun nằm phẳng trên bàn đôi khi có thể được gấp bằng cách lặp lại chuỗi động tác đã định trước
- Nhưng một đống đồ giặt rối sẽ bị nhăn và vò theo những cách khác nhau mỗi lần, nên chỉ lặp lại cùng một chuyển động tay là không đủ
- Sau hậu huấn luyện, robot có thể lấy quần áo ra khỏi máy sấy, mang đến bàn và gấp thành chồng
- Video là cảnh không cắt ghép, một chính sách duy nhất hoạt động hoàn toàn tự động
- Nhờ được huấn luyện trên dữ liệu đa dạng, robot có thể phục hồi ngay cả khi con người can thiệp theo nhiều cách khác nhau
- Theo hiểu biết của Physical Intelligence, chưa có hệ thống robot trước đây nào thực hiện được tác vụ này ở mức độ phức tạp như vậy
Dọn bàn
- π0 cũng được fine-tune cho tác vụ dọn đĩa và rác trên bàn
- Đĩa, dao nĩa và cốc được cho vào bussing bin, còn rác thì bỏ vào thùng rác
- Tác vụ này đòi hỏi xử lý rất nhiều loại đồ vật khác nhau
- Nhờ được huấn luyện trên dữ liệu lớn và đa dạng, nhiều chiến lược khác nhau đã xuất hiện
- Thay vì gắp từng món một, robot có thể xếp nhiều chiếc đĩa lại và cho vào cùng lúc
- Nó cũng có thể lắc rác trên đĩa rơi vào thùng rác trước khi cho đĩa vào bussing bin
Lắp ráp hộp
- Robot phải gấp chiếc hộp carton phẳng dựng lên, gập hai bên rồi cài nắp vào
- Mỗi bước gấp và cài có thể thất bại ngoài dự kiến, nên robot phải quan sát tiến độ và điều chỉnh chuyển động
- Nó cũng phải dùng hai tay và mặt bàn để đỡ hộp sao cho chiếc hộp đang gấp dở không bung ra lại

So sánh đánh giá với OpenVLA và Octo

π0 được so sánh với OpenVLA và Octo, các mô hình nền tảng robot do giới học thuật đề xuất
OpenVLA là mô hình VLA 7 tỷ tham số và sử dụng hành động rời rạc
Octo là mô hình 93 triệu tham số và sử dụng đầu ra diffusion
Các tác vụ đánh giá được thiết kế phức tạp hơn các thí nghiệm học thuật thông thường
- Tác vụ trong đánh giá OpenVLA thường là hành động một bước như “đặt quả cà tím vào nồi”
- Ngay cả tác vụ dọn bàn đơn giản nhất trong đánh giá của π0 cũng yêu cầu phân loại nhiều vật thể vào thùng rác hoặc bussing bin
- Các tác vụ phức tạp hơn đòi hỏi nhiều bước, thao tác trên vật thể biến dạng được và chọn chiến lược theo trạng thái môi trường
Đánh giá dùng rubric cho 1,0 điểm nếu thành công hoàn toàn và cho điểm một phần nếu thực hiện đúng một phần
- Ví dụ, nếu dọn được một nửa số vật thể thì được 0,5 điểm
Kết quả 5 tác vụ đánh giá
- Bussing Easy(UR5e)
  - π0: 0.971
  - π0-small: 0.443
  - OpenVLA: 0
  - OpenVLA(UR5e only): 0.343
  - Octo: 0.043
- Bussing Hard(UR5e)
  - π0: 0.875
  - π0-small: 0.333
  - OpenVLA: 0
  - OpenVLA(UR5e only): 0
  - Octo: 0
- Shirt Folding(Bi-ARX)
  - π0: 1.000
  - π0-small: 0.500
  - OpenVLA: 0
  - OpenVLA(UR5e only): 0
  - Octo: 0
- Grocery Bagging(UR5e)
  - π0: 0.786
  - π0-small: 0.271
  - OpenVLA: 0
  - OpenVLA(UR5e only): 0
  - Octo: 0
- Toast out of Toaster(Bi-Trossen)
  - π0: 0.750
  - π0-small: 0
  - OpenVLA: 0
  - OpenVLA(UR5e only): 0
  - Octo: 0
- π0-small là mô hình 470 triệu tham số không dùng tiền huấn luyện VLM
- OpenVLA và Octo chỉ đạt hiệu năng khác 0 ở tác vụ “Bussing Easy” dễ nhất, còn trên toàn bộ tác vụ thì π0 cho hiệu năng cao nhất
- Khi dùng kiến trúc đầy đủ và tiền huấn luyện VLM, hiệu năng của π0 tăng hơn 2 lần so với π0-small

Các bài toán còn lại và hướng hợp tác

Mục tiêu của Physical Intelligence là phát triển một mô hình nền tảng có thể điều khiển bất kỳ robot nào để thực hiện bất kỳ tác vụ nào
Thí nghiệm hiện tại cho thấy mô hình có thể điều khiển nhiều robot và thực hiện những tác vụ mà các hệ thống học robot trước đây chưa làm thành công, như gấp quần áo từ giỏ đồ hoặc lắp ráp hộp carton
Chính sách robot đa năng vẫn đang ở giai đoạn đầu, và còn nhiều hướng nghiên cứu phía trước
- Suy luận và lập kế hoạch dài hạn
  - Tự cải thiện một cách tự chủ
  - Độ bền vững
  - An toàn
  - Physical Intelligence đang hợp tác với nhiều công ty và phòng thí nghiệm robot
  - Cải thiện thiết kế phần cứng cho teleoperation và tự động hóa
  - Tích hợp dữ liệu từ đối tác vào mô hình tiền huấn luyện để cung cấp cách tiếp cận mô hình được điều chỉnh cho các nền tảng cụ thể
  - Công ty cũng quan tâm hợp tác với các đơn vị đang mở rộng thu thập dữ liệu bằng robot triển khai trong ứng dụng thực tế

1 bình luận

GN⁺ 2024-11-12

Ý kiến trên Hacker News

Mục tiêu ngầm có vẻ là thay thế việc giặt giũ và các việc nhà khác. Sự thỏa mãn của con người rốt cuộc có thể được giải phóng ở những chỗ như vậy
Kinh tế và các chỉ số giá trị rốt cuộc đều liên quan đến hạnh phúc/sự thỏa mãn của con người, và tiền cũng có giá trị vì con người muốn có nó. Khi người ta đủ giàu, họ thuê người giúp việc hoặc đầu bếp, hoặc mua đồ ăn liền, tức là thuê ngoài việc nhà
Trong 50 năm qua, các công ty phương Tây đã nhận được một cú hích miễn phí nhờ phụ nữ gia nhập thị trường lao động; trước đây họ trả chi phí duy trì một hộ gia đình cho một người, còn giờ chia cùng chi phí duy trì hộ đó cho hai người, coi như có được số lao động gấp đôi
Vì thế hầu hết các gia đình đã mất 35 giờ mỗi tuần, nhưng khối lượng việc nhà vẫn như cũ. Không thể cho mọi người một người giúp việc, nhưng có lẽ có thể cho họ người giúp việc robot
Giống như gạch, hệ thống sưởi và điện, phần lớn đổi mới và công nghệ rốt cuộc đều đi vào nhà, làm cuộc sống tiện nghi hơn. Tôi từng nghĩ người giúp việc robot thật sự sẽ xuất hiện qua những thay đổi xã hội như thay đổi thiết kế máy giặt, ăn cơm hằng ngày ở nhà người khác, hay các bề mặt chống bụi, nhưng robot này trông khá thú vị
Tôi biết góc nhìn này lấy tầng lớp trung lưu phương Tây làm trung tâm, nhưng rốt cuộc 6 tỷ người còn lại thì có thể đang hướng tới điều gì khác đây?
- Tôi không rõ nền kinh tế được cú hích từ đâu khi phụ nữ bước vào thị trường lao động. Phép màu kinh tế hậu chiến của Đức phần lớn diễn ra mà không có phụ nữ
  Đầu thập niên 1970, khi nhiều phụ nữ tham gia thị trường lao động hơn, điều kiện kinh tế vĩ mô xấu đi vì khủng hoảng dầu mỏ nên khó tách bạch để xem xét
  Dù vậy, khi số lao động tăng lên, mọi thứ đi theo hướng lương thấp hơn và nhiều việc làm vô nghĩa hơn được tạo ra. Rõ ràng nam giới cũng tạo ra và làm các công việc vô nghĩa
  Giờ để cáng đáng nhà cửa và gia đình thì cần hai khoản lương. Một bước tiến vĩ đại thật
  Ở siêu thị, dù hàng chờ có dài, tôi vẫn tẩy chay quầy tự thanh toán để các thu ngân thân thiện có thể tiếp tục làm việc
- Có khi mục tiêu sâu xa thật sự là quan hệ tình dục với robot. Giống như người ta từng nói Internet sẽ là cánh cổng dẫn tới mọi tri thức, nhưng cuối cùng lại thành thứ dùng cho phim khiêu dâm
- Nếu nhu cầu lao động là cố định, thì khi nguồn cung lao động nam+nữ của một hộ gia đình tăng gấp đôi, về nguyên tắc tiền lương có thể giảm. Tuy nhiên nhu cầu không nhất thiết phải cố định
  Tôi muốn gọi đây là lý thuyết ghế âm nhạc về việc làm. Điều đó có nghĩa là nếu dân số trong độ tuổi lao động năm 2024 gấp đôi năm 1954 thì mỗi người sẽ kiếm được ít hơn sao? Nếu người nhập cư vào, có nghĩa là cứ mỗi người nhập cư thì một người bản địa mất việc sao?
  Bằng chứng cho thấy không phải vậy, và trong nền kinh tế cũng có những thay đổi khác làm tăng nhu cầu lao động. Nhìn vào tài liệu về tác động của nhập cư lên thất nghiệp và tiền lương, đặc biệt là các cú sốc lớn trong ngắn hạn, thì khá rõ ràng
  Tôi không rành các nghiên cứu về tác động của việc phụ nữ đi làm tăng lên. Tôi nghĩ đây là hiện tượng diễn ra chậm trong nhiều thập kỷ nên khó nghiên cứu hơn nhiều. Và đây không chỉ là chuyện của phương Tây, mà đã xảy ra ở nhiều nơi trên thế giới
- Đội ngũ Physical Intelligence rất xuất sắc, nhưng tôi không nghĩ họ sẽ huy động được đủ tiền để đạt mục tiêu. Vấn đề là nói rằng phát triển công nghệ kiểu này tốn 30 triệu đô la, trong khi thực tế ít nhất phải 1 tỷ đô la, có lẽ gần 5 tỷ đô la hơn
Trong nhà máy hoặc môi trường khép kín thì mọi thứ đang cải thiện nhanh, nhưng ở phần còn lại của thế giới thực thì chưa có robot hay AI nào thực dụng mà không cần con người giám sát. Làm công việc tự động hóa những thứ vật lý khiến tôi tin chắc như vậy
Việc đầu tiên con robot đó làm có thể là bật máy sấy khi có một đứa trẻ nhỏ bên trong, vì nó thiếu nhận thức về thế giới
Khi đó robot gia dụng đa dụng coi như chấm hết. Hoặc nó có thể làm đổ nến, hay làm hỏng một việc trông có vẻ nhỏ nhặt nhưng trong ngữ cảnh lại nguy hiểm khủng khiếp
Tôi cũng mơ về một cỗ máy đa dụng, nhưng nó có thể là bất khả thi, và nếu có thể thì tôi nghĩ vẫn còn rất xa
- Tôi còn nhớ đã thấy nhiều bình luận trên HN tự tin dự đoán rằng khoảnh khắc xe tự lái gây tai nạn làm chết người thì xe tự lái sẽ chấm hết
  Thực tế đã có tai nạn, rồi kiện tụng và điều tra của cơ quan quản lý, nhưng nó không kết thúc. Tôi dự đoán dưới chính quyền Mỹ sắp tới, các rào cản pháp lý và quy định đối với việc mở rộng robot và tự động hóa sẽ giảm đi nhiều
- Dù cần giám sát, ngồi nhìn robot phơi đồ cho khô vẫn tốt hơn là tự làm
  Như câu nói xưa: “Tôi yêu công việc. Vì tôi có thể ngồi nhìn nó cả ngày”
- Ban đầu gắn camera rồi để ai đó ở nước ngoài kiểm tra xung quanh trước khi thao tác thì sao? Có thể khiến nó rẻ mà an toàn hơn
- Đồng ý. Đến giờ tôi vẫn chưa thấy robot nào thực hiện được ở mức sản xuất ngay cả những công việc nông nghiệp tương đối đơn giản như hái cà chua và chăm cây trong nhà kính
  Tất cả đều do lao động nước ngoài giá rẻ làm. Nếu ngay cả mức đó còn khó tự động hóa, thì khó kỳ vọng nhiều vào robot gia dụng đa dụng trong lúc này
  Tuy nhiên các video trong bài này trông khá hứa hẹn, và tôi muốn xem công nghệ này sẽ hoạt động ra sao trong nhà kính
- Chắc cũng giống hệt cách tàu lượn siêu tốc từng bị cấm ngay khi hỏng một lần và làm vài người chết thôi
Vấn đề khó của robot giặt là không phải gấp quần áo mà là đi vào phòng giặt
Nếu sống ở các thành phố châu Âu, không gian là ràng buộc lớn nhất. Tiền thuê ở Paris là 30 euro mỗi m² mỗi tháng
Phòng giặt thì nhỏ, còn robot này quá rộng nên có lẽ không thể đi qua cửa phòng giặt nhà tôi. Bàn ủi được làm dạng gấp là có lý do: vì lần nào cũng phải dựng lên. Robot này còn không làm được việc đó, và cũng không xử lý được chai nước xả vải cho máy giặt
Việc để một chiếc bàn trống 1 m² chỉ chuyên dùng để gấp quần áo là ảo tưởng với đa số mọi người. Lý do tiệm giặt tự động tồn tại cũng là vì có những nhà thậm chí không có chỗ đặt máy giặt
Phòng giặt là không gian riêng vì độ ẩm và thông gió, và rất có thể trong thiết kế nhà ở từ hơn 30 năm trước, nó được bố trí theo hướng nhỏ nhất có thể về mặt công năng, chứ không phải để robot tiếp cận được
Ngay cả những người sống trong nhà riêng thay vì căn hộ cũng thường có phòng giặt ở tầng hầm, chỉ tiếp cận được bằng cầu thang hoặc qua các bậc chênh cao
Trong bối cảnh robot hai chân đã ở ngay trước mắt, tôi không nghĩ kiến trúc sư và các tiêu chuẩn về khả năng tiếp cận trong xây dựng sẽ thay đổi đủ nhanh. Khoảng không gian dư cần thiết để robot gia dụng xuất hiện đã nhiều lần bị tiêu hao hết vì chi phí không gian quá cao
- Nếu kéo xuống dưới xem thì đây là robot đa dụng. Nó có thể đi lại để dọn bàn ăn hoặc gấp hộp bìa carton
  Khó mà khẳng định chắc chắn rằng nó không xử lý được nước xả vải, và rất có thể V2 sẽ dựng được cả bàn ủi
  Về kích thước, hiện tại nó nhỏ hơn tủ lạnh, máy giặt, máy rửa chén và nhiều thiết bị gia dụng tiết kiệm thời gian khác. Tất nhiên nó không nhất thiết phù hợp với các thành phố lịch sử có nhiều ngôi nhà hàng trăm năm tuổi, nhưng trong phần lớn nhà ở thì các thiết bị đó là đồ gia dụng phổ biến
  Họ cũng chưa thực sự nỗ lực thu nhỏ kích thước. Khi thoát khỏi giai đoạn nguyên mẫu nghiên cứu, có thể nhờ kỹ thuật thông minh mà nó sẽ nhỏ hơn nhiều
  Một câu hỏi khác là chi phí. Những robot kiểu này thường khoảng 100.000 USD, và có lý do cho mức giá đó. Có thể hạ xuống không? Hy vọng là có
- Tiệm giặt tự động khá phiền vì bạn phải ở gần đó gần 2 tiếng chỉ để làm phần lao động 5 phút mà máy không làm thay
  Trong khi đó, gửi dịch vụ giặt và gấp là một thứ xa xỉ đắt đỏ. Nếu tiệm giặt có thể tự động hóa toàn bộ quy trình, giá giặt và gấp có thể giảm, và sẽ ít người muốn đặt ở nhà một cái máy chỉ dùng vài giờ mỗi tuần hơn
  Hoặc cũng có thể ghép tiệm giặt với quán cà phê hay quán bar, biến việc nhà thành cơ hội nghỉ ngơi và giao lưu. Nhưng phần lớn thế giới vẫn chưa sẵn sàng cho mức độ văn minh đó
- Tôi không hiểu vì sao lại nghĩ những người không đủ khả năng mua một căn hộ thoải mái và máy giặt riêng sẽ dùng robot giặt
  Cuối cùng tôi nghĩ nó có thể được tích hợp vào máy giặt, thành một thiết bị mà bạn bỏ quần áo bẩn vào rồi lấy ra quần áo sạch đã được gấp. Bản thân máy giặt hiện nay không phải là bộ phận đắt đến mức nhất thiết phải giữ nguyên dạng tách rời như hiện tại
- Ở Paris, 30 euro mỗi m² mỗi tháng chỉ áp dụng cho các căn hộ đủ lớn
  Căn hộ 20 m² thì không có giá dưới 850 euro, tức khoảng 42 euro/m². Tất nhiên những căn như vậy quá nhỏ để đưa máy giặt vào, chứ đừng nói đến robot gấp đồ
Chỉ cần tăng độ chính xác thêm một chút là nó sẽ trở thành công cụ tự động hóa phòng thí nghiệm tuyệt vời. Các phòng thí nghiệm trên toàn thế giới có lẽ sẵn sàng trả 1 triệu USD cho robot xử lý công việc thí nghiệm thủ công
Công việc trong phòng thí nghiệm cũng không khó đến vậy. Nhiều thao tác dựa trên các quy trình đã được thiết lập với các bước được định nghĩa rõ. Một robot có thể cầm nắm đồ vật và làm việc với ống nghiệm mà không cần lập trình riêng sẽ là sản phẩm bùng nổ
- Đồng ý. Bạn gái tôi có bằng hóa sinh và làm trong một phòng thí nghiệm như vậy. Công việc gồm thu thập mẫu, chuẩn bị, nhập liệu, bảo trì cơ bản thiết bị, một số phân tích, và các việc hành chính/thư ký như đưa kết quả vào hệ thống hoặc gọi cho bác sĩ
  Theo tôi, tất cả đều có thể tự động hóa
  Tuy nhiên điều này phụ thuộc rất nhiều vào khu vực. Ở Mỹ thì sẽ khá nhanh chóng trở nên hợp lý, nhưng bạn gái tôi sống ở một nước EU nhỏ nơi lương không cao, và đây là vị trí junior được nhiều sinh viên tìm kiếm. Vị trí đó tốn khoảng 25.000 USD mỗi năm
  Nếu đầu tư 1 triệu USD để thay thế dòng tiền 25.000 USD mỗi năm thì với mức chiết khấu thông thường, giá trị hiện tại ròng là âm. Khi có thể thay thế mức lương 120.000 USD bằng robot 1 triệu USD thì mới hợp lý
  Tôi nghĩ vẫn sẽ còn việc giám sát robot. Ở các cơ sở sản xuất lớn, tập trung, một người có thể giám sát nhiều robot nên sẽ hợp lý, nhưng ở các cơ sở nhỏ và phân tán thì chưa chắc. Tôi nghĩ nhiều phòng thí nghiệm phải nằm rải rác gần khách hàng vì tính nhạy cảm về thời gian của công việc, nên cấu trúc là như vậy. Tất nhiên điều đó có thể thay đổi
- Tốt nhất đừng kỳ vọng quá nhiều. Với robot đa dụng, ngay cả việc vặn đai ốc vào bu lông cũng là vấn đề lớn
  Cuối cùng sẽ cần một phòng thí nghiệm thân thiện với robot, nơi mọi việc đều có thể được làm bằng bàn tay robot thô sơ. Các lựa chọn khác là tạo ra bàn tay khéo léo hơn, hoặc xây dựng phòng thí nghiệm chuyên dụng được robot hóa hoàn toàn
  Lựa chọn đầu tiên là thú vị nhất và là con đường nên đi. Khi điều đó khả thi, rất nhiều khả năng sẽ mở ra, như xe “tự sửa chữa” hay căn cứ hành tinh. Chỉ cần có một robot “kỹ thuật viên” onboard là được
- Những sản phẩm tự động hóa phòng thí nghiệm kiểu này đã tồn tại, và một số startup trong lĩnh vực này rốt cuộc đang gặp cùng luồng gió ngược như mọi bên khác: thứ cốt lõi mà người ta trả tiền là phần mềm, nhưng họ lại phải bán phần cứng
  Các phòng thí nghiệm học thuật sẽ không mua thiết bị thí nghiệm startup giá 1 triệu USD. Nếu là một core dùng chung cho 30 nhóm nghiên cứu thì họ sẽ mua thứ gì đó, nhưng đó sẽ là thiết bị trực tiếp dẫn tới công bố bài báo, tức thiết bị đã có hồ sơ sử dụng
  Vì vậy sản phẩm bạn nói dù đã tồn tại vẫn không vào được phòng thí nghiệm
- Nhiều chất trong phòng thí nghiệm hóa học có độc tính, thậm chí có thể gây chết người. Nếu robot có thể xử lý thay con người thì đó là lợi ích lớn
- Chắc chắn là có thể. Tôi có một người bạn làm trong lĩnh vực này, tức tự động hóa phòng thí nghiệm bằng AI, và bạn ấy dự đoán cạnh tranh sẽ trở nên gay gắt trong vài năm tới
So với robot hình người, robot này khá đơn giản nên có vẻ chi phí sẽ thấp hơn nhiều. Tuy nhiên tôi không hiểu lắm vì sao lại tập trung vào việc gấp quần áo. Có nhiều người giặt đồ thường xuyên hơn một lần mỗi tuần sao?
Nếu nó có thể nấu ăn, việc mà ít nhất ngày nào cũng làm một lần, thì sẽ hữu ích hơn nhiều
Thay vào đó, tôi mong có một đổi mới mới cho máy giặt. Công nghệ hiện tại vẫn ở mức rất cơ bản: làm nóng nước rồi quay liên tục. Tôi tự hỏi vì sao không thể làm kiểu giống máy in giấy khổ lớn: cho một chiếc áo sơ mi vào, nó cuốn qua các con lăn, phun lượng nước tối thiểu ở áp suất cao, gia nhiệt, rồi sau 30 phút trả lại trong trạng thái được là phẳng hoàn hảo
- Giặt giũ gần như là demo hoàn hảo để thể hiện một hệ thống lập kế hoạch chuyển động cao cấp. Vải thực tế là thứ không thể xử lý được trong các mô thức lập kế hoạch chuyển động cổ điển
  Nó cực kỳ phi cứng, nên việc dự đoán hành vi thuộc phạm vi của các bộ mô phỏng động lực học chuyên dụng và đắt tiền; còn hỏi ngược lại xem cần động tác nào để tạo ra kết quả mong muốn thì gần như bất khả thi. Ngay cả khi có thể dự đoán, nó cũng rất liên tục và chống lại việc rời rạc hóa
  Cũng không thể dùng những giả định thường gặp khi suy luận về origami như “độ rộng của nếp gấp bằng 0”
  Quần áo còn là trường hợp cực đoan trong các loại vải. Không chỉ rất không đồng nhất mà còn mỏng manh, mỗi chiếc áo sơ mi là một cấu trúc topo mềm nhũn phủ đầy các chất liệu kỳ lạ và các đặc tính cục bộ phức tạp, khó dự đoán. Chỉ cần xử lý sai một chút là bung chỉ. Bèo nhún, khóa kéo, túi, dây buộc thì vô tận
  Hơn nữa, giặt giũ là việc ai cũng làm nên dễ đồng cảm, dễ thiết lập trong phòng thí nghiệm, và con người có thể đánh giá hiệu năng một cách trực quan ngay lập tức
  Gần 70 năm nghiên cứu vẫn chưa ai cho thấy hiệu năng thuyết phục, nên đây là bài toán khó hơn lộn ngược, ném bóng rổ hay xếp hàng lên xe tải. Vì vậy, hễ có thuật toán mới có thể xử lý thứ gì đó vượt ngoài các khối trên bàn, gần như lúc nào người ta cũng áp dụng nó vào giặt giũ
- Gấp quần áo không phải mục tiêu cuối cùng. Họ chọn nó vì đây là việc rất khó đối với robot, đòi hỏi sự khéo léo, lập kế hoạch, phản ứng với đầu vào cảm biến, v.v.
  Nói cách khác, nếu robot làm được việc giặt giũ, rất có khả năng có thể dạy nó hầu hết mọi việc khác trong nhà
- Chỉ cần có một đứa con, giặt giũ không còn là việc có điểm bắt đầu và kết thúc rõ ràng nữa, mà trở thành một quy trình liên tục
  Nấu ăn là công việc mà nhiều người cảm thấy rất có ý nghĩa và rất con người. Tôi thì không, nhưng tôi biết mình là ngoại lệ. Ngược lại, có lẽ rất khó tìm được ai cho rằng dành quỹ thời gian hữu hạn trên Trái Đất để giặt giũ là đáng giá
- Cũng có rất nhiều người giặt đồ 3–4 lần mỗi tuần. Cũng có người hoàn toàn không nấu ăn ở nhà. Thế giới có 8 tỷ người
- Vì những người sống trên Axiom sẽ cần jumpsuit sạch chăng?
  Nói nghiêm túc thì, gấp quần áo là một tác vụ phức tạp, đòi hỏi robot phải có khá nhiều sự khéo léo và thao tác vật thể tinh vi, nhưng khác với nấu ăn, rủi ro tương đối thấp
  Ngay cả khi robot làm hỏng việc, khả năng gây thiệt hại lớn cho robot, môi trường xung quanh hay con người gần đó cũng nhỏ. Vì vậy đây là một đề tài nghiên cứu khá tốt, và nếu giải được thì cũng sẽ trông rất ấn tượng trong các demo sự kiện
Gấp quần áo chỉ là một việc vặt nhỏ; chén thánh thật sự là cánh tay robot có thể nấu ăn 24 giờ mỗi ngày
Nếu cánh tay robot xuất hiện trong mọi cửa hàng thức ăn nhanh, nhà hàng, khách sạn, bệnh viện, căn cứ quân sự, tàu du lịch và bất cứ nơi nào chuẩn bị đồ ăn, thị trường lao động sẽ không thể phục hồi
Bên thắng lớn nhất có thể là các cửa hàng tạp hóa dùng nông sản của chính họ để làm bữa ăn nóng rồi giao bằng drone đến các nhà gần đó. Dĩ nhiên, đó có thể là suy nghĩ quá lạc quan
- Chỉ cần gửi công thức yêu thích của bạn cho đầu bếp robot gần đó để lần nào cũng nhận đúng món mình muốn
  Đến lúc đó, liệu nhà hàng với thực đơn cố định còn có ý nghĩa không?
Đã được đăng trên HN 9 ngày trước
https://news.ycombinator.com/item?id=42011770
Một công trình thú vị
Tôi chưa từng nghĩ xem trong các tác vụ không nhạy cảm về thời gian, nếu không cố bắt robot xử lý thời gian thực mà làm chậm xuống tới mức độ trễ các mô hình transformer hiện nay có thể chịu được trên phần cứng thật, thì ta có thể làm được gì
- Trong Theory of self-reproducing automata (1966) của von Neumann, trang 72, phần “Role of High Complication”, có đoạn như sau
  “Một automaton không thể tách rời khỏi môi trường mà nó phản ứng”
  “Đặc tính sinh tồn của con người trên bề mặt Trái Đất hiện nay được định nghĩa rõ, nhưng với phần lớn các kiểu người thì cần chuyên biệt hóa tình huống hơn một chút. Bàn về việc con người sẽ sống sót thế nào dưới đáy biển hay ở 1000 độ C là vô nghĩa. Tương tự, hỏi một cỗ máy tính toán nhanh hay chậm đến mức nào cũng là vô nghĩa nếu không chỉ rõ loại vấn đề nào sẽ được giao cho nó”
Tôi hầu như không biết ai dưới 40 tuổi còn gấp và là quần áo, và thậm chí không chắc mình có biết ai dưới 30 tuổi sở hữu bàn là và bàn để là không. Nếu có thì chắc nó đã hỏng, hoặc nếu chưa hỏng thì có lẽ đã bị thất lạc
Tôi nghĩ “giặt giũ” đang trở nên lỗi thời còn nhanh hơn cả việc tự giặt đồ. Giống như việc người ta không giao cho robot sửa quần áo hỏng, mà vứt quần áo cũ đi, thay bằng thời trang nhanh và từ bỏ việc may vá
Nếu sản phẩm này nhắm tới nhóm thu nhập cao, thì ngay cả khi giá giảm từ 100.000 USD xuống 1.000 USD, vì những lý do này tôi cũng không thấy có cơ hội thắng
- Quần áo thời trang nhanh ngày càng thường không thể là được. Đồng thời, việc mua quần áo chất lượng tốt cũng ngày càng khó hơn
  Do ảnh hưởng của thời trang nhanh, ngay cả các thương hiệu thiết kế rất đắt tiền cũng tung ra những thứ như áo khoác không lót hoặc áo len mỏng
  Một lý do nữa là chuỗi cung ứng cho quần áo chất lượng tốt đã thu hẹp đáng kể. Ngay cả khi nhà thiết kế muốn tìm vải tốt, họ cũng phải trả giá cao hơn trước
Có thể ai đó bên HN biết: vì sao các robot kiểu này lại di chuyển chậm như vậy? Vì an toàn, hay là khi tăng tốc thì độ khó tăng lên rất nhiều?
- Có vẻ tốc độ không phải mối quan tâm hàng đầu của họ
- Họ đang dùng mô hình thị giác-ngôn ngữ để tạo chuyển động robot theo từng token. Suy luận VLM chính là nút thắt cổ chai

Chính sách robot đa năng đầu tiên π0 của Physical Intelligence trình diễn cả gấp đồ giặt

Chính sách robot đa năng mà π0 hướng tới

Vì sao cần vượt ra ngoài tự động hóa hẹp

Dữ liệu huấn luyện và cấu hình robot

Cấu thành dữ liệu huấn luyện

Các loại tác vụ được đưa vào

Hiểu ngữ nghĩa ở quy mô Internet và đầu ra hành động liên tục

Các tác vụ thao tác khéo léo được xử lý bằng hậu huấn luyện

Gấp đồ giặt

Dọn bàn

Lắp ráp hộp

So sánh đánh giá với OpenVLA và Octo

Kết quả 5 tác vụ đánh giá

Các bài toán còn lại và hướng hợp tác

Suy luận và lập kế hoạch dài hạn

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News