LegoGPT - Tự động tạo thiết kế LEGO có thể lắp ráp thực tế từ văn bản
(avalovelace1.github.io)- LegoGPT là một dự án đột phá có thể tạo ra các cấu trúc LEGO ổn định và có thể lắp ráp ngoài đời thực chỉ từ đầu vào văn bản
- Dự án xây dựng bộ dữ liệu StableText2Lego, cung cấp hơn 47.000 cấu trúc LEGO ổn định về mặt vật lý cùng các mô tả chi tiết
- Thuật toán áp dụng kiểm tra tính hợp lệ nhanh và cơ chế hoàn tác dựa trên vật lý để tự động loại bỏ các cấu trúc phi thực tế
- Các thiết kế LEGO được tạo ra có thể được lắp ráp thực tế bởi cả con người và robot, đồng thời hỗ trợ biểu đạt đa dạng về màu sắc và kết cấu
- Hệ thống này mở ra những khả năng mới trong nhiều lĩnh vực như tạo mẫu thiết kế sáng tạo, giáo dục và ứng dụng robot
Giới thiệu dự án
- LegoGPT là phương pháp đầu tiên có thể tạo ra các cấu trúc LEGO có thể lắp ráp thực tế và ổn định về mặt vật lý theo cách hoàn toàn tự động dựa trên prompt văn bản do người dùng nhập vào
- Dự án được xây dựng với bộ dữ liệu cấu trúc LEGO quy mô lớn kèm mô tả chi tiết, và tạo ra các kết quả có độ ổn định, tính đa dạng và tính thẩm mỹ ngay cả trong quá trình lắp ráp thực tế
- Các cấu trúc LEGO được tạo ra đã được kiểm chứng thực nghiệm là có thể do con người tự lắp bằng tay hoặc được lắp tự động bằng cánh tay robot
Bộ dữ liệu StableText2Lego
- Bộ dữ liệu StableText2Lego được xây dựng bằng cách voxel hóa hình dạng từ các lưới 3D ShapeNetCore, sau đó áp dụng nhiều phương pháp bố trí gạch khác nhau để chỉ chọn những cấu trúc vượt qua kiểm chứng ổn định vật lý
- Trong quá trình tạo dữ liệu, mỗi cấu trúc được render góc nhìn từ 24 hướng, và dựa trên đó GPT-4o tự động tạo ra các đoạn mô tả tinh vi
- Bộ dữ liệu được xây dựng theo cách này bao gồm hơn 47.000 cấu trúc LEGO với đa dạng hình dạng, cấu trúc và texture, cùng hơn 28.000 đối tượng 3D độc nhất
Pipeline LegoGPT
- Các cấu trúc LEGO được token hóa thành chuỗi token văn bản theo cách từ dưới lên trên, theo kiểu raster-scan để làm đầu vào
- Bằng cách ghép từng chuỗi gạch với mô tả ngôn ngữ tự nhiên, nhóm nghiên cứu tinh chỉnh mô hình dựa trên LLaMA-3.2-Instruct-1B để học ánh xạ giữa mô tả và chuỗi gạch
- Ở giai đoạn suy luận, LegoGPT dần dần tạo cấu trúc LEGO bằng cách dự đoán và thêm từng viên gạch một cho prompt văn bản
- Mỗi khi thêm một viên gạch, hệ thống sẽ kiểm tra tính hợp lệ về định dạng, sự tồn tại trong thư viện gạch và va chạm, rồi kiểm chứng lại độ ổn định vật lý sau khi tạo xong toàn bộ cấu trúc
- Nếu cấu trúc cuối cùng không ổn định, hệ thống sẽ loại bỏ toàn bộ viên gạch không ổn định cùng các viên được thêm sau đó và hoàn tác về trạng thái ổn định để tạo lại
Ví dụ tạo cấu trúc LEGO theo từng bước
- "Một con thuyền mảnh với thân dài và hẹp"
- "Một giá sách có các kệ ngang"
- "Một băng ghế có tay vịn nhưng không có tựa lưng"
- Mỗi ví dụ đều được tạo theo từng bước từ prompt văn bản thành cấu trúc LEGO phản ánh rõ các đặc điểm thị giác
Lắp ráp tự động bằng robot
- Các mô hình LEGO được tạo ra đã được áp dụng vào lắp ráp thực tế bằng cánh tay robot và được trình diễn bằng video tua nhanh 8x
- Điều này cho thấy khả năng ứng dụng trong lắp ráp robot thực tế với các ví dụ như "một con thuyền mảnh với thân dài và hẹp", "một cây guitar 6 dây bất đối xứng"
Các mô hình LEGO có texture và màu sắc được tạo ra
- Với các prompt ngôn ngữ tự nhiên như "một băng ghế phủ rêu", "chất liệu cyberpunk chuyển sắc neon", "kệ sách phòng đọc kiểu Victoria", hệ thống có thể tạo ra các thiết kế LEGO thể hiện cả texture, chất liệu và hiệu ứng thẩm mỹ cụ thể
- Ngay cả các hiệu ứng như màu sắc phong phú, hiệu ứng kim loại trong các prompt như "Sunburst Les Paul with amber finish" cũng có thể được phản ánh vào thiết kế LEGO chỉ bằng văn bản
Trích dẫn và hỗ trợ nghiên cứu
- Thông tin bài báo, tác giả và các tổ chức hỗ trợ nghiên cứu tương ứng (ví dụ: Packard Foundation, Amazon Faculty Award) đều được nêu rõ
- Đây là dự án được thực hiện với nhiều hỗ trợ học thuật và công nghiệp, bao gồm Microsoft Research PhD Fellowship của một nhà nghiên cứu chính
Tham khảo dự án và template
- Template của trang này được xây dựng dựa trên layout của các dự án Custom Diffusion và DreamFusion
1 bình luận
Ý kiến trên Hacker News
llama.cppcòn hỗ trợ khớp ngữ pháp tùy chỉnhplaysinlinecho thẻvideohttps://developer.mozilla.org/en-US/docs/…. Thật đáng tiếc khi mặc định của iOS lại như vậy