7 điểm bởi GN⁺ 2025-05-10 | 1 bình luận | Chia sẻ qua WhatsApp
  • LegoGPT là một dự án đột phá có thể tạo ra các cấu trúc LEGO ổn định và có thể lắp ráp ngoài đời thực chỉ từ đầu vào văn bản
  • Dự án xây dựng bộ dữ liệu StableText2Lego, cung cấp hơn 47.000 cấu trúc LEGO ổn định về mặt vật lý cùng các mô tả chi tiết
  • Thuật toán áp dụng kiểm tra tính hợp lệ nhanh và cơ chế hoàn tác dựa trên vật lý để tự động loại bỏ các cấu trúc phi thực tế
  • Các thiết kế LEGO được tạo ra có thể được lắp ráp thực tế bởi cả con người và robot, đồng thời hỗ trợ biểu đạt đa dạng về màu sắc và kết cấu
  • Hệ thống này mở ra những khả năng mới trong nhiều lĩnh vực như tạo mẫu thiết kế sáng tạo, giáo dục và ứng dụng robot

Giới thiệu dự án

  • LegoGPT là phương pháp đầu tiên có thể tạo ra các cấu trúc LEGO có thể lắp ráp thực tế và ổn định về mặt vật lý theo cách hoàn toàn tự động dựa trên prompt văn bản do người dùng nhập vào
  • Dự án được xây dựng với bộ dữ liệu cấu trúc LEGO quy mô lớn kèm mô tả chi tiết, và tạo ra các kết quả có độ ổn định, tính đa dạng và tính thẩm mỹ ngay cả trong quá trình lắp ráp thực tế
  • Các cấu trúc LEGO được tạo ra đã được kiểm chứng thực nghiệm là có thể do con người tự lắp bằng tay hoặc được lắp tự động bằng cánh tay robot

Bộ dữ liệu StableText2Lego

  • Bộ dữ liệu StableText2Lego được xây dựng bằng cách voxel hóa hình dạng từ các lưới 3D ShapeNetCore, sau đó áp dụng nhiều phương pháp bố trí gạch khác nhau để chỉ chọn những cấu trúc vượt qua kiểm chứng ổn định vật lý
  • Trong quá trình tạo dữ liệu, mỗi cấu trúc được render góc nhìn từ 24 hướng, và dựa trên đó GPT-4o tự động tạo ra các đoạn mô tả tinh vi
  • Bộ dữ liệu được xây dựng theo cách này bao gồm hơn 47.000 cấu trúc LEGO với đa dạng hình dạng, cấu trúc và texture, cùng hơn 28.000 đối tượng 3D độc nhất

Pipeline LegoGPT

  • Các cấu trúc LEGO được token hóa thành chuỗi token văn bản theo cách từ dưới lên trên, theo kiểu raster-scan để làm đầu vào
  • Bằng cách ghép từng chuỗi gạch với mô tả ngôn ngữ tự nhiên, nhóm nghiên cứu tinh chỉnh mô hình dựa trên LLaMA-3.2-Instruct-1B để học ánh xạ giữa mô tả và chuỗi gạch
  • Ở giai đoạn suy luận, LegoGPT dần dần tạo cấu trúc LEGO bằng cách dự đoán và thêm từng viên gạch một cho prompt văn bản
  • Mỗi khi thêm một viên gạch, hệ thống sẽ kiểm tra tính hợp lệ về định dạng, sự tồn tại trong thư viện gạch và va chạm, rồi kiểm chứng lại độ ổn định vật lý sau khi tạo xong toàn bộ cấu trúc
  • Nếu cấu trúc cuối cùng không ổn định, hệ thống sẽ loại bỏ toàn bộ viên gạch không ổn định cùng các viên được thêm sau đó và hoàn tác về trạng thái ổn định để tạo lại

Ví dụ tạo cấu trúc LEGO theo từng bước

  • "Một con thuyền mảnh với thân dài và hẹp"
  • "Một giá sách có các kệ ngang"
  • "Một băng ghế có tay vịn nhưng không có tựa lưng"
  • Mỗi ví dụ đều được tạo theo từng bước từ prompt văn bản thành cấu trúc LEGO phản ánh rõ các đặc điểm thị giác

Lắp ráp tự động bằng robot

  • Các mô hình LEGO được tạo ra đã được áp dụng vào lắp ráp thực tế bằng cánh tay robot và được trình diễn bằng video tua nhanh 8x
  • Điều này cho thấy khả năng ứng dụng trong lắp ráp robot thực tế với các ví dụ như "một con thuyền mảnh với thân dài và hẹp", "một cây guitar 6 dây bất đối xứng"

Các mô hình LEGO có texture và màu sắc được tạo ra

  • Với các prompt ngôn ngữ tự nhiên như "một băng ghế phủ rêu", "chất liệu cyberpunk chuyển sắc neon", "kệ sách phòng đọc kiểu Victoria", hệ thống có thể tạo ra các thiết kế LEGO thể hiện cả texture, chất liệu và hiệu ứng thẩm mỹ cụ thể
  • Ngay cả các hiệu ứng như màu sắc phong phú, hiệu ứng kim loại trong các prompt như "Sunburst Les Paul with amber finish" cũng có thể được phản ánh vào thiết kế LEGO chỉ bằng văn bản

Trích dẫn và hỗ trợ nghiên cứu

  • Thông tin bài báo, tác giả và các tổ chức hỗ trợ nghiên cứu tương ứng (ví dụ: Packard Foundation, Amazon Faculty Award) đều được nêu rõ
  • Đây là dự án được thực hiện với nhiều hỗ trợ học thuật và công nghiệp, bao gồm Microsoft Research PhD Fellowship của một nhà nghiên cứu chính

Tham khảo dự án và template

  • Template của trang này được xây dựng dựa trên layout của các dự án Custom DiffusionDreamFusion

1 bình luận

 
GN⁺ 2025-05-10
Ý kiến trên Hacker News
  • Chúng tôi sử dụng kiểm tra tính hợp lệ hiệu quả và rollback dựa trên vật lý để tăng độ ổn định của kết quả, qua đó cắt tỉa các dự đoán token không thể xảy ra theo định luật vật lý và các ràng buộc lắp ráp. Một trong những điều thú vị nhất khi dùng AI là cách nó tạo ra và tối ưu các khả năng trong phạm vi những ràng buộc chuyên biệt theo miền được lập trình thủ công. Ví dụ, AI điều khiển đèn giao thông nhất định phải có các ràng buộc cứng để ngăn va chạm. Trong các ràng buộc đó, AI có thể tự do thử nghiệm các ý tưởng tối ưu hóa. Cuối cùng, cốt lõi nằm ở cách thiết kế không gian bài toán và các điều kiện ràng buộc. Trong trường hợp này là các viên gạch LEGO, cách kết hợp chúng và độ ổn định của chúng
    • Cách này là một ví dụ điển hình của metaheuristics đã tồn tại hàng chục năm. Có rất nhiều thuật toán khác nhau, và cũng có tài liệu nhập môn khá nhẹ nhàng để tham khảo https://cs.gmu.edu/~sean/book/metaheuristics/
    • Gần đây, ngay cả với LLM cũng đã có những phiên bản đơn giản bắt đầu phát huy hiệu quả. Dùng chế độ JSON Schema để chặn trạng thái bất hợp pháp ngay từ đầu và thả mô hình vào một không gian bị giới hạn thì ít nhất có thể đảm bảo nó chỉ tạo ra kết quả hợp lệ. Đây gần giống một khái niệm về type safety. Logic kiểm tra hợp lệ và sửa lỗi cũng có thể áp dụng cho nhiều kịch bản xác minh khác nhau. Hy vọng sẽ có thêm nhiều ứng dụng kiểu này
    • Tôi nghĩ với dạng bài toán này có thể dùng mô hình dựa trên MILP hoặc CLP. Các ràng buộc xác định không gian tìm kiếm, còn thuật toán solver sẽ khám phá không gian đó
    • Có lẽ reinforcement learning cũng đáng quan tâm. Nếu cho hệ thống phần thưởng âm, nó có thể bắt đầu tuân thủ các quy tắc an toàn. Tuy vậy, trong dịch vụ thực tế vẫn bắt buộc phải giữ các cơ chế bảo vệ https://en.wikipedia.org/wiki/Reinforcement_learning
    • Tôi chưa đọc kỹ họ áp dụng ràng buộc như thế nào. Cách tương tự cũng được dùng khi ép LLM tạo đầu ra có cấu trúc như JSON. Trong llama.cpp còn hỗ trợ khớp ngữ pháp tùy chỉnh
    • Tôi hoàn toàn đồng ý với ý này. Khi giới hạn kết quả sinh ra bằng vật lý, tính hợp lệ và ràng buộc công cụ, mô hình trở nên gần với một bộ máy tìm kiếm và xác minh hơn là chỉ một bộ dự đoán từ đơn thuần. Nó gần với tổng hợp chương trình hơn. Giá trị thực sự nằm ở việc định nghĩa cực kỳ chặt chẽ không gian bài toán để nhốt mô hình vào một “chiếc hộp” nơi nó chỉ có thể tạo ra kết quả thực sự hữu ích
    • Một thử nghiệm vui có thể làm là: bảo LLM “hãy nói APPLE”, nhưng đặt logit của các token liên quan đến Apple thành -vô cực để nó không thể dùng từ đó, thì đầu ra sẽ kiểu như “Banana. Đùa thôi. Banana. À, tại nó ngon quá nên lỡ nói vậy. Để thử lại: Orange. Ồ, giờ lại là grape. Không, cái rau củ giòn đó carrot”
    • Tôi cũng nghĩ đây chính là lĩnh vực mà AI thực sự tỏa sáng. Con người đặt ra luật lệ (định luật vật lý, an toàn giao thông, v.v.), còn AI tìm ra lời giải tối ưu trong một không gian tìm kiếm khổng lồ
    • Tôi cho rằng chính phản hồi lỗi mới là chìa khóa mở ra khả năng thật sự. Ví dụ, nếu đưa phản hồi lỗi từ SQL provider cho bot text-to-SQL, nó sẽ tạo ra truy vấn tốt hơn rất nhiều
    • Trong hóa học tổ hợp cũng có khái niệm tương tự, nên có lẽ có thể gọi đây là AI Chemistry https://en.wikipedia.org/wiki/Combinatorial_chemistry
  • Dự án này có khả năng cao sẽ nhận thư cảnh cáo từ luật sư của LEGO. Nếu muốn an toàn thì đừng dùng từ LEGO mà hãy dùng Bricks hoặc Klemmbausteine (tiếng Đức). Nhiều người đã từng vướng tranh chấp với đội pháp lý của LEGO, và đó thực sự là một trải nghiệm rất mệt mỏi
    • Họ thực sự dùng gạch LEGO nên không hẳn là gây hiểu lầm. Tuy vậy, việc không nói rõ là họ không liên quan đến LEGO thì hơi mập mờ. Mặt khác, có vẻ họ cũng không nhắm đến kiếm tiền, nên lập luận rằng LEGO bị thiệt hại cũng khá yếu, vì thế rủi ro có lẽ thấp
    • Ngay cả YouTuber hay các trang hobby nhỏ đôi khi cũng nhận thông báo gỡ bỏ chỉ vì ngữ cảnh sử dụng từ đó
    • Trong khi đó, Amazon lại vô tư bán bộ Boy and Tiger Adventure Blocks Set sao chép cả LEGO lẫn Calvin & Hobbes https://amazon.com/Adventure-Rotatable-Compatible-Characters-Stocking/…
    • Đây là nghiên cứu học thuật nên tôi nghĩ sẽ thuộc phạm vi fair use
    • Tôi cũng nghĩ vậy! Sớm muộn gì cũng có chuyện
    • Tôi không hiểu vì sao người ta lại cư xử kiểu Nintendo thay vì bao dung với cộng đồng như Sega
  • Kết quả này không mấy ấn tượng. Nó dùng quá ít loại gạch, và thành phẩm cũng có vẻ khá xa so với hình ảnh định tạo. Cảm giác như một thuật toán thủ công còn có thể cho kết quả tốt hơn
    • Điểm hay của nghiên cứu này không nằm ở tính chân thực của ảnh mà ở sự kết hợp giữa hiểu ngôn ngữ và khả năng lắp ráp trong thế giới vật lý
    • Chỉ có lớp texture giả làm cho nó trông có vẻ thuyết phục hơn. Nếu chỉ dùng gạch màu đơn thuần thì nó chẳng khác gì một cục khối
    • Xét việc đây là một mô hình 1B đã fine-tune thì rất đáng quan tâm
    • Điều thực sự cần là một AI mà khi tôi đưa ảnh đống gạch của mình cho nó, nó sẽ tạo hướng dẫn lắp ráp dựa trên đúng những viên gạch tôi đang có. Về mặt kỹ thuật bây giờ cũng làm được, nhưng sẽ cần huấn luyện riêng một mô hình chuyên biệt
  • Trên iPhone, nếu cuộn đến vị trí có GIF thì GIF tự động phát, khiến việc điều hướng trang web rất khó chịu
    • Không biết đến bao giờ mọi người mới học được rằng tuyệt đối không nên autoplay
    • Ngược lại, trên Firefox desktop tôi còn không nhận ra có GIF ở đó, nên cũng chẳng hiểu hình ảnh muốn nói gì
    • Có thể sửa vấn đề này bằng cách thêm thuộc tính playsinline cho thẻ video https://developer.mozilla.org/en-US/docs/…. Thật đáng tiếc khi mặc định của iOS lại như vậy
  • Tôi không muốn tự động hóa việc lắp LEGO. Chính quá trình tự tay làm mới là phần vui nhất! Thứ cần tự động hóa phải là giai đoạn sau khi lắp xong: dọn dẹp, phân loại theo màu và hình dạng, rồi cất gọn gàng. Sẽ tốt hơn nếu các nhà khoa học bắt đầu giải những vấn đề mà thế giới thực sự cần. Ở đó mới có giá trị thật và tiền thật
    • Có ví dụ về việc phân loại 2 tấn Lego, cùng bài viết và liên kết về cỗ máy đầu tiên dùng AI để tự động phân loại lego https://jacquesmattheij.com/sorting-two-metric-tons-of-lego/, https://brothers-brick.com/2019/12/…
    • Cái khó của việc giải các vấn đề thực tế là văn hóa học thuật, nơi xuất bản bài báo là tất cả
    • Đổi mới thực sự không phải là tự động hóa phần thú vị, mà là làm biến mất phần nhàm chán
    • Tôi cũng vào đây để nói điều này. Vấn đề thật sự của lego là dọn dẹp và sắp xếp
  • Dự án này thật sự rất hay! Việc dùng GIF để thể hiện quá trình lắp ráp cực kỳ cuốn. Với những ai đang tìm thông tin về dataset, mình chia sẻ ở đây https://huggingface.co/datasets/AvaLovelace/StableText2Lego. Nó chứa hơn 47.000 cấu trúc LEGO và bao phủ hơn 28.000 vật thể 3D độc đáo trong 21 danh mục ShapeNetCore. Cách chạy suy luận cục bộ có thể xem trên GitHub https://github.com/AvaLovelace1/LegoGPT/?tab=readme-ov-file
  • Nhìn vào “a basic sofa” thì nếu làm theo đúng thứ tự trong animation, sẽ có những viên gạch bị treo lơ lửng trong không trung. Đây là dấu hiệu cho thấy giới hạn trong cách mô hình tạo thiết kế. Nếu muốn dùng robot để tự động lắp các thiết kế được sinh ra thì tôi nghĩ kiểu thiết kế này sẽ gây ra vấn đề lớn
    • Tôi cũng vào đây để chỉ ra điểm này. Hình hoàn thiện nhìn ổn, nhưng thứ tự lắp trong animation thì có nhiều vấn đề. Phải làm sàn hai lớp trước để tầng trên cố định các viên gạch ở tầng dưới. Sau đó mới có thể gắn chân vào
  • Thật buồn cười khi nhìn một con robot giá $50.000 lắp những viên lego chỉ đáng vài đô. Cảm giác như đang xem một viện dưỡng lão dành cho robot
    • Biết đâu chỉ 10 năm nữa sẽ có robot lắp ráp nhanh hơn con người rất nhiều
    • Đó cũng là lý do đến giờ ở châu Á người ta vẫn thường lắp ráp bằng tay
    • Mọi người hay nói lego đắt, nhưng cứ thử mua robot để lắp lego thì sẽ biết thế nào là đắt thật sự
  • Có vẻ nó không làm được gì hơn ngoài việc biến mô hình 3D thành voxel rồi chuyển thành gạch. Để tạo ra kết quả đẹp thật sự thì phải sáng tạo trong cách dùng nhiều loại gạch khác nhau chứ không chỉ 2x2 hay 2x4. Tôi tò mò đâu sẽ là thuật toán tối ưu để tự động tạo ra các MOC (mô hình lắp ráp sáng tạo) đẹp mắt. Hay là tổ chức một cuộc thi kaggle trị giá $50.000 nhỉ, muốn nghe ý kiến của mọi người