11 điểm bởi GN⁺ 2025-08-18 | 1 bình luận | Chia sẻ qua WhatsApp
  • LL3M sử dụng nhiều mô hình ngôn ngữ lớn để tự động viết mã Python nhằm tạo và chỉnh sửa tài sản 3D trong Blender
  • Theo chỉ dẫn văn bản của người dùng, hệ thống trực tiếp tạo ra các hình dạng sáng tạo và chính xác, đồng thời triển khai các thao tác hình học phức tạp bằng mã
  • Khác với các công cụ tạo mô hình 3D hiện có, nó cung cấp khả năng tạo tài sản không bị ràng buộc và tương tác tinh vi
  • Mã Blender được tạo ra rõ ràng và có độ minh bạch tham số cao, nên người dùng hoặc agent có thể dễ dàng chỉnh sửa hoặc cải tiến lặp đi lặp lại
  • Cho thấy khả năng xử lý tài sản 3D trên phạm vi rộng như tạo kiểu nhất quán, chỉnh sửa vật liệu, triển khai cấu trúc phân cấp

Tổng quan về LL3M

  • LL3M là một framework đổi mới trong đó nhiều agent mô hình ngôn ngữ lớn (LLM) viết mã Python để tạo và chỉnh sửa tài sản 3D trong Blender
  • Khi người dùng đưa ra chỉ dẫn bằng văn bản, LL3M tự động hóa việc tạo hình sáng tạo và thao tác hình học chính xác, đồng thời dùng mã cấp cao như một hình thức biểu diễn 3D để cho phép cải tiến lặp lại và cộng tác
  • Mã được mô tả rõ ràng, giúp nhiều tham số và cấu trúc được thể hiện minh bạch, từ đó thuận tiện cho chỉnh sửa bổ sung và phản hồi liên tục từ người dùng

Tổng quan pipeline

  • Pipeline gồm ba giai đoạn chính (tạo ban đầu, cải tiến tự động, cải tiến dựa trên phản hồi người dùng)
    • Ở giai đoạn tạo ban đầu, hệ thống tạo hình dạng cơ bản, đồng thời LL3M tự động phát hiện và cải thiện các cấu trúc không hợp lý về mặt logic hoặc các thành phần hình học quá đơn giản
    • Giai đoạn thứ hai thực hiện các chỉnh sửa tự động được tinh luyện hơn, đồng thời phản ánh cả những hình dạng hay quan hệ phức tạp
    • Giai đoạn cuối tiếp nhận các yêu cầu chỉnh sửa bổ sung từ người dùng, hiện thực hóa quy trình tạo tài sản 3D tương tác và lặp lại
  • Mỗi giai đoạn triển khai phương thức cải thiện lặp lại và tăng dần dựa trên sự phân chia vai trò giữa các agent

Thư viện hình ảnh và hiệu năng

  • Tạo nhiều hình dạng đa dạng: hiện thực hóa bằng mã các bố cục phức tạp và chi tiết tinh xảo như cối xay gió, piano, bộ trống
  • Áp dụng phong cách nhất quán: áp dụng cùng chỉ thị "steampunk" cho nhiều mesh (mũ), tạo ra kết quả biến thể nhưng vẫn giữ phong cách chung
  • Hỗ trợ chỉnh sửa vật liệu: ví dụ có thể định nghĩa riêng phần lưỡi dao bằng shader node để thay đổi vật liệu

Khả năng diễn giải của mã

  • Mã được tạo ra bao gồm logic cấu trúc, tên biến rõ ràng, chú thích, nên dễ hiểu và dễ sửa đổi
  • Ví dụ: có thể trực tiếp thay đổi logic mẫu bàn phím hoặc biến độ rộng phím
  • Các node và tham số Blender được hiển thị nguyên vẹn, nên có thể điều chỉnh trực quan các thuộc tính hình ảnh như màu sắc và hoa văn

Khả năng tái sử dụng và tính tổng quát của mã

  • Ngay cả với các hình dạng khác nhau, các mẫu mã cấp cao như loop, modifier, thiết lập node vẫn được tái sử dụng
  • Nhờ đó, có thể tạo ra mã có tính mô-đun và dễ chỉnh sửa cho nhiều prompt khác nhau

Cảnh và cấu trúc phân cấp

  • Tạo nhiều đối tượng và tự động sắp xếp quan hệ không gian bằng instancing và parenting
  • Ví dụ: khi tạo một đối tượng phức hợp như đèn, hệ thống phản ánh cấu trúc quan hệ cha-con để các phép biến đổi được lan truyền theo phân cấp
  • Mỗi phần có tên ngữ nghĩa có ý nghĩa, nên có thể được quản lý hiệu quả trong scene graph của Blender

1 bình luận

 
GN⁺ 2025-08-18
Ý kiến trên Hacker News
  • Tôi đã có một thành công ngoài mong đợi khi dùng meshy.ai để chuyển những hình ảnh bạn bè muốn thành các mô hình 3D tốt. Quy trình làm việc của tôi là 1) dùng mô hình ảnh như GPT-5 hoặc Midjourney để biến ảnh gốc thành kiểu lưới được render mượt mà, tức là loại bỏ chi tiết không cần thiết hoặc các hiệu ứng trong suốt, nổi khối. 2) đưa ảnh đã được dọn dẹp đó vào chế độ image to 3D của meshy.ai, rồi nếu không ưng thì quay lại bước 1 để đổi kiểu ảnh và chọn lại. 3) cuối cùng chuyển sang Blender để chỉnh sửa lưới theo ý muốn của mình (chỉnh một số phần cụ thể, thêm bất đối xứng, v.v.) rồi làm thêm phần model hóa. Cấu trúc lưới khá ổn định và có cảm giác như kiểu marching cubes hoặc dual contouring được dùng trên một bộ sinh thuộc họ NeRF. Tôi rất nhanh với CAD cơ khí nhưng trình Blender chỉ ở mức bình thường, nên để AI dựng bộ khung lớn của mô hình rồi tôi tự sửa và bổ sung là cực kỳ hiệu quả. Ví dụ nếu một người bạn nhờ biến đổi tượng điêu khắc của người thật, trước đây đó là việc khiến tôi phải tốn rất nhiều thời gian, còn với tổ hợp AI + Blender thì chỉ cần bỏ ra 5 phút để tạo mô hình và khoảng 1 tiếng trong Blender để chỉnh lại là đã cảm nhận được mức tăng năng suất đủ lớn
    • Bạn nói ở bước 1 là biến hình ảnh thành kiểu lưới render matte, tôi muốn hỏi cụ thể đó là kiểu ảnh như thế nào. Tôi hiểu ý là biến bề mặt trong suốt thành không trong suốt, nhưng nếu được thì bạn có thể chia sẻ ví dụ ảnh tổng thể hoặc prompt bạn dùng trong quá trình đó không
    • GPT-5 là mô hình chỉ dành cho văn bản. ChatGPT vẫn đang dùng 4o cho xử lý hình ảnh
  • Tôi đã dùng Blender hơn 7 năm, để lại hơn 1000 câu trả lời trên Blender Stack Exchange và có khoảng 48.000 điểm. Tôi không rõ công cụ Blender dựa trên AI này có ổn để học Python, đặc biệt là những kiến thức cơ bản về Blender Python API hay không, nhưng trên thực tế tôi không thấy nó cần thiết lắm. Những tác vụ được đưa ra làm ví dụ đều là các việc thật sự rất dễ trong Blender, và dùng những công cụ này thì kết quả chỉ là các sản phẩm nhàn nhạt được bẻ theo prompt đầu vào. Model hóa cơ bản là thứ bạn có thể học trong một ngày qua tutorial rồi tự làm, và điểm lớn là những mô hình như vậy phản ánh được sự sáng tạo của riêng mình. Sau khoảng một tuần thì bạn có thể tự làm nhanh hơn so với việc gõ prompt cho AI, và kỹ năng cũng tăng dần theo thời gian. Học được từ AI là không nhiều. meshy.ai ổn khi biến ảnh hoặc bản render thành mesh và gắn texture tương đối phù hợp, nhưng sau đó có lẽ chỉ hợp với những người yếu phần sculpt. Nhân tiện, tôi đã tổng hợp kết quả thử meshy.ai ở đây
    • Tôi có làm theo tutorial Blender vài ngày nhưng vẫn không thể đạt mức như ví dụ. Có vẻ bạn đang phóng chiếu quá nhiều từ năng lực của bản thân. Tôi không phải nghệ sĩ 3D model, chỉ là người cần mô hình 3D, nên công nghệ kiểu này thật sự rất hữu ích
    • Tôi cũng là người chơi Houdini như một sở thích, và dù có thể làm một mô hình đơn lẻ có tham số trong vài ngày, để tạo một video ngắn hoặc cả một scene hoàn chỉnh thì cần tới hàng trăm tới hàng nghìn mô hình, texture, rigging, animation, thậm chí cả simulation nữa. Ngay cả một đoạn hoạt hình dài 2 phút cũng gần như bất khả thi với một nghệ sĩ solo. Phần lớn mọi người mua các gói asset rồi ghép lại, nhưng như vậy thì tác phẩm của mình bị lệ thuộc vào phong cách của các gói đó. Những công cụ AI như thế này giúp giảm mạnh ít nhất một hai công đoạn trong quy trình đó, từ đó mở rộng phạm vi những gì một người có thể tự làm
    • Tôi là nhà phát triển công cụ hỗ trợ khách hàng bằng AI đồng thời cũng là designer, và tôi thấy mình cứ phải giải thích với công ty rằng LLM thiếu khả năng dẫn dắt hội thoại và sự sáng tạo. Tôi muốn họ tập trung hơn vào hướng tích hợp AI vào công cụ để tăng tốc các tác vụ lặp lại thay vì chỉ làm một chức năng đơn lẻ. Ví dụ như tính năng tự động hóa ràng buộc bằng AI của Fusion360 mới thật sự nâng năng suất. Với Blender cũng vậy, những công cụ theo hướng này (ví dụ: tự động nối material) thấy thú vị hơn nhiều
    • Nếu là người dùng không muốn học Blender hàng tuần liền, thì chỉ cần bỏ ra vài tiếng mà đã có thể có kết quả đủ dùng là hiệu quả nhất rồi
    • Cần nhớ rằng hôm nay chính là thời điểm tệ nhất của công cụ này. Về sau nó sẽ ngày càng tốt hơn, nên các lĩnh vực ứng dụng của LLM mới chỉ là khởi đầu
  • Đây là hướng mà tôi đã nhấn mạnh với bạn bè từ lâu. Trong tương lai, phần mềm sáng tạo lấy API làm trung tâm sẽ chiến thắng. After Effects cung cấp JS API khá ổn, còn Da Vinci Resolve có thể tự động hóa bằng nhiều loại script như Python, Lua, v.v. Trong quá trình scripting, việc rollback transaction cũng được hỗ trợ tốt. Nhu cầu về một MCP mang tính phổ quát cho môi trường scripting của đa số ứng dụng desktop đang ngày càng lớn. Đồng thời cũng cần có screen capture liên kết với đầu vào đa phương thức
  • Gần đây tôi thử viết cùng Claude một script Lua tự động hóa để tạo nhân vật sinh thủ tục bằng Aseprite (trình chỉnh sửa pixel). Có thể tái tạo kết quả bằng seed value, và đại khái cũng ra hình người, nhưng xét theo tiêu chuẩn chất lượng thì vẫn còn rất xa. Dù vậy, nó rất dễ tiếp cận và dùng rất vui.
    • Nếu thấy chủ đề này thú vị thì cũng đáng tham khảo pixellab.ai. Họ đang làm một plugin Aseprite có thể tạo ảnh sprite khá ổn chỉ bằng prompt
    • Tôi cũng đang tiếp tục tìm AI pixel art tốt. Phần lớn công cụ tôi từng dùng chỉ ở mức tạm ổn chứ không thật sự ấn tượng. Nếu ai có trải nghiệm tốt thì tôi rất muốn xin link gợi ý
  • Trước khi chê chất lượng của các mô hình 3D, hãy nhớ lại Dancing Baby ngày xưa và hoạt hình Pixar thời kỳ đầu, đây là một bước tiến cực kỳ đáng kinh ngạc. Tôi rất mong tới thời điểm chỉ cần đưa prompt cho LLM là sẽ có ra một mô hình 3D gần như hoàn chỉnh, và tôi chỉ cần làm texture, baking hoặc export nữa thôi
    • Tôi cũng mong sớm tới thời đại mà dữ liệu thực nghiệm do nhân loại tích lũy qua hàng nghìn tỷ giờ được tổng hợp thành các mô hình thống kê, để rồi các công ty kiếm tiền từ đó mà không trả nổi 1 xu cho những người thật sự làm nên khả năng đó
    • LLM là mô hình ngôn ngữ, còn dữ liệu mesh không phải ngôn ngữ. Về mặt lý thuyết nó có thể tạo ra mesh đơn giản bằng Python, nhưng không ai làm nghệ thuật 3D đẹp thực sự theo cách này cả. Cũng như vector art không được làm bằng cách tự tay viết mã SVG, chỉ riêng LLM thì khó mà tạo ra nghệ thuật thị giác. LLM có thể được dùng làm giao diện cho các mô hình khác, nhưng bản thân nó không thể tự tạo ra mọi thứ
  • Việc trí thông minh không gian của LLM gần đây cải thiện rất nhiều là điều đáng khích lệ. Chỉ một năm trước thôi, ngay cả khi bảo nó viết câu chuyện với các khái niệm vị trí như trên-dưới, trái-phải, trước-sau thì nó cũng nhầm lẫn hoàn toàn và không phân biệt được đúng. Tôi hỏi GPT phần mềm CAD nào thích hợp nhất để scripting thì nó trả lời là Freecad. Blender là công cụ được xếp vào nhóm modeler hơn là CAD, ví dụ như không thể đo đạc chính xác. API của Freecad thì cấu trúc chưa được tổ chức tốt nên GPT không nhớ được các hàm liên quan hoặc không tìm ra chúng giỏi. Blender có nhiều người dùng và nhiều đoạn mã được chia sẻ hơn nên hoạt động tốt hơn hẳn
    • Không biết OpenSCAD thì thế nào
    • Tôi tò mò không biết có thể viết script để tự động hóa các tác vụ đo đạc trong CAD hay không
  • Tôi đã nhiều lần thử dùng Blender rồi bỏ cuộc. Giờ tôi chỉ dùng Blender khi làm tiêu đề animation trong Openshot. Mọi cách giúp dùng các công cụ nâng cao dễ hơn đều luôn được hoan nghênh
  • Tôi cho rằng các mô hình lớn dựa trên token sẽ xuất hiện cho mọi thứ. Vì mọi dữ liệu trên đời đều có thể được token hóa. Không nhất thiết phải luôn đi qua ngôn ngữ, và AI sẽ dần dần có thể xử lý dữ liệu hình học một cách trôi chảy hơn
    • Sự khó chịu với dữ liệu do AI tạo ra phần lớn bắt nguồn từ tính giới hạn trong ngôn ngữ. Vì thế mà đầu vào thực sự sáng tạo không được phản ánh
    • Cũng như word2vec từng tạo ra một đột phá lớn, các mô hình 3D về bản chất cũng có thể được biểu diễn trong không gian vector
  • Điều quan trọng ở đây là quy trình làm việc agent. Khi khả năng hiểu thế giới 3D của LLM tiếp tục được cải thiện, nó sẽ hữu ích trong nhiều tình huống khác nhau. Nó cũng hữu dụng để chạy nền và tự tìm ra vấn đề mà không cần con người can thiệp, như kiểm tra lỗi ở cấp độ chuyên gia, đưa ra gợi ý, trợ giúp popup, v.v. Khả năng điều khiển những thứ này theo cách lập trình được cũng sẽ ngày càng có giá trị hơn
  • Tôi không phải modeler, nhưng trong quá trình tự phát triển game 3D, tôi đã thử vài lần. Với tôi, việc model hóa là nỗi khổ bắt buộc phải làm. Nếu có công cụ như thế này, tôi sẽ dùng nó để nhanh chóng tạo các mô hình nền siêu low-poly cho dự án indie, rồi lấy đó làm cơ sở để tự tay tinh chỉnh chi tiết hơn. Với tôi, tiết kiệm thời gian có giá trị hơn là chất lượng quá cao