3 điểm bởi GN⁺ 2025-01-23 | 1 bình luận | Chia sẻ qua WhatsApp
  • Hunyuan3D 2.0 là một hệ thống tổng hợp 3D quy mô lớn để tạo asset 3D có texture độ phân giải cao
  • Hai thành phần chính:
    • Hunyuan3D-DiT: mô hình tạo hình dạng quy mô lớn, được xây dựng trên fusion transformer khuếch tán dựa trên dòng chảy có thể mở rộng, cung cấp nền tảng ổn định bằng cách tạo hình học được căn chỉnh với ảnh điều kiện cụ thể
    • Hunyuan3D-Paint: tận dụng mạnh mẽ kiến thức tiên nghiệm về hình học và khuếch tán để tạo các texture map độ phân giải cao, sống động cho mesh được sinh ra hoặc mesh thủ công
  • Hunyuan3D-Studio là một nền tảng giúp đơn giản hóa quy trình tái tạo asset 3D, cho phép cả chuyên gia lẫn người mới có thể thao tác hoặc tạo hoạt ảnh cho mesh một cách hiệu quả
  • Hunyuan3D 2.0 cho thấy hiệu năng vượt trội so với các mô hình mã nguồn mở và mô hình đóng hiện có: chi tiết hình học, độ căn chỉnh theo điều kiện, chất lượng texture, v.v.

Hunyuan3D 2.0

Kiến trúc

  • Pipeline tạo sinh gồm hai giai đoạn: tạo mesh rồi tổng hợp texture map
  • Tách riêng độ khó của việc tạo hình dạng và texture, đồng thời cung cấp khả năng texturing linh hoạt cho mesh được sinh ra hoặc mesh thủ công

Hiệu năng

  • Hunyuan3D 2.0 cho thấy hiệu năng vượt trội khi so sánh với các phương pháp tạo 3D mã nguồn mở và đóng khác
  • Vượt tất cả các mốc đánh giá ở CMMD, FID_CLIP, FID và CLIP-score

Mô hình tiền huấn luyện

  • Hunyuan3D-DiT-v2-0: 2025-01-21, 2.6B tham số
  • Hunyuan3D-Paint-v2-0: 2025-01-21, 1.3B tham số
  • Hunyuan3D-Delight-v2-0: 2025-01-21, 1.3B tham số

Cách dùng API

  • Thiết kế API tương tự diffusers để sử dụng các mô hình Hunyuan3D-DiT và Hunyuan3D-Paint
  • Có thể tạo mesh thông qua Hunyuan3D-DiT
  • Có thể tổng hợp texture thông qua Hunyuan3D-Paint

Ứng dụng Gradio

  • Có thể host trên máy tính cá nhân thông qua ứng dụng Gradio

📑 Kế hoạch mã nguồn mở

  • Bao gồm mã suy luận, checkpoint mô hình, báo cáo kỹ thuật, ComfyUI, phiên bản TensorRT

1 bình luận

 
GN⁺ 2025-01-23
Ý kiến trên Hacker News
  • Có thảo luận, trong các câu hỏi liên quan đến mô hình lưới 3D, về việc liệu có mô hình nào phù hợp cho photogrammetry hay không. Dù đã dùng ảnh chất lượng cao, ánh sáng nhất quán và nền đơn sắc, các ứng dụng thông thường vẫn tạo ra lưới có ít polygon hoặc nhiều lỗ.

  • Có ý kiến cho rằng AI tạo sinh sẽ đưa chi phí cận biên của việc tạo nội dung tương tác 3D về 0. Điều này có tiềm năng thúc đẩy metaverse.

  • Giấy phép của Tencent Hunyuan 3D 2.0 không áp dụng tại Liên minh châu Âu, Vương quốc Anh và Hàn Quốc.

  • Có ý kiến rằng dù có sơ đồ cho thấy lưới được tạo bằng thuật toán marching cubes, trên thực tế có vẻ nó được tạo theo cách khác.

  • Có câu hỏi về việc liệu có thể chạy mô hình AI này tại nhà hay không. Ví dụ, có thảo luận về việc liệu nó có chạy được trên card đồ họa 4090 hay không.

  • Có ý kiến rằng thứ gì có chứa từ "nâng cao" thì là tốt.

  • Hệ thống nội dung do người dùng tạo có thể gặp phải vấn đề gọi là "vấn đề dương vật".

  • Có ý kiến rằng nên tin các mô hình tạo sinh nhưng vẫn phải kiểm chứng. Việc tự mình thử là rất quan trọng.

  • Có người đã thử mô hình được liên kết trên trang Huggingface, nhưng không thể kiểm tra do lỗi dùng quá mức. Kết quả trông khá ổn.

  • Có vẻ cần prompt dài, điều này có thể làm dấy lên nghi ngờ. Có người đã thử bằng prompt đơn giản để xem việc sử dụng thực tế khó đến mức nào.

  • Kết quả với prompt "guitar" cho ra một cây đàn hơi dày, còn prompt "lá monstera" cho ra hình dạng hơi kỳ lạ.

  • Kết quả với prompt nhân vật "Super Mario" khá đáng ngờ. Luigi lẽ ra phải trông khác Mario, nhưng lại không như vậy.

  • Kết quả với prompt "peach" gây bật cười. Nó hiện ra như một quả đào có khuôn mặt dễ thương.

  • Kết quả với prompt "Toad" trông giống một Squirtle bị biến dạng.

  • Có thể xem bài báo trên arXiv. Mô hình tạo sinh được huấn luyện trên lượng dữ liệu lớn và có thể cần một giao diện giống cơ sở dữ liệu.

  • Có thể hình dung ra một mô hình được điều chỉnh cho các vật thể chức năng phục vụ in 3D.