Stable Fast 3D - Tạo nhanh tài sản 3D từ một hình ảnh

(stability.ai)

3 điểm bởi GN⁺ 2024-08-02 | 1 bình luận | Chia sẻ qua WhatsApp

Tạo tài sản 3D chất lượng cao chỉ trong 0,5 giây từ một hình ảnh duy nhất
Được xây dựng dựa trên TripoSR, nổi bật với các cải tiến lớn về kiến trúc và tính năng nâng cao
Có thể ứng dụng không chỉ cho nhà phát triển game và thực tế ảo mà còn cho các chuyên gia trong bán lẻ, kiến trúc, thiết kế và các nghề nghiệp khác thiên về đồ họa
Mô hình được cung cấp trên Hugging Face và được phát hành theo Stability AI Community License
Có thể dễ dàng truy cập mô hình trong Stability AI API và chatbot Stable Assistant, đồng thời chia sẻ sản phẩm 3D bằng trình xem 3D và thử dùng trong thực tế tăng cường
Có thể dùng thử bằng bản dùng thử miễn phí

Cách hoạt động

Người dùng bắt đầu bằng cách tải lên một hình ảnh duy nhất của đối tượng
Stable Fast 3D nhanh chóng tạo ra một tài sản 3D hoàn chỉnh, bao gồm UV unwrapped mesh, các tham số vật liệu và màu albedo đã giảm ảnh hưởng ánh sáng
Có thể tùy chọn thực hiện tái dựng bằng quad hoặc tam giác, chỉ làm tăng thêm 100-200ms thời gian xử lý

Trường hợp sử dụng

Tận dụng thời gian suy luận nhanh khi việc thử nghiệm là then chốt trong giai đoạn tiền sản xuất
Tài sản tĩnh cho game (đối tượng nền, đồ linh tinh, nội thất)
Mô hình 3D cho thương mại điện tử
Tạo mô hình nhanh cho AR/VR

Khi tốc độ gặp chất lượng

Vượt trội hơn đối thủ ở nhiều hạng mục hiệu năng cốt lõi
Tốc độ nhanh 0,5 giây cho mỗi lần tạo tài sản 3D trên GPU có 7GB VRAM
UV unwrapped mesh và tham số vật liệu chất lượng cao
Giảm sự đan xen ánh sáng trong texture
Có thể tạo thêm các tham số vật liệu và normal map

Nghiên cứu và phát triển

Dựa trên TripoSR nhưng là mô hình được huấn luyện lại hoàn toàn và có các thay đổi kiến trúc quan trọng
Các cải tiến bao gồm tạo mesh tường minh và kỹ thuật mới để tạo texture mesh nhanh
Báo cáo kỹ thuật nhấn mạnh cách đạt được tốc độ suy luận nhanh với ánh sáng baked giảm bớt và các tham số vật liệu

Khả dụng

Mã mô hình Stable Fast 3D có trên Github và Hugging Face
Theo Stability AI Community License, cho phép sử dụng phi thương mại và sử dụng thương mại với doanh thu hằng năm tối đa $1M
Có thể truy cập mô hình qua API và Stable Assistant

Ý kiến của GN⁺

Công nghệ tạo mô hình 3D này là một công nghệ thú vị vì có thể được ứng dụng trong nhiều lĩnh vực như game, thực tế ảo/tăng cường, thiết kế, kiến trúc. Đặc biệt, việc nhanh chóng tạo ra tài sản 3D chất lượng cao từ một hình ảnh duy nhất sẽ giúp nâng cao năng suất.
Tuy nhiên, khi các mô hình dựa trên AI như thế này trở nên phổ biến, chúng có thể ảnh hưởng đến việc làm của lực lượng chuyên môn như nhà thiết kế đồ họa hay modeler. Lý do là các tài sản 3D vốn được tạo thủ công có thể bị tự động hóa. Dù AI khó có thể thay thế hoàn toàn con người, việc thu hẹp một phần vai trò có vẻ là điều khó tránh khỏi.
Ngoài ra, vấn đề bản quyền của các mô hình 3D được tạo ra cũng cần được cân nhắc. Cần có đền bù hoặc ghi công phù hợp cho các hình ảnh đã được dùng trong quá trình huấn luyện. Có vẻ cần xây dựng các quy định pháp lý và hướng dẫn đối với sản phẩm do AI tạo ra.
Các công nghệ tương tự gồm có Nvidia Instant Nerf và RealityScan của Epic Games. Chúng cung cấp khả năng tạo mô hình 3D từ ảnh hoặc dữ liệu quét. Ưu điểm là khả năng tương thích cao với game engine. Tuy nhiên, có vẻ chúng vẫn chưa đạt được tốc độ cho ra kết quả chất lượng cao từ một hình ảnh duy nhất như Stable Fast 3D.
Tóm lại, Stable Fast 3D có vẻ sẽ góp phần nâng cao năng suất trong lĩnh vực đồ họa 3D như game và XR nhờ tốc độ nhanh và chất lượng tốt. Tuy vậy, vẫn cần một quá trình tìm kiếm đồng thuận xã hội về các vấn đề đạo đức và pháp lý.

1 bình luận

GN⁺ 2024-08-02

Ý kiến Hacker News

Bất chấp rất nhiều kỳ vọng dành cho LLM, khả năng cao mảng tạo ảnh và tài sản đồ họa mới là bên chiến thắng dài hạn của AI hiện tại
- "Hallucination" không phải lỗi mà là một tính năng
- Có thể dễ dàng thấy các đầu ra phi thực tế và thiên lệch mà không cần các bài kiểm định thống kê phức tạp
- Trực giác của con người hữu ích trong việc đánh giá, và không bị thổi phồng như với các mô hình tạo văn bản
- Các phương pháp có mất mát hoặc nhiễu vẫn có thể hữu ích cho nhiều công việc sáng tạo khác nhau
- Không cần sự hoàn hảo, và có thể dễ dàng nhìn ra rồi cải thiện các đặc điểm bị méo
- Không cần tính nhất quán, nhưng nếu có được tính nhất quán thì nó có thể mang lại giá trị lớn cho các ứng dụng như video
- Các kỹ thuật như LoRA cho phép ngay cả người dùng không chuyên cũng có thể dễ dàng huấn luyện mô hình cho nhân vật, phong cách hoặc khái niệm cụ thể
- Các mô hình tạo ảnh/hình ảnh đã cải thiện mạnh trong 1 năm qua, và tốc độ cải thiện không hề chậm hơn mô hình văn bản
- Tương lai sẽ là một thế hệ công cụ mạnh mẽ dựa trên AI, chứ không phải sự thay thế hoàn toàn các nhiếp ảnh gia, đạo diễn phim, v.v.
- Những công cụ có thể thêm hoặc xóa khái niệm trong ảnh chỉ bằng vài prompt văn bản là cực kỳ hữu ích
- Một thế hệ người dùng mạnh mẽ mới đang xuất hiện, giống như Photoshop thời thập niên 90
Ở bức ảnh thứ ba được thử nghiệm, tất cả AI 3D đều trông giống như bản render 2D của mô hình 3D
- Đã thử bằng ảnh cel-shading, và đầu ra của mô hình rất phẳng, topology kém
- Có vẻ nó không hiểu được cấu trúc nếu không có bóng đổ chính xác, vì không thể tính lại normal vector
- Có lẽ sẽ tốt hơn nếu nêu rõ bộ đầu vào nào được kỳ vọng sẽ cho ra kết quả phù hợp
Chưa hoàn hảo nhưng khá ngầu
- Có thể dùng như chi tiết trang trí ít tốn công để tăng độ phức tạp cho cảnh chính, thay vì làm tài sản chủ đạo
- Có thể dùng trong những tình huống không phải là billboard impostor 2D
- Có thể tạo ảnh bằng Midjourney, Bing, Dalle3 rồi kéo thả để có được phần trình bày 3D tốt đến mức đáng ngạc nhiên
- Có thể dùng làm vật trang trí trong các cảnh 3D nơi camera không nhìn ra mặt sau
Không thể chờ công nghệ này được cải thiện hơn nữa
- Kết quả thử nghiệm không hữu ích
- Việc sửa một mô hình tệ từ đầu ra hình ảnh đòi hỏi nhiều công hơn
- Có lẽ sẽ tốt hơn nếu đi qua một chuỗi bước để từ từ đạt được sản phẩm cuối chất lượng cao hơn
- Có thể là họ đang bỏ lỡ một trường hợp sử dụng nào đó
Chỉ mất 0,5 giây để tạo tài sản 3D trên GPU với 7GB VRAM
- Tưởng đây sẽ là mô hình chỉ dành cho data center, nhưng 7GB VRAM cho thấy nó có thể chạy trên phần cứng mà nhiều nghệ sĩ 3D đã sở hữu
Rất mong lĩnh vực này thật sự tạo ra được thành quả
- Có thể kéo thả ảnh vào demo trên HuggingFace để thử
- Nó không hoạt động tốt với ảnh mèo, nhưng với ảnh iPhone thì khá ổn
- Kết quả với ảnh bánh pancake rất ấn tượng, còn với ảnh tên lửa thì rất tệ
- Với ảnh bi-a thì lại rất ấn tượng
Dự định sẽ dùng công nghệ này để in 3D rất nhiều thứ thú vị
Có vẻ họ đã dùng chiêu infomercial kinh điển là làm bạc màu ảnh đối chứng để khiến kết quả trông tốt hơn
Có thể tương tác với mô hình trên trang dự án
Nó khơi dậy niềm đam mê với việc sơn mô hình thu nhỏ

Stable Fast 3D - Tạo nhanh tài sản 3D từ một hình ảnh

Cách hoạt động

Trường hợp sử dụng

Khi tốc độ gặp chất lượng

Nghiên cứu và phát triển

Khả dụng

Ý kiến của GN⁺

Bài viết liên quan

1 bình luận

Ý kiến Hacker News