1 điểm bởi GN⁺ 2024-02-25 | 1 bình luận | Chia sẻ qua WhatsApp

Khám phá những năng lực ẩn của INTRINSIC LoRA (I-LoRA)

  • INTRINSIC LoRA (I-LoRA) hé lộ những năng lực ẩn của các mô hình sinh như VQGAN, StyleGAN-XL, StyleGAN-v2 và Stable Diffusion.
  • Phương pháp này sử dụng bộ giải mã sẵn có của mô hình mà không cần thêm lớp nào để trích xuất các thuộc tính nội tại của bề mặt như pháp tuyến, độ sâu, albedo và đổ bóng.

Hiểu biết tiềm ẩn của mô hình sinh

  • Các mô hình sinh có khả năng tổng hợp hình ảnh rất chi tiết và chân thực.
  • Người ta cho rằng các mô hình này ngầm học được những đặc tính nội tại của hình ảnh như pháp tuyến bề mặt, độ sâu hoặc bóng đổ.
  • Bài báo này đưa ra bằng chứng thuyết phục rằng các mô hình sinh thực sự tạo ra nội bộ các bản đồ nội tại của cảnh với chất lượng cao.

Giới thiệu INTRINSIC LoRA (I-LoRA)

  • INTRINSIC LoRA (I-LoRA) giới thiệu một phương pháp phổ quát, kiểu plug-and-play, có thể biến bất kỳ mô hình sinh nào thành bộ dự đoán nội tại của cảnh.
  • Có thể trích xuất trực tiếp các bản đồ nội tại của cảnh từ mạng sinh gốc mà không cần thêm decoder hoặc tinh chỉnh toàn bộ mạng.
  • Phương pháp này tận dụng low-rank adaptation (LoRA) của các feature map cốt lõi bằng các tham số mới chiếm dưới 0,6% tổng số tham số của mô hình sinh.
  • Nó được tối ưu hóa với một lượng nhỏ hình ảnh có gán nhãn và có thể áp dụng cho nhiều kiến trúc sinh khác nhau, bao gồm mô hình Diffusion, GAN và mô hình tự hồi quy.

Tóm tắt khả năng trích xuất nội tại của cảnh trên nhiều mô hình sinh khác nhau

  • Tóm tắt rằng có thể trích xuất các đặc tính nội tại chất lượng cao từ nhiều mô hình sinh khác nhau mà không cần thay đổi head của bộ sinh.
  • ✓: Có thể trích xuất các đặc tính nội tại với chất lượng cao.
  • ~: Có thể trích xuất các đặc tính nội tại với chất lượng trung bình.
  • ✗: Không thể trích xuất các đặc tính nội tại.

So sánh việc tạo bản đồ nội tại bằng I-LoRA

  • Minh họa bằng hình ảnh sự so sánh giữa các bản đồ nội tại được tạo ra bởi phương pháp này với dữ liệu ground truth tương ứng, sử dụng Stable Diffusion 2.1 đã được tăng cường.

Ý kiến của GN⁺

  • INTRINSIC LoRA (I-LoRA) là một cách tiếp cận mang tính đổi mới, mở rộng năng lực tiềm ẩn của các mô hình sinh hiện có lên một tầm mới.
  • Nghiên cứu này cho thấy các mô hình sinh không chỉ dừng ở việc tạo ảnh mà còn hiểu được các đặc tính nội tại của cảnh thực, từ đó mang lại góc nhìn mới về năng lực hiểu thị giác của trí tuệ nhân tạo.
  • Công nghệ này có tiềm năng được ứng dụng trong nhiều lĩnh vực như thị giác máy tính, đồ họa, AR/VR, nên là một bước tiến rất đáng chú ý đối với các nhà nghiên cứu và phát triển trong lĩnh vực này.

1 bình luận

 
GN⁺ 2024-02-25
Ý kiến trên Hacker News
  • Một trong những phản ứng đầy phấn khích về Sora là cảm giác rằng bên trong nó hẳn có một mô phỏng thế giới vật lý. Điều này cho thấy phía sau không chỉ đơn thuần là ghép nối các video khác nhau lại với nhau.

    • Các mô hình học cách kết xuất cảnh 3D và chụp ảnh. Điều đáng ngạc nhiên là chúng ta không hề cố tạo ra một engine 3D, mà chỉ ném hình ảnh vào đại số tuyến tính để tối ưu hóa, vậy mà lại xuất hiện một trình mô phỏng thế giới.
  • Cái tên được lấy từ gameshow hư cấu "Hollywoo Stars and Celebrities: What Do They Know? Do They Know Things?? Let's Find Out!" xuất hiện trong series "Bojack Horseman".

  • Điều này gợi nhớ đến trải nghiệm từng cố trích xuất G-buffer trong dự án thử nghiệm Unity High Definition Rendering Pipeline.

    • Không chắc bài báo này có thực sự đang chứng minh điều gì hay không. Vì một mô hình UNET LoRA khổng lồ đang được huấn luyện, nên không rõ đây là đang “trích xuất” thứ gì đó từ mô hình sẵn có, hay chỉ đơn giản là tạo ra một mô hình mới có thể sinh ra các kênh giống như đầu ra của pipeline deferred rendering.
  • Với tư cách là người không quen thuộc với AI tạo ảnh, tôi đã đọc lướt bài báo nhưng thấy khó hiểu.

    • Bài báo nói rằng I-LoRA dùng bộ giải mã hiện có của mô hình để trích xuất các thuộc tính nội tại của cảnh như normal, depth, albedo và shading mà không cần thêm layer nào; có ai giải thích chính xác điều đó có nghĩa là gì không?
  • Điều này khá đáng chú ý. Các mô hình thực sự đang học được những biểu diễn mà con người có thể hiểu được, chứ không chỉ thực hiện phép màu trong những siêu phẳng hàng tỷ chiều mà chúng ta không thể giải mã.

  • Nghiên cứu này là tin tốt cho VR (hoặc spatial computing). Nếu mô hình hiểu tốt thế giới vật lý, thì việc tạo ra hai phép chiếu của một cảnh có vẻ không quá khó. Tôi rất hào hứng chờ xem điều gì sẽ xuất hiện tiếp theo.

  • Công nghệ này có thể lấy ảnh thật rồi dự đoán albedo và ánh sáng. Có người đề nghị ai đó hãy dùng nó để tạo ra các cảnh Gaussian splatting có thể relight được. Ánh sáng động sẽ mở rộng đáng kể tính hữu dụng của các bản quét 3D tạo từ ảnh, và tôi vẫn chưa thấy kết quả nào có thể gọi là thực sự “tốt”.

  • Đây có phải là GPT dành cho hình ảnh không? Lấy một mô hình sinh rồi áp dụng fine-tuning cho các tác vụ con như surface normal thông qua LoRA, từ đó kết luận rằng các mô hình này vốn đã học được những biểu diễn như vậy. Kết quả cho thấy tốt hơn các cách tiếp cận có giám sát.

  • Không hẳn là hoài nghi, nhưng làm sao biết được rằng normal map và những thứ tương tự không phải đã được các công ty tạo ảnh đưa rất nhiều vào dataset?

    • Bài báo có dẫn tới các mô hình mã nguồn mở để có thể kiểm chứng điều đó, nhưng đây cũng có thể là một thành phần bí mật của các mô hình tiên tiến hơn.
  • Ví dụ, normal map được tạo ra như thế nào? AI có tạo ra chúng trước khi sinh ảnh, rồi sau đó đọc chúng ra từ trạng thái nội bộ của nó không?