Mô hình sinh biết những gì? Có thật sự biết không?

(intrinsic-lora.github.io)

1 điểm bởi GN⁺ 2024-02-25 | 1 bình luận | Chia sẻ qua WhatsApp

Các thuộc tính nội tại của cảnh như độ sâu, pháp tuyến, albedo, shading có thể được ngầm chứa bên trong các mô hình GAN, tự hồi quy và Diffusion vốn tạo ra cảnh thực một cách thuyết phục
Phương pháp được đề xuất dùng LoRA, ít phụ thuộc vào cấu trúc mô hình hơn, để khôi phục intrinsic representation bằng cách tận dụng nguyên xi decoder sinh ảnh hiện có
VQGAN và Stable Diffusion gắn LoRA nhẹ vào attention layer, còn StyleGAN gắn vào affine layer, để thu được intrinsic image mà không cần decoding head riêng theo từng tác vụ
Với Stable Diffusion, ở rank 2 chỉ cần thêm tham số có thể huấn luyện tương đương 0,04% tổng trọng số mô hình, và vẫn có thể tạo intrinsic image chỉ với 250 ảnh có nhãn
Trong các thí nghiệm kiểm soát, chất lượng mô hình sinh càng cao thì độ chính xác của các thuộc tính nội tại cảnh được khôi phục cũng có xu hướng cao hơn, nhưng khả năng trích xuất thay đổi tùy theo mô hình và miền dữ liệu

Câu hỏi nghiên cứu và cách tiếp cận LoRA

Xuất phát từ câu hỏi: nếu mô hình sinh mô phỏng cảnh thực tốt, thì biểu diễn bên trong của nó cũng có thể chứa thuộc tính nội tại của cảnh (scene intrinsic)
Nghiên cứu muốn kiểm chứng bốn điểm
- Các mô hình GAN, Autoregressive và Diffusion mã hóa loại intrinsic knowledge nào
- Có thể xây dựng một framework tổng quát để khôi phục intrinsic representation bất kể kiến trúc hay loại mô hình hay không
- Có thể cần ít tham số huấn luyện và dữ liệu có nhãn đến mức nào
- Có mối liên hệ trực tiếp giữa chất lượng mô hình sinh và độ chính xác intrinsic được khôi phục hay không
Trọng tâm của phương pháp là Low-Rank Adaptation(LoRA)
- Áp dụng LoRA vào attention layer với VQGAN và Stable Diffusion
- Áp dụng LoRA vào affine layer với StyleGAN
- Không thêm task-specific decoding head hay layer riêng, mà dùng chính decoder head được dùng để sinh ảnh
Tài liệu liên quan

Kết quả khôi phục và khác biệt theo từng mô hình

Chỉ với một LoRA nhỏ, có thể khôi phục depth, normals, albedo, shading từ nhiều mô hình sinh khác nhau
Với Stable Diffusion, ở rank 2, số tham số có thể huấn luyện giảm xuống chỉ còn 0,04% tổng trọng số mô hình
Chỉ cần 250 ảnh có nhãn cũng có thể tạo intrinsic image thông qua module LoRA
Trong các thí nghiệm kiểm soát, đã xác nhận tương quan dương giữa chất lượng mô hình và độ chính xác intrinsic được khôi phục
Kết quả trích xuất intrinsic khác nhau tùy theo mô hình và miền dữ liệu
- VQGAN / Autoregressive / FFHQ: normal·depth ở chất lượng trung bình, albedo·shading ở chất lượng cao
- StyleGAN-v2 / GAN / FFHQ: normal·albedo·shading ở chất lượng cao, depth ở chất lượng trung bình
- StyleGAN-v2 / GAN / LSUN Bed: normal·depth·albedo·shading đều ở chất lượng cao
- StyleGAN-XL / GAN / FFHQ: normal·albedo·shading ở chất lượng cao, depth ở chất lượng trung bình
- StyleGAN-XL / GAN / ImageNet: không thể trích xuất normal·depth·albedo·shading
- Stable Diffusion-UNet / Diffusion / Open: normal·depth·albedo·shading đều ở chất lượng cao
- Stable Diffusion / Diffusion / Open: normal·depth·albedo·shading đều ở chất lượng cao
Intrinsic map từ phương pháp mở rộng Stable Diffusion 2.1 được so sánh với pseudo ground truth; các hạng mục so sánh là surface normals, depth, albedo, shading

1 bình luận

GN⁺ 2024-02-25

Các ý kiến trên Hacker News

Một trong những lý do kỳ vọng dành cho Sora lớn đến vậy là vì khi xem một số video, có cảm giác bên trong đang chạy một mô phỏng thế giới vật lý, còn video thì như được quay bằng camera từ cảnh 3D đó
Có trực giác rằng phía sau đang diễn ra nhiều thứ hơn rất nhiều so với việc chỉ ghép các mảnh video khác nhau lại với nhau, và bài báo này trông như bằng chứng cho điều đó
Ngay cả ở các trình tạo ảnh tĩnh, cũng lộ ra rằng mô hình về cơ bản học cách render một cảnh 3D rồi chụp ảnh. Không phải người ta định tạo một engine 3D, mà chỉ đưa một đống ảnh vào đại số tuyến tính và tối ưu hóa, vậy mà một trình mô phỏng thế giới lại xuất hiện, điều đó thật đáng kinh ngạc
- Con người sống trong thế giới 3D, và dữ liệu học cũng là một luồng thị giác hai mắt liên tục nhìn cùng một cảnh từ nhiều góc độ. Trong khi đó Sora có thể nói là đã học thế giới bằng cách xem TV, nên để học biểu diễn ngầm và render cảnh 3D, có lẽ nó cần chơi nhiều video game hơn
- Thật ngạc nhiên là đến giờ vẫn có người nghĩ thực chất nó chỉ dán các đoạn video lại với nhau
- Câu “không phải định tạo một engine 3D, mà ném các ảnh vào đại số tuyến tính rồi tối ưu hóa thì một trình mô phỏng thế giới xuất hiện” nghe giống như điều mà tiến hóa được nhân cách hóa có thể nói về tâm trí
- Ngay cả trong video do nhà sản xuất chọn cũng có cảnh một con mèo mọc chân thứ năm rồi nhanh chóng biến mất, nên tôi tự hỏi hiện tượng như vậy khớp thế nào với câu chuyện lạc quan này
- Mạng nơ-ron không phải là đại số tuyến tính. Nếu xem phần lớn hiện nay dùng hàm kích hoạt ReLU, thì cốt lõi của mạng nơ-ron là cấu trúc nửa tuyến tính, và chính tính tuyến tính một nửa đó tạo ra sức mạnh
Tên này lấy từ gameshow hư cấu trong Bojack Horseman, Hollywoo Stars and Celebrities: What Do They Know? Do They Know Things?? Let's Find Out!
https://bojackhorseman.fandom.com/wiki/Hollywoo_Stars_and_Ce...!
- Tôi thật sự rất thích show đó nên còn dán sticker lên laptop. Nếu chưa xem Bojack Horseman, đây là một tác phẩm vừa hài hước vừa chân thành, rất đậm chất hiện sinh; nếu hợp gu thì rất đáng xem
  Xét như một gói hoạt hình hoàn chỉnh, tôi thấy nó tốt hơn Futurama rất nhiều. Có nhiều chiều sâu dễ đồng cảm và đánh khá mạnh, nhưng vẫn giữ đủ nhẹ nhàng để xem xong vẫn thấy ổn
  Giờ tôi làm trong mảng filmtech nên sticker Hollywoo lại càng hợp hơn
- Tôi upvote bài này chỉ vì nhìn thấy tiêu đề
- Tôi khá hay trích dẫn tên gameshow cụ thể này, nhưng không nhiều người hiểu, nên tiếc là trông tôi chỉ như một kẻ kỳ quặc
- Trong show họ cứ gọi nó là HSaCWDTKDTKTLFO cũng buồn cười. Việc đọc từng chữ của cả một acronym dài như thể đó là một acronym ngắn có lẽ là trò đùa lặp lại tôi thích nhất trong show này
- Cảm giác như đã tìm được người cùng hội. Tôi đã xem show này khoảng 6 lần
Tôi nhớ lại lúc từng thử trích xuất G-buffer trong dự án thử nghiệm Unity High Definition Rendering Pipeline: https://www.youtube.com/watch?v=Fwtc694qNUM
Tuy vậy, tôi không chắc bài báo này thật sự chứng minh được điều gì. Ở đây họ đang huấn luyện một mô hình UNet LoRA khổng lồ, nên không rõ là họ đang “trích xuất” thứ gì đó từ mô hình hiện có, hay đang tạo một mô hình mới sinh ra các kênh kiểu như có trong pipeline deferred rendering
Deferred rendering kết hợp normal, albedo và depth chỉ là một trong nhiều kỹ thuật để tạo cảnh 3D, và ngay cả trong video game thì nó cũng chưa được dùng cho đến trước game Shrek trên Xbox đầu thập niên 2000 (https://sites.google.com/site/richgel99/the-early-history-of...)
Điều thật sự thú vị có lẽ sẽ là một mô hình LoRA có thể trích xuất ma trận xoay và tịnh tiến của “camera” từ mô hình tạo ảnh. Như vậy sẽ là bằng chứng mạnh hơn nhiều, đồng thời có vẻ cũng khá hữu ích
- Nhìn vào tài liệu bổ sung thì có một thí nghiệm huấn luyện LoRA với UNet được khởi tạo ngẫu nhiên. Trong trường hợp đó, khác với khi dùng Stable Diffusion UNet đã được tiền huấn luyện, nó hầu như không trích xuất được normal bề mặt, nên khá rõ là các đặc trưng sẵn có trong mô hình rất quan trọng đối với hiệu năng
- Tôi không rành lắm, nhưng có lẽ phần “các tham số mới được huấn luyện chiếm chưa đến 0,6% tổng số tham số của mô hình tạo sinh” trả lời cho thắc mắc đó chăng
  0,6% nghe có vẻ là con số nhỏ, nhưng tôi vẫn băn khoăn liệu đó có phải thứ cần đo hay không. Không nhất thiết mô hình phải mã hóa đúng chính xác biểu diễn mà ta trích xuất, nhưng nếu xét theo kích thước mô hình, nó đã mã hóa một thứ gì đó có thể ánh xạ rẻ và ổn định sang normal, albedo, depth thì chỉ riêng điều đó cũng đã rất có ý nghĩa
  Dùng vector cơ sở nào không quan trọng; chỉ cần biết cách ánh xạ nó sang biểu diễn của tôi là được
Tôi đã đọc lướt bài báo nhưng nhiều phần khá khó. Từ góc nhìn một người không quen với AI tạo ảnh, tôi muốn biết chính xác câu có vẻ then chốt “I-LoRA modulates key feature maps to extract intrinsic scene properties such as normals, depth, albedo, and shading, using the models' existing decoders without additional layers, revealing their deep understanding of scene intrinsics” nghĩa là gì
Tôi muốn hiểu “điều biến các bản đồ đặc trưng then chốt để trích xuất thuộc tính nội tại của cảnh” có nghĩa là gì, và họ đã tạo ra các ảnh thuộc tính cảnh như vậy mà không cần thêm lớp giải mã ra sao
- Giả sử có một mạng nơ-ron 1 tỷ tham số, họ thêm khoảng 5 triệu tham số vào đây đó, rồi theo kiểu LoRA chỉ tiếp tục huấn luyện các tham số mới, còn mạng nền thì không đụng tới. Khi đó nó trở thành một mạng đã được điều biến để dự đoán thuộc tính cảnh
  Điểm thú vị là số tham số thêm vào rất ít, nên có vẻ mạng gốc vốn đã khá gần với điểm đó rồi
Tôi không biết vì sao Toyota hay Adobe lại tài trợ cho một nghiên cứu có cái tên như thế này, nhưng tôi thật sự thích nó. Mong rằng tính nghịch ngợm sẽ quay trở lại với khoa học một chút
Thực tế hơn, khi đọc mô tả rằng “một phương pháp không phụ thuộc mô hình, được tối ưu hóa với số lượng nhỏ ảnh có nhãn, có thể thích nghi với nhiều kiến trúc sinh khác nhau như mô hình Diffusion, GAN, mô hình Autoregressive”, tôi tự hỏi liệu đây có thuần túy là một công cụ thị giác-không gian không
Các ví dụ chỉ tình cờ là về thị giác thôi, hay không có cách nào mở rộng sang mô hình văn bản? Đây là lần đầu tôi thấy một cách tiếp cận về khả năng diễn giải như vậy, và nó rất ấn tượng
- Cũng có nghiên cứu về chỉnh sửa thông tin thực tế trong mô hình ngôn ngữ. https://rome.baulab.info/
- Bạn thật sự không hiểu vì sao Toyota hay Adobe tài trợ cho nghiên cứu thị giác máy tính à?
- Đây là tham chiếu Bojack Horseman mà chúng ta không biết là mình cần
Khá đáng kinh ngạc. Những mô hình này không chỉ làm ảo thuật trên những siêu phẳng hàng tỷ chiều không thể giải mã, mà thực sự đang học các biểu diễn con người có thể diễn giải được
- Từ góc nhìn của một kỹ sư đồ họa 3D lâu năm, việc bên trong đó có albedo vừa có thể đoán trước vừa thật sự ấn tượng
  Các thành phần cốt lõi của kết xuất dựa trên vật lý là vị trí, pháp tuyến bề mặt, ánh sáng tới, và ít nhất một trong các thuộc tính vật liệu bề mặt như albedo, độ phản xạ và độ nhám. Vị trí có thể được suy ra từ XY của ảnh và độ sâu
  Việc AI mô hình hóa độ sâu là khá dễ đoán, và pháp tuyến bề mặt có thể được xem như một tích chập cục bộ của độ sâu. Nhưng việc mô hình hóa albedo tách biệt với ánh sáng tới thì rất tuyệt. Tôi tự hỏi liệu độ phản xạ có đang ẩn đâu đó không
- Dù có nhiều bằng chứng rằng mô hình sinh có một mô hình thế giới nội tại khá phức tạp, vẫn thật đáng ngạc nhiên khi có người cứ khăng khăng rằng chúng chỉ là “con vẹt ngẫu nhiên” và “không thật sự hiểu gì cả”
Đây là tin tốt cho VR, hoặc điện toán không gian. Nếu mô hình hiểu thế giới vật lý như bài báo cho thấy, thì việc tạo hai phép chiếu từ một cảnh nghe không phải là yêu cầu quá khó. Thật sự rất đáng mong chờ tương lai
Nếu thứ này có thể dự đoán albedo và chiếu sáng từ ảnh thật, tôi mong ai đó sẽ tạo ra các cảnh Gaussian splatting có thể tái chiếu sáng. Chiếu sáng động sẽ mở rộng đáng kể mức độ hữu dụng của các bản quét 3D tạo từ ảnh, nhưng tôi vẫn chưa thấy kết quả nào trong lĩnh vực đó có thể gọi là “tốt”
- Có chắc là dùng được ảnh thật không? Nếu được, có lẽ ứng dụng hữu ích nhất sẽ là trích xuất bản đồ độ sâu từ ảnh thật
Không phải tôi muốn tỏ ra hoài nghi, nhưng tôi tự hỏi làm sao biết được các công ty tạo ảnh đã không đưa những thứ như normal map vào dataset để tăng cường huấn luyện
Tôi hiểu bài báo này xử lý các mô hình mã nguồn mở có thể kiểm chứng, nhưng liệu bí kíp riêng của các mô hình tiên tiến hơn có thể là những thứ như vậy không?
- Muốn vậy thì phải huấn luyện với các cặp ảnh normal map và ảnh gốc. Theo tôi biết, đó không phải là kỹ thuật huấn luyện phổ biến, và năng lực này dường như xuất hiện trên nhiều mô hình mở khác nhau
Sẽ rất thú vị nếu kiểm tra xem năng lực tri giác của mô hình sinh có tốt hơn con người hay không bằng các ảo giác thị giác đánh lừa con người. Ví dụ, tôi tò mò liệu trong các tình huống như ảo giác Ponzo, nó có phán đoán đúng độ sâu hay không

Mô hình sinh biết những gì? Có thật sự biết không?

Câu hỏi nghiên cứu và cách tiếp cận LoRA

Kết quả khôi phục và khác biệt theo từng mô hình

Bài viết liên quan

1 bình luận

Các ý kiến trên Hacker News