1 điểm bởi GN⁺ 2023-12-01 | 1 bình luận | Chia sẻ qua WhatsApp

Tạo ảo giác thị giác đa góc nhìn: nghiên cứu sử dụng mô hình khuếch tán

  • Daniel Geng, Inbum Park và Andrew Owens của Đại học Michigan đã đề xuất một phương pháp mới để tạo ra các ảo giác thị giác đa góc nhìn bằng mô hình khuếch tán.
  • Phương pháp này tạo ra những hình ảnh trông như một hình dạng hay danh tính khác khi bị biến đổi, hỗ trợ nhiều phép biến đổi như xoay, lật, đảo màu, nghiêng, sắp xếp lại trò ghép hình, hoán vị ngẫu nhiên, v.v.
  • Nghiên cứu này chứng minh tính hiệu quả của phương pháp không chỉ về mặt lý thuyết mà còn thông qua các ví dụ thực tế.

Phương pháp luận

  • Phương pháp được sử dụng có ý tưởng đơn giản về mặt khái niệm: dùng một mô hình khuếch tán có sẵn trên thị trường để ước lượng nhiễu ở nhiều góc nhìn hoặc phép biến đổi khác nhau của hình ảnh.
  • Nhiễu được ước lượng sau đó được căn chỉnh bằng cách áp dụng góc nhìn nghịch đảo và lấy trung bình, rồi sử dụng ước lượng nhiễu trung bình này để thực hiện bước khuếch tán.

Điều kiện đối với các góc nhìn

  • Không phải mọi hàm góc nhìn đều tương thích với phương pháp trên; hàm góc nhìn bắt buộc phải khả nghịch.
  • Để hàm góc nhìn duy trì trọng số giữa tín hiệu và nhiễu, nó phải có tính tuyến tính; điều này có thể đạt được thông qua một ma trận vuông A biểu diễn phép biến đổi tuyến tính.
  • Mô hình khuếch tán giả định rằng nhiễu được lấy mẫu độc lập và đồng nhất từ phân phối chuẩn tắc, vì vậy nhiễu sau biến đổi cũng phải tuân theo các thống kê này.
  • Với phép biến đổi tuyến tính, điều này tương đương với điều kiện A phải là một ma trận trực giao.

Các phép biến đổi trực giao

  • Phần lớn các phép biến đổi trực giao không có nhiều ý nghĩa về mặt thị giác, nhưng ma trận hoán vị là một tập con của ma trận trực giao và có thể được diễn giải là việc sắp xếp lại các pixel trong ảnh.
  • Hầu hết các ảo giác được trình bày trong nghiên cứu này có thể được diễn giải như những cách sắp xếp lại pixel cụ thể, chẳng hạn như xoay, lật, nghiêng, "xoay bên trong", sắp xếp lại trò ghép hình, hoán vị các patch, v.v.
  • Đảo màu không phải là hoán vị, nhưng là một phép biến đổi trực giao dưới dạng phủ định giá trị pixel.

Ý kiến của GN⁺

  • Nghiên cứu này góp phần mở rộng ranh giới giữa công nghệ trí tuệ nhân tạo và nghệ thuật bằng cách đề xuất một phương pháp mới để tạo ra nhiều ảo giác thị giác khác nhau thông qua biến đổi hình ảnh.
  • Đặc biệt, phương pháp tạo ra các hiệu ứng thị giác đa dạng bằng cách sắp xếp lại pixel của ảnh là một ý tưởng sáng tạo, và được kỳ vọng sẽ cho phép tạo ra những hình thức tác phẩm nghệ thuật mới.
  • Điều khiến bài viết này thú vị là nó khám phá một cách tiếp cận độc đáo để tạo ảo giác thị giác bằng cách tận dụng các mô hình khuếch tán hiện có; đây cũng là một nghiên cứu có thể mang lại cảm hứng mới cho cả các kỹ sư phần mềm mới vào nghề.

1 bình luận

 
GN⁺ 2023-12-01
Ý kiến trên Hacker News
  • Một người dùng cho biết đã có ý tưởng tương tự vào đầu năm ngoái và đã thử nghiệm bằng phương pháp bàn cờ. Họ lấy ví dụ về một hình ảnh con mèo duy nhất được tạo từ tranh mèo vẽ theo phong cách của 9 họa sĩ nổi tiếng. Họ cũng nói rằng kỹ thuật này không liên quan đến hình ảnh ControlNet "spiral" từng gây tranh cãi vài tháng trước, và được xây dựng dựa trên DeepFloyd-IF.
  • Một người dùng khác nhận xét rằng hình ảnh đảo màu nam/nữ rất ấn tượng, và bản thân họ có thể xoay hình trong đầu để nhìn từ góc độ khác nhưng lại thấy việc đảo màu khó hơn.
  • Một người dùng khác nữa nói rằng họ rất thích hình ảnh đảo ngược nam/nữ và tò mò không biết có thể mở rộng cùng kỹ thuật này để tạo ra bao nhiêu hoán vị từ một hình ảnh. Họ cũng cho biết mình không đủ hiểu biết toán học để biết liệu áp dụng liên tiếp hai phép biến đổi trực giao thì kết quả có còn là phép biến đổi trực giao hay không.
  • Một người dùng đánh giá tất cả các ví dụ được đưa ra đều chỉ ở mức "tàm tạm", đồng thời nói rằng hình chim cánh cụt/hươu cao cổ có lẽ là tốt nhất. Họ cảm thấy hình ông già/váy không thực sự giống hẳn bên nào.
  • Cũng có người cho rằng việc dùng mạng nơ-ron có thể là hơi quá tay cho bài toán này, và có thể không phải là giải pháp thay thế tối ưu cho hiểu biết lý thuyết về ảo giác thị giác, nhưng kết quả thì khó có thể tranh cãi.
  • Có người đơn giản là rất thích những hình ảnh như thế này và đánh giá đây là một bài đăng tuyệt vời.
  • Cũng có người nêu ý tưởng rằng sẽ rất thú vị nếu tạo ra những hình ảnh trông khác nhau dưới ánh sáng đỏ/xanh dương.
  • Một người dùng khác cho rằng sẽ rất hay nếu hình vịt/thỏ được dùng trong trò chơi xếp hình trượt để tạo ra hai lời giải hợp lệ.
  • Cũng có người thắc mắc liệu có tồn tại loại trò chơi ghép hình jigsaw như thế này mà thực sự có thể mua được hay không.