1 điểm bởi GN⁺ 2024-07-06 | 1 bình luận | Chia sẻ qua WhatsApp

Diffusion Forcing

Giới thiệu về Diffusion Forcing

  • "Diffusion Forcing" là tên gọi bắt nguồn từ "teacher forcing" và "diffusion models"
  • Diffusion Forcing có thể tận dụng đồng thời các thế mạnh chính của mô hình dự đoán token tiếp theo và mô hình khuếch tán toàn bộ chuỗi
  • Chỉ với một lần huấn luyện, mô hình có thể vận hành linh hoạt ở nhiều thời điểm lấy mẫu khác nhau

Nguyên lý hoạt động của Diffusion Forcing

  • Huấn luyện khuếch tán theo chuỗi nhưng áp dụng mức nhiễu khác nhau cho từng token
  • Có thể xem nhiễu trong khuếch tán như các mức độ masking khác nhau
  • Khi lấy mẫu, có thể đạt được khả năng vận hành linh hoạt bằng cách dùng các mức nhiễu khác nhau trên toàn bộ chuỗi

Dự đoán video

  • Dự đoán video bằng Diffusion Forcing cho kết quả ổn định và nhất quán
  • Trên các bộ dữ liệu DMLab và Minecraft, Diffusion Forcing cho thấy hiệu năng vượt trội so với các phương pháp hiện có

Ổn định hóa rollout vô hạn mà không cần sliding window

  • Diffusion Forcing có thể rollout video dài hơn rất nhiều so với độ dài chuỗi tối đa đã được huấn luyện
  • Có thể rollout RNN mà không cần sliding window
  • Có thể rollout hơn 2000 frame trên các bộ dữ liệu DMLab và Minecraft

Diffusion Planning

  • Diffusion Forcing có thể được dùng như một planner bằng cách sử dụng guidance ở thời điểm kiểm thử
  • Định nghĩa mỗi token là [a_t, o_{t+1}] để mô hình hóa quan hệ nhân quả một cách tường minh
  • Có thể cập nhật bằng posterior inference sau khi có quan sát mới

Học bắt chước dài hạn

  • Nhiều tác vụ thực tế không có tính Markov và đòi hỏi bộ nhớ dài hạn
  • Cho kết quả thành công trong tác vụ cánh tay robot hoán đổi hai khe đựng trái cây
  • Diffusion Forcing có thể hoạt động vững vàng trước các yếu tố gây nhiễu chưa từng thấy trong lúc kiểm thử

Ý kiến của GN⁺

  • Diffusion Forcing kết hợp ưu điểm của mô hình dự đoán token tiếp theo và mô hình khuếch tán toàn chuỗi, từ đó cho phép lấy mẫu linh hoạt
  • Mô hình cho hiệu năng tốt hơn các phương pháp hiện có trong dự đoán video và rollout, qua đó nâng cao tiềm năng ứng dụng thực tiễn
  • Thành công trong học bắt chước dài hạn cho thấy khả năng điều khiển phản hồi mạnh mẽ của Diffusion Forcing
  • Hiệu quả ổn định hóa của Diffusion Forcing làm tăng khả năng ứng dụng trên nhiều độ dài chuỗi khác nhau
  • Khi áp dụng công nghệ mới, cần cân nhắc độ phức tạp của mô hình và chi phí tính toán

1 bình luận

 
GN⁺ 2024-07-06
Ý kiến trên Hacker News
  • Đề xuất một cách tiếp cận mới kết hợp ý tưởng che mặt nạ chuỗi với mô hình diffusion

    • Theo dõi mức độ "bất định" của từng pixel và dùng nó làm mức "nhiễu" cho mô hình diffusion
    • Có thể xác định trước một số phần cụ thể của hình ảnh, nên có thể ứng dụng vào việc giải mê cung
    • Cũng đã được dùng để điều khiển cánh tay robot
    • Tiêu đề đã đánh giá thấp ý tưởng; đây là một cách để thực hiện "fractional masking"
    • Có rất nhiều điều muốn tìm hiểu về codebase; như cách thiết lập tác vụ dò mê cung và mở rộng video, cách kết nối cánh tay robot, v.v.
    • Bản thân kiến trúc này cần thêm nghiên cứu và giải thích
  • Tò mò không biết có nghiên cứu hay công cụ nào có thể kết hợp các LLM sinh văn bản hiện có với kỹ thuật diffusion mà không cần tiền huấn luyện mới hay không

    • Có những cách tiếp cận tương tự như Tree of Thoughts và MCTS, nhưng đang tìm thứ gì đó gần hơn với sinh ở mức token
    • Tò mò không biết liệu nó có thể hoạt động với các mô hình GPT nhỏ / Phi 3 / Gwen hay không
  • Russ đang nghiên cứu diffusion; có vẻ sẽ rất phù hợp để áp dụng vào robotics

  • Với tư cách là người làm việc trong lĩnh vực này, cách trình bày nghiên cứu này rất khó hiểu

    • Tò mò không biết vấn đề họ đang cố giải quyết là gì, hay liệu họ đang đề xuất một mô hình sinh mới
  • Tò mò không biết có bỏ sót phần nào về thời gian huấn luyện không; việc thêm nhiễu cho từng token có làm quá trình huấn luyện chậm đi đáng kể không

    • Một bài báo rất ấn tượng
  • Nghiên cứu rất hay, nhưng tò mò không biết vì sao nó được gọi là "diffusion forcing"