9 điểm bởi xguru 2024-02-20 | 1 bình luận | Chia sẻ qua WhatsApp
  • Meta công bố mô hình Video Joint Embedding Predictive Architecture (V-JEPA), một bước tiến quan trọng trong việc phát triển trí thông minh máy dựa trên sự hiểu biết thực tế hơn về thế giới
  • Ví dụ ban đầu của mô hình thế giới vật lý này thể hiện năng lực xuất sắc trong việc phát hiện và hiểu các tương tác chi tiết giữa các đối tượng
  • Với tinh thần khoa học mở có trách nhiệm, Meta công bố mô hình này theo giấy phép Creative Commons NonCommercial để các nhà nghiên cứu có thể tiếp tục khám phá nó

Video JEPA

  • V-JEPA là mô hình không tạo sinh (non-generative) được huấn luyện bằng cách dự đoán các phần bị thiếu hoặc bị che khuất của video trong không gian biểu diễn trừu tượng
  • Mô hình này có khả năng loại bỏ thông tin không thể dự đoán, từ đó cải thiện hiệu quả huấn luyện và hiệu quả mẫu từ 1,5 lần đến 6 lần
  • V-JEPA được tiền huấn luyện chỉ trên dữ liệu không nhãn; nhãn chỉ được sử dụng khi áp dụng mô hình cho từng công việc cụ thể sau khi tiền huấn luyện

Phương pháp che khuất

  • V-JEPA không được huấn luyện để hiểu một loại hành vi cụ thể, mà học được nhiều điều về cách thế giới vận hành thông qua học không giám sát trên nhiều video khác nhau
  • Chiến lược che lấp không chọn các ô ngẫu nhiên rải rác từ video thay vì chặn các khu vực lớn; thay vào đó, mô hình che chắn các phần của video trong cả không gian và thời gian để có thể hiểu bối cảnh và học hỏi

Dự đoán hiệu quả

  • Dự đoán trong không gian biểu diễn trừu tượng giúp mô hình tập trung vào thông tin khái niệm bậc cao có trong video, mà không cần quan tâm đến nhiều chi tiết không quan trọng cho hầu hết các tác vụ downstream
  • V-JEPA là mô hình video đầu tiên đạt hiệu năng nổi bật trong "đánh giá đóng băng" (frozen evaluation), giúp huấn luyện nhanh và hiệu quả các lớp chuyên biệt hoặc mạng nhỏ cho kỹ năng mới mà không cần chạm vào encoder và predictor đã được tiền huấn luyện theo tự giám sát

Con đường cho nghiên cứu tương lai

  • Dù “V” tượng trưng cho video, mô hình V-JEPA hiện tại chỉ xét đến nội dung trực quan
  • Trong giai đoạn tiếp theo, nhóm đang xem xét hướng tiếp cận đa phương thức sâu hơn, tích hợp âm thanh cùng nội dung trực quan
  • V-JEPA đặc biệt giỏi trong việc phân biệt tương tác vật thể tinh vi và nhận biết các tương tác chi tiết giữa các vật thể diễn ra theo thời gian

Con đường đến AMI

  • Cho đến nay, các công việc liên quan đến V-JEPA chủ yếu xoay quanh nhận thức, tức là hiểu nội dung của nhiều luồng video để thu được một phần ngữ cảnh về thế giới xung quanh
  • Bước tiếp theo là trình diễn cách sử dụng bộ dự đoán hoặc mô hình thế giới này cho lập kế hoạch hoặc ra quyết định theo trình tự
  • V-JEPA là mô hình nghiên cứu và đang được khám phá cho các ứng dụng tương lai; ví dụ, ngữ cảnh mà V-JEPA cung cấp có thể hữu ích cho việc xây dựng trợ lý AI ngữ cảnh cho các công việc AI thực tế và cho kính AR tương lai
  • Tin vào giá trị của khoa học mở có trách nhiệm, Meta công bố mô hình V-JEPA theo giấy phép CC BY-NC để các nhà nghiên cứu khác có thể mở rộng công việc này

1 bình luận

 
kuroneko 2024-02-20

Giống như OpenAI Sora vậy... AI video cũng đột ngột tiến bộ rất nhanh.

Khi các mô hình ngôn ngữ ngày càng tiến bộ, đến một thời điểm như khi ChatGPT xuất hiện, tôi nghĩ sẽ thật thú vị nếu AI video cũng có khoảnh khắc như vậy.