- Microsoft Research đã công bố một dự án mới mang tên VASA-1
- Công nghệ này tạo ra video khuôn mặt biết nói chân thực từ chỉ một bức ảnh chân dung và đầu vào âm thanh theo thời gian thực
- Môi và biểu cảm khuôn mặt chuyển động tự nhiên theo giọng nói, chân thực đến mức gần như khó phân biệt với hình ảnh một người thật đang nói
- Hệ thống sử dụng mô hình khuếch tán nhận các tín hiệu tùy chọn làm điều kiện đầu vào (hướng nhìn chính, khoảng cách đầu, độ lệch cảm xúc, v.v.) và trình bày kết quả tạo sinh theo hướng nhìn chính (thẳng, trái, phải, lên trên), tỉ lệ khoảng cách đầu và độ lệch cảm xúc (trung tính, vui, giận, ngạc nhiên)
- Trong chế độ xử lý hàng loạt ngoại tuyến, hệ thống tạo các khung hình video kích thước 512x512 ở tốc độ 45 khung hình/giây
- Ở chế độ phát trực tuyến, hệ thống hỗ trợ tối đa 40 khung hình/giây và chỉ cần độ trễ đệm trước 170ms (trên PC để bàn có 1 GPU NVIDIA RTX 4090)
Ý kiến của GN⁺
- Nếu công nghệ này được ứng dụng thực tế, nó có thể được sử dụng trong nhiều lĩnh vực như con người ảo, avatar AI, metaverse. Đặc biệt, có vẻ sẽ có nhu cầu lớn trong ngành giải trí như game, phim ảnh và hoạt hình
- Mặt khác, cũng có lo ngại về tác dụng tiêu cực như bị lạm dụng để tạo tin giả hoặc làm video deepfake với khuôn mặt người nổi tiếng. Sẽ cần các biện pháp kỹ thuật và thể chế để ngăn chặn việc sử dụng ác ý
- Một công nghệ tương tự là Audio2Face do NVIDIA công bố. Các công nghệ này chủ yếu chỉ có thể tạo khuôn mặt của người cụ thể đã được huấn luyện trước, trong khi VASA-1 khác biệt ở chỗ có thể tạo khuôn mặt mới theo thời gian thực
- Theo nhóm phát triển, VASA-1 hiện vẫn đang ở giai đoạn đầu và trong tương lai sẽ tiếp tục cải thiện chất lượng hình ảnh cũng như độ ổn định. Có thể sẽ còn mất thời gian để thương mại hóa, nhưng dự kiến một ngày nào đó chúng ta sẽ bắt gặp những con người nhân tạo như vậy trong đời sống hằng ngày
2 bình luận
Trong tập 1394 của Unanswered Questions có nhắc đến một trường hợp dùng ảnh và âm thanh để mạo danh người nổi tiếng nhằm lừa lấy tiền, nên khá đáng lo vì công nghệ này có thể bị lạm dụng vào những việc như vậy.
Ý kiến trên Hacker News
Tóm tắt: