VASA-1: Tạo khuôn mặt biết nói theo thời gian thực từ một bức ảnh và âm thanh

(microsoft.com)

4 điểm bởi GN⁺ 2024-04-20 | 2 bình luận | Chia sẻ qua WhatsApp

Microsoft Research đã công bố một dự án mới mang tên VASA-1
Công nghệ này tạo ra video khuôn mặt biết nói chân thực từ chỉ một bức ảnh chân dung và đầu vào âm thanh theo thời gian thực
Môi và biểu cảm khuôn mặt chuyển động tự nhiên theo giọng nói, chân thực đến mức gần như khó phân biệt với hình ảnh một người thật đang nói
Hệ thống sử dụng mô hình khuếch tán nhận các tín hiệu tùy chọn làm điều kiện đầu vào (hướng nhìn chính, khoảng cách đầu, độ lệch cảm xúc, v.v.) và trình bày kết quả tạo sinh theo hướng nhìn chính (thẳng, trái, phải, lên trên), tỉ lệ khoảng cách đầu và độ lệch cảm xúc (trung tính, vui, giận, ngạc nhiên)
Trong chế độ xử lý hàng loạt ngoại tuyến, hệ thống tạo các khung hình video kích thước 512x512 ở tốc độ 45 khung hình/giây
Ở chế độ phát trực tuyến, hệ thống hỗ trợ tối đa 40 khung hình/giây và chỉ cần độ trễ đệm trước 170ms (trên PC để bàn có 1 GPU NVIDIA RTX 4090)

Ý kiến của GN⁺

Nếu công nghệ này được ứng dụng thực tế, nó có thể được sử dụng trong nhiều lĩnh vực như con người ảo, avatar AI, metaverse. Đặc biệt, có vẻ sẽ có nhu cầu lớn trong ngành giải trí như game, phim ảnh và hoạt hình
Mặt khác, cũng có lo ngại về tác dụng tiêu cực như bị lạm dụng để tạo tin giả hoặc làm video deepfake với khuôn mặt người nổi tiếng. Sẽ cần các biện pháp kỹ thuật và thể chế để ngăn chặn việc sử dụng ác ý
Một công nghệ tương tự là Audio2Face do NVIDIA công bố. Các công nghệ này chủ yếu chỉ có thể tạo khuôn mặt của người cụ thể đã được huấn luyện trước, trong khi VASA-1 khác biệt ở chỗ có thể tạo khuôn mặt mới theo thời gian thực
Theo nhóm phát triển, VASA-1 hiện vẫn đang ở giai đoạn đầu và trong tương lai sẽ tiếp tục cải thiện chất lượng hình ảnh cũng như độ ổn định. Có thể sẽ còn mất thời gian để thương mại hóa, nhưng dự kiến một ngày nào đó chúng ta sẽ bắt gặp những con người nhân tạo như vậy trong đời sống hằng ngày

2 bình luận

tomriddle7 2024-04-22

Trong tập 1394 của Unanswered Questions có nhắc đến một trường hợp dùng ảnh và âm thanh để mạo danh người nổi tiếng nhằm lừa lấy tiền, nên khá đáng lo vì công nghệ này có thể bị lạm dụng vào những việc như vậy.

GN⁺ 2024-04-20

Ý kiến trên Hacker News

Tóm tắt:

VASA-1 của Microsoft có thể tạo deepfake chỉ từ một bức ảnh và một đoạn âm thanh. Công nghệ deepfake dường như sẽ ngày càng nhanh hơn, tốt hơn, dễ hơn và rẻ hơn.
Trong khi đó, các công ty thẻ tín dụng đã áp dụng xác thực bằng giọng nói, nhưng họ dường như không nhận ra rằng bất kỳ ai cũng có thể lấy một đoạn âm thanh ngắn từ mạng xã hội để sao chép giọng nói. Các doanh nghiệp đang tụt hậu so với thời đại.
VASA-1 không tốt bằng EMO. Có những chuyển động cơ thể trông giả tạo, và nhiều chỗ đồng bộ khẩu hình không chuẩn. Chuyển động mắt cùng với chuyển động tổng thể của đầu và cơ thể không tự nhiên.
Có vẻ như mục đích duy nhất của công nghệ này là để những kẻ gián điệp lợi dụng người khác. Từ nay về sau, liệu chúng ta có phải xác thực trong mọi cuộc gọi điện thoại và họp video không?
Bài báo này đề cập đến việc sử dụng Diffusion Transformers. Bản triển khai mã nguồn mở là bản PyTorch của Facebook Research nhưng dùng giấy phép phi thương mại. Tôi tự hỏi liệu có phiên bản tương đương nào dùng giấy phép MIT hoặc Apache hay không.
Chúng ta cần một dạng hệ thống quản lý nào đó để bảo đảm tính xác thực của những gì mình nhìn thấy. Nhưng đây không phải vấn đề dễ, ví dụ chữ ký sẽ bị hỏng khi ảnh/video bị chỉnh sửa.
Đây thực sự là một công nghệ điên rồ, và về sau sẽ còn tốt hơn nữa. Tôi từng nghĩ deepfake vẫn còn xa, nhưng có lẽ chúng ta sẽ phải cẩn trọng hơn khi ở trên mạng.
Một bước tiến công nghệ tuyệt vời cho việc can thiệp bầu cử!

VASA-1: Tạo khuôn mặt biết nói theo thời gian thực từ một bức ảnh và âm thanh

Ý kiến của GN⁺

Bài viết liên quan

2 bình luận

Ý kiến trên Hacker News