Tất cả các trình tạo nhạc AI thương mại như Suno, Udio, MusicGen, Stable Audio đều chia sẻ một ràng buộc vật lý không thể tránh khỏi. Đó là âm thanh được tạo ra bắt buộc phải đi qua Residual Vector Quantization (RVQ).
RVQ ánh xạ biểu diễn âm thanh liên tục sang các vector codebook rời rạc. Khoảng cách lượng tử hóa phát sinh trong quá trình này là không thể đảo ngược. Khi một mô hình tách nguồn âm thanh chỉ được huấn luyện trên nhạc do con người tạo xử lý âm thanh do AI tạo ra, khoảng cách này xuất hiện dưới dạng phần dư tái tạo lớn bất thường và có cấu trúc. Đó chính là tín hiệu pháp y.
Các bộ phát hiện hiện có (CLAM, SpecTTTra) hoạt động tốt trong phân phối huấn luyện nhưng sụp đổ trước các trình tạo mới. ArtifactNet phát hiện không phải nhạc AI nghe như thế nào, mà là vì sao về mặt vật lý nó khác biệt.
Pipeline (tổng cộng 4.0M tham số):
-
ArtifactUNet (3.6M) — bounded-mask UNet dự đoán mặt nạ nhân trên STFT magnitude, bị giới hạn trong [0, 0.5]. Huấn luyện chưng cất tri thức 2 giai đoạn với phần dư Demucs v4 làm giáo viên.
-
Đặc trưng pháp y HPSS 7 kênh — phân rã phần dư thành các thành phần hòa âm/bộ gõ, sau đó kết hợp với vi phân theo thời gian và spectral flux.
-
CNN gọn nhẹ (0.4M) — xử lý các đoạn 4 giây, đưa ra phán định theo trung vị ở mức toàn bài.
Bằng chứng vật lý: đo băng thông hiệu dụng của phần dư tách nguồn âm thanh (n=94):
- Nhạc do con người tạo: trung bình 1,996 Hz
- Trung bình AI (22 trình tạo): 291 Hz
- Suno v3.5: 170 Hz / Riffusion: 219 Hz / MusicGen: 255 Hz
Bất kể kiến trúc, mọi trình tạo AI đều tập trung quanh mức 200 Hz.
Kết quả ArtifactBench (6,183 track, 22 trình tạo, không chồng lặp train-test):
| Mô hình | Tham số | F1 | FPR |
|---|---|---|---|
| ArtifactNet | 4M | 0.983 | 1.5% |
| CLAM | 194M | 0.758 | 69.3% |
| SpecTTTra | 19M | 0.771 | 19.4% |
CLAM có tỷ lệ báo nhầm nhạc thật thành AI lên tới 69.3%, về thực chất gần như vô nghĩa nếu dùng làm bộ phân biệt. Benchmark SONICS/MoM chỉ phân phối tập real bằng YouTube ID, nhưng nhiều mục đã bị xóa hoặc chuyển riêng tư, khiến không thể so sánh F1 dựa trên dữ liệu gốc. ArtifactBench dùng partition real do nhóm tự thu thập và xác minh để so sánh ba mô hình trong cùng điều kiện.
Hạn chế: yêu cầu đầu vào 44.1kHz; trên MP3 bitrate thấp, FPR ~8%; dưới tấn công rửa bằng Demucs một lượt, TPR giảm còn 94%; với Udio mới nhất, TPR = 87%.
Demo (~5 giây): https://demo.intrect.io/
Bài báo: https://arxiv.org/abs/2604.16254
Mô hình + benchmark (CC BY-NC 4.0): https://huggingface.co/intrect/artifactnet
Đang nộp bằng sáng chế (KR + PCT)
2 bình luận
Có vẻ như đây là bài báo của chính bạn phải không?
69% thì vẫn gần như chỉ là tung đồng xu. Có vẻ gần giống với việc bảo các AI tạo nhạc thêm unit test.