Codec video AV2 đạt bitrate thấp hơn 30% so với AV1, dự kiến công bố đặc tả cuối cùng vào cuối năm 2025

(videocardz.com)

6 điểm bởi GN⁺ 2025-10-13 | 3 bình luận | Chia sẻ qua WhatsApp

AV2 là codec video mở thế hệ tiếp theo đang được Alliance for Open Media phát triển, và sau 5 năm phát triển hiện đang hướng tới công bố đặc tả cuối cùng vào cuối năm 2025
Kết quả thử nghiệm cho thấy ở cùng chất lượng hình ảnh, AV2 đạt bitrate thấp hơn khoảng 30% so với AV1, đồng thời ghi nhận cải thiện 32,59% theo VMAF
Điểm nổi bật là tăng hiệu quả nhờ tối ưu hóa toán học và cải tiến thuật toán hơn là đổi mới dựa trên AI
Hiệu năng xử lý độ phân giải cao và chuyển động nhanh được cải thiện thông qua superblock 256×256, phân chia đệ quy hoàn toàn, chế độ dự đoán dựa trên dữ liệu, TIP(Temporal Interpolation) cùng nhiều kỹ thuật khác
Đã hoàn tất việc kiểm chứng hiệu quả phần cứng, và trọng tâm phát triển tiếp theo dự kiến sẽ chuyển sang tối ưu hóa encoder và mở rộng profile hỗ trợ AI

Tình hình phát triển AV2

AV2 giữ nguyên cấu trúc hybrid dựa trên block của AV1 đồng thời đưa vào superblock 256×256 lớn hơn và cơ chế phân chia đệ quy hoàn toàn
- Việc tách riêng phân chia độ chói (luma) và sắc độ (chroma) cho phép dự đoán tinh vi hơn
- Hệ thống dự đoán được trang bị chế độ intra dựa trên dữ liệu, mô hình hóa chroma-from-luma cải tiến, và hệ thống tham chiếu xếp hạng sử dụng tối đa 7 khung hình tham chiếu
Tính năng TIP(Temporal Interpolation Prediction) được bổ sung để nâng cao hiệu quả bù chuyển động trong các cảnh có chuyển động nhanh hoặc độ phân giải cao

Chất lượng và hiệu quả nén

Andrey Norkin của Netflix công bố đã xác nhận mức giảm bitrate 28,63% theo PSNR-YUV và 32,59% theo VMAF
- VMAF(Video Multi-Method Assessment Fusion) là chỉ số đo chất lượng video do Netflix phát triển, phản ánh đánh giá chất lượng hình ảnh mang tính chủ quan
Những cải thiện này là kết quả của mô hình hóa toán học và đổi mới thuật toán, không phải AI; dù nhóm AOM có đề cập khả năng mở rộng AI, bản thân codec vẫn dựa trên phương pháp truyền thống

Hệ thống biến đổi và lượng tử hóa

Bộ lượng tử hóa hàm mũ tích hợp(exponential quantizer) được đưa vào để hỗ trợ video 8, 10, 12 bit với phạm vi rộng hơn và độ chính xác cao hơn
Lượng tử hóa dựa trên Trellis và ma trận tùy chỉnh cho phép kiểm soát chi tiết ngay cả ở bitrate thấp
Biến đổi(transform) dựa trên học máy và biến đổi chéo thành phần giúp giảm artifact nén trong khi vẫn giữ được kết cấu
Mã hóa hệ số(coefficient coding) được cải thiện để phù hợp với nội dung màn hình và nội dung hỗn hợp

Lọc và hậu xử lý

Bộ deblocker tổng quát thống nhất bảo toàn chi tiết kết cấu tốt hơn,
còn các bộ lọc mới như Guided Detail Filter và Cross-Component Sample Offset giúp cải thiện khả năng loại bỏ nhiễu
Tổng hợp film grain(film grain synthesis) có thể được áp dụng linh hoạt hơn
Hỗ trợ video đa lớp(multi-layer) và video stereo(stereo video) để đáp ứng các định dạng đa phương tiện thế hệ tiếp theo

Kế hoạch sắp tới

Tất cả công cụ AV2 đã hoàn tất kiểm chứng hiệu quả phần cứng
Bước tiếp theo sẽ tập trung vào tối ưu hóa encoder và phát triển profile mở rộng cho độ sâu bit cao và AI
Đặc tả cuối cùng(specification) dự kiến sẽ được công bố vào cuối năm 2025, sau đó nhiều khả năng sẽ được các nền tảng lớn và dịch vụ streaming thương mại triển khai dần

3 bình luận

kippler 2025-10-13

Tôi đã từng nghĩ cái tên AV1 khá kỳ lạ, hóa ra mọi thứ đều đã được tính toán sẵn...

carnoxen 2025-10-13

Tôi cứ tưởng AV1 là đích đến cuối cùng rồi, vậy mà vẫn còn khả năng phát triển hơn nữa sao?!
Công nghệ đúng là thật khó lường...

GN⁺ 2025-10-13

Ý kiến Hacker News

Không biết đến bao giờ các dịch vụ streaming mới thôi nén quá tay. Dù đang dùng TV 4K hàng đầu và Internet gigabit, hình ảnh vẫn trông như bột trét vì các hiện tượng giả do nén. Thực ra chất lượng hình ảnh tốt nhất tôi từng thấy lại là khi xem bằng một ăng-ten số đơn giản cách đây 20 năm. Đặc biệt trong các dải chuyển sắc hoặc những cảnh phim tối, dấu vết nén hiện lên rất rõ. TV của tôi đã được cân chỉnh hoàn toàn và tôi cũng đang dùng gói streaming băng thông cao nhất. Có thể xem một ví dụ hình ảnh tương tự về mặt thị giác ở đây
- Với các dịch vụ streaming, chi phí phân phối nội dung là cực lớn, và sau khi sản xuất nội dung thì đây là khoản chi lớn nhất còn lại. Vì vậy họ dùng mọi biện pháp cực đoan để hạ bitrate. Đó là lý do Netflix đưa vào thuật toán loại bỏ grain của camera (noise) rồi thêm lại noise được tạo nhân tạo ở phía client, và cũng có trường hợp YouTube Shorts gần đây dùng kỹ thuật khử nhiễu cực đoan. Noise là dữ liệu ngẫu nhiên nên rất khó nén, vì thế họ muốn loại bỏ nó tối đa. Nhưng khi khử noise khỏi video quay bằng camera thực, tác dụng phụ là các chi tiết cực nhỏ cũng biến mất theo. Thảo luận liên quan có ở đây
- Việc nhìn thấy dấu vết nén trong các dải chuyển sắc hoặc cảnh tối là hiện tượng thường xuất hiện khi TV không được cân chỉnh đúng. Trường hợp phổ biến là để contrast quá cao. Mọi người có xu hướng chỉnh để thấy hết mọi chi tiết trong cảnh tối, nhưng thực ra có những phần vốn không nên nhìn thấy như vậy. Trên màn hình được chỉnh đúng, vùng tối gần như không nên thấy rõ. Phần lớn codec cũng được thiết kế để loại bỏ chi tiết ở cảnh tối. Tất nhiên các dịch vụ streaming đúng là đang áp dụng tiêu chuẩn đó quá mức, nhưng cũng có nhiều người chỉnh màn hình sai nên mới sinh ra mâu thuẫn này
- Trước COVID, Netflix dùng khoảng 8Mbps cho nội dung 1080P. Với x264/beamr thì đã khá ổn, còn với HEVC thì còn tốt hơn. Nhưng sau COVID, mọi dịch vụ streaming đều hạ chất lượng hình ảnh vì nhu cầu tăng vọt và giới hạn băng thông. Từ đó khách hàng đã quen với chất lượng thấp, và có lẽ họ sẽ không tăng lại nữa. Theo các thử nghiệm gần đây thì chỉ còn ở mức 3~5Mbps. Các codec HEVC/AV1/AV2 có thể giảm bitrate hơn 50% so với H.264, nhưng khi vượt qua dải 0.5~4Mbps thì mức tiết kiệm giảm rất nhanh, và encoder x264 thậm chí có thể ổn hơn ở bitrate cao
- Không phải dịch vụ nào cũng chỉ dùng bitrate trung bình thấp cực đoan như Netflix, mỗi nơi mỗi khác. Theo ví dụ dữ liệu thì Kate của Netflix là 11.15 Mbps, Andor của Disney là 15.03 Mbps, Jack Ryan của Amazon là 15.02 Mbps, The Last of Us của Max là 19.96 Mbps, còn For All Mankind của Apple là 25.12 Mbps. Có thể xem số liệu chi tiết hơn và so sánh tại liên kết này
- Có khi bản lậu lại hợp với bạn hơn đấy
Việc con người vẫn tiếp tục tìm ra cách làm dung lượng video nhỏ hơn nữa thật khá đáng kinh ngạc. Không rõ là nhờ ý tưởng của những người thông minh hay là nhờ sức mạnh xử lý mạnh hơn trong quá trình giải mã/mã hóa
- Cả hai đều đúng. Khi định dạng phát triển, người ta có thể áp dụng những cách sáng tạo hơn hoặc đổ nhiều tài nguyên tính toán hơn. Ví dụ, thay đổi giữa các khung hình được mã hóa theo đơn vị "superblock" (tương tự macroblock). Các khối này sẽ tham chiếu tới phần khác trong cùng khung hình hoặc các khung trước đó để ước lượng phần thay đổi. Nếu có thể bao lấy và định nghĩa vùng thay đổi của khối chính xác hơn thì hiệu quả sẽ cao hơn. Nhưng việc mô tả vị trí khối cũng tốn dữ liệu, nên có các quy tắc giới hạn để giảm phần mô tả này. Trong AV2, cách định nghĩa khối đã thay đổi nên dễ khớp với vùng biến đổi hơn, và kích thước khối lớn nhất cũng tăng gấp đôi, giúp nén hiệu quả các chuyển động lớn bằng cách giảm số lượng khối cần dùng. Ngoài ra còn có nhiều thay đổi khác, và tính sáng tạo trong thuật toán của encoder cũng tiếp tục tiến hóa. Để áp dụng các tiến bộ như vậy trong thực tế, cần có sự đồng thuận tiêu chuẩn về các phép biến đổi, kỹ thuật dự đoán... được cho phép trong bitstream. Có thể xem video tham khảo ở đây
- Bằng sáng chế vẫn đang đóng vai trò rất lớn. Các kỹ thuật mới phải cực kỳ cẩn thận để không xâm phạm bằng sáng chế hiện có. Vì vậy có thể có những mẹo hoặc kỹ thuật không dùng được trong AV1/AV2
- Cả hai đều cần thiết. Các codec mới nhất đều có những điểm đánh đổi khác nhau về chất lượng hình ảnh (PSNR, SSIM), độ phức tạp tính toán (CPU vs DSP vs bộ nhớ), dung lượng lưu trữ, bitrate..., nên không tồn tại một codec duy nhất tối ưu cho mọi tình huống
- Tôi tự hỏi bao giờ codec AI tạo sinh mới thực sự được dùng trong production. Khái niệm này khá đơn giản. Encoder biết chính xác mô hình mà decoder sẽ dùng, gửi đi các pixel quan trọng, rồi decoder dùng AI để lấp phần còn lại. Ví dụ có thể tạo khuôn mặt ngẫu nhiên trong đám đông, hoặc nếu cần thì gửi thêm dữ liệu cho vùng đó để hướng nó thành khuôn mặt linh vật của một đội cụ thể. Nếu mức nén bị đẩy đến cực hạn, thứ còn lại về cơ bản sẽ không còn là video mà chỉ là dữ liệu mô tả cảnh như một kịch bản văn bản
- Tôi không rành chi tiết AV2, nhưng từ H.265 sang H.266 thì số góc angular prediction tăng gấp đôi, có thêm các công cụ dự đoán chroma từ luma, sao chép khối pixel và nhiều kỹ thuật khác chỉ riêng cho intra prediction. Inter prediction cũng được cải thiện rất mạnh. Tất cả những thứ này tiêu tốn khá nhiều logic mạch/diện tích silicon của bộ giải mã phần cứng, nhưng đổi lại tiết kiệm bitrate lớn. Với decoder chạy trên CPU thì gánh nặng tính toán thêm không quá nghiêm trọng. Chi phí thực sự nằm ở phía mã hóa. Muốn tối đa hiệu quả nén thì số công cụ dự đoán để lựa chọn tăng lên, khiến thời gian mã hóa dài hơn. Vì thế Google chỉ áp dụng mã hóa AV1 cho những video có lượng xem rất cao
Vì đây là lần ra mắt thứ hai nên hy vọng lần này sẽ bài bản hơn. AOM có một phiên trực tiếp vào ngày 20 tháng 10, tôi đang rất mong chờ. Dự kiến sẽ nói về thêm dữ liệu và số liệu, độ phức tạp mã hóa/giải mã, lộ trình decoder phần cứng, bộ công cụ tuân thủ tiêu chuẩn và kiểm thử, profile tương lai, các cải tiến của AVIF và AV2, cũng như so sánh với JPEG-XL. Tôi tò mò không biết con số 30% BDRATE này là so với encoder mới nhất của AV1 hay là mốc 1.0. Có lẽ họ cũng sẽ nói về cải thiện cho live encoding
Giảm 30% so với AV1 thì quá điên rồ. Cảm giác như nó mới ra mắt gần đây thôi, nhưng thật ra là năm 2019
- Mãi đến năm ngoái tôi mới dùng thiết bị đầu tiên có hỗ trợ phần cứng AV1. Tốc độ phát triển quá nhanh của codec luôn có mặt trái là nội dung либо phải tiếp tục được lưu ở nhiều định dạng, hoặc phía client phải giải mã bằng phần mềm nên hao pin hơn. YouTube rõ ràng nghiêng về phương án thứ hai
- Mức này ấn tượng đến mức lại khiến người ta nghi ngờ. Nếu là thật thì đúng là rất ghê gớm
Làm việc về triển khai và tối ưu codec có lẽ là một trong những việc vui nhất trong đời tôi. Tôi rất muốn đào sâu AV2 nhưng hiện giờ không có thời gian
Cuối cùng cũng có một codec với cái tên không giống AVI, thật đáng mừng
- AVI không phải là định dạng container chứ đâu phải codec sao?
Đống Internet cáp quang tốc độ cao này sắp thành vô nghĩa mất rồi...
- Phần lớn thế giới vẫn đang tiêu thụ dữ liệu và video qua mạng di động
- Đúng vậy. Cũng may là tôi vẫn còn trong thời hạn hoàn tiền cho thẻ microSD 1TB
- Trong tương lai có thể sẽ bắt đầu streaming nội dung 8K, hoặc dùng cho video VR 16K
- Lý tưởng là đồng thời theo đuổi hiệu suất tối đa + khả năng sẵn có tối đa. Nguyên tắc này cũng áp dụng tương tự cho sức mạnh tính toán hay thị trường năng lượng
- Càng có nhiều media thì nhu cầu tốc độ càng tăng, và khi tốc độ tăng lên thì media lại càng nhiều hơn, thành một vòng lặp vô tận
Tôi từng nghĩ cái tên AV1 là một cách tri ân hoặc đùa vui với AVI (audio video interlace), nhưng AV2 thì cảm giác đó biến mất. AV1 có cả phần mở rộng tệp .av1 và MIME type video/AV1, vậy khi AV2 ra thì lại phải nhân đôi hết thành .av2 và video/AV2 sao? Cũng không rõ AVIF sẽ thế nào
- Phần mở rộng .av1 là tệp dữ liệu AV1 thô. AV2 dự kiến sẽ dùng .av2, và hai loại này không tương thích. Trên thực tế, luồng video sẽ nằm trong các container như Matroska (.mkv), WebM, MP4, và chỉ định mã loại codec (av01, av02). AVIF cũng là một container, nên dù tên là AV1 image format thì nếu muốn vẫn có thể mở rộng sang AV2. Muốn khớp hơn thì có thể đổi tên thành AOMedia Video Image Format
- Ý bạn là phần mở rộng tệp chỉ nên phản ánh định dạng tệp, còn codec bên trong là chuyện riêng? Thực tế ngày xưa từng làm như vậy và đã gây ra vấn đề. Nếu chỉ nhìn phần mở rộng mà biết có đọc được tệp hay không thì sẽ tiện hơn
Có ai bị hiện thông báo chặn Cloudflare với định dạng AV1 hoặc AV2 không?
Không biết đến bao giờ mới có codec video dựa trên gaussian splatting