1 điểm bởi GN⁺ 2025-10-22 | 1 bình luận | Chia sẻ qua WhatsApp
  • Bộ mã hóa âm thanh thần kinh là công cụ cốt lõi để đưa dữ liệu âm thanh vào mô hình ngôn ngữ lớn (LLM) một cách hiệu quả
  • Các giao diện thoại dựa trên LLM hiện tại chủ yếu là lớp bọc dựa trên văn bản, vì vậy có giới hạn trong việc thực sự hiểu giọng nói và nhận diện cảm xúc
  • Mô hình hóa âm thanh, khác với văn bản, có nhiều mẫu đầu vào và khó duy trì tính nhất quán lâu dài, nên cần nén và token hóa hiệu quả
  • Sử dụng các kỹ thuật codec âm thanh thần kinh mới như Residual Vector Quantization (RVQ) để chuyển âm thanh thành token rời rạc thân thiện với LLM để xử lý
  • Khi áp dụng các codec âm thanh thần kinh tiên tiến như Mimi của Kyutai, khả năng biểu đạt và chất lượng của LLM âm thanh đang tiếp tục được cải thiện đáng kể

Bối cảnh đưa vào neural audio codec và audio LLM

  • Hầu hết mô hình thoại dựa trên LLM thực chất không hiểu âm thanh trực tiếp mà vận hành theo chuỗi chuyển thành văn bản – phản hồi – tổng hợp
  • Trong hiểu giọng nói thực sự, việc nắm bắt được cảm xúc, ngữ điệu, sự châm biếm và các sắc thái phi ngôn ngữ là điều bắt buộc
  • Một số mô hình (Gemini, ChatGPT Advanced Voice Mode, Qwen, Moshi) có khả năng nhận đầu vào âm thanh, nhưng thực tế vẫn thiếu năng lực hiểu sâu về âm thanh
  • Mô hình LLM văn bản đã nhanh chóng đạt hiệu năng cao chỉ nhờ dữ liệu, thuật toán và tài nguyên tính toán, nhưng với dữ liệu âm thanh thì độ khó xử lý cao hơn nhiều

Khác biệt giữa cách tiếp cận token hóa cho văn bản và âm thanh

  • Văn bản vẫn cho kết quả tốt ngay cả khi dùng tokenizer tương đối đơn giản và cố định như byte-pair encoding
  • Ngay cả các LSTM hoặc RNN đầu tiên, với dự đoán từng ký tự/mẫu đơn lẻ, cũng có thể đạt được kết quả hợp lý
  • Âm thanh yêu cầu hàng chục nghìn mẫu mỗi giây; chỉ cần 10 giây đã đòi hỏi dự đoán hàng trăm nghìn mẫu theo chuỗi thời gian
  • Khi tạo âm thanh từng mẫu như WaveNet, chất lượng âm thanh nghe có thể rất tốt nhưng khó đảm bảo truyền tải ý nghĩa

Tắc nghẽn trong mô hình hóa âm thanh và giới hạn dự đoán theo từng mẫu

  • Tạo theo từng mẫu thường chậm về tốc độ thực tế và cũng không bảo đảm được mối liên kết giữa các đơn vị ngữ nghĩa thực sự
  • Kết quả thí nghiệm mẫu (151M tham số, 1000 giờ dữ liệu) cho thấy khả năng ứng dụng kém do tiếng ồn lẫn trong giọng nói hoặc hiện tượng thiếu tính nhất quán
  • Tỷ lệ lấy mẫu âm thanh cao (theo chuẩn 16kHz, 2048 context = 128ms) dẫn đến hạn chế xử lý ngữ cảnh của LLM
  • Để xử lý âm thanh thời gian thực, nén hiệu quả là điều bắt buộc

Neural audio codec: Autoencoder và RVQ

Nguyên lý cơ bản của autoencoder và vector quantization (VQ-VAE)

  • Là kiến trúc mạng thần kinh nén đầu vào (âm thanh, hình ảnh, v.v.) xuống không gian tiềm ẩn (latent space) rồi giải mã lại
  • Thiết kế để token hóa rời rạc bằng vector quantization (ví dụ: k-means), rồi đưa vào LLM
  • Sử dụng kỹ thuật Straight-through estimator để huấn luyện một cách ngầm cho đặc tính không khả vi
  • Thêm commitment loss nhằm tối thiểu hóa khoảng cách giữa embedding và tâm cụm
  • Cấu trúc VQ-VAE là phiên bản autoencoder đã phát triển theo hướng thân thiện với lượng tử hóa

Khái niệm Residual Vector Quantization (RVQ)

  • Khi cần nhiều mức lượng tử hóa, RVQ giải quyết giới hạn quản lý của việc dùng một số lượng lớn cụm bằng cách giới thiệu mức token dư
  • Đầu tiên lượng tử hóa embedding lần đầu, sau đó lượng tử hóa tiếp phần dư để tối đa hóa hiệu quả nén
  • Khi cần thiết có thể dùng lượng tử hóa đa mức (2 mức trở lên), cấu trúc mở rộng rất đơn giản (for level in range(levels) trong vòng lặp)
  • RVQ được áp dụng cốt lõi trong các codec âm thanh thần kinh hiện đại như SoundStream (2021)

Token hóa âm thanh và ứng dụng LLM

  • Sau khi dùng CNN autoencoder để downsample âm thanh (ví dụ: 128 lần, vector 32 chiều), thực hiện RVQ quantization độc lập cho từng embedding
  • Output code RVQ (ví dụ RVQ 8 mức) được trải phẳng thành chuỗi token 1D theo thứ tự rồi đưa trực tiếp vào đầu vào LLM
  • Khi áp dụng flattening, có thể xảy ra mất mát một phần nén theo thời gian (ví dụ: downsampling 128x rồi lại mở rộng 8x)
  • Mức độ codebook, số mức và thứ tự FLATTEN đều ảnh hưởng đến chất lượng và tỉ lệ nén riêng lẻ

Huấn luyện codec âm thanh thần kinh thực tế và cải thiện chất lượng

  • Kết quả cho thấy khi số mức RVQ tăng, lỗi tái tạo giảm và chất lượng âm thanh tốt hơn
  • Tuy nhiên, ngay cả codec tự xây dựng đơn giản vẫn còn tiếng ồn nhẹ, sai lệch âm sắc
  • Các codec âm thanh thần kinh mới như Mimi của Kyutai tăng cường chất lượng bằng các áp dụng mới như hàm mất mát dựa trên GAN, RVQ dropout
    • Dùng discriminator của GAN để phân biệt audio thật/giả trong quá trình học
    • Chỉ sử dụng ngẫu nhiên một phần mức RVQ ở nhiều mức nén (dropout), giữ chất lượng ổn định ở bất kỳ mức nén nào

Thay đổi hiệu suất LLM thực tế của Mimi

  • Mimi cho phép downsample mạnh hơn và nén hiệu quả hơn ở 24kHz sample rate, 12.5fps
  • Khi token hóa cùng tập Libri-Light 10k giờ bằng Mimi, dung lượng lưu trữ giảm khoảng 1/2, đồng thời hiệu năng học và chất lượng đều cải thiện
  • Mô hình cho thấy tính nhất quán văn bản cao hơn trong sinh âm thanh dựa trên ngữ nghĩa như bài hát, thơ,...

Giới thiệu khái niệm semantic token

  • Mức cao nhất của Mimi là semantic token được trích xuất từ BERT dành cho giọng nói như WavLM
  • Semantic token chịu trách nhiệm nội dung lời nói; các token RVQ cấp thấp giữ thông tin âm sắc, giọng nói
  • Khi khóa semantic token rồi để LLM tái tạo chỉ các token còn lại, sẽ có thể cho ra kết quả nói cùng nội dung bằng giọng khác

Đánh đổi giữa ngữ nghĩa và chất lượng âm thanh

  • Khi giảm số mức RVQ, trọng số của semantic token tăng, làm tăng tỷ lệ khớp ngữ nghĩa và nâng khả năng tạo câu theo ngữ cảnh của LLM
  • Thực tế, mô hình có thể đạt đến mức gần như ghi nhớ nguyên vẹn một phần dữ liệu huấn luyện như lời dẫn của Librivox
  • Với trọng số hàm mất mát ưu tiên ngữ nghĩa so với ưu tiên chất lượng âm thanh khác nhau, có thể áp dụng cho nhiều mục đích (Moshi ưu tiên ngữ nghĩa gấp 100 lần)

Xu hướng và nghiên cứu mô hình LLM âm thanh mới

  • Sau nhiều năm phát triển, Kyutai Moshi, Sesame CSM và Alibaba Qwen3-Omni đang dẫn đầu nghiên cứu về LLM giọng nói native
  • Phần lớn mô hình vẫn phụ thuộc vào cách tiếp cận song song với luồng văn bản, với suy luận ngữ cảnh và tương tự chủ yếu diễn ra trong văn bản
  • Cũng đang có nhiều nghiên cứu thay thế như sử dụng token văn bản–âm thanh lai ghép/cross, hoặc tạo trong không gian tiềm ẩn liên tục (mô hình diffusion, consistency)

Kết luận và triển vọng

  • Mã hóa âm thanh thần kinh là hạ tầng cốt lõi của LLM âm thanh, cải thiện mạnh chất lượng sinh giọng nói bằng cách token hóa hài hòa giữa thông tin ngữ nghĩa và âm thanh
  • Vẫn còn tồn tại khoảng cách giữa các modality (modality gap) về suy luận và khả năng hiểu âm thanh so với LLM văn bản
  • Các nỗ lực tiên phong của Kyutai Moshi trong Voice AI end-to-end và các hướng tương tự đang tiếp tục diễn ra, và sự tiến triển của audio ML được kỳ vọng vẫn sẽ tiếp tục

Tài liệu tham khảo và nội dung đọc thêm

  • WaveNet (2016), SampleRNN (2016), MelGAN (2019), HiFi-GAN (2020) giới thiệu lịch sử phát triển các mô hình tạo âm thanh và các khái niệm chính
  • Neural Discrete Representation Learning, SoundStream, EnCodec, WavLM, MiMo-Audio giới thiệu các nghiên cứu ứng dụng trong codec và mô hình
  • Đưa ra khả năng áp dụng cho Diffusion/Consistency model trong tạo âm thanh liên tục

Ví dụ LLM dựa trên âm thanh mới nhất (tính đến năm 2025)

  • Moshi (Kyutai)
  • CSM (Sesame)
  • Qwen3-Omni (Alibaba)
  • MiMo-Audio (Xiaomi)
  • LFM2-Audio (Liquid AI)

1 bình luận

 
GN⁺ 2025-10-22
Ý kiến Hacker News
  • Một người đọc nêu rằng khi hỏi LLM bằng giọng nói cao: “Tôi đang nói giọng thấp hay giọng cao?” thì có hiện tượng nó không phân biệt được đúng; họ băn khoăn liệu đây là giới hạn của LLM hay do quá khớp về an toàn, đồng thời nhắc rằng chế độ giọng nói của ChatGPT có khá nhiều cơ chế bảo vệ như chặn tạo nhạc, không bắt chước trọng âm/giọng điệu (ví dụ không bắt chước âm điệu Ấn Độ), tránh ước đoán dựa trên chủng tộc và các biện pháp kiểm soát tương tự, nên nghĩ có thể những phần này đã bị loại bỏ khỏi mô hình

    • Tác giả cho biết hiện tượng này không phải do an toàn mà là do giới hạn năng lực của mô hình. Học âm thanh vẫn khó hơn học văn bản nên khả năng tổng quát hóa chưa tốt; để khắc phục, các mô hình âm thanh thường kết hợp cách xử lý văn bản và âm thanh (ví dụ: đưa cả token văn bản lẫn token âm thanh vào cùng một mô hình để đầu vào/đầu ra), nên token âm thanh về bản chất dần trở thành một bộ chuyển đổi giọng nói - văn bản thống nhất. Đồng nghiệp từng làm ở Moshi cũng có trải nghiệm tương tự, các mô hình khác cũng vậy. Họ cũng nhấn mạnh ảnh hưởng của dữ liệu tổng hợp: khi fine-tune bằng dữ liệu TTS thì thiếu thông tin cao độ, vì vậy mô hình sẽ học cách bỏ qua tín hiệu này

    • Về “điều chỉnh ngữ điệu” (không để LLM nói giống giọng Ấn Độ khi đối phương có giọng Ấn Độ), họ bộc bạch thật lòng rằng chưa rõ tại sao lại không làm được. Tự bản thân họ thấy khi bắt chước ngữ điệu tương tự thì khả năng hiểu hai chiều tăng đáng kể. Trong nhiều trường hợp, người nói được chuyển sang giọng của người khác có lợi khi người kia không làm được việc đó; nếu họ có thể nói tiếng Anh với giọng Ấn Độ thì đã rất hữu ích khi trò chuyện với bộ phận hỗ trợ khách hàng thuê ngoài

    • Họ đặt câu hỏi về việc LLM có phản ứng khác nhau theo chủng tộc hay không, vì nếu dữ liệu huấn luyện chủ yếu là hội thoại văn bản thì không có nhiều căn cứ để học được các thiên kiến kiểu này, dù lại khá đáng ngạc nhiên

    • Chia sẻ rằng Qwen3 omni transcriber diễn giải giọng nói và cảm xúc rất tốt

    • Họ không nghĩ chỉ là cơ chế bảo vệ; có cảm giác nó không hiểu được cao độ. Ngay cả khi yêu cầu chế độ voice cao cấp của ChatGPT nhận diện tiếng huýt sáo, kết quả vẫn lặp lại “Beethoven 5” (Beethoven 5th) liên tục. Có lẽ nó đã tokenize tiếng huýt sáo của mình thành “đừng-đừng-đừng-đừng~”

  • Trong âm thanh có thể ngữ cảnh phạm vi dài không quan trọng như văn bản, nên các mô hình không gian tuyến tính, thời gian hằng (như RWKV, S4) có thể phù hợp hơn. Họ hình dung Transformer chạy song song ở dải tần thấp/thấp, trong khi mô hình tuyến tính truyền một token tóm tắt mỗi giây (gồm cả cảm xúc, văn bản, …) để nhận phản hồi. Nếu đào tạo hai mô hình song song thì token tóm tắt không cần có ý nghĩa định trước mà được sinh ra trong quá trình học. Đây là cách end-to-end thuần âm vị (phonetic), không có bước chuyển ngữ; những phần vô nghĩa hoặc chứa ít thông tin có thể được nén thành biểu diễn token nhỏ hơn. Về lý trí/code họ có thể không theo kịp một LLM văn bản, nhưng bản thân con người cũng không dễ giải thích chi tiết thuật toán bằng đối thoại ngôn ngữ tự nhiên

    • Mặc dù không hiểu sâu về mô hình tuyến tính, tác giả giải thích rằng mô hình phân cấp (hierarchical) là ý tưởng khá phổ biến trong nghiên cứu âm thanh. Ví dụ OpenAI Jukebox (2020) chia một codec audio thành 3 cấp: mô hình ngôn ngữ dự đoán ở cấp thô nhất rồi phục hồi dần đến mức tinh vi. Gần đây, MiMo-audio dự đoán một patch bằng cách gộp 4 time-step. Có đính kèm tài liệu tham khảo: OpenAI Jukebox paperMiMo-Audio Technical Report

    • Tác giả cho biết Cartesia đang phát triển mô hình thời gian hằng cho âm thanh, kèm theo liên kết website

    • Có thêm lời động viên “nhất định hãy viết bài nghiên cứu cho chủ đề này!”

  • Khi được hỏi vì sao không dùng codec âm thanh thông thường (JPEG, MP3), họ giải thích MP3 tái tạo hoàn toàn một frame độc lập chỉ vài chục millisecond audio; ở 128kbps chỉ cần 418 byte cho 26ms, tức giảm 10–11 lần so với gốc, đồng thời bỏ bớt thông tin thừa. Nếu có transformer thì có thể dùng frame làm token

    • Chia sẻ tóm tắt paper dùng trực tiếp JPEG làm đầu vào deep learning: huấn luyện CNN trên hệ số DCT cho phép bỏ qua bước tái tạo lại pixel rồi chuyển đổi lại, áp dụng cho ResNet-50 giúp tốc độ huấn luyện tăng tối đa 1.77 lần và độ chính xác tốt hơn. Đưa link paper này, và cho rằng MP3 cũng là ý tưởng tốt

    • Tác giả khẳng định lý do lớn nhất là khác biệt về tỷ lệ nén. SoundStream – codec âm thanh thần kinh sớm nhất – vẫn cho chất lượng ổn ở 3kbps, trong khi MP3 ở 128kbps. SoundStream ban đầu được thiết kế cho nén âm thanh Google Meet, trong khi các codec âm thanh thần kinh hiện đại ngày nay hiệu quả hơn. Opus là thay thế hiện đại của MP3, có thể xuống tới 12kbps nhưng vẫn chưa hiệu quả bằng codec âm thanh thần kinh; codec truyền thống có lợi thế là chiếm ít tải CPU

    • Có thể huấn luyện một adapter để chuyển frame MP3 400 byte thành embedding cho LLM, nhưng dữ liệu đưa vào mạng thần kinh phải có cấu trúc “dễ tiêu hóa”. Mạng thích dữ liệu có tính lặp lại cao (như văn bản đã tokenize), còn dữ liệu nén mạnh (như GZIP) thường không được ưa. Nói chung rất dễ thử nhưng chưa chắc thành công; đôi khi có thứ lạ mà vẫn chạy ổn

    • Cách tiếp cận TFA mã hóa trong không gian 32 chiều, vượt xa mức độ nén dựa trên tâm lý âm thanh; việc loại bỏ cả thông tin gần như không thể nhận ra không có ý nghĩa nhiều khi mục tiêu là tạo mới như tổng hợp giọng nói

    • Con người nhận diện âm thanh qua thành phần tần số: tai trong có dãy filterbank cộng hưởng với các tần số theo chiều dài sợi lông, còn nhận thức giọng nói dựa vào formant để suy đoán thao tác phát âm nào đã diễn ra khi tạo ra âm thanh. Nếu token hóa frame MP3, do lượng tử hóa, mã hóa Huffman và cấu trúc frame, tín hiệu trở nên black box. Cấu trúc này vẫn cho phép dự đoán text, nhưng càng che giấu thông tin quan trọng thì càng khó. Nếu không truy cập trực tiếp formant thì việc tổng quát hóa sẽ rất khó, và nếu LLM chỉ được huấn luyện trên một nhóm speaker cụ thể thì còn nghi ngờ nó có nhận diện tốt cả giọng trẻ em hay giọng tổng hợp hay không

  • Họ khen đây là lời giải thích trực quan đẹp nhất; bản thân cũng từng thử token hóa văn bản render bằng VQ-VAE, tạo ảnh văn bản hoàn chỉnh từ font 10pt và nguồn PDF, huấn luyện diffusion model để học latent representation gồm cả loại tài liệu và ngôn ngữ. Rất nhiều điều đã học được và cảm thấy bài này mô tả rất đẹp

  • Họ chia sẻ nỗi băn khoăn “tại sao không token hóa ngay âm thanh để làm LLM mà luôn phụ thuộc bản chuyển biên âm?” và nhấn mạnh lượng dữ liệu âm thanh khả dụng cực lớn

    • Bài viết chính là bàn về chính vấn đề này: biến tín hiệu liên tục thành token rời rạc. Một cửa sổ âm thanh 10–100ms khó gói hết thông tin vào một token. Residual vector quantization là cách mỗi lần lái một lát cắt thời gian qua nhiều từ điển để refine/quantize. Ở phần sau bài viết cũng có thể thấy mẫu huấn luyện LLM trên codec Mimi

    • Dữ liệu văn bản được làm sạch và chuẩn hóa rất nhiều, còn âm thanh phải xử lý thêm ngôn ngữ, phương ngữ, ngữ điệu, biểu cảm mặt mũi, ngôn ngữ cơ thể; khi chuyển sang văn bản thì các thông tin “rối” này bị loại bỏ, chỉ còn tập token sạch tập trung vào nghĩa ngôn ngữ, vì vậy hiệu quả và mạnh mẽ cho mapping đa ngôn ngữ

    • Huấn luyện dựa trên token âm thanh tốn chi phí hơn, nhưng họ dự đoán một ngày nào đó đây sẽ là hướng chính. Dự đoán trên văn bản phiên âm của bài giảng YouTube và trên dữ liệu âm thanh thô chắc chắn cho hiệu quả và kết quả rất khác biệt

    • Token hóa âm thanh nhiều hơn văn bản ít nhất 4 lần, nên vấn đề hiệu năng đã là rào cản đầu tiên. Và vẫn còn câu hỏi liệu có đủ dữ liệu để huấn luyện LLM chỉ dựa trên âm thanh thuần túy hay không

    • Cách mạng Transformer dành cho audio vẫn chưa đến, nhưng họ dự đoán mô hình ưu tiên âm thanh về mặt lý thuyết sẽ tốt hơn nhiều

  • Họ nói rằng trước giờ chưa biết Kyutai là công ty hay project nào, và rất phù hợp với project đang thực hiện

  • Họ bày tỏ sự ngưỡng mộ chân thành với công việc thú vị này; thực ra âm thanh vẫn khó làm hơn văn bản nhiều, nhưng rất hấp dẫn vì cốt lõi để vừa khít LLM vào giọng nói là tìm được codec giọng nói hiệu quả nhất. Tưởng tượng một ngày nào đó codec tiếng nói “đại diện” bềnh đạp với LLM không dựa vào Fourier transform mà dựa trên biểu diễn tham số vật lý trực tiếp của dây thanh quản, lưỡi, cổ họng, miệng… Dựa trên thực tế giải phẫu con người không đổi đáng kể theo thời gian, mô hình như vậy có thể trở thành một chuẩn thống kê trong ngành. Cách làm này được gọi là formant speech encoding (mã hóa âm nói theo formant), và tác giả từng làm nghiên cứu trong lĩnh vực tổng hợp giọng nói

    • Tác giả cảm ơn vì lời động viên; họ cho rằng codec dựa trên vật lý (thanh quản/lưỡi…) không khớp với hướng ML hiện đại, vì xu hướng hiện nay là đưa càng ít kiến thức chuyên môn miền vào như có thể, để càng nhiều thông tin càng được gán cho Transformer. Khi hạn chế quá mức, không gian âm thanh biểu diễn co hẹp và chạm trần chất lượng; ngược lại khi ràng buộc mô hình vẫn có thể sinh ra nghiên cứu rất hiệu quả, ví dụ: DDSP mô hình hóa synthesizer bằng ML để tạo âm nhạc, speech cũng có thể làm được như vậy. Dĩ nhiên chất lượng sẽ thấp hơn nhưng tham số lại cực ít, KokoroTTS cũng theo hướng này khi tạo âm trực tiếp từ phụ âm + nguyên âm trong Tiny TTS nên số tham số hoạt động rất ít, xem thêm DDSP paper, KokoroTTS project

    • Các nỗ lực tạo âm thanh dựa trên vật lý đã tồn tại từ lâu, từng có thử nghiệm tái tạo cấu trúc khoang miệng và luồng khí để thực sự làm máy nói được. Họ nhấn mạnh cách tiếp cận này dễ mắc lỗi khi hiểu sai rằng speech synthesis phát sinh từ viết text

    • Trong mã hóa và tổng hợp giọng nói, mô hình source-filter (tham số hóa giọng phát ra + filter) là hướng nguyên thủy, còn cũ hơn cả sự “tái khám phá” FFT

  • Họ đặt câu hỏi liệu 100k giờ có đủ không: với chuẩn LLM thì chưa nhiều, khiến họ nhớ tới “Bitter Lesson”

    • Họ huấn luyện 1M bước (batch size 64, block size 2048) và nghĩ ở mức đó đã hội tụ; 150M tham số nên theo chuẩn LLM là khá nhỏ. Mục tiêu không phải đạt đỉnh hiệu năng, mà cho thấy việc chỉ thay đổi tokenizer đã có thể ảnh hưởng đáng kể đến hiệu năng
  • Họ cho rằng bài này rất rõ ràng và hữu ích, muốn chia sẻ cho đồng đội. Gần đây công ty mình bắt đầu đưa audio/voice vào sản phẩm AI nên tài liệu này rất thực tế