Vượt qua “thung lũng kỳ quái” của giọng nói hội thoại

(sesame.com)

5 điểm bởi GN⁺ 2025-03-03 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Với các trợ lý giọng nói số được sử dụng lâu dài, voice presence phản ánh cảm xúc, nhịp điệu và ngữ cảnh quan trọng hơn một giọng tổng hợp sạch sẽ; vì vậy Sesame đề xuất Conversational Speech Model
CSM là một transformer đa phương thức end-to-end xử lý đồng thời văn bản và âm thanh, được thiết kế để tạo ra lời nói tự nhiên và nhất quán hơn bằng cách tận dụng lịch sử hội thoại
Mô hình xử lý trực tiếp các token RVQ, nhưng được chia thành backbone phụ trách codebook thứ 0 và một bộ giải mã âm thanh nhỏ phục hồi các codebook còn lại để cân bằng giữa độ trễ và khả năng biểu đạt
Ba kích thước Tiny, Small, Medium được huấn luyện trên khoảng 1 triệu giờ dữ liệu âm thanh công khai chủ yếu bằng tiếng Anh; ngoài WER và độ tương đồng người nói, nhóm còn bổ sung đánh giá phát âm từ đồng hình khác nghĩa và tính nhất quán phát âm
Khi không có ngữ cảnh, mức độ ưa thích giữa CSM-Medium và giọng nói thật không khác biệt rõ rệt; nhưng khi có ngữ cảnh hội thoại, bản ghi âm thật được ưa thích hơn như phần nối tiếp phù hợp hơn, cho thấy vẫn còn khoảng cách về ngữ điệu hội thoại

Voice presence và mục tiêu

Mục tiêu của Sesame là hiện thực hóa voice presence, khiến giọng nói được cảm nhận như thực sự được thấu hiểu và có giá trị
Các trợ lý giọng nói số hiện nay thường dừng ở lối nói trung tính, nên sau khi cảm giác mới lạ ban đầu qua đi, chúng khó được tiếp tục dùng trong đời sống hằng ngày
Có bốn thành phần cần thiết
- Trí tuệ cảm xúc: đọc hiểu và phản hồi theo ngữ cảnh cảm xúc
- Động lực hội thoại: xử lý nhịp thời gian, khoảng dừng, chen lời và nhấn mạnh một cách tự nhiên
- Nhận thức ngữ cảnh: điều chỉnh tông và phong cách theo tình huống
- Tính cách nhất quán: duy trì một hiện diện đáng tin cậy và phù hợp
Người bạn đồng hành trong bản demo hiện tại được tối ưu để nhấn mạnh sự thân thiện và khả năng biểu đạt; còn tính cách, trí nhớ, biểu đạt và mức độ phù hợp vẫn đang được cải thiện

Bài toán của Conversational Speech Model

TTS truyền thống tạo giọng nói trực tiếp từ văn bản, nhưng thiếu nhận thức ngữ cảnh cần thiết cho hội thoại tự nhiên
Dù các mô hình gần đây có thể tạo ra giọng nói giống con người, vẫn có nhiều cách để đọc một câu, và chỉ một số trong đó phù hợp với từng tình huống cụ thể
Nếu không có thêm ngữ cảnh như tông giọng, nhịp điệu hay lịch sử hội thoại, mô hình sẽ khó chọn cách phát âm phù hợp nhất
CSM xử lý vấn đề này bằng học đa phương thức end-to-end, cho phép transformer dùng lịch sử hội thoại để tạo giọng nói tự nhiên và nhất quán hơn
Có hai đặc điểm chính
- Hoạt động như mô hình một giai đoạn để tăng hiệu quả và khả năng biểu đạt
- Dùng một bộ đánh giá riêng để đo tiến bộ về năng lực ngữ cảnh trong bối cảnh các bài đánh giá công khai phổ biến đã gần bão hòa

Token âm thanh và thiết kế RVQ

Để mô hình hóa âm thanh bằng transformer, dạng sóng liên tục được chuyển thành chuỗi token âm thanh rời rạc
Các cách tiếp cận hiện đại thường dùng hai loại token
- Token ngữ nghĩa: nén thông tin ý nghĩa và đặc trưng âm vị, nhưng hy sinh khả năng biểu diễn độ trung thực cao
- Token âm học: chứa thông tin âm học chi tiết để cho phép phục hồi độ trung thực cao, đồng thời giữ lại các đặc tính như danh tính người nói và âm sắc
Cách làm phổ biến là mô hình hóa token ngữ nghĩa trước rồi tạo âm thanh bằng RVQ hoặc các phương pháp dựa trên diffusion
Cách làm hai giai đoạn này cho phép tổng hợp có cấu trúc, nhưng tạo ra một nút thắt cổ chai khi token ngữ nghĩa phải mang đủ cả ngữ điệu
Cách tiếp cận dựa trên RVQ phải xử lý phụ thuộc tuần tự giữa các codebook trong cùng một frame
- delay pattern dần đẩy các codebook bậc cao ra sau để điều kiện hóa chúng theo các codebook bậc thấp trong cùng frame
- Nếu bộ tokenizer RVQ có N codebook, cần N bước backbone trước khi giải mã mẩu âm thanh đầu tiên, khiến time-to-first-audio kém đi
- Điều này phù hợp cho các trường hợp offline như audiobook, nhưng trong kịch bản thời gian thực thì độ trễ là vấn đề

Kiến trúc CSM và cách suy luận

CSM là một mô hình văn bản-giọng nói đa phương thức xử lý trực tiếp token RVQ
Kiến trúc được chia thành hai transformer tự hồi quy
- Backbone đa phương thức đầu tiên nhận đầu vào xen kẽ văn bản và âm thanh để mô hình hóa codebook thứ 0
- Bộ giải mã âm thanh thứ hai dùng một linear head riêng cho từng codebook để mô hình hóa N−1 codebook còn lại và phục hồi giọng nói
Bộ giải mã nhỏ hơn backbone rất nhiều, cho phép sinh với độ trễ thấp hơn mà vẫn giữ mô hình ở dạng end-to-end
Suy luận diễn ra theo luồng sau
- Đưa tuần tự token văn bản và token âm thanh vào backbone
- Backbone dự đoán mức codebook thứ 0
- Bộ giải mã điều kiện hóa trên mức thứ 0 để lấy mẫu các mức từ 1 đến N−1
- Các token âm thanh đã phục hồi lại được đưa ngược vào backbone theo kiểu tự hồi quy cho bước tiếp theo
- Khi xuất hiện ký hiệu audio EOT, quá trình sinh kết thúc; ở yêu cầu tiếp theo, âm thanh xen giữa như phát ngôn của người dùng sẽ được biểu diễn thành token phiên âm âm thanh-văn bản
Cả hai transformer đều là biến thể của kiến trúc Llama, còn token văn bản được tạo bằng Llama tokenizer
Âm thanh được xử lý bằng Mimi, một tokenizer split-RVQ, tạo ra 1 codebook ngữ nghĩa và N−1 codebook âm học cho mỗi frame ở 12.5Hz
Mẫu huấn luyện có dạng văn bản và âm thanh xen kẽ luân phiên, còn danh tính người nói được mã hóa trực tiếp trong biểu diễn văn bản

Hiệu quả huấn luyện và dữ liệu

Trong quá trình huấn luyện, bộ giải mã âm thanh xử lý tự hồi quy kích thước batch hiệu dụng B×S và N codebook, tạo ra gánh nặng bộ nhớ lớn
Gánh nặng này làm chậm việc huấn luyện ngay cả với mô hình nhỏ, đồng thời gây khó khăn cho mở rộng mô hình và thử nghiệm nhanh
Sesame dùng compute amortization để giảm nút thắt mà vẫn giữ độ trung thực của toàn bộ codebook RVQ
- Bộ giải mã âm thanh chỉ được huấn luyện trên một tập con ngẫu nhiên 1/16 các frame âm thanh
- Codebook thứ 0 vẫn được huấn luyện trên mọi frame
- Với cách này, nhóm không quan sát thấy khác biệt đáng kể về cảm nhận trong loss của bộ giải mã âm thanh khi huấn luyện
Bộ dữ liệu được xây dựng bằng cách phiên âm, tách người nói, phân đoạn rồi lọc dữ liệu âm thanh công khai
Sau lọc, dữ liệu còn khoảng 1 triệu giờ và phần lớn là âm thanh tiếng Anh
Có ba kích thước mô hình được huấn luyện
- Tiny: backbone 1B, decoder 100M
- Small: backbone 3B, decoder 250M
- Medium: backbone 8B, decoder 300M
Mỗi mô hình được huấn luyện 5 epoch với độ dài chuỗi 2048, tương đương khoảng 2 phút âm thanh

Mẫu thử và hệ thống đánh giá

Các mẫu thử bao gồm yếu tố cận ngôn ngữ, từ ngoại ngữ, khả năng biểu đạt theo ngữ cảnh, sửa phát âm và hội thoại nhiều người nói
Bộ đánh giá đo bốn khía cạnh
- Độ trung thành với văn bản
- Khả năng sử dụng ngữ cảnh
- Ngữ điệu
- Độ trễ
Đánh giá khách quan gồm WER, bài kiểm tra phát âm mới, độ tương đồng người nói và các chỉ số khác
Đánh giá chủ quan gồm đánh giá con người Comparative Mean Opinion Score (CMOS) dùng bộ dữ liệu Expresso
Ở các benchmark truyền thống như WER và speaker similarity, các mô hình mới nhất bao gồm cả CSM đã gần đạt mức con người, nên gần như bão hòa

Đánh giá phát âm và hiểu ngữ cảnh

Một benchmark mới dựa trên phiên âm giọng nói được đưa vào để đánh giá tốt hơn khả năng phát âm và hiểu ngữ cảnh
Phân biệt từ đồng hình khác nghĩa đánh giá liệu mô hình có phát âm đúng những từ viết giống nhau nhưng đọc khác nhau hay không
- Ví dụ như phân biệt “lead” là /lɛd/ với nghĩa kim loại hay /liːd/ với nghĩa dẫn dắt
Tính nhất quán tiếp diễn của phát âm đánh giá xem một từ có nhiều biến thể phát âm có được giữ nhất quán trong hội thoại giọng nói nhiều lượt hay không
- Ví dụ như “route” có thể được đọc là /raʊt/ hoặc /ruːt/
Đánh giá độ chính xác từ đồng hình được thực hiện trên 200 mẫu giọng nói với 5 từ lead, bass, tear, wound, row, mỗi từ gồm 2 biến thể
Đánh giá tính nhất quán phát âm được thực hiện trên 200 mẫu giọng nói chứa 10 từ như aunt, data, envelope, mobile, route, vase, either, adult, often, caramel
Việc đánh giá dùng wav2vec2-lv-60-espeak-cv-ft
Kết quả do Play.ht, Elevenlabs và OpenAI sinh ra được tạo bằng thiết lập mặc định và giọng mặc định theo tài liệu API của từng bên
Nhìn chung, kích thước mô hình càng lớn thì hiệu năng càng tốt, củng cố giả thuyết rằng scaling giúp tổng hợp giọng nói chân thực hơn

Kết quả đánh giá con người

Để đánh giá mức độ tự nhiên và độ phù hợp ngữ điệu của CSM-Medium, nhóm đã thực hiện hai nghiên cứu CMOS bằng bộ dữ liệu Expresso
Người đánh giá nghe một cặp gồm âm thanh do mô hình tạo và bản ghi âm người thật, rồi chấm mẫu sinh ra trên thang ưu tiên 7 điểm so với mẫu đối chiếu
Nghiên cứu đầu tiên trình bày mẫu sinh và mẫu người thật không kèm ngữ cảnh, rồi hỏi “bên nào nghe giống giọng người hơn”
Nghiên cứu thứ hai cung cấp thêm 90 giây ngữ cảnh âm thanh và văn bản trước đó, rồi hỏi “bên nào nghe giống phần tiếp lời phù hợp hơn trong hội thoại”
Có 80 người tham gia có trả phí, mỗi người đánh giá trung bình 15 ví dụ
Khi không có ngữ cảnh, người đánh giá không thể hiện sự ưa thích rõ ràng giữa giọng sinh và giọng thật, cho thấy đánh giá độ tự nhiên đã gần bão hòa
Khi có ngữ cảnh, người đánh giá liên tục ưu tiên bản ghi gốc, cho thấy vẫn còn khoảng cách với ngữ điệu của con người trong sinh giọng nói hội thoại

Kế hoạch công khai và giới hạn

Sesame có kế hoạch open-source các thành phần cốt lõi của nghiên cứu, và mô hình dự kiến được phát hành theo giấy phép Apache 2.0
Có thể theo dõi cập nhật và đóng góp tại kho GitHub SesameAILabs/csm
Hiện tại CSM chủ yếu được huấn luyện trên dữ liệu tiếng Anh
- Do nhiễm bẩn dữ liệu nên có xuất hiện một phần năng lực đa ngôn ngữ, nhưng hiện vẫn chưa hoạt động tốt
- Mô hình cũng chưa tận dụng thông tin nằm trong trọng số của các language model tiền huấn luyện
Trong vài tháng tới, nhóm dự định mở rộng kích thước mô hình, tăng quy mô bộ dữ liệu và mở rộng hỗ trợ lên hơn 20 ngôn ngữ
Nhóm cũng sẽ khám phá cách tận dụng các language model tiền huấn luyện, hướng tới một mô hình đa phương thức lớn có hiểu biết sâu về cả giọng nói lẫn văn bản
CSM tạo ra ngữ điệu hội thoại chất lượng cao, nhưng chỉ mô hình hóa nội dung văn bản và âm thanh của cuộc trò chuyện, chứ chưa mô hình hóa chính cấu trúc hội thoại
Hội thoại của con người là một quá trình phức tạp gồm luân phiên lượt nói, khoảng dừng, điều chỉnh tốc độ và nhiều yếu tố khác; vì vậy AI hội thoại trong tương lai có thể sẽ gần với các mô hình fully duplex học ngầm những động lực này từ dữ liệu
Với mô hình fully duplex, sẽ cần những thay đổi mang tính nền tảng trên toàn bộ stack, từ tuyển chọn dữ liệu đến phương pháp hậu huấn luyện

Vượt qua “thung lũng kỳ quái” của giọng nói hội thoại

Voice presence và mục tiêu

Bài toán của Conversational Speech Model

Token âm thanh và thiết kế RVQ

Kiến trúc CSM và cách suy luận

Hiệu quả huấn luyện và dữ liệu

Mẫu thử và hệ thống đánh giá

Đánh giá phát âm và hiểu ngữ cảnh

Kết quả đánh giá con người

Kế hoạch công khai và giới hạn

Bài viết liên quan

Chưa có bình luận nào.