- Với các trợ lý giọng nói số được sử dụng lâu dài, voice presence phản ánh cảm xúc, nhịp điệu và ngữ cảnh quan trọng hơn một giọng tổng hợp sạch sẽ; vì vậy Sesame đề xuất Conversational Speech Model
- CSM là một transformer đa phương thức end-to-end xử lý đồng thời văn bản và âm thanh, được thiết kế để tạo ra lời nói tự nhiên và nhất quán hơn bằng cách tận dụng lịch sử hội thoại
- Mô hình xử lý trực tiếp các token RVQ, nhưng được chia thành backbone phụ trách codebook thứ 0 và một bộ giải mã âm thanh nhỏ phục hồi các codebook còn lại để cân bằng giữa độ trễ và khả năng biểu đạt
- Ba kích thước Tiny, Small, Medium được huấn luyện trên khoảng 1 triệu giờ dữ liệu âm thanh công khai chủ yếu bằng tiếng Anh; ngoài WER và độ tương đồng người nói, nhóm còn bổ sung đánh giá phát âm từ đồng hình khác nghĩa và tính nhất quán phát âm
- Khi không có ngữ cảnh, mức độ ưa thích giữa CSM-Medium và giọng nói thật không khác biệt rõ rệt; nhưng khi có ngữ cảnh hội thoại, bản ghi âm thật được ưa thích hơn như phần nối tiếp phù hợp hơn, cho thấy vẫn còn khoảng cách về ngữ điệu hội thoại
Voice presence và mục tiêu
- Mục tiêu của Sesame là hiện thực hóa voice presence, khiến giọng nói được cảm nhận như thực sự được thấu hiểu và có giá trị
- Các trợ lý giọng nói số hiện nay thường dừng ở lối nói trung tính, nên sau khi cảm giác mới lạ ban đầu qua đi, chúng khó được tiếp tục dùng trong đời sống hằng ngày
- Có bốn thành phần cần thiết
- Trí tuệ cảm xúc: đọc hiểu và phản hồi theo ngữ cảnh cảm xúc
- Động lực hội thoại: xử lý nhịp thời gian, khoảng dừng, chen lời và nhấn mạnh một cách tự nhiên
- Nhận thức ngữ cảnh: điều chỉnh tông và phong cách theo tình huống
- Tính cách nhất quán: duy trì một hiện diện đáng tin cậy và phù hợp
- Người bạn đồng hành trong bản demo hiện tại được tối ưu để nhấn mạnh sự thân thiện và khả năng biểu đạt; còn tính cách, trí nhớ, biểu đạt và mức độ phù hợp vẫn đang được cải thiện
Bài toán của Conversational Speech Model
- TTS truyền thống tạo giọng nói trực tiếp từ văn bản, nhưng thiếu nhận thức ngữ cảnh cần thiết cho hội thoại tự nhiên
- Dù các mô hình gần đây có thể tạo ra giọng nói giống con người, vẫn có nhiều cách để đọc một câu, và chỉ một số trong đó phù hợp với từng tình huống cụ thể
- Nếu không có thêm ngữ cảnh như tông giọng, nhịp điệu hay lịch sử hội thoại, mô hình sẽ khó chọn cách phát âm phù hợp nhất
- CSM xử lý vấn đề này bằng học đa phương thức end-to-end, cho phép transformer dùng lịch sử hội thoại để tạo giọng nói tự nhiên và nhất quán hơn
- Có hai đặc điểm chính
- Hoạt động như mô hình một giai đoạn để tăng hiệu quả và khả năng biểu đạt
- Dùng một bộ đánh giá riêng để đo tiến bộ về năng lực ngữ cảnh trong bối cảnh các bài đánh giá công khai phổ biến đã gần bão hòa
Token âm thanh và thiết kế RVQ
- Để mô hình hóa âm thanh bằng transformer, dạng sóng liên tục được chuyển thành chuỗi token âm thanh rời rạc
- Các cách tiếp cận hiện đại thường dùng hai loại token
- Token ngữ nghĩa: nén thông tin ý nghĩa và đặc trưng âm vị, nhưng hy sinh khả năng biểu diễn độ trung thực cao
- Token âm học: chứa thông tin âm học chi tiết để cho phép phục hồi độ trung thực cao, đồng thời giữ lại các đặc tính như danh tính người nói và âm sắc
- Cách làm phổ biến là mô hình hóa token ngữ nghĩa trước rồi tạo âm thanh bằng RVQ hoặc các phương pháp dựa trên diffusion
- Cách làm hai giai đoạn này cho phép tổng hợp có cấu trúc, nhưng tạo ra một nút thắt cổ chai khi token ngữ nghĩa phải mang đủ cả ngữ điệu
- Cách tiếp cận dựa trên RVQ phải xử lý phụ thuộc tuần tự giữa các codebook trong cùng một frame
- delay pattern dần đẩy các codebook bậc cao ra sau để điều kiện hóa chúng theo các codebook bậc thấp trong cùng frame
- Nếu bộ tokenizer RVQ có N codebook, cần N bước backbone trước khi giải mã mẩu âm thanh đầu tiên, khiến time-to-first-audio kém đi
- Điều này phù hợp cho các trường hợp offline như audiobook, nhưng trong kịch bản thời gian thực thì độ trễ là vấn đề
Kiến trúc CSM và cách suy luận
- CSM là một mô hình văn bản-giọng nói đa phương thức xử lý trực tiếp token RVQ
- Kiến trúc được chia thành hai transformer tự hồi quy
- Backbone đa phương thức đầu tiên nhận đầu vào xen kẽ văn bản và âm thanh để mô hình hóa codebook thứ 0
- Bộ giải mã âm thanh thứ hai dùng một linear head riêng cho từng codebook để mô hình hóa N−1 codebook còn lại và phục hồi giọng nói
- Bộ giải mã nhỏ hơn backbone rất nhiều, cho phép sinh với độ trễ thấp hơn mà vẫn giữ mô hình ở dạng end-to-end
- Suy luận diễn ra theo luồng sau
- Đưa tuần tự token văn bản và token âm thanh vào backbone
- Backbone dự đoán mức codebook thứ 0
- Bộ giải mã điều kiện hóa trên mức thứ 0 để lấy mẫu các mức từ 1 đến N−1
- Các token âm thanh đã phục hồi lại được đưa ngược vào backbone theo kiểu tự hồi quy cho bước tiếp theo
- Khi xuất hiện ký hiệu audio EOT, quá trình sinh kết thúc; ở yêu cầu tiếp theo, âm thanh xen giữa như phát ngôn của người dùng sẽ được biểu diễn thành token phiên âm âm thanh-văn bản
- Cả hai transformer đều là biến thể của kiến trúc Llama, còn token văn bản được tạo bằng Llama tokenizer
- Âm thanh được xử lý bằng Mimi, một tokenizer split-RVQ, tạo ra 1 codebook ngữ nghĩa và N−1 codebook âm học cho mỗi frame ở 12.5Hz
- Mẫu huấn luyện có dạng văn bản và âm thanh xen kẽ luân phiên, còn danh tính người nói được mã hóa trực tiếp trong biểu diễn văn bản
Hiệu quả huấn luyện và dữ liệu
- Trong quá trình huấn luyện, bộ giải mã âm thanh xử lý tự hồi quy kích thước batch hiệu dụng B×S và N codebook, tạo ra gánh nặng bộ nhớ lớn
- Gánh nặng này làm chậm việc huấn luyện ngay cả với mô hình nhỏ, đồng thời gây khó khăn cho mở rộng mô hình và thử nghiệm nhanh
- Sesame dùng compute amortization để giảm nút thắt mà vẫn giữ độ trung thực của toàn bộ codebook RVQ
- Bộ giải mã âm thanh chỉ được huấn luyện trên một tập con ngẫu nhiên 1/16 các frame âm thanh
- Codebook thứ 0 vẫn được huấn luyện trên mọi frame
- Với cách này, nhóm không quan sát thấy khác biệt đáng kể về cảm nhận trong loss của bộ giải mã âm thanh khi huấn luyện
- Bộ dữ liệu được xây dựng bằng cách phiên âm, tách người nói, phân đoạn rồi lọc dữ liệu âm thanh công khai
- Sau lọc, dữ liệu còn khoảng 1 triệu giờ và phần lớn là âm thanh tiếng Anh
- Có ba kích thước mô hình được huấn luyện
- Tiny: backbone 1B, decoder 100M
- Small: backbone 3B, decoder 250M
- Medium: backbone 8B, decoder 300M
- Mỗi mô hình được huấn luyện 5 epoch với độ dài chuỗi 2048, tương đương khoảng 2 phút âm thanh
Mẫu thử và hệ thống đánh giá
- Các mẫu thử bao gồm yếu tố cận ngôn ngữ, từ ngoại ngữ, khả năng biểu đạt theo ngữ cảnh, sửa phát âm và hội thoại nhiều người nói
- Bộ đánh giá đo bốn khía cạnh
- Độ trung thành với văn bản
- Khả năng sử dụng ngữ cảnh
- Ngữ điệu
- Độ trễ
- Đánh giá khách quan gồm WER, bài kiểm tra phát âm mới, độ tương đồng người nói và các chỉ số khác
- Đánh giá chủ quan gồm đánh giá con người Comparative Mean Opinion Score (CMOS) dùng bộ dữ liệu Expresso
- Ở các benchmark truyền thống như WER và speaker similarity, các mô hình mới nhất bao gồm cả CSM đã gần đạt mức con người, nên gần như bão hòa
Đánh giá phát âm và hiểu ngữ cảnh
- Một benchmark mới dựa trên phiên âm giọng nói được đưa vào để đánh giá tốt hơn khả năng phát âm và hiểu ngữ cảnh
- Phân biệt từ đồng hình khác nghĩa đánh giá liệu mô hình có phát âm đúng những từ viết giống nhau nhưng đọc khác nhau hay không
- Ví dụ như phân biệt “lead” là /lɛd/ với nghĩa kim loại hay /liːd/ với nghĩa dẫn dắt
- Tính nhất quán tiếp diễn của phát âm đánh giá xem một từ có nhiều biến thể phát âm có được giữ nhất quán trong hội thoại giọng nói nhiều lượt hay không
- Ví dụ như “route” có thể được đọc là /raʊt/ hoặc /ruːt/
- Đánh giá độ chính xác từ đồng hình được thực hiện trên 200 mẫu giọng nói với 5 từ lead, bass, tear, wound, row, mỗi từ gồm 2 biến thể
- Đánh giá tính nhất quán phát âm được thực hiện trên 200 mẫu giọng nói chứa 10 từ như aunt, data, envelope, mobile, route, vase, either, adult, often, caramel
- Việc đánh giá dùng wav2vec2-lv-60-espeak-cv-ft
- Kết quả do Play.ht, Elevenlabs và OpenAI sinh ra được tạo bằng thiết lập mặc định và giọng mặc định theo tài liệu API của từng bên
- Nhìn chung, kích thước mô hình càng lớn thì hiệu năng càng tốt, củng cố giả thuyết rằng scaling giúp tổng hợp giọng nói chân thực hơn
Kết quả đánh giá con người
- Để đánh giá mức độ tự nhiên và độ phù hợp ngữ điệu của CSM-Medium, nhóm đã thực hiện hai nghiên cứu CMOS bằng bộ dữ liệu Expresso
- Người đánh giá nghe một cặp gồm âm thanh do mô hình tạo và bản ghi âm người thật, rồi chấm mẫu sinh ra trên thang ưu tiên 7 điểm so với mẫu đối chiếu
- Nghiên cứu đầu tiên trình bày mẫu sinh và mẫu người thật không kèm ngữ cảnh, rồi hỏi “bên nào nghe giống giọng người hơn”
- Nghiên cứu thứ hai cung cấp thêm 90 giây ngữ cảnh âm thanh và văn bản trước đó, rồi hỏi “bên nào nghe giống phần tiếp lời phù hợp hơn trong hội thoại”
- Có 80 người tham gia có trả phí, mỗi người đánh giá trung bình 15 ví dụ
- Khi không có ngữ cảnh, người đánh giá không thể hiện sự ưa thích rõ ràng giữa giọng sinh và giọng thật, cho thấy đánh giá độ tự nhiên đã gần bão hòa
- Khi có ngữ cảnh, người đánh giá liên tục ưu tiên bản ghi gốc, cho thấy vẫn còn khoảng cách với ngữ điệu của con người trong sinh giọng nói hội thoại
Kế hoạch công khai và giới hạn
- Sesame có kế hoạch open-source các thành phần cốt lõi của nghiên cứu, và mô hình dự kiến được phát hành theo giấy phép Apache 2.0
- Có thể theo dõi cập nhật và đóng góp tại kho GitHub SesameAILabs/csm
- Hiện tại CSM chủ yếu được huấn luyện trên dữ liệu tiếng Anh
- Do nhiễm bẩn dữ liệu nên có xuất hiện một phần năng lực đa ngôn ngữ, nhưng hiện vẫn chưa hoạt động tốt
- Mô hình cũng chưa tận dụng thông tin nằm trong trọng số của các language model tiền huấn luyện
- Trong vài tháng tới, nhóm dự định mở rộng kích thước mô hình, tăng quy mô bộ dữ liệu và mở rộng hỗ trợ lên hơn 20 ngôn ngữ
- Nhóm cũng sẽ khám phá cách tận dụng các language model tiền huấn luyện, hướng tới một mô hình đa phương thức lớn có hiểu biết sâu về cả giọng nói lẫn văn bản
- CSM tạo ra ngữ điệu hội thoại chất lượng cao, nhưng chỉ mô hình hóa nội dung văn bản và âm thanh của cuộc trò chuyện, chứ chưa mô hình hóa chính cấu trúc hội thoại
- Hội thoại của con người là một quá trình phức tạp gồm luân phiên lượt nói, khoảng dừng, điều chỉnh tốc độ và nhiều yếu tố khác; vì vậy AI hội thoại trong tương lai có thể sẽ gần với các mô hình fully duplex học ngầm những động lực này từ dữ liệu
- Với mô hình fully duplex, sẽ cần những thay đổi mang tính nền tảng trên toàn bộ stack, từ tuyển chọn dữ liệu đến phương pháp hậu huấn luyện
Chưa có bình luận nào.