- Giọng nói của con người là phương tiện thân mật nhất để truyền tải ý nghĩa sâu sắc thông qua nhiều biến đổi như ngữ điệu, cao độ, nhịp điệu và cảm xúc
- Các trợ lý giọng nói kỹ thuật số hiện nay thiếu những yếu tố cảm xúc này, nên còn có giới hạn trong việc cộng tác hiệu quả với người dùng
- Giọng nói thiếu cảm xúc ban đầu có thể gây tò mò, nhưng theo thời gian có thể trở nên thất vọng và gây mệt mỏi
- Mục tiêu của Sesame là để đối tác hội thoại không chỉ xử lý yêu cầu mà còn có thể tạo nên những cuộc trò chuyện thực sự, xây dựng niềm tin và sự tự tin
- Thông qua đó, công ty muốn khai thác tối đa tiềm năng của giọng nói để biến nó thành giao diện tối thượng cho việc ra lệnh và thấu hiểu
Yếu tố cốt lõi
- Trí tuệ cảm xúc: khả năng đọc hiểu và phản hồi theo ngữ cảnh cảm xúc
- Động lực hội thoại: dòng chảy trò chuyện bao gồm thời điểm tự nhiên, khoảng dừng, ngắt lời, nhấn mạnh, v.v.
- Nhận thức tình huống: khả năng điều chỉnh ngữ điệu và phong cách cho phù hợp với tình huống
- Tính cách nhất quán: duy trì sự hiện diện nhất quán, đáng tin cậy và phù hợp
Chúng ta vẫn chưa đến được đó
- Việc mang lại sự hiện diện bằng giọng nói cho bạn đồng hành kỹ thuật số là một bài toán khó, nhưng chúng tôi đang liên tục tiến bộ ở nhiều khía cạnh như tính cách, trí nhớ, khả năng biểu đạt và độ phù hợp
- Bản demo dưới đây cho thấy một phần công việc tạo giọng nói hội thoại được tối ưu hóa về sự thân thiện và khả năng biểu đạt
Tạo giọng nói hội thoại
- Để tạo ra một bạn đồng hành AI thực sự có tính tương tác, không chỉ cần sinh âm thanh chất lượng cao mà còn phải hiểu và thích ứng với ngữ cảnh theo thời gian thực
- Các mô hình chuyển văn bản thành giọng nói (TTS) truyền thống tạo giọng nói trực tiếp từ văn bản, nhưng thiếu khả năng nhận thức ngữ cảnh cần thiết cho hội thoại tự nhiên
- Các mô hình gần đây có thể tạo ra giọng nói giống con người, nhưng gặp phải vấn đề 'one-to-many', tức cùng một câu có thể được thể hiện theo nhiều cách khác nhau
- Nếu không có thêm ngữ cảnh như ngữ điệu, nhịp điệu, lịch sử hội thoại, v.v., mô hình sẽ thiếu thông tin để đưa ra lựa chọn tối ưu
- Để nắm bắt những khác biệt tinh tế này, cần có khả năng suy luận về nhiều khía cạnh của ngôn ngữ và ngữ điệu
Mô hình giọng nói hội thoại (Conversational Speech Model, CSM)
- Để giải quyết vấn đề này, nhóm giới thiệu Mô hình giọng nói hội thoại (CSM), trong đó bài toán được định nghĩa như một nhiệm vụ học đa phương thức end-to-end sử dụng transformer
- Mô hình tận dụng lịch sử hội thoại để tạo ra giọng nói tự nhiên và nhất quán hơn
- CSM hoạt động như một mô hình một giai đoạn, giúp cải thiện hiệu quả và khả năng biểu đạt
- Mô hình có bộ đánh giá để đo lường tiến triển về các chức năng theo ngữ cảnh, trong bối cảnh các đánh giá công khai phổ biến đã bão hòa
Bối cảnh
- Một cách tiếp cận để mô hình hóa âm thanh bằng transformer là dùng tokenizer để chuyển dạng sóng liên tục thành chuỗi token âm thanh rời rạc
- Hầu hết các cách tiếp cận hiện đại dựa vào hai loại token âm thanh:
- Token ngữ nghĩa: biểu diễn nén, bất biến theo người nói, của các đặc trưng ngữ nghĩa và ngữ âm; nắm bắt các đặc tính lời nói chính nhưng đánh đổi độ trung thực biểu đạt cao
- Token âm học: mã hóa các chi tiết âm học tinh vi cho phép tái tạo âm thanh độ trung thực cao, được tạo bằng Residual Vector Quantization(RVQ). Khác với token ngữ nghĩa, chúng giữ lại các đặc tính giọng nói tự nhiên như danh tính riêng và âm sắc của người nói
Thử nghiệm
- Bộ dữ liệu: sử dụng khoảng một triệu giờ bộ dữ liệu âm thanh công khai, chủ yếu là tiếng Anh
- Kích thước mô hình: huấn luyện ba kích thước mô hình, phân biệt theo kích thước backbone và decoder:
- Tiny: backbone 1 tỷ tham số, decoder 100 triệu tham số
- Small: backbone 3 tỷ tham số, decoder 250 triệu tham số
- Medium: backbone 8 tỷ tham số, decoder 300 triệu tham số
- Mỗi mô hình được huấn luyện trong 5 epoch với độ dài chuỗi 2048 (~2 phút âm thanh)
Đánh giá
- Hiệu năng mô hình được đánh giá theo bốn khía cạnh chính: độ trung thực với văn bản, khả năng tận dụng ngữ cảnh, ngữ điệu và độ trễ
- Các benchmark khách quan bao gồm tỷ lệ lỗi từ (WER) và những bài kiểm tra mới như phân giải từ đồng âm
- Đánh giá chủ quan dựa trên nghiên cứu CMOS do con người thực hiện với bộ dữ liệu Expresso
Hạn chế và công việc tiếp theo
- CSM hiện chủ yếu được huấn luyện trên dữ liệu tiếng Anh; dù xuất hiện một phần khả năng đa ngôn ngữ do nhiễm bẩn dữ liệu, hiệu năng vẫn chưa tốt
- Mô hình không tận dụng thông tin có trong trọng số của các mô hình ngôn ngữ đã được tiền huấn luyện
1 bình luận
Ý kiến Hacker News
Brendan từ Sesame nói rằng phản hồi này là chính xác, đồng thời thừa nhận vẫn còn rất nhiều điểm cần cải thiện. Dù mang lại cảm hứng, vẫn còn nhiều bước phải đi trước khi có thể mang đến một trải nghiệm thực sự. Hiện tại mới chỉ ở giai đoạn đầu của quá trình phát triển, nhưng triển vọng là tích cực
Một người dùng đã thử bản demo nhưng quyết định không nói gì. Trải nghiệm này khiến họ thấy kỳ lạ và bất an, còn sự nhiệt tình nhân tạo thì gây khó chịu
Một người dùng khác cho biết họ rất ngạc nhiên trước độ phản hồi và cá tính của mô hình này. Việc nó nhớ các cuộc trò chuyện trước đó và chào mừng khi quay lại là điều rất ấn tượng
Đặt câu hỏi vì sao lại cần một giọng nói giàu cảm xúc
Một người dùng đã chơi với AI cùng cô con gái 4 tuổi của mình và lo ngại rằng bé đã hình thành sự gắn kết cảm xúc với AI
Một người dùng khác cảm thấy giọng nói nghe rất giống con người, nhưng nhịp điệu lời nói lại không tự nhiên
Có ý kiến cho rằng công nghệ này quá tốt đến mức có thể mê hoặc con người. Họ cho rằng cần có các mô hình cá nhân
Có ý kiến cho rằng đây có thể là một cuộc cách mạng trong việc học tiếng Anh
Đưa ra một dự đoán mang màu sắc tận thế rằng AI có thể gọi điện bằng giọng nói hoàn hảo và mê hoặc con người
Một người dùng cho biết họ đã trò chuyện 13 phút thì bị crash, nhưng quay lại sau vài phút và nói chuyện thêm 30 phút nữa, và cảm thấy nó đã tiến rất gần đến cấp độ Samantha trong phim 'Her'