5 điểm bởi GN⁺ 2025-03-03 | 1 bình luận | Chia sẻ qua WhatsApp
  • Giọng nói của con người là phương tiện thân mật nhất để truyền tải ý nghĩa sâu sắc thông qua nhiều biến đổi như ngữ điệu, cao độ, nhịp điệu và cảm xúc
  • Các trợ lý giọng nói kỹ thuật số hiện nay thiếu những yếu tố cảm xúc này, nên còn có giới hạn trong việc cộng tác hiệu quả với người dùng
  • Giọng nói thiếu cảm xúc ban đầu có thể gây tò mò, nhưng theo thời gian có thể trở nên thất vọng và gây mệt mỏi
  • Mục tiêu của Sesame là để đối tác hội thoại không chỉ xử lý yêu cầu mà còn có thể tạo nên những cuộc trò chuyện thực sự, xây dựng niềm tin và sự tự tin
  • Thông qua đó, công ty muốn khai thác tối đa tiềm năng của giọng nói để biến nó thành giao diện tối thượng cho việc ra lệnh và thấu hiểu

Yếu tố cốt lõi

  • Trí tuệ cảm xúc: khả năng đọc hiểu và phản hồi theo ngữ cảnh cảm xúc
  • Động lực hội thoại: dòng chảy trò chuyện bao gồm thời điểm tự nhiên, khoảng dừng, ngắt lời, nhấn mạnh, v.v.
  • Nhận thức tình huống: khả năng điều chỉnh ngữ điệu và phong cách cho phù hợp với tình huống
  • Tính cách nhất quán: duy trì sự hiện diện nhất quán, đáng tin cậy và phù hợp

Chúng ta vẫn chưa đến được đó

  • Việc mang lại sự hiện diện bằng giọng nói cho bạn đồng hành kỹ thuật số là một bài toán khó, nhưng chúng tôi đang liên tục tiến bộ ở nhiều khía cạnh như tính cách, trí nhớ, khả năng biểu đạt và độ phù hợp
  • Bản demo dưới đây cho thấy một phần công việc tạo giọng nói hội thoại được tối ưu hóa về sự thân thiện và khả năng biểu đạt

Tạo giọng nói hội thoại

  • Để tạo ra một bạn đồng hành AI thực sự có tính tương tác, không chỉ cần sinh âm thanh chất lượng cao mà còn phải hiểu và thích ứng với ngữ cảnh theo thời gian thực
  • Các mô hình chuyển văn bản thành giọng nói (TTS) truyền thống tạo giọng nói trực tiếp từ văn bản, nhưng thiếu khả năng nhận thức ngữ cảnh cần thiết cho hội thoại tự nhiên
  • Các mô hình gần đây có thể tạo ra giọng nói giống con người, nhưng gặp phải vấn đề 'one-to-many', tức cùng một câu có thể được thể hiện theo nhiều cách khác nhau
  • Nếu không có thêm ngữ cảnh như ngữ điệu, nhịp điệu, lịch sử hội thoại, v.v., mô hình sẽ thiếu thông tin để đưa ra lựa chọn tối ưu
  • Để nắm bắt những khác biệt tinh tế này, cần có khả năng suy luận về nhiều khía cạnh của ngôn ngữ và ngữ điệu

Mô hình giọng nói hội thoại (Conversational Speech Model, CSM)

  • Để giải quyết vấn đề này, nhóm giới thiệu Mô hình giọng nói hội thoại (CSM), trong đó bài toán được định nghĩa như một nhiệm vụ học đa phương thức end-to-end sử dụng transformer
  • Mô hình tận dụng lịch sử hội thoại để tạo ra giọng nói tự nhiên và nhất quán hơn
  • CSM hoạt động như một mô hình một giai đoạn, giúp cải thiện hiệu quả và khả năng biểu đạt
  • Mô hình có bộ đánh giá để đo lường tiến triển về các chức năng theo ngữ cảnh, trong bối cảnh các đánh giá công khai phổ biến đã bão hòa

Bối cảnh

  • Một cách tiếp cận để mô hình hóa âm thanh bằng transformer là dùng tokenizer để chuyển dạng sóng liên tục thành chuỗi token âm thanh rời rạc
  • Hầu hết các cách tiếp cận hiện đại dựa vào hai loại token âm thanh:
    • Token ngữ nghĩa: biểu diễn nén, bất biến theo người nói, của các đặc trưng ngữ nghĩa và ngữ âm; nắm bắt các đặc tính lời nói chính nhưng đánh đổi độ trung thực biểu đạt cao
    • Token âm học: mã hóa các chi tiết âm học tinh vi cho phép tái tạo âm thanh độ trung thực cao, được tạo bằng Residual Vector Quantization(RVQ). Khác với token ngữ nghĩa, chúng giữ lại các đặc tính giọng nói tự nhiên như danh tính riêng và âm sắc của người nói

Thử nghiệm

  • Bộ dữ liệu: sử dụng khoảng một triệu giờ bộ dữ liệu âm thanh công khai, chủ yếu là tiếng Anh
  • Kích thước mô hình: huấn luyện ba kích thước mô hình, phân biệt theo kích thước backbone và decoder:
    • Tiny: backbone 1 tỷ tham số, decoder 100 triệu tham số
    • Small: backbone 3 tỷ tham số, decoder 250 triệu tham số
    • Medium: backbone 8 tỷ tham số, decoder 300 triệu tham số
  • Mỗi mô hình được huấn luyện trong 5 epoch với độ dài chuỗi 2048 (~2 phút âm thanh)

Đánh giá

  • Hiệu năng mô hình được đánh giá theo bốn khía cạnh chính: độ trung thực với văn bản, khả năng tận dụng ngữ cảnh, ngữ điệu và độ trễ
  • Các benchmark khách quan bao gồm tỷ lệ lỗi từ (WER) và những bài kiểm tra mới như phân giải từ đồng âm
  • Đánh giá chủ quan dựa trên nghiên cứu CMOS do con người thực hiện với bộ dữ liệu Expresso

Hạn chế và công việc tiếp theo

  • CSM hiện chủ yếu được huấn luyện trên dữ liệu tiếng Anh; dù xuất hiện một phần khả năng đa ngôn ngữ do nhiễm bẩn dữ liệu, hiệu năng vẫn chưa tốt
  • Mô hình không tận dụng thông tin có trong trọng số của các mô hình ngôn ngữ đã được tiền huấn luyện

1 bình luận

 
GN⁺ 2025-03-03
Ý kiến Hacker News
  • Brendan từ Sesame nói rằng phản hồi này là chính xác, đồng thời thừa nhận vẫn còn rất nhiều điểm cần cải thiện. Dù mang lại cảm hứng, vẫn còn nhiều bước phải đi trước khi có thể mang đến một trải nghiệm thực sự. Hiện tại mới chỉ ở giai đoạn đầu của quá trình phát triển, nhưng triển vọng là tích cực

    • Giao tiếp bằng ngôn ngữ rất phức tạp và còn nhiều bài toán thú vị cần giải quyết
    • Thời điểm phản hồi thường chưa phù hợp và chưa thể hòa vào cuộc trò chuyện một cách tự nhiên
    • Chưa xử lý tốt việc ngắt lời trong hội thoại và chưa duy trì được tính cách nhất quán
    • Cũng có các vấn đề như ảo giác, trí nhớ kém và thiếu nhận thức về thời gian
    • Tin rằng cộng đồng có thể giải quyết những vấn đề này
    • Mục tiêu là tạo ra một giao diện có thể cộng tác tự nhiên, hơn là một tình bạn cảm xúc
    • Nếu ứng dụng có thể trò chuyện như một chuyên gia, nó sẽ trực quan và hiệu quả hơn
  • Một người dùng đã thử bản demo nhưng quyết định không nói gì. Trải nghiệm này khiến họ thấy kỳ lạ và bất an, còn sự nhiệt tình nhân tạo thì gây khó chịu

    • Sản phẩm AI cần đưa ra mục tiêu rõ ràng cho người dùng
    • AI chỉ tồn tại để trò chuyện có thể gây ảnh hưởng tiêu cực đến xã hội
  • Một người dùng khác cho biết họ rất ngạc nhiên trước độ phản hồi và cá tính của mô hình này. Việc nó nhớ các cuộc trò chuyện trước đó và chào mừng khi quay lại là điều rất ấn tượng

    • Tương tác trong bản demo được ghi lại và các cuộc trò chuyện trước đó được đưa vào ngữ cảnh của mô hình
    • Cần quyền truy cập microphone, và cuộc gọi được ghi lại để kiểm tra chất lượng, nhưng sẽ bị xóa trong vòng 30 ngày
  • Đặt câu hỏi vì sao lại cần một giọng nói giàu cảm xúc

    • Giọng nói giàu cảm xúc chỉ tạo ra ảo tưởng về một người bạn, chứ không thực sự giúp ích
    • Một trợ lý giọng nói trung tính nhưng thông minh có thể hữu ích hơn
  • Một người dùng đã chơi với AI cùng cô con gái 4 tuổi của mình và lo ngại rằng bé đã hình thành sự gắn kết cảm xúc với AI

  • Một người dùng khác cảm thấy giọng nói nghe rất giống con người, nhưng nhịp điệu lời nói lại không tự nhiên

  • Có ý kiến cho rằng công nghệ này quá tốt đến mức có thể mê hoặc con người. Họ cho rằng cần có các mô hình cá nhân

  • Có ý kiến cho rằng đây có thể là một cuộc cách mạng trong việc học tiếng Anh

    • Ở các nước đang phát triển, giáo viên tiếng Anh còn thiếu, và giáo viên giỏi thì đắt đỏ nên khó tiếp cận
    • Mô hình này cho hiệu năng tương đương hoặc tốt hơn các mô hình của OpenAI, với chi phí thấp hơn
  • Đưa ra một dự đoán mang màu sắc tận thế rằng AI có thể gọi điện bằng giọng nói hoàn hảo và mê hoặc con người

  • Một người dùng cho biết họ đã trò chuyện 13 phút thì bị crash, nhưng quay lại sau vài phút và nói chuyện thêm 30 phút nữa, và cảm thấy nó đã tiến rất gần đến cấp độ Samantha trong phim 'Her'

    • Trong lúc trò chuyện, họ đã học được từ 'PROSODY', và AI giải thích rằng nó nghe tông giọng lẫn nội dung rồi tự động điều chỉnh phản ứng
    • Họ nói rằng tương lai đã đến rồi, chỉ là chưa được phân bổ đồng đều