Meta công bố họ mô hình Seamless Communication
(ai.meta.com)- Một họ mô hình nghiên cứu AI nhằm xóa bỏ rào cản ngôn ngữ và cho phép giao tiếp tự nhiên hơn giữa nhiều ngôn ngữ
- SeamlessExpressive: bảo toàn sắc thái biểu đạt và những tinh tế của ngôn ngữ khi chuyển ngữ giữa các ngôn ngữ
- SeamlessStreaming: cung cấp dịch giọng nói và văn bản với độ trễ khoảng 2 giây
- SeamlessM4T v2: mô hình nền tảng đa ngôn ngữ và đa tác vụ, hỗ trợ giao tiếp bằng giọng nói và văn bản
- Seamless: tích hợp các khả năng của SeamlessExpressive, SeamlessStreaming và SeamlessM4T v2 vào một
Bảo toàn sắc thái biểu đạt
- SeamlessExpressive hướng tới việc dịch có thể nắm bắt các sắc thái trong cách con người biểu đạt
- Các công cụ dịch hiện nay giỏi nắm bắt nội dung hội thoại, nhưng thường cho đầu ra với giọng đều đều và máy móc
- SeamlessExpressive muốn bảo toàn không chỉ phong cách giọng nói và màu sắc cảm xúc mà còn cả những tinh tế như tốc độ nói và các khoảng ngắt
Dịch gần thời gian thực
- SeamlessStreaming là mô hình đa ngôn ngữ quy mô lớn đầu tiên cung cấp dịch với độ trễ khoảng 2 giây
- Được xây dựng trên SeamlessM4T v2, hỗ trợ nhận dạng giọng nói tự động và dịch giọng nói sang văn bản cho gần 100 ngôn ngữ đầu vào và đầu ra
- Đồng thời cũng hỗ trợ dịch giọng nói sang giọng nói cho gần 100 ngôn ngữ đầu vào và 36 ngôn ngữ đầu ra
Mô hình nền tảng cho dịch thuật phổ quát
- Vào tháng 8 năm 2023, Meta đã giới thiệu phiên bản đầu tiên của SeamlessM4T, mang lại kết quả tối tân trong dịch thuật và phiên âm trên cả giọng nói lẫn văn bản
- Mẫu cải tiến dựa trên đó là SeamlessM4T v2 trở thành nền tảng cho các mô hình mới SeamlessExpressive và SeamlessStreaming
- Có kiến trúc mới và bộ giải mã text-to-unit không tự hồi quy, giúp cải thiện tính nhất quán giữa đầu ra văn bản và giọng nói
Cách tiếp cận nghiên cứu
- Tin vào sức mạnh của hợp tác và nghiên cứu mở, Meta đã công khai toàn bộ họ mô hình Seamless Communication để các nhà nghiên cứu có thể tiếp tục phát triển từ công trình này
- Để thúc đẩy một hệ sinh thái AI an toàn và có trách nhiệm, Meta đã giảm đáng kể tác động của độc tính do ảo giác trong dịch thuật, đồng thời triển khai cách tiếp cận watermark tùy chỉnh cho đầu ra âm thanh của mô hình biểu cảm
Ý kiến của GN⁺
Điểm quan trọng nhất trong bài viết này là phần giới thiệu các mô hình AI Seamless Communication do Meta phát triển nhằm phá bỏ rào cản ngôn ngữ. Các mô hình này cung cấp khả năng dịch gần như theo thời gian thực trong khi vẫn giữ được sắc thái biểu đạt, đồng thời sở hữu năng lực mạnh mẽ hỗ trợ nhiều ngôn ngữ. Những tiến bộ công nghệ như vậy đang mở ra con đường để mọi người trên khắp thế giới giao tiếp theo cách tự nhiên và chân thực hơn, vì thế đây sẽ là một tin tức thú vị và hấp dẫn với nhiều người.
1 bình luận
Ý kiến Hacker News
Hy vọng về công nghệ tương lai đầy hứa hẹn
Kỳ vọng vào công cụ học ngôn ngữ ứng dụng công nghệ này
Tiềm năng của công nghệ streaming thời gian thực
Lo ngại về độ chính xác của bản dịch
Nhận thức về sự thay đổi của ngành do AI gây ra
Sự phát triển của công nghệ text-to-speech và kỳ vọng trong tương lai
Bất mãn về việc thiếu hỗ trợ cho một số ngôn ngữ cụ thể
Nêu vấn đề về sự thiếu hụt dữ liệu ngôn ngữ
Cách diễn đạt về lỗi của trình dịch
Sự thán phục trước tiến bộ của công nghệ dịch bằng trí tuệ nhân tạo