Meta công bố họ mô hình Seamless Communication

(ai.meta.com)

4 điểm bởi GN⁺ 2023-12-02 | 1 bình luận | Chia sẻ qua WhatsApp

Một họ mô hình nghiên cứu AI nhằm xóa bỏ rào cản ngôn ngữ và cho phép giao tiếp tự nhiên hơn giữa nhiều ngôn ngữ
- SeamlessExpressive: bảo toàn sắc thái biểu đạt và những tinh tế của ngôn ngữ khi chuyển ngữ giữa các ngôn ngữ
- SeamlessStreaming: cung cấp dịch giọng nói và văn bản với độ trễ khoảng 2 giây
- SeamlessM4T v2: mô hình nền tảng đa ngôn ngữ và đa tác vụ, hỗ trợ giao tiếp bằng giọng nói và văn bản
- Seamless: tích hợp các khả năng của SeamlessExpressive, SeamlessStreaming và SeamlessM4T v2 vào một

Bảo toàn sắc thái biểu đạt

SeamlessExpressive hướng tới việc dịch có thể nắm bắt các sắc thái trong cách con người biểu đạt
Các công cụ dịch hiện nay giỏi nắm bắt nội dung hội thoại, nhưng thường cho đầu ra với giọng đều đều và máy móc
SeamlessExpressive muốn bảo toàn không chỉ phong cách giọng nói và màu sắc cảm xúc mà còn cả những tinh tế như tốc độ nói và các khoảng ngắt

Dịch gần thời gian thực

SeamlessStreaming là mô hình đa ngôn ngữ quy mô lớn đầu tiên cung cấp dịch với độ trễ khoảng 2 giây
Được xây dựng trên SeamlessM4T v2, hỗ trợ nhận dạng giọng nói tự động và dịch giọng nói sang văn bản cho gần 100 ngôn ngữ đầu vào và đầu ra
Đồng thời cũng hỗ trợ dịch giọng nói sang giọng nói cho gần 100 ngôn ngữ đầu vào và 36 ngôn ngữ đầu ra

Mô hình nền tảng cho dịch thuật phổ quát

Vào tháng 8 năm 2023, Meta đã giới thiệu phiên bản đầu tiên của SeamlessM4T, mang lại kết quả tối tân trong dịch thuật và phiên âm trên cả giọng nói lẫn văn bản
Mẫu cải tiến dựa trên đó là SeamlessM4T v2 trở thành nền tảng cho các mô hình mới SeamlessExpressive và SeamlessStreaming
Có kiến trúc mới và bộ giải mã text-to-unit không tự hồi quy, giúp cải thiện tính nhất quán giữa đầu ra văn bản và giọng nói

Cách tiếp cận nghiên cứu

Tin vào sức mạnh của hợp tác và nghiên cứu mở, Meta đã công khai toàn bộ họ mô hình Seamless Communication để các nhà nghiên cứu có thể tiếp tục phát triển từ công trình này
Để thúc đẩy một hệ sinh thái AI an toàn và có trách nhiệm, Meta đã giảm đáng kể tác động của độc tính do ảo giác trong dịch thuật, đồng thời triển khai cách tiếp cận watermark tùy chỉnh cho đầu ra âm thanh của mô hình biểu cảm

Ý kiến của GN⁺

Điểm quan trọng nhất trong bài viết này là phần giới thiệu các mô hình AI Seamless Communication do Meta phát triển nhằm phá bỏ rào cản ngôn ngữ. Các mô hình này cung cấp khả năng dịch gần như theo thời gian thực trong khi vẫn giữ được sắc thái biểu đạt, đồng thời sở hữu năng lực mạnh mẽ hỗ trợ nhiều ngôn ngữ. Những tiến bộ công nghệ như vậy đang mở ra con đường để mọi người trên khắp thế giới giao tiếp theo cách tự nhiên và chân thực hơn, vì thế đây sẽ là một tin tức thú vị và hấp dẫn với nhiều người.

1 bình luận

GN⁺ 2023-12-02

Ý kiến Hacker News

Hy vọng về công nghệ tương lai đầy hứa hẹn

Mong chờ ngày ở nước ngoài có thể đeo tai nghe và nghe các cuộc trò chuyện xung quanh bằng chính ngôn ngữ của mình. Từ nhỏ đã bị cuốn hút bởi "máy phiên dịch vạn năng" trong các tác phẩm khoa học viễn tưởng, và khi thấy cha mình bận rộn làm thông dịch viên đồng thời Pháp-Anh, đã từng muốn tự tạo ra một máy dịch. Hy vọng rằng dịch thuật là công việc quan trọng và có thể giúp ích cho rất nhiều người.
Kỳ vọng vào công cụ học ngôn ngữ ứng dụng công nghệ này

Mong chờ việc phát triển một giáo viên ngôn ngữ sử dụng công nghệ này. Mọi người đều có thể có gia sư riêng vài giờ mỗi ngày. Việc làm ở Trung Quốc hay Mexico và học ngôn ngữ thông qua game VR nghe rất hấp dẫn.
Tiềm năng của công nghệ streaming thời gian thực

Công ty đã đề xuất các giải pháp như Dragon vốn không hoạt động theo thời gian thực cho một nhân viên mới bị khiếm thính, nhưng chính nhân viên đó đã tự dùng Whisper để phát triển một giải pháp chuyển đổi thành văn bản gần thời gian thực. Rất mong chờ xem anh ấy sẽ làm được gì với mô hình mới này.
Lo ngại về độ chính xác của bản dịch

Điều đáng lo hơn việc trình dịch đôi khi dùng từ không chính xác là nó tạo ra những bản dịch dễ gây hiểu lầm. Ví dụ, khi dịch "what the fuck" sang tiếng Tây Ban Nha mà lại xuất ra "qué diablos" với sắc thái nhẹ hơn, điều đó có thể trở thành vấn đề với những người muốn biết chính xác ý định ban đầu.
Nhận thức về sự thay đổi của ngành do AI gây ra

Khi vợ định trở thành diễn viên lồng tiếng chuyên nghiệp cho nhiều ngôn ngữ, đã nhìn thấy trước sự thay đổi của ngành do AI gây ra và đổi hướng. Cảm thấy kết quả từ sự phát triển của AI thật ấn tượng.
Sự phát triển của công nghệ text-to-speech và kỳ vọng trong tương lai

Công nghệ text-to-speech đã tiến bộ rất nhiều trong vài năm gần đây, nhưng vẫn tò mò không biết khi nào công nghệ này sẽ được tích hợp vào các TTS engine có sẵn trong hệ điều hành, chẳng hạn như screen reader.
Bất mãn về việc thiếu hỗ trợ cho một số ngôn ngữ cụ thể

Thất vọng vì những ngôn ngữ lớn như tiếng Hindi không có trong phần mẫu. Ấn Độ là một trong những cơ sở người dùng lớn nhất của Facebook, nhưng Facebook lại chưa đóng góp đủ cho Ấn Độ.
Nêu vấn đề về sự thiếu hụt dữ liệu ngôn ngữ

Kết quả thử dịch Anh-Swahili không tốt. Đã dùng Huggingface M4T V2 nhưng trong đa số trường hợp nó không hoạt động đúng mà chỉ trả lại tiếng Anh với một giọng khác. Cần có lời giải thích rõ ràng về việc thiếu loại dữ liệu nào khiến ngôn ngữ đó không hoạt động đúng. Có thể cũng sẽ giúp được bằng cách cung cấp dữ liệu.
Cách diễn đạt về lỗi của trình dịch

Cảm thấy cụm từ "toxic word hallucinations" rất đậm chất cyberpunk.
Sự thán phục trước tiến bộ của công nghệ dịch bằng trí tuệ nhân tạo

Cảm động trước những tiến bộ đã đạt được trong 30 năm qua. Vào giữa thập niên 90, khi còn là sinh viên, đã làm việc với hệ thống Verbmobil của Trung tâm Nghiên cứu Trí tuệ Nhân tạo Đức, một hệ thống thực hiện dịch lời nói sang lời nói giữa tiếng Anh, tiếng Đức và tiếng Nhật trong phạm vi rất hạn chế. Khi đó, người ta dùng cách tiếp cận NLP "truyền thống" như mô hình hóa miền, phân tích cú pháp câu, semantic engine, và speech-to-text tùy biến cho 3 ngôn ngữ, nhưng rồi cũng nhận ra rằng cách tiếp cận này cuối cùng là ngõ cụt.