- Meta AI đã phát triển Omnilingual Machine Translation (OMT), hệ thống dịch máy đầu tiên hỗ trợ hơn 1.600 ngôn ngữ, vượt qua giới hạn 200 ngôn ngữ của dự án NLLB trước đó
- Kết hợp corpus công khai, dịch ngược và khai phá dữ liệu để xây dựng bộ dữ liệu đa ngôn ngữ quy mô lớn bao trùm cả các ngôn ngữ ít tài nguyên và ngôn ngữ thiểu số
- Tích hợp nhiều công cụ đánh giá chất lượng và độc hại như BLASER 3, OmniTOX, BOUQuET, Met-BOUQuET để đo lường hiệu năng dịch với độ tin cậy cao
- Triển khai song song mô hình decoder-only dựa trên LLaMA3 và OMT-NLLB với kiến trúc encoder–decoder để hiện thực hóa dịch chất lượng cao ngay cả trong môi trường tính toán hạn chế
- Đạt được khả năng sinh câu nhất quán trên toàn bộ 1.600 ngôn ngữ và cải thiện chuyển giao xuyên ngôn ngữ, được đánh giá là một bước tiến quan trọng trong việc mở rộng tính bao trùm ngôn ngữ toàn cầu
Tổng quan về Omnilingual MT
- Omnilingual Machine Translation (OMT) là hệ thống dịch máy đầu tiên hỗ trợ hơn 1.600 ngôn ngữ, do Meta AI phát triển
- Dựa trên thành quả của dự án No Language Left Behind (NLLB) trước đó đã mở rộng đến 200 ngôn ngữ, OMT bao quát số lượng ngôn ngữ lớn hơn rất nhiều
- Các hệ thống dịch dựa trên mô hình ngôn ngữ lớn (LLM) trước đây có chất lượng cao nhưng phạm vi ngôn ngữ hạn chế, đặc biệt bị chỉ ra là thiếu khả năng sinh ngôn ngữ ít tài nguyên và ngôn ngữ thiểu số
- Để vượt qua những giới hạn này, OMT đã mở rộng toàn diện chiến lược dữ liệu, kiến trúc mô hình và hệ thống đánh giá
Chiến lược dữ liệu và mở rộng độ bao phủ ngôn ngữ
- OMT mở rộng mạnh phạm vi ngôn ngữ bằng cách tích hợp corpus đa ngôn ngữ công khai với bộ dữ liệu mới được tạo ra
- Kết hợp MeDLEY bitext (dữ liệu song song được tinh chỉnh thủ công), dịch ngược tổng hợp (synthetic backtranslation) và kỹ thuật khai phá dữ liệu (mining)
- Qua đó bao trùm cả các ngôn ngữ đuôi dài (long-tail languages) cùng nhiều miền nội dung và văn phong (register) khác nhau
- Chiến lược dữ liệu này tạo nền tảng để bảo đảm khả năng biểu đạt cho phần lớn trong khoảng 7.000 ngôn ngữ mà các hệ thống trước đây chưa thể xử lý
Hệ thống đánh giá và đo lường chất lượng
- Để bảo đảm độ tin cậy và khả năng mở rộng, OMT kết hợp các chỉ số tiêu chuẩn với nhiều công cụ đánh giá khác nhau
-
BLASER 3**: mô hình đánh giáreference-free dùng để ước lượng chất lượng mà không cần câu tham chiếu
- OmniTOX: bộ phân loại dùng để xác định độc tính (toxicity) trong kết quả dịch
- BOUQuET: bộ dữ liệu đánh giá đa ngôn ngữ quy mô lớn bao gồm nhiều họ ngôn ngữ khác nhau, được xây dựng thủ công
- Met-BOUQuET: bộ dữ liệu mở rộng phục vụ ước lượng chất lượng đa ngôn ngữ quy mô lớn
- Các bộ dữ liệu này được cung cấp cùng bảng xếp hạng công khai được cập nhật liên tục, cho phép các nhà nghiên cứu tự do sử dụng
Kiến trúc mô hình và cách tiếp cận huấn luyện
- OMT chuyên biệt hóa LLM cho dịch thuật theo hai hướng
-
OMT-LLaMA
- Mô hình decoder-only dựa trên LLaMA3
- Tăng cường khả năng thích ứng ở thời điểm suy luận thông qua tiền huấn luyện tiếp diễn đa ngôn ngữ (multilingual continual pretraining) và dịch tăng cường truy xuất (retrieval-augmented translation)
-
OMT-NLLB
- Kiến trúc encoder–decoder, được xây dựng trên không gian căn chỉnh đa ngôn ngữ mang tên OmniSONAR
- Áp dụng phương pháp huấn luyện có thể tận dụng dữ liệu không song song (non-parallel data)
- Có thể tích hợp dữ liệu tiền huấn luyện decoder-only vào huấn luyện encoder–decoder
- Các mô hình 1B~8B tham số đạt hiệu năng dịch tương đương hoặc vượt mô hình chuẩn LLM 70B, qua đó chứng minh khả năng dịch chất lượng cao ngay cả trong môi trường tính toán hạn chế
Hiệu năng và năng lực sinh ngôn ngữ
- Trong đánh giá dịch từ tiếng Anh sang 1.600 ngôn ngữ, các mô hình trước đây thường hiểu được ngôn ngữ ít tài nguyên nhưng không thể tạo ra câu có ý nghĩa
- Mô hình OMT-LLaMA đã mở rộng đáng kể khả năng sinh câu mạch lạc (coherent generation) cho các ngôn ngữ này
- Hiệu năng chuyển giao xuyên ngôn ngữ (cross-lingual transfer) cũng được cải thiện, gần như giải quyết xong các vấn đề ở khía cạnh hiểu (understanding) đối với 1.600 ngôn ngữ
- Có thể tiếp tục cải thiện chất lượng ở từng ngôn ngữ hoặc từng miền cụ thể thông qua tinh chỉnh (finetuning) và RAG
Tài nguyên công khai và mở rộng nghiên cứu
- Các bộ dữ liệu BOUQuET và Met-BOUQuET đã được công khai miễn phí và đang tiếp tục được mở rộng hướng tới Omnilinguality
- Nhóm nghiên cứu đặt mục tiêu cải thiện khả năng tiếp cận cho các ngôn ngữ ít tài nguyên và xây dựng nền tảng cho nghiên cứu AI đa ngôn ngữ
- OMT được đánh giá là hệ thống dịch thực tiễn đầu tiên bao quát đa dạng ngôn ngữ ở quy mô lớn, đánh dấu bước tiến quan trọng vì tính bao trùm ngôn ngữ toàn cầu
1 bình luận
Ý kiến trên Hacker News
Tôi cảm thấy chất lượng dịch của Meta kém khá nhiều so với các dịch vụ khác
Đặc biệt còn tệ hơn với những ngôn ngữ ít được biết đến
Google Translate ở mức mặc định thì tạm ổn, nhưng dịch dựa trên LLM vượt trội hơn nhiều trong việc hiểu ngữ cảnh và truyền tải sắc thái văn hóa
Tôi sống ở Campuchia nên thường xuyên so sánh chất lượng dịch tiếng Khmer
Theo trải nghiệm của tôi, bản dịch của Facebook tự nhiên hơn ở các câu dài so với Google
Tiếng Khmer là ngôn ngữ phụ thuộc nhiều vào ngữ cảnh và khá dài dòng, nên LLM có vẻ sẽ giúp ích rất nhiều
Ngược lại, khi dịch từ tiếng Anh sang tiếng Khmer thì người bản địa nói rằng văn phong trở nên quá trang trọng và như robot, khá thú vị
Tôi nghĩ hỗ trợ đa ngôn ngữ là một trong những ưu điểm ấn tượng nhất của LLM
Tôi tự hỏi vì sao Google không dùng Gemini nội bộ cho việc này, có lẽ vì vấn đề ảo giác
Tôi muốn xem một bài kiểm thử định lượng so sánh nhiều LLM và API dịch khác nhau
Họ nói có thể dịch 1.600 ngôn ngữ, nhưng ngay câu đầu của phần tóm tắt tiếng Anh còn không khớp được sự hòa hợp chủ ngữ - động từ
Họ tuyên bố đã đạt được bản dịch chất lượng cao mở rộng ra 200 ngôn ngữ thông qua dự án NLLB (No Language Left Behind)
Tôi đã khởi nghiệp một công ty làm việc tương tự — 6k.ai
Hiện tập trung vào thu thập dữ liệu cho các ngôn ngữ ít tài nguyên
Nhìn vào các bộ dữ liệu như Common Crawl, finepdfs, fineweb thì thấy rằng (1) hầu như không có dữ liệu chất lượng cao, và (2) cách xử lý quá thô
Ví dụ, finepdfs phân loại mỗi trang PDF là một ngôn ngữ duy nhất, nhưng trên thực tế có rất nhiều dữ liệu cặp ngôn ngữ
Tôi đã công bố tài liệu tại wikilangs.org, omneitylabs.com, blog liên quan
Nút thắt lớn nhất không phải là thu thập văn bản mà là độ chính xác của nhận dạng ngôn ngữ
Trong các bộ dữ liệu như Common Crawl hay Fineweb, việc phân biệt ngôn ngữ rất mơ hồ
Tôi đã làm việc cải thiện phần liên quan đến tiếng mẹ đẻ của mình trong Fineweb 2, có thể sẽ mang lại chút cảm hứng
Những vấn đề tương tự lặp lại ở nhiều khu vực, nên sau này tôi muốn thử hợp tác
Tôi tò mò không biết bạn đã xem qua những bộ dữ liệu công khai đó chưa, và đang ưu tiên ngôn ngữ nào
Tôi mất khá nhiều thời gian để tìm liên kết tải xuống trọng số mô hình
Nếu là open-weight thì tôi thắc mắc vì sao lại không có liên kết truy cập trực tiếp ngay từ đầu
Thay vào đó, bảng xếp hạng và bộ dữ liệu đánh giá được công khai
Trong bài báo chỉ nói rằng “mô hình dịch của chúng tôi được xây dựng trên các mô hình có thể truy cập tự do”
Đã là năm 2026 mà tôi vẫn không hiểu vì sao chưa có tính năng tự động chép lời tin nhắn thoại
Họ nói có thể dịch 1.600 ngôn ngữ mà ngay cả phân đoạn đoạn văn cơ bản cũng không làm được
1.600 ngôn ngữ là nhiều, nhưng để gọi là “Omni” thì vẫn còn xa lắm
Tổng số ngôn ngữ thường được ước tính vào khoảng 4.000~8.000, và 1.000 ngôn ngữ đầu tiên là phần khó nhất để đạt được
Nghiên cứu trước đây (Lauscher 2020) cho rằng có một lời nguyền đa ngôn ngữ: số lượng ngôn ngữ càng tăng thì chất lượng dịch càng giảm
Nhưng có vẻ Meta đã vượt qua được điều đó
Nhìn vào phần tóm tắt bài báo, họ nói đã đưa vào cải thiện chất lượng dữ liệu huấn luyện và công cụ đánh giá mới
Ngoài ra còn khẳng định OMT-LLaMA có chất lượng sinh văn bản tốt hơn các mô hình trước đây
Một điểm thú vị là Meta đã giới thiệu benchmark BOUQuET
Đây là một sáng kiến mở nhằm đánh giá chất lượng dịch theo hướng xuyên ngôn ngữ
huggingface.co/spaces/facebook/bouquet
Sau làn sóng AI, bản dịch tài liệu của MS trở nên tệ hại
Ví dụ, họ dịch try/catch sang tiếng Đức thành “versuchen/fangen”
Đặc biệt trong môi trường công ty, việc đổi thiết lập locale rất khó nên càng bất tiện hơn
Cũng có nhiều lỗi cơ bản như dịch “shortly” thành “short”