Omnilingual MT của Meta cho 1.600 ngôn ngữ

(ai.meta.com)

4 điểm bởi GN⁺ 2026-03-22 | 1 bình luận | Chia sẻ qua WhatsApp

Meta AI đã phát triển Omnilingual Machine Translation (OMT), hệ thống dịch máy đầu tiên hỗ trợ hơn 1.600 ngôn ngữ, vượt qua giới hạn 200 ngôn ngữ của dự án NLLB trước đó
Kết hợp corpus công khai, dịch ngược và khai phá dữ liệu để xây dựng bộ dữ liệu đa ngôn ngữ quy mô lớn bao trùm cả các ngôn ngữ ít tài nguyên và ngôn ngữ thiểu số
Tích hợp nhiều công cụ đánh giá chất lượng và độc hại như BLASER 3, OmniTOX, BOUQuET, Met-BOUQuET để đo lường hiệu năng dịch với độ tin cậy cao
Triển khai song song mô hình decoder-only dựa trên LLaMA3 và OMT-NLLB với kiến trúc encoder–decoder để hiện thực hóa dịch chất lượng cao ngay cả trong môi trường tính toán hạn chế
Đạt được khả năng sinh câu nhất quán trên toàn bộ 1.600 ngôn ngữ và cải thiện chuyển giao xuyên ngôn ngữ, được đánh giá là một bước tiến quan trọng trong việc mở rộng tính bao trùm ngôn ngữ toàn cầu

Tổng quan về Omnilingual MT

Omnilingual Machine Translation (OMT) là hệ thống dịch máy đầu tiên hỗ trợ hơn 1.600 ngôn ngữ, do Meta AI phát triển
Dựa trên thành quả của dự án No Language Left Behind (NLLB) trước đó đã mở rộng đến 200 ngôn ngữ, OMT bao quát số lượng ngôn ngữ lớn hơn rất nhiều
Các hệ thống dịch dựa trên mô hình ngôn ngữ lớn (LLM) trước đây có chất lượng cao nhưng phạm vi ngôn ngữ hạn chế, đặc biệt bị chỉ ra là thiếu khả năng sinh ngôn ngữ ít tài nguyên và ngôn ngữ thiểu số
Để vượt qua những giới hạn này, OMT đã mở rộng toàn diện chiến lược dữ liệu, kiến trúc mô hình và hệ thống đánh giá

Chiến lược dữ liệu và mở rộng độ bao phủ ngôn ngữ

OMT mở rộng mạnh phạm vi ngôn ngữ bằng cách tích hợp corpus đa ngôn ngữ công khai với bộ dữ liệu mới được tạo ra
- Kết hợp MeDLEY bitext (dữ liệu song song được tinh chỉnh thủ công), dịch ngược tổng hợp (synthetic backtranslation) và kỹ thuật khai phá dữ liệu (mining)
- Qua đó bao trùm cả các ngôn ngữ đuôi dài (long-tail languages) cùng nhiều miền nội dung và văn phong (register) khác nhau
Chiến lược dữ liệu này tạo nền tảng để bảo đảm khả năng biểu đạt cho phần lớn trong khoảng 7.000 ngôn ngữ mà các hệ thống trước đây chưa thể xử lý

Hệ thống đánh giá và đo lường chất lượng

Để bảo đảm độ tin cậy và khả năng mở rộng, OMT kết hợp các chỉ số tiêu chuẩn với nhiều công cụ đánh giá khác nhau
- BLASER 3**: mô hình đánh giáreference-free dùng để ước lượng chất lượng mà không cần câu tham chiếu
  - OmniTOX: bộ phân loại dùng để xác định độc tính (toxicity) trong kết quả dịch
  - BOUQuET: bộ dữ liệu đánh giá đa ngôn ngữ quy mô lớn bao gồm nhiều họ ngôn ngữ khác nhau, được xây dựng thủ công
  - Met-BOUQuET: bộ dữ liệu mở rộng phục vụ ước lượng chất lượng đa ngôn ngữ quy mô lớn
  - Các bộ dữ liệu này được cung cấp cùng bảng xếp hạng công khai được cập nhật liên tục, cho phép các nhà nghiên cứu tự do sử dụng

Kiến trúc mô hình và cách tiếp cận huấn luyện

OMT chuyên biệt hóa LLM cho dịch thuật theo hai hướng
- OMT-LLaMA
  - Mô hình decoder-only dựa trên LLaMA3
  - Tăng cường khả năng thích ứng ở thời điểm suy luận thông qua tiền huấn luyện tiếp diễn đa ngôn ngữ (multilingual continual pretraining) và dịch tăng cường truy xuất (retrieval-augmented translation)
- OMT-NLLB
  - Kiến trúc encoder–decoder, được xây dựng trên không gian căn chỉnh đa ngôn ngữ mang tên OmniSONAR
  - Áp dụng phương pháp huấn luyện có thể tận dụng dữ liệu không song song (non-parallel data)
  - Có thể tích hợp dữ liệu tiền huấn luyện decoder-only vào huấn luyện encoder–decoder
  - Các mô hình 1B~8B tham số đạt hiệu năng dịch tương đương hoặc vượt mô hình chuẩn LLM 70B, qua đó chứng minh khả năng dịch chất lượng cao ngay cả trong môi trường tính toán hạn chế

Hiệu năng và năng lực sinh ngôn ngữ

Trong đánh giá dịch từ tiếng Anh sang 1.600 ngôn ngữ, các mô hình trước đây thường hiểu được ngôn ngữ ít tài nguyên nhưng không thể tạo ra câu có ý nghĩa
Mô hình OMT-LLaMA đã mở rộng đáng kể khả năng sinh câu mạch lạc (coherent generation) cho các ngôn ngữ này
Hiệu năng chuyển giao xuyên ngôn ngữ (cross-lingual transfer) cũng được cải thiện, gần như giải quyết xong các vấn đề ở khía cạnh hiểu (understanding) đối với 1.600 ngôn ngữ
Có thể tiếp tục cải thiện chất lượng ở từng ngôn ngữ hoặc từng miền cụ thể thông qua tinh chỉnh (finetuning) và RAG

Tài nguyên công khai và mở rộng nghiên cứu

Các bộ dữ liệu BOUQuET và Met-BOUQuET đã được công khai miễn phí và đang tiếp tục được mở rộng hướng tới Omnilinguality
Nhóm nghiên cứu đặt mục tiêu cải thiện khả năng tiếp cận cho các ngôn ngữ ít tài nguyên và xây dựng nền tảng cho nghiên cứu AI đa ngôn ngữ
OMT được đánh giá là hệ thống dịch thực tiễn đầu tiên bao quát đa dạng ngôn ngữ ở quy mô lớn, đánh dấu bước tiến quan trọng vì tính bao trùm ngôn ngữ toàn cầu

1 bình luận

GN⁺ 2026-03-22

Ý kiến trên Hacker News

Tôi cảm thấy chất lượng dịch của Meta kém khá nhiều so với các dịch vụ khác
Đặc biệt còn tệ hơn với những ngôn ngữ ít được biết đến
Google Translate ở mức mặc định thì tạm ổn, nhưng dịch dựa trên LLM vượt trội hơn nhiều trong việc hiểu ngữ cảnh và truyền tải sắc thái văn hóa
Tôi sống ở Campuchia nên thường xuyên so sánh chất lượng dịch tiếng Khmer
- Chào từ Siem Reap! Rất vui khi gặp một người đam mê công nghệ Campuchia khác
  Theo trải nghiệm của tôi, bản dịch của Facebook tự nhiên hơn ở các câu dài so với Google
  Tiếng Khmer là ngôn ngữ phụ thuộc nhiều vào ngữ cảnh và khá dài dòng, nên LLM có vẻ sẽ giúp ích rất nhiều
  Ngược lại, khi dịch từ tiếng Anh sang tiếng Khmer thì người bản địa nói rằng văn phong trở nên quá trang trọng và như robot, khá thú vị
- Kagi Translate thực sự rất tuyệt
  Tôi nghĩ hỗ trợ đa ngôn ngữ là một trong những ưu điểm ấn tượng nhất của LLM
- Thật thú vị khi LLM lại tốt hơn Google trong dịch tiếng Khmer
  Tôi tự hỏi vì sao Google không dùng Gemini nội bộ cho việc này, có lẽ vì vấn đề ảo giác
  Tôi muốn xem một bài kiểm thử định lượng so sánh nhiều LLM và API dịch khác nhau
- Dịch tiếng Trung cũng không ổn
- Chỉ ra lỗi chính tả (they're)
Họ nói có thể dịch 1.600 ngôn ngữ, nhưng ngay câu đầu của phần tóm tắt tiếng Anh còn không khớp được sự hòa hợp chủ ngữ - động từ
Họ tuyên bố đã đạt được bản dịch chất lượng cao mở rộng ra 200 ngôn ngữ thông qua dự án NLLB (No Language Left Behind)
Tôi đã khởi nghiệp một công ty làm việc tương tự — 6k.ai
Hiện tập trung vào thu thập dữ liệu cho các ngôn ngữ ít tài nguyên
Nhìn vào các bộ dữ liệu như Common Crawl, finepdfs, fineweb thì thấy rằng (1) hầu như không có dữ liệu chất lượng cao, và (2) cách xử lý quá thô
Ví dụ, finepdfs phân loại mỗi trang PDF là một ngôn ngữ duy nhất, nhưng trên thực tế có rất nhiều dữ liệu cặp ngôn ngữ
- Tôi cũng đang nghiên cứu với trọng tâm tương tự là các ngôn ngữ ít tài nguyên, đặc biệt là nhóm ngôn ngữ Maya
  Tôi đã công bố tài liệu tại wikilangs.org, omneitylabs.com, blog liên quan
  Nút thắt lớn nhất không phải là thu thập văn bản mà là độ chính xác của nhận dạng ngôn ngữ
  Trong các bộ dữ liệu như Common Crawl hay Fineweb, việc phân biệt ngôn ngữ rất mơ hồ
  Tôi đã làm việc cải thiện phần liên quan đến tiếng mẹ đẻ của mình trong Fineweb 2, có thể sẽ mang lại chút cảm hứng
  Những vấn đề tương tự lặp lại ở nhiều khu vực, nên sau này tôi muốn thử hợp tác
- Common Crawl cũng đã làm dự án về ngôn ngữ ít tài nguyên suốt một năm rưỡi nay, đúng là một bài toán rất khó
- Nhiều cơ quan quốc gia cũng đang nghiên cứu vấn đề này
  Tôi tò mò không biết bạn đã xem qua những bộ dữ liệu công khai đó chưa, và đang ưu tiên ngôn ngữ nào
Tôi mất khá nhiều thời gian để tìm liên kết tải xuống trọng số mô hình
Nếu là open-weight thì tôi thắc mắc vì sao lại không có liên kết truy cập trực tiếp ngay từ đầu
- Không thấy đề cập rằng mô hình lần này là open-weight (NLLB trước đó thì có công khai)
  Thay vào đó, bảng xếp hạng và bộ dữ liệu đánh giá được công khai
  Trong bài báo chỉ nói rằng “mô hình dịch của chúng tôi được xây dựng trên các mô hình có thể truy cập tự do”
Đã là năm 2026 mà tôi vẫn không hiểu vì sao chưa có tính năng tự động chép lời tin nhắn thoại
Họ nói có thể dịch 1.600 ngôn ngữ mà ngay cả phân đoạn đoạn văn cơ bản cũng không làm được
- Phần tóm tắt bài báo vốn theo quy tắc phải được viết thành một đoạn duy nhất
1.600 ngôn ngữ là nhiều, nhưng để gọi là “Omni” thì vẫn còn xa lắm
Tổng số ngôn ngữ thường được ước tính vào khoảng 4.000~8.000, và 1.000 ngôn ngữ đầu tiên là phần khó nhất để đạt được
- Trong marketing thì phải dùng những từ như “frontier”, “edge” mới tạo được cảm giác chuyên nghiệp
Nghiên cứu trước đây (Lauscher 2020) cho rằng có một lời nguyền đa ngôn ngữ: số lượng ngôn ngữ càng tăng thì chất lượng dịch càng giảm
Nhưng có vẻ Meta đã vượt qua được điều đó
Nhìn vào phần tóm tắt bài báo, họ nói đã đưa vào cải thiện chất lượng dữ liệu huấn luyện và công cụ đánh giá mới
Ngoài ra còn khẳng định OMT-LLaMA có chất lượng sinh văn bản tốt hơn các mô hình trước đây
Một điểm thú vị là Meta đã giới thiệu benchmark BOUQuET
Đây là một sáng kiến mở nhằm đánh giá chất lượng dịch theo hướng xuyên ngôn ngữ
huggingface.co/spaces/facebook/bouquet
Sau làn sóng AI, bản dịch tài liệu của MS trở nên tệ hại
Ví dụ, họ dịch try/catch sang tiếng Đức thành “versuchen/fangen”
- Những bản dịch như vậy thậm chí còn mang giá trị âm
  Đặc biệt trong môi trường công ty, việc đổi thiết lập locale rất khó nên càng bất tiện hơn
  Cũng có nhiều lỗi cơ bản như dịch “shortly” thành “short”

Omnilingual MT của Meta cho 1.600 ngôn ngữ

Tổng quan về Omnilingual MT

Chiến lược dữ liệu và mở rộng độ bao phủ ngôn ngữ

Hệ thống đánh giá và đo lường chất lượng

BLASER 3**: mô hình đánh giáreference-free dùng để ước lượng chất lượng mà không cần câu tham chiếu

Kiến trúc mô hình và cách tiếp cận huấn luyện

OMT-LLaMA

OMT-NLLB

Hiệu năng và năng lực sinh ngôn ngữ

Tài nguyên công khai và mở rộng nghiên cứu

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News

BLASER 3: mô hình đánh giáreference-free** dùng để ước lượng chất lượng mà không cần câu tham chiếu