- EuroLLM là mô hình ngôn ngữ lớn (LLM) hỗ trợ 24 ngôn ngữ chính thức của EU do các viện nghiên cứu trong châu Âu đồng phát triển, với mục tiêu chủ quyền AI và tự chủ công nghệ của châu Âu
- Đây là mô hình 9B tham số, được huấn luyện trên hơn 4 nghìn tỷ token của 35 ngôn ngữ, cho thấy thế mạnh trong các tác vụ ngôn ngữ như hỏi đáp, tóm tắt, dịch thuật
- EuroLLM 9B Base được công khai để fine-tuning, còn EuroLLM 9B Instruct là phiên bản có khả năng thực hiện chỉ dẫn hội thoại và có thể sử dụng trên Hugging Face
- Dự án có sự tham gia của các tổ chức lớn tại châu Âu như Unbabel, University of Edinburgh, Técnico Lisboa, Naver Labs Europe và được huấn luyện trên siêu máy tính MareNostrum 5
- Dự án cũng công bố kế hoạch mở rộng đa phương thức (hình ảnh·giọng nói) cùng chính sách mở hoàn toàn mã nguồn, với mục tiêu trở thành hạ tầng cốt lõi của hệ sinh thái đổi mới AI tại châu Âu
Tổng quan về EuroLLM
- EuroLLM là mô hình ngôn ngữ lớn (Local LLM) được phát triển tại châu Âu, hỗ trợ đầy đủ 24 ngôn ngữ chính thức của EU
- Được thiết kế như một mô hình AI dạng hạ tầng công cộng để công dân, doanh nghiệp và nhà nghiên cứu châu Âu có thể sử dụng mà không gặp rào cản ngôn ngữ
- Mô hình được phát triển với sự hỗ trợ của Horizon Europe, European Research Council và EuroHPC của Liên minh châu Âu
- Việc huấn luyện được thực hiện trên siêu máy tính MareNostrum 5
Đặc điểm kỹ thuật
- EuroLLM 9B: quy mô 9 tỷ tham số, được huấn luyện trên dữ liệu 4 nghìn tỷ token của 35 ngôn ngữ
- Mô hình Base dành cho người dùng fine-tuning, còn mô hình Instruct có khả năng thực hiện chỉ dẫn hội thoại
- Các tính năng chính:
- Tối ưu cho hiệu năng xử lý ngôn ngữ tự nhiên đa ngôn ngữ như hỏi đáp, tóm tắt, dịch thuật
- Dự kiến mở rộng đa phương thức — trong tương lai sẽ bổ sung khả năng hiểu hình ảnh và giọng nói
- Có thể được nhà nghiên cứu, tổ chức và công dân phổ thông tự do sử dụng thông qua phân phối mã nguồn mở
Các tổ chức tham gia và mạng lưới hợp tác
- Các tổ chức tham gia:
- Unbabel, Instituto Superior Técnico, University of Edinburgh, Université Paris-Saclay, Aveni.ai, Sorbonne University, Naver Labs Europe, University of Amsterdam
- Các nhân vật nghiên cứu chính:
- André Martins (Unbabel, giáo sư tại Đại học Kỹ thuật Lisbon) — chuyên gia về machine learning và xử lý ngôn ngữ tự nhiên
- Alexandra Birch (Aveni.ai, giáo sư tại Edinburgh) — đi đầu trong nghiên cứu dịch thuật đa ngôn ngữ và AI có đạo đức
- Pierre Colombo (Université Paris-Saclay) — nghiên cứu về an toàn AI và ứng dụng AI trong lĩnh vực pháp lý
Sứ mệnh và tầm nhìn
- Mục tiêu của EuroLLM là đảm bảo chủ quyền AI của châu Âu và thúc đẩy phát triển công nghệ đa ngôn ngữ
- Tạo ra vòng quay đổi mới (flywheel for innovation) thông qua một LLM được phát triển độc lập ngay trong châu Âu
- Hỗ trợ để các nhà nghiên cứu và doanh nghiệp có thể mở rộng các dịch vụ và nghiên cứu mới dựa trên mô hình AI do châu Âu phát triển
- Hướng tới việc châu Âu củng cố vai trò dẫn dắt công nghệ dựa trên đa dạng ngôn ngữ, đồng thời
xây dựng mô hình đổi mới tự chủ trong hệ sinh thái AI toàn cầu
1 bình luận
Ý kiến trên Hacker News
Liên minh châu Âu có tổng cộng 24 ngôn ngữ chính thức: tiếng Bulgaria, Croatia, Séc, Đan Mạch, Hà Lan, Anh, Estonia, Phần Lan, Pháp, Đức, Hy Lạp, Hungary, Ireland, Ý, Latvia, Litva, Malta, Ba Lan, Bồ Đào Nha, Romania, Slovakia, Slovenia, Tây Ban Nha và Thụy Điển.
Tiếng Malta là ngôn ngữ Afro-Asiatic duy nhất, còn tiếng Hungary, Phần Lan và Estonia thuộc ngữ hệ Ural. Phần còn lại thuộc ngữ hệ Ấn-Âu; tiếng Hy Lạp thuộc nhánh Hellenic, còn tiếng Ireland thuộc ngữ hệ Celt.
Có lẽ sẽ phải huấn luyện lại mô hình
Điểm đóng góp chính của nghiên cứu này có vẻ là phần xử lý rất chi tiết về nguồn gốc dữ liệu huấn luyện
Có vẻ các nhà hoạch định chính sách châu Âu hoàn toàn không biết phải nuôi dưỡng các ngành công nghiệp thâm dụng công nghệ như thế nào. Cách trợ cấp kiểu “chọn người thắng cuộc” rõ ràng sẽ thất bại. Câu chuyện về quyền truy cập siêu máy tính ở châu Âu cũng khá thú vị. Tweet liên quan
Nhưng trên thực tế, rào cản lớn nhất mà các công ty châu Âu gặp phải không phải là quy định mà là khả năng tiếp cận vốn.
Trung Quốc dù có quy định còn chặt hơn vẫn phát triển mạnh ngành phần mềm. Hàn Quốc cũng tương tự, hưởng lợi từ chủ nghĩa bảo hộ.
Điều châu Âu cần học là nhiều chủ nghĩa bảo hộ công nghệ hơn. Pieter Levels rốt cuộc chỉ là một influencer chứ không phải nhà sáng lập nghiêm túc
Mỹ có nhiều nhà sáng lập xuất thân từ FAANG, còn châu Âu thì thiếu hệ sinh thái như vậy.
Ngay cả khi dự án siêu máy tính thất bại, hiệu ứng kinh tế lan tỏa có thể mới là mục tiêu
Tiêu đề bị thiếu “(2024)”. Mô hình 9B đã được công bố vào tháng 12 năm ngoái. Trang chính thức
Nhóm EuroLLM có sự tham gia của các tổ chức lớn ở châu Âu như Unbabel, Instituto Tecnico Lisbon, University of Edinburgh, Naver Labs...
Châu Âu hiện đang vận hành mạng lưới siêu máy tính công cộng thông qua EuroHPC JU, và họ nói rằng đã bắt đầu phát triển mô hình ngay khi được cấp quyền truy cập. Câu chuyện chính thức
Có thể xem đây là việc tái sử dụng tài nguyên tính toán vốn dành cho mô phỏng vật lý
Chẳng phải hầu hết các frontier model hiện nay đều đã hỗ trợ đa ngôn ngữ sao? Tôi nghĩ không cần phải bổ sung hỗ trợ riêng theo từng ngôn ngữ
Thật tiếc là corpus thực tế được dùng không được công bố. Với những ngôn ngữ thiểu số như tiếng Ireland, phần lớn có lẽ dựa trên tài liệu pháp lý, còn dữ liệu khẩu ngữ thì gần như không có.
Sẽ rất thú vị nếu đánh giá theo từng ngôn ngữ dựa trên tiêu chuẩn người bản ngữ.
LLM có thể tạo tác động tích cực với những ngôn ngữ đang có nguy cơ biến mất như thế này, nhưng trước đó cũng có rủi ro tồn tại (ví dụ: trường hợp Wikipedia tiếng Gaelic Scotland).
Dù vậy, nhìn chung tôi vẫn nghĩ đây là một nỗ lực tốt
EuroLLM-9B là mô hình được công bố vào tháng 12 năm 2024, đạt 17.6% theo MMLU-Pro, tức là chỉ nhỉnh hơn ngẫu nhiên một chút.
Có thể xem bảng so sánh với các mô hình EU khác tại đây
Tôi thắc mắc vì sao chỉ Mỹ và Trung Quốc mới đưa ra được các mô hình xuất sắc. Ngoài Mistral của Pháp thì hầu như chẳng có mấy mô hình châu Âu. Ấn Độ, Nhật Bản và Hàn Quốc cũng tương tự
Dân số bằng 1.3 lần Mỹ, GDP bằng 75%, nhưng quy mô ngành công nghệ chỉ là một phần rất nhỏ của Mỹ.
7 công ty big tech lớn nhất của Mỹ lớn hơn 20 lần so với 7 công ty lớn nhất của châu Âu, và doanh thu cũng cao gấp 10 lần. Liên kết tham khảo
Vì thế họ phụ thuộc vào các khoản tài trợ học thuật như Horizon, nhưng kiểu hợp tác này khó dẫn tới sản phẩm hóa
Để tải mô hình EuroLLM-9B từ Hugging Face, cần phải đồng ý cung cấp thông tin liên hệ. Tôi muốn biết yêu cầu như vậy có phổ biến không
Thật thú vị khi mô hình 9B này được chú ý. Nhưng TildeOpen-30B được công bố hai tháng trước đó, hỗ trợ 19 ngôn ngữ châu Âu, thì gần như không được nhắc đến. Trang mô hình
Hiệu năng cơ bản thấp, nhưng là một mô hình mở có tiềm năng fine-tuning lớn