3 điểm bởi GN⁺ 2025-10-29 | 1 bình luận | Chia sẻ qua WhatsApp
  • EuroLLMmô hình ngôn ngữ lớn (LLM) hỗ trợ 24 ngôn ngữ chính thức của EU do các viện nghiên cứu trong châu Âu đồng phát triển, với mục tiêu chủ quyền AI và tự chủ công nghệ của châu Âu
  • Đây là mô hình 9B tham số, được huấn luyện trên hơn 4 nghìn tỷ token của 35 ngôn ngữ, cho thấy thế mạnh trong các tác vụ ngôn ngữ như hỏi đáp, tóm tắt, dịch thuật
  • EuroLLM 9B Base được công khai để fine-tuning, còn EuroLLM 9B Instruct là phiên bản có khả năng thực hiện chỉ dẫn hội thoại và có thể sử dụng trên Hugging Face
  • Dự án có sự tham gia của các tổ chức lớn tại châu Âu như Unbabel, University of Edinburgh, Técnico Lisboa, Naver Labs Europe và được huấn luyện trên siêu máy tính MareNostrum 5
  • Dự án cũng công bố kế hoạch mở rộng đa phương thức (hình ảnh·giọng nói) cùng chính sách mở hoàn toàn mã nguồn, với mục tiêu trở thành hạ tầng cốt lõi của hệ sinh thái đổi mới AI tại châu Âu

Tổng quan về EuroLLM

  • EuroLLM là mô hình ngôn ngữ lớn (Local LLM) được phát triển tại châu Âu, hỗ trợ đầy đủ 24 ngôn ngữ chính thức của EU
    • Được thiết kế như một mô hình AI dạng hạ tầng công cộng để công dân, doanh nghiệp và nhà nghiên cứu châu Âu có thể sử dụng mà không gặp rào cản ngôn ngữ
  • Mô hình được phát triển với sự hỗ trợ của Horizon Europe, European Research CouncilEuroHPC của Liên minh châu Âu
    • Việc huấn luyện được thực hiện trên siêu máy tính MareNostrum 5

Đặc điểm kỹ thuật

  • EuroLLM 9B: quy mô 9 tỷ tham số, được huấn luyện trên dữ liệu 4 nghìn tỷ token của 35 ngôn ngữ
    • Mô hình Base dành cho người dùng fine-tuning, còn mô hình Instruct có khả năng thực hiện chỉ dẫn hội thoại
  • Các tính năng chính:
    • Tối ưu cho hiệu năng xử lý ngôn ngữ tự nhiên đa ngôn ngữ như hỏi đáp, tóm tắt, dịch thuật
    • Dự kiến mở rộng đa phương thức — trong tương lai sẽ bổ sung khả năng hiểu hình ảnh và giọng nói
    • Có thể được nhà nghiên cứu, tổ chức và công dân phổ thông tự do sử dụng thông qua phân phối mã nguồn mở

Các tổ chức tham gia và mạng lưới hợp tác

  • Các tổ chức tham gia:
    • Unbabel, Instituto Superior Técnico, University of Edinburgh, Université Paris-Saclay, Aveni.ai, Sorbonne University, Naver Labs Europe, University of Amsterdam
  • Các nhân vật nghiên cứu chính:
    • André Martins (Unbabel, giáo sư tại Đại học Kỹ thuật Lisbon) — chuyên gia về machine learning và xử lý ngôn ngữ tự nhiên
    • Alexandra Birch (Aveni.ai, giáo sư tại Edinburgh) — đi đầu trong nghiên cứu dịch thuật đa ngôn ngữ và AI có đạo đức
    • Pierre Colombo (Université Paris-Saclay) — nghiên cứu về an toàn AI và ứng dụng AI trong lĩnh vực pháp lý

Sứ mệnh và tầm nhìn

  • Mục tiêu của EuroLLM là đảm bảo chủ quyền AI của châu Âuthúc đẩy phát triển công nghệ đa ngôn ngữ
    • Tạo ra vòng quay đổi mới (flywheel for innovation) thông qua một LLM được phát triển độc lập ngay trong châu Âu
    • Hỗ trợ để các nhà nghiên cứu và doanh nghiệp có thể mở rộng các dịch vụ và nghiên cứu mới dựa trên mô hình AI do châu Âu phát triển
  • Hướng tới việc châu Âu củng cố vai trò dẫn dắt công nghệ dựa trên đa dạng ngôn ngữ, đồng thời
    xây dựng mô hình đổi mới tự chủ trong hệ sinh thái AI toàn cầu

1 bình luận

 
GN⁺ 2025-10-29
Ý kiến trên Hacker News
  • Liên minh châu Âu có tổng cộng 24 ngôn ngữ chính thức: tiếng Bulgaria, Croatia, Séc, Đan Mạch, Hà Lan, Anh, Estonia, Phần Lan, Pháp, Đức, Hy Lạp, Hungary, Ireland, Ý, Latvia, Litva, Malta, Ba Lan, Bồ Đào Nha, Romania, Slovakia, Slovenia, Tây Ban Nha và Thụy Điển.
    Tiếng Malta là ngôn ngữ Afro-Asiatic duy nhất, còn tiếng Hungary, Phần Lan và Estonia thuộc ngữ hệ Ural. Phần còn lại thuộc ngữ hệ Ấn-Âu; tiếng Hy Lạp thuộc nhánh Hellenic, còn tiếng Ireland thuộc ngữ hệ Celt.

    • Nói chính xác hơn thì tiếng Malta là một ngôn ngữ thuộc nhánh Semitic. Xem Wikipedia
    • Trong cuộc tổng tuyển cử ở Hà Lan ngày mai, hai đảng đang đề xuất thêm tiếng Frisia vào danh sách ngôn ngữ chính thức. Bài liên quan
      Có lẽ sẽ phải huấn luyện lại mô hình
    • Tôi có thể đọc, viết và nói tiếng Malta. Nếu có gì muốn hỏi về ngôn ngữ này thì cứ hỏi
    • Tiếng Litva và Latvia thuộc nhóm ngôn ngữ Baltic. Chúng không liên quan đến các ngôn ngữ Slav
    • Xem bài báo thì mô hình này không chỉ giới hạn ở 24 ngôn ngữ đó. Nó còn bao gồm tiếng Ả Rập, Catalan, Trung, Hindi, Nhật, Hàn, Na Uy, Nga, Thổ Nhĩ Kỳ, Ukraina... PDF bài báo
      Điểm đóng góp chính của nghiên cứu này có vẻ là phần xử lý rất chi tiết về nguồn gốc dữ liệu huấn luyện
  • Có vẻ các nhà hoạch định chính sách châu Âu hoàn toàn không biết phải nuôi dưỡng các ngành công nghiệp thâm dụng công nghệ như thế nào. Cách trợ cấp kiểu “chọn người thắng cuộc” rõ ràng sẽ thất bại. Câu chuyện về quyền truy cập siêu máy tính ở châu Âu cũng khá thú vị. Tweet liên quan

    • Thủ tục trợ cấp của EU không phải chuyện buồn cười, nhưng Levels có vẻ hơi quá tự tin. Anh ta kiếm tiền tốt với vai trò influencer, nhưng dùng siêu máy tính được nhà nước hỗ trợ để chạy game trình duyệt dựa trên quảng cáo thì tôi không thấy phù hợp
    • Điều thực sự quan trọng là châu Âu phải tạo ra một môi trường thân thiện với startup AI. Nới lỏng quy định và ưu đãi thuế nên được ưu tiên.
      Nhưng trên thực tế, rào cản lớn nhất mà các công ty châu Âu gặp phải không phải là quy định mà là khả năng tiếp cận vốn.
      Trung Quốc dù có quy định còn chặt hơn vẫn phát triển mạnh ngành phần mềm. Hàn Quốc cũng tương tự, hưởng lợi từ chủ nghĩa bảo hộ.
      Điều châu Âu cần học là nhiều chủ nghĩa bảo hộ công nghệ hơn. Pieter Levels rốt cuộc chỉ là một influencer chứ không phải nhà sáng lập nghiêm túc
    • Tôi tò mò chiến lược “chọn người thắng cuộc” trên thực tế tạo ra kết quả như thế nào
    • Tôi nghi ngờ mục tiêu của các chính sách này có thật sự là “chọn người thắng cuộc”, hay là tăng cường năng lực cho nhà sáng lập và kích thích kinh tế.
      Mỹ có nhiều nhà sáng lập xuất thân từ FAANG, còn châu Âu thì thiếu hệ sinh thái như vậy.
      Ngay cả khi dự án siêu máy tính thất bại, hiệu ứng kinh tế lan tỏa có thể mới là mục tiêu
    • Mọi người quá dễ dãi với anh ta. Nhiều người còn chẳng biết “levelsio” là ai, nên tôi cũng thắc mắc vì sao ai cũng nói như thể ai cũng biết anh ta
  • Tiêu đề bị thiếu “(2024)”. Mô hình 9B đã được công bố vào tháng 12 năm ngoái. Trang chính thức

  • Nhóm EuroLLM có sự tham gia của các tổ chức lớn ở châu Âu như Unbabel, Instituto Tecnico Lisbon, University of Edinburgh, Naver Labs...
    Châu Âu hiện đang vận hành mạng lưới siêu máy tính công cộng thông qua EuroHPC JU, và họ nói rằng đã bắt đầu phát triển mô hình ngay khi được cấp quyền truy cập. Câu chuyện chính thức
    Có thể xem đây là việc tái sử dụng tài nguyên tính toán vốn dành cho mô phỏng vật lý

  • Chẳng phải hầu hết các frontier model hiện nay đều đã hỗ trợ đa ngôn ngữ sao? Tôi nghĩ không cần phải bổ sung hỗ trợ riêng theo từng ngôn ngữ

    • Nhưng điểm mấu chốt của mô hình này là nó được huấn luyện bằng dữ liệu được EU công nhận
    • Không chỉ là có ví dụ cho từng ngôn ngữ, mà tỷ lệ dữ liệu của mỗi ngôn ngữ mới quan trọng. Dữ liệu tiếng Anh áp đảo nên hiệu năng ở các ngôn ngữ khác bị giảm
    • Cách huấn luyện khác nhau. Với tiếng Nhật, vấn đề tokenization thường khiến hiệu năng thấp
    • Ở các ngôn ngữ ngoài tiếng Anh thường có giọng điệu như thể được dịch máy một cách gượng gạo. Người dùng tiếng Pháp hay chỉ ra các câu văn thiếu tự nhiên
    • Chính phủ châu Âu nắm giữ khối lượng lớn tư liệu số và dữ liệu văn hóa. Những khác biệt văn hóa này cũng có thể ảnh hưởng đến hệ giá trị của mô hình
  • Thật tiếc là corpus thực tế được dùng không được công bố. Với những ngôn ngữ thiểu số như tiếng Ireland, phần lớn có lẽ dựa trên tài liệu pháp lý, còn dữ liệu khẩu ngữ thì gần như không có.
    Sẽ rất thú vị nếu đánh giá theo từng ngôn ngữ dựa trên tiêu chuẩn người bản ngữ.
    LLM có thể tạo tác động tích cực với những ngôn ngữ đang có nguy cơ biến mất như thế này, nhưng trước đó cũng có rủi ro tồn tại (ví dụ: trường hợp Wikipedia tiếng Gaelic Scotland).
    Dù vậy, nhìn chung tôi vẫn nghĩ đây là một nỗ lực tốt

  • EuroLLM-9B là mô hình được công bố vào tháng 12 năm 2024, đạt 17.6% theo MMLU-Pro, tức là chỉ nhỉnh hơn ngẫu nhiên một chút.
    Có thể xem bảng so sánh với các mô hình EU khác tại đây

  • Tôi thắc mắc vì sao chỉ Mỹ và Trung Quốc mới đưa ra được các mô hình xuất sắc. Ngoài Mistral của Pháp thì hầu như chẳng có mấy mô hình châu Âu. Ấn Độ, Nhật Bản và Hàn Quốc cũng tương tự

    • Không có gì đáng ngạc nhiên. Châu Âu liên tục tụt lại về năng lực công nghệ.
      Dân số bằng 1.3 lần Mỹ, GDP bằng 75%, nhưng quy mô ngành công nghệ chỉ là một phần rất nhỏ của Mỹ.
      7 công ty big tech lớn nhất của Mỹ lớn hơn 20 lần so với 7 công ty lớn nhất của châu Âu, và doanh thu cũng cao gấp 10 lần. Liên kết tham khảo
    • Châu Âu có khả năng tiếp cận vốn thấp và thị trường bị phân mảnh.
      Vì thế họ phụ thuộc vào các khoản tài trợ học thuật như Horizon, nhưng kiểu hợp tác này khó dẫn tới sản phẩm hóa
    • Việc huấn luyện frontier model đòi hỏi một cấu trúc vốn khổng lồ. Chỉ Mỹ và Trung Quốc mới có thể huy động hàng tỷ USD
    • EU tạo ra một đạo luật AI dài 900 trang rồi tự chúc mừng mình, trong khi Trung Quốc đã triển khai trước một đạo luật dài hai trang
    • Thực ra giá trị thương mại của các mô hình này vẫn chưa được chứng minh. Phần lớn đang vận hành nhờ hợp đồng chính phủ hoặc tiền đầu tư
  • Để tải mô hình EuroLLM-9B từ Hugging Face, cần phải đồng ý cung cấp thông tin liên hệ. Tôi muốn biết yêu cầu như vậy có phổ biến không

    • Tôi cũng đã thấy ở một vài mô hình. Ví dụ Llama 3.1-8B-Instruct cũng có thủ tục tương tự
    • Vâng, đó là một quy trình khá phổ biến
  • Thật thú vị khi mô hình 9B này được chú ý. Nhưng TildeOpen-30B được công bố hai tháng trước đó, hỗ trợ 19 ngôn ngữ châu Âu, thì gần như không được nhắc đến. Trang mô hình
    Hiệu năng cơ bản thấp, nhưng là một mô hình mở có tiềm năng fine-tuning lớn