1 điểm bởi GN⁺ 4 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Hệ sinh thái AI Thụy Sĩ đã công bố Apertus, mô hình foundation riêng nhắm tới AI có chủ quyền, đồng thời nhấn mạnh nền tảng hợp tác giữa EPFL, ETH Zurich và CSCS
  • Điểm khác biệt cốt lõi là trọng số mở, dữ liệu mở, khoa học mở, với dữ liệu huấn luyện, mã nguồn, trọng số, phương pháp luận và cả các nguyên tắc căn chỉnh đều được tài liệu hóa để nhấn mạnh khả năng tái lập
  • Về mặt tuân thủ quy định và độ tin cậy, dự án cân nhắc các yêu cầu của EU AI Act, bao gồm các điều kiện như tôn trọng opt-out, loại bỏ PII và ngăn hiện tượng ghi nhớ
  • Về hiệu năng, dự án cho biết ở quy mô 8B và 70B tham số, mô hình có thể cạnh tranh với các mô hình mở hàng đầu cùng phân khúc, đồng thời được huấn luyện trên hơn 1.000 ngôn ngữ ngay từ đầu
  • Swisscom tham gia với vai trò đối tác chiến lược, và các bản phát hành, nghiên cứu cũng như tin tức cộng đồng trong tương lai sẽ tiếp tục được cập nhật qua bản tin

Chủ thể phát triển và phạm vi công bố

  • Apertus là mô hình foundation do Swiss AI Initiative phát triển
  • Phạm vi công bố bao gồm dữ liệu huấn luyện, mã nguồn, trọng số, phương pháp luận và các nguyên tắc căn chỉnh
  • Các thành phần được công bố được định hướng theo hình thức có tài liệu đầy đủ và có thể tái lập
  • Apertus nhấn mạnh tính chất của mình như một mô hình công khai với thông điệp: “Trong AI, Open cũng giống như Source”

Ứng phó quy định và đặc tính mô hình

  • Mô hình được xây dựng để đáp ứng các yêu cầu của EU AI Act
    • Tôn trọng opt-out
    • Loại bỏ PII
    • Ngăn hiện tượng ghi nhớ
  • Mô hình nhấn mạnh hiệu năng có thể cạnh tranh với các mô hình mở hàng đầu ở cùng quy mô 8B và 70B tham số
  • Hỗ trợ đa ngôn ngữ được tích hợp ngay từ đầu, với quá trình huấn luyện trên hơn 1.000 ngôn ngữ

Quan hệ đối tác và tin tức cộng đồng

  • Swisscom là đối tác chiến lược của Swiss AI Initiative
  • Bản tin sẽ cung cấp các bản phát hành Apertus, nghiên cứu của nhóm và tin tức cộng đồng

1 bình luận

 
Ý kiến trên Hacker News
  • Trong số các LLM mở hoàn toàn còn có OLMo 3.1 của Allen AI và K2 Think V2 của MBZUAI; cả hai đều công khai toàn bộ pipeline huấn luyện và dataset
    Nvidia Nemotron cũng là một mô hình nguồn huấn luyện công khai, nhưng một phần dataset là độc quyền
    Trích bình luận của lambda, các mô hình Nemotron nhìn chung mạnh hơn Olmo và K2 Think V2 (theo benchmark của Artificial Analysis), và dataset cũng chồng lấn khá nhiều. Nhiều dataset chỉ được tạo ra bằng cách lọc khác nhau từ cùng một nguồn, và Olmo cùng K2 Think V2 cũng đã dùng một phần dataset của Nemotron
    Nemotron là một LLM hiện đại và khá có năng lực; ngay cả mô hình 122b cũng mạnh hơn Deepseek R1 (mô hình 671b) trên phần lớn benchmark, và gần đây còn có cả 550b Ultra
    https://news.ycombinator.com/item?id=48492439

    • Allen AI chưa được chú ý đúng mức. Theo tôi, AI tạo sinh lẽ ra phải được xây dựng theo cách này ngay từ đầu
      Nếu các công ty tuyến đầu chọn cách tiếp cận này thì khởi đầu có thể chậm hơn nhiều, nhưng đến năm 2035 có lẽ chúng ta đã đi xa hơn rất nhiều so với hiện tại. Thay vào đó, giờ đây phần lớn xã hội lại đang mong AI thất bại
    • Tôi đang nghĩ đến việc thử lại Nemotron một lần nữa. Hôm qua tôi dùng model mới nhất trên OpenRouter nhưng thấy không ổn, thậm chí còn tệ hơn StepFun
  • Tôi thích ý tưởng này, và sự cần thiết để tất cả mọi người ngoài nước Mỹ suy nghĩ về chủ quyền công nghệ cũng đã tăng lên. Vì Mỹ đã trở thành nơi không còn an toàn để lưu trữ dữ liệu
    Tuy vậy, Apertus tạo cảm giác vận hành với tốc độ của một ủy ban, nên tôi không kỳ vọng họ sẽ đưa ra được mô hình đủ sức cạnh tranh. Ít nhất thì có vẻ khó cạnh tranh với các model hiện tại; có lẽ cạnh tranh được với model của một năm trước, nhưng dường như đến mức đó họ vẫn chưa làm được

    • Tôi đồng ý với ý “Mỹ đã trở thành nơi không còn an toàn để lưu trữ dữ liệu”, nhưng tôi thắc mắc vì sao các quốc gia khác lại là nơi trú ẩn dữ liệu tốt hơn
      Cá nhân tôi thích cách tiếp cận bảo vệ dữ liệu của EU, nhưng tôi tò mò không biết bạn đang nghĩ đến khu vực hay cơ chế bảo vệ nào khác có thể giữ dữ liệu “an toàn” hơn
  • Tôi không nghĩ phép so sánh với Linux cũng phù hợp ở đây. Đây còn lớn hơn thế, và là một mối đe dọa trực tiếp đối với các phòng thí nghiệm AI thương mại và mô hình kinh doanh của họ
    Các phòng thí nghiệm này đã xào đi xào lại nhiều bài báo nền tảng suốt nhiều năm, và hồi kết đang đến gần
    Sắp tới, các mô hình mã nguồn mở, dữ liệu công khai và công thức huấn luyện công khai có thể trở thành trung tâm; rồi đến một ngày không chỉ suy luận mà cả huấn luyện cũng có thể được crowdsourcing theo kiểu BitTorrent
    Cuối cùng, các model Trung Quốc (GLM, Deepseek, MiMax) cũng hoạt động cực kỳ tốt, và người dùng các model đó sẽ nói rằng họ hoàn toàn không thấy thiếu OpenAI/Anthropic/Gemini. Nếu vậy, chỉ riêng việc có các model công khai như thế này cũng là lý do đủ mạnh để sau này người ta cũng không cần phải tiếc các model Trung Quốc nữa

  • Với một model tự nhận tập trung vào nhiều ngôn ngữ, nó lại khá thiếu ổn định trước những câu hỏi đơn giản như “X nói thế nào trong ngôn ngữ Y” hoặc “động từ X chia như thế nào trong ngôn ngữ Y”
    Nó liên tục bịa ra những từ không tồn tại, và ngay cả khi bị sửa lại thì vẫn tiếp tục tạo ra những lời bịa mới

    • Có lẽ nó không biết từng cụm từ tương ứng với ngôn ngữ nào
      Có vẻ như họ không đưa vào nhiều dữ liệu huấn luyện có gắn nhãn ngôn ngữ
      “X nói thế nào trong ngôn ngữ Y” là một bài toán khác với việc thực sự nói X bằng ngôn ngữ Y
  • Model chỉ dẫn của họ trông giống như một bản fine-tune Llama3.1 từ năm ngoái. Tôi tò mò không biết model mới có tiến bộ gì không
    Hy vọng cuối cùng của tôi cho chủ quyền AI nằm ở các model mở của Trung Quốc

    • Chủ quyền AI không phải là vấn đề chỉ dùng một model duy nhất. Đó là dùng model phù hợp cho từng tác vụ, và để nhiều model cùng thảo luận lời giải trước khi đưa ra câu trả lời
      Nếu muốn phối trộn model theo kiểu này thì hãy xem https://github.com/deepbluedynamics/nemesis8
  • Sản phẩm đầu ra có ảnh hưởng lớn nhất từ dự án Apretus chắc chắn là con người. Trích một câu đáng nhớ của Dominique Paul(https://www.thisiscrispin.com/), điều mà đa số bỏ lỡ là đội này không phải là đội thứ tư làm lại cùng một việc như gần như mọi nhà cung cấp LLM khác, và họ cũng không phải là đội có thể học từ kinh nghiệm quá khứ của chính mình
    Tôi nghĩ nếu đội này huấn luyện thêm một lần nữa thì chi phí có thể giảm xuống còn một phần tư và kết quả sẽ tốt hơn rất nhiều

  • Giấy phép này khá thú vị, nhưng tôi không biết về lâu dài sẽ có ai đi theo cách này không
    Dữ liệu huấn luyện và Apertus LLM có thể chứa hoặc tạo ra thông tin trực tiếp hoặc gián tiếp chỉ đến cá nhân có thể nhận dạng được (dữ liệu cá nhân). Người dùng xử lý dữ liệu cá nhân với tư cách là bên xử lý độc lập theo luật bảo vệ dữ liệu hiện hành
    Với tư cách là nhà phát triển Apertus LLM, SNAI sẽ định kỳ cung cấp để tải xuống các tệp giá trị hash phản ánh các yêu cầu xóa dữ liệu theo luật bảo vệ dữ liệu mà họ đã tiếp nhận, và người dùng có thể áp dụng chúng như bộ lọc đầu ra. Việc này cho phép loại bỏ dữ liệu cá nhân có trong đầu ra của model, và SNAI đặc biệt khuyến nghị người dùng tải bộ lọc đầu ra này từ SNAI sau mỗi 6 tháng kể từ khi model phát hành rồi áp dụng nó

  • Phiên bản trước của model này khá tệ, nhưng lại tuyên bố là tuân thủ luật bản quyền. Tuy nhiên khi tôi tự kiểm tra thì điều đó cũng không đúng, nên tôi cho rằng nó hoàn toàn vô dụng

    • Chừng nào điều kiện sau còn đúng, bản phát hành này vẫn đóng góp cho khoa học nói chung nhiều hơn hầu hết các model được huấn luyện “sau cánh cửa đóng kín”
      Mô hình mở hoàn toàn: trọng số công khai + dữ liệu công khai + toàn bộ chi tiết huấn luyện bao gồm tất cả dữ liệu và công thức huấn luyện
    • Nó dùng fineweb, vốn được dẫn xuất từ Common Crawl, mà Common Crawl thì thu thập web page không xin phép
    • Tôi tò mò bạn đã kiểm tra thế nào. Bạn có thể giải thích không? Bạn có một tập hợp các sự kiện rời rạc đáng lẽ phải thuộc diện bản quyền, rồi kiểm tra xem model bằng cách nào đó có tạo lại nguyên văn toàn bộ tác phẩm hay không?
  • Tôi tò mò cộng đồng nhìn nhận thế nào về chủ quyền AI được các quốc gia trên toàn thế giới tài trợ
    Tại sao lại nhấn mạnh “chủ quyền”? Chỉ cần mở là chưa đủ sao?