ETH Zurich và EPFL sắp công bố LLM được phát triển trên hạ tầng công cộng

(ethz.ch)

2 điểm bởi GN⁺ 2025-07-12 | 1 bình luận | Chia sẻ qua WhatsApp

ETH Zurich và EPFL đang dẫn dắt việc ra mắt một mô hình ngôn ngữ lớn (LLM) được phát triển hoàn toàn công khai trên hạ tầng công cộng trong thời gian tới
Mô hình này tập trung vào tính minh bạch, hiệu năng đa ngôn ngữ và khả năng tiếp cận rộng rãi, nên có thể được sử dụng trong nhiều lĩnh vực như khoa học, chính phủ và khu vực tư nhân
Mã nguồn và trọng số, cùng dữ liệu huấn luyện, sẽ được công khai, và toàn bộ quy trình được thiết kế để có thể tái lập, qua đó thúc đẩy nghiên cứu mở và tuân thủ quy định
Mô hình được huấn luyện trên siêu máy tính mới nhất Alps (CSCS) bằng năng lượng thân thiện với môi trường, hướng tới quy mô lớn, hiệu năng cao và sử dụng dữ liệu có trách nhiệm
LLM này dự kiến sẽ được phát hành vào cuối mùa hè theo giấy phép Apache 2.0, và được kỳ vọng sẽ góp phần thúc đẩy đổi mới và nghiên cứu trên toàn cầu

Hợp tác quốc tế và bối cảnh xây dựng LLM mở

Tại International Open-Source LLM Builders Summit diễn ra ở Geneva, hơn 50 tổ chức toàn cầu về LLM mã nguồn mở và AI đáng tin cậy đã cùng quy tụ
Sự kiện do các trung tâm AI của EPFL và ETH Zurich tổ chức là một cột mốc quan trọng để thúc đẩy hợp tác và hệ sinh thái mô hình nền tảng mở
LLM mở đang ngày càng được nhìn nhận như một phương án thay thế cho các hệ thống thương mại được phát triển kín tại Mỹ, Trung Quốc và các nơi khác

Đặc điểm của LLM công cộng mới và kế hoạch phát hành

Một LLM hoàn toàn công khai và được phát triển vì mục đích công đang sắp ra mắt thông qua sự hợp tác giữa các nhà nghiên cứu từ EPFL, ETH Zurich, các trường đại học khác của Thụy Sĩ và các kỹ sư CSCS
Hiện mô hình đang ở giai đoạn kiểm thử cuối cùng và sẽ sớm có thể tải xuống theo giấy phép mở
Mô hình lấy tính minh bạch, hiệu năng đa ngôn ngữ và khả năng tiếp cận rộng rãi làm các giá trị cốt lõi

Nguyên tắc mở hoàn toàn và minh bạch

Cả mã nguồn và trọng số của mô hình đều sẽ được công khai
Dữ liệu huấn luyện cũng sẽ được công bố minh bạch và thiết kế theo cách có thể tái lập, nhằm hỗ trợ việc áp dụng trong khoa học, chính phủ, giáo dục và khu vực tư nhân
Cách tiếp cận này hướng tới thúc đẩy đổi mới và tăng cường trách nhiệm giải trình

Ý kiến chuyên gia

Imanol Schlag, nhà nghiên cứu tại ETH AI Center, nhấn mạnh rằng “mô hình mở hoàn toàn là thiết yếu để xây dựng các ứng dụng đáng tin cậy và thúc đẩy nghiên cứu về rủi ro/cơ hội của AI”
Quy trình minh bạch cũng giúp việc tuân thủ quy định trở nên dễ dàng hơn

Thiết kế đa ngôn ngữ

Một trong những đặc điểm cốt lõi của mô hình là hỗ trợ hơn 1.000 ngôn ngữ
Giáo sư Antoine Bosselut cho biết nhóm đã tập trung vào hỗ trợ đa ngôn ngữ trên diện rộng ngay từ đầu
Việc tiền huấn luyện được thực hiện trên bộ dữ liệu quy mô lớn của hơn 1.500 ngôn ngữ (60% tiếng Anh, 40% không phải tiếng Anh), cùng với dữ liệu mã và toán học
Nhờ phản ánh nội dung của nhiều ngôn ngữ và nền văn hóa trên toàn thế giới, mô hình có khả năng ứng dụng toàn cầu cao

Khả năng mở rộng và tính bao trùm

Mô hình dự kiến sẽ được phát hành ở hai quy mô 8 tỷ (8B) và 70 tỷ (70B) tham số
- Phiên bản 70B sẽ là một trong những mô hình mở hoàn toàn mạnh nhất thế giới
Mô hình được huấn luyện trên hơn 15 nghìn tỷ token chất lượng cao (đơn vị văn bản nhỏ), nhằm đạt được độ tin cậy cao và tính đa dụng

Sử dụng dữ liệu có trách nhiệm

Quá trình phát triển đang tuân thủ các nghĩa vụ minh bạch theo luật bảo vệ dữ liệu của Thụy Sĩ, luật bản quyền và EU AI Act
Các kết quả nghiên cứu gần đây cho thấy ngay cả khi tôn trọng việc từ chối web crawling (robots exclusion standard), hiệu năng LLM hầu như không suy giảm

Phát triển dựa trên siêu máy tính và tính bền vững

Việc huấn luyện mô hình được thực hiện trên siêu máy tính Alps của CSCS tại Lugano
- Hệ thống được trang bị 10.000 NVIDIA Grace Hopper Superchip, thuộc nhóm hạ tầng AI mạnh nhất thế giới
- Có thể huấn luyện hiệu quả bằng điện 100% trung hòa carbon
Việc triển khai thành công Alps là nhờ 15 năm hợp tác chiến lược với NVIDIA và HPE/Cray
Alps đóng vai trò then chốt trong việc đáp ứng nhu cầu của các tác vụ AI quy mô lớn, bao gồm pretraining cho các LLM phức tạp
Giáo sư Thomas Schulthess nhấn mạnh rằng nỗ lực chung giữa các viện nghiên cứu công và ngành công nghiệp đã chứng minh khả năng đóng góp cho hạ tầng AI có chủ quyền, đổi mới mở, cũng như khoa học và xã hội trên toàn thế giới

Khả năng tiếp cận công khai và ứng dụng toàn cầu

LLM dự kiến sẽ được công bố vào cuối mùa hè theo giấy phép Apache 2.0
Tài liệu như kiến trúc mô hình, phương pháp huấn luyện và hướng dẫn sử dụng cũng sẽ được cung cấp để hỗ trợ tái sử dụng minh bạch và phát triển tiếp theo
Giáo sư Antoine Bosselut cho biết ông hy vọng các nhà nghiên cứu công sẽ đi đầu trong việc phát triển mô hình mở, và nhiều tổ chức khác nhau sẽ xây dựng ứng dụng riêng dựa trên đó
Giáo sư Martin Jaggi nhận định rằng “tính mở hoàn toàn là yếu tố quan trọng để thúc đẩy đổi mới thông qua hợp tác giữa Thụy Sĩ, châu Âu và quốc tế, đồng thời thu hút những nhân tài hàng đầu”

1 bình luận

GN⁺ 2025-07-12

Ý kiến trên Hacker News

Tôi đang kỳ vọng vào kết quả; theo những gì tôi biết thì ETH và EPFL đang huấn luyện hoặc fine-tune các phiên bản LLaMA cũ hơn chứ không phải model mới nhất, nên có thể sẽ hơi tụt lại so với hiệu năng SOTA. Nhưng điều quan trọng nhất, theo tôi, là ETH và EPFL tích lũy được kinh nghiệm huấn luyện ở quy mô lớn. Theo những gì tôi nghe được thì cụm AI mới xây vẫn đang gặp khá nhiều trục trặc ở giai đoạn đầu. Mọi người thường đánh giá thấp việc tự huấn luyện model trên hạ tầng riêng ở quy mô này khó đến mức nào Tiện nói thêm, tôi sinh ra ở Thụy Sĩ và từng học ở ETH. Họ chắc chắn có đủ nhân tài, nhưng kinh nghiệm huấn luyện ở quy mô lớn thì vẫn còn thiếu. Ngoài ra, cá nhân tôi nghĩ phần lớn "phép màu" của LLM thực ra đến từ hạ tầng
- Thực ra tôi nghĩ phần lớn phép màu đến từ dataset, đặc biệt là SFT và các bộ dữ liệu fine-tuning/RLHF khác; đó mới là yếu tố phân biệt model mà mọi người thực sự dùng với model không ai dùng. Tôi hoàn toàn đồng ý về chuyện cần tích lũy kinh nghiệm, và tôi cũng cho rằng xây dựng hạ tầng là phần cốt lõi của chuỗi cung ứng LLM có chủ quyền. Nhưng dữ liệu cũng cần được chú trọng đầy đủ ngay từ sớm thì model mới thực sự hữu dụng
- Để huấn luyện một SOTA LLM thì hạ tầng cũng khá phức tạp. Nhiều người nghĩ chỉ cần lấy kiến trúc và dataset về rồi dùng Ray hay gì đó là xong, nhưng thực tế còn cần vô số thứ như thiết kế dataset, xây dựng pipeline đánh giá, phương thức huấn luyện, tối ưu phần cứng đến mức cao nhất, độ trễ giữa các node, khôi phục lỗi, v.v. Dù vậy, tôi vẫn nghĩ có thêm nhiều người chơi trong lĩnh vực này là điều tốt
- Tôi thấy cụm từ "from scratch" nên đoán là họ đang pretraining chứ không phải fine-tuning; nếu ai có ý kiến khác thì tôi rất muốn nghe. Và tôi cũng tò mò không biết họ có đi theo kiến trúc Llama thông thường hay không. Tôi muốn xem kết quả benchmark
Câu tôn trọng việc opt-out khỏi web crawling mà gần như không làm giảm hiệu năng thật sự rất đáng mừng
- Dù trên các chỉ số huấn luyện có thể không giảm hiệu năng, nhưng xét từ góc nhìn người dùng cuối thì có thể lại khác. Người dùng và chủ website về cơ bản có mục tiêu khác nhau: người dùng muốn câu trả lời và nội dung, còn chủ site muốn quảng cáo hoặc bán thêm thứ gì đó. Rốt cuộc chỉ có thể đáp ứng một trong hai phía
Tôi tự hỏi liệu đây có phải là trường hợp đặt ra chuẩn mực mới về tính minh bạch của dataset hay không; nếu làm được thì đây sẽ là một bước tiến quan trọng. Mà nếu họ đặt tên cỗ máy là AIps (AI Petaflops Supercomputer) thì còn vui hơn nữa
- Model OLMo của Allen Institute for Artificial Intelligence cũng hoàn toàn công khai OLMo is fully open Lập trường của AI2 là sự cởi mở thực sự nghĩa là công khai cả dữ liệu, model và mã nguồn Tìm hiểu thêm về OLMo
- Smollm cũng là một model hoàn toàn công khai, ít nhất theo những gì tôi biết
Dữ liệu huấn luyện mở mới là điểm khác biệt mang tính quyết định. Tôi tự hỏi đây có phải là dataset thật sự mở đầu tiên ở quy mô này không. Những nỗ lực trước đây như The Pile cũng rất có giá trị, nhưng vẫn có giới hạn. Tôi cũng đang chờ xem họ sẽ đảm bảo khả năng tái lập việc huấn luyện như thế nào
- Từ câu "model sẽ được công khai hoàn toàn: mã nguồn và trọng số được mở, dữ liệu huấn luyện minh bạch và có thể tái lập" thì tôi nghĩ trọng tâm nằm ở "có thể tái lập" hơn là việc toàn bộ dữ liệu huấn luyện sẽ được công khai. Có lẽ họ có thể công bố tài liệu tham chiếu như danh sách URL các trang đã dùng để train, chứ không nhất thiết là toàn bộ nội dung đó
- Đúng vậy, vẫn còn vướng các vấn đề bản quyền truyền thống nên có lẽ họ sẽ không thể cung cấp ngay như một dataset đóng gói sẵn
Đây mới đúng là ý nghĩa của "dân chủ hóa AI"
Thông cáo báo chí nói rất nhiều về cách họ tạo ra nó, nhưng gần như không có thông tin về năng lực thực tế của nó so với các model mở khác
- Với đại học thì việc dạy "làm ra nó như thế nào" là trọng tâm, nên việc tập trung vào phần này là điều tự nhiên
- Họ nói rằng model sẽ được phát hành với hai phiên bản 8B và 70B, và bản 70B sẽ là một trong những model mở mạnh nhất thế giới; dự kiến phát hành vào cuối mùa hè này theo giấy phép Apache 2.0, nên thực tế đến tháng 9 là có thể kiểm chứng
Là người Thụy Sĩ, tôi thấy rất tự hào khi tin này xuất hiện ở top HN. Hai trường này đã đào tạo ra rất nhiều nhà sáng lập, nhà nghiên cứu và kỹ sư đẳng cấp thế giới, nhưng luôn bị lu mờ dưới cái bóng của Mỹ. Tuy vậy, nhờ hạ tầng công cộng/giáo dục/sự ổn định chính trị (+ tính trung lập) rất tốt, tôi nghĩ họ có thể nắm được cơ hội đặc biệt trong mảng open LLM
Bài báo có nhắc rằng "open LLM ngày càng được xem là một lựa chọn thay thế đáng tin cậy, trong khi phần lớn hệ thống thương mại đang được phát triển kín ở Mỹ hoặc Trung Quốc" Các công ty hiện đang làm LLM quy mô lớn có động cơ làm giảm chất lượng vì họ muốn kiếm tiền bằng cách lôi kéo đăng ký thuê bao, quảng bá sản phẩm, v.v. Một số thậm chí đã mang thiên kiến chính trị. Nếu ở châu Âu có thể cung cấp dịch vụ tìm kiếm/AI vì lợi ích công thông qua hợp tác giữa học giới và chính phủ, và đi theo hướng đặt người dùng làm trung tâm, thì sẽ rất có ý nghĩa
- Nhưng bản thân việc cung cấp các dịch vụ như vậy cũng rất phức tạp. Dù có huấn luyện được model tốt đến đâu thì khâu serving thực tế vẫn sẽ do khu vực tư nhân đảm nhận, nên về bản chất áp lực kiếm tiền vẫn còn đó. Với AI thì chi phí vận hành rất lớn nên xu hướng này có thể còn mạnh hơn. Cuối cùng, nếu là dịch vụ miễn phí thì người dùng sẽ trở thành sản phẩm, nên phải tích cực khai thác giá trị từ họ thì mới có lãi
Tôi cũng muốn sớm được thử nghiệm thực tế
Tôi thắc mắc vì sao họ lại công bố kiểu này khi còn chưa phát hành; theo tôi nên nói thẳng hơn
- Thông báo này được đưa ra tại International Open-Source LLM Builders Summit tổ chức ở Thụy Sĩ tuần này. Tôi không nghĩ việc chia sẻ lịch trình và kế hoạch là điều gì quá lạ
- Có thể là vì mục đích gọi vốn. Và nó cũng có ý nghĩa trong việc khắc sâu vào tâm trí người dùng châu Âu rằng có một LLM được phát triển công khai ở châu Âu, tức ít nhất không phải của Mỹ hay Trung Quốc (thậm chí có lẽ còn logic đến mức Brussels sẽ không duyệt)
- Ở Thụy Sĩ có một khuôn mẫu là làm gì cũng rất từ tốn

ETH Zurich và EPFL sắp công bố LLM được phát triển trên hạ tầng công cộng

Hợp tác quốc tế và bối cảnh xây dựng LLM mở

Đặc điểm của LLM công cộng mới và kế hoạch phát hành

Nguyên tắc mở hoàn toàn và minh bạch

Ý kiến chuyên gia

Thiết kế đa ngôn ngữ

Khả năng mở rộng và tính bao trùm

Sử dụng dữ liệu có trách nhiệm

Phát triển dựa trên siêu máy tính và tính bền vững

Khả năng tiếp cận công khai và ứng dụng toàn cầu

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News