- ETH Zurich và EPFL đang dẫn dắt việc ra mắt một mô hình ngôn ngữ lớn (LLM) được phát triển hoàn toàn công khai trên hạ tầng công cộng trong thời gian tới
- Mô hình này tập trung vào tính minh bạch, hiệu năng đa ngôn ngữ và khả năng tiếp cận rộng rãi, nên có thể được sử dụng trong nhiều lĩnh vực như khoa học, chính phủ và khu vực tư nhân
- Mã nguồn và trọng số, cùng dữ liệu huấn luyện, sẽ được công khai, và toàn bộ quy trình được thiết kế để có thể tái lập, qua đó thúc đẩy nghiên cứu mở và tuân thủ quy định
- Mô hình được huấn luyện trên siêu máy tính mới nhất Alps (CSCS) bằng năng lượng thân thiện với môi trường, hướng tới quy mô lớn, hiệu năng cao và sử dụng dữ liệu có trách nhiệm
- LLM này dự kiến sẽ được phát hành vào cuối mùa hè theo giấy phép Apache 2.0, và được kỳ vọng sẽ góp phần thúc đẩy đổi mới và nghiên cứu trên toàn cầu
Hợp tác quốc tế và bối cảnh xây dựng LLM mở
- Tại International Open-Source LLM Builders Summit diễn ra ở Geneva, hơn 50 tổ chức toàn cầu về LLM mã nguồn mở và AI đáng tin cậy đã cùng quy tụ
- Sự kiện do các trung tâm AI của EPFL và ETH Zurich tổ chức là một cột mốc quan trọng để thúc đẩy hợp tác và hệ sinh thái mô hình nền tảng mở
- LLM mở đang ngày càng được nhìn nhận như một phương án thay thế cho các hệ thống thương mại được phát triển kín tại Mỹ, Trung Quốc và các nơi khác
Đặc điểm của LLM công cộng mới và kế hoạch phát hành
- Một LLM hoàn toàn công khai và được phát triển vì mục đích công đang sắp ra mắt thông qua sự hợp tác giữa các nhà nghiên cứu từ EPFL, ETH Zurich, các trường đại học khác của Thụy Sĩ và các kỹ sư CSCS
- Hiện mô hình đang ở giai đoạn kiểm thử cuối cùng và sẽ sớm có thể tải xuống theo giấy phép mở
- Mô hình lấy tính minh bạch, hiệu năng đa ngôn ngữ và khả năng tiếp cận rộng rãi làm các giá trị cốt lõi
Nguyên tắc mở hoàn toàn và minh bạch
- Cả mã nguồn và trọng số của mô hình đều sẽ được công khai
- Dữ liệu huấn luyện cũng sẽ được công bố minh bạch và thiết kế theo cách có thể tái lập, nhằm hỗ trợ việc áp dụng trong khoa học, chính phủ, giáo dục và khu vực tư nhân
- Cách tiếp cận này hướng tới thúc đẩy đổi mới và tăng cường trách nhiệm giải trình
Ý kiến chuyên gia
- Imanol Schlag, nhà nghiên cứu tại ETH AI Center, nhấn mạnh rằng “mô hình mở hoàn toàn là thiết yếu để xây dựng các ứng dụng đáng tin cậy và thúc đẩy nghiên cứu về rủi ro/cơ hội của AI”
- Quy trình minh bạch cũng giúp việc tuân thủ quy định trở nên dễ dàng hơn
Thiết kế đa ngôn ngữ
- Một trong những đặc điểm cốt lõi của mô hình là hỗ trợ hơn 1.000 ngôn ngữ
- Giáo sư Antoine Bosselut cho biết nhóm đã tập trung vào hỗ trợ đa ngôn ngữ trên diện rộng ngay từ đầu
- Việc tiền huấn luyện được thực hiện trên bộ dữ liệu quy mô lớn của hơn 1.500 ngôn ngữ (60% tiếng Anh, 40% không phải tiếng Anh), cùng với dữ liệu mã và toán học
- Nhờ phản ánh nội dung của nhiều ngôn ngữ và nền văn hóa trên toàn thế giới, mô hình có khả năng ứng dụng toàn cầu cao
Khả năng mở rộng và tính bao trùm
- Mô hình dự kiến sẽ được phát hành ở hai quy mô 8 tỷ (8B) và 70 tỷ (70B) tham số
- Phiên bản 70B sẽ là một trong những mô hình mở hoàn toàn mạnh nhất thế giới
- Mô hình được huấn luyện trên hơn 15 nghìn tỷ token chất lượng cao (đơn vị văn bản nhỏ), nhằm đạt được độ tin cậy cao và tính đa dụng
Sử dụng dữ liệu có trách nhiệm
- Quá trình phát triển đang tuân thủ các nghĩa vụ minh bạch theo luật bảo vệ dữ liệu của Thụy Sĩ, luật bản quyền và EU AI Act
- Các kết quả nghiên cứu gần đây cho thấy ngay cả khi tôn trọng việc từ chối web crawling (robots exclusion standard), hiệu năng LLM hầu như không suy giảm
Phát triển dựa trên siêu máy tính và tính bền vững
- Việc huấn luyện mô hình được thực hiện trên siêu máy tính Alps của CSCS tại Lugano
- Hệ thống được trang bị 10.000 NVIDIA Grace Hopper Superchip, thuộc nhóm hạ tầng AI mạnh nhất thế giới
- Có thể huấn luyện hiệu quả bằng điện 100% trung hòa carbon
- Việc triển khai thành công Alps là nhờ 15 năm hợp tác chiến lược với NVIDIA và HPE/Cray
- Alps đóng vai trò then chốt trong việc đáp ứng nhu cầu của các tác vụ AI quy mô lớn, bao gồm pretraining cho các LLM phức tạp
- Giáo sư Thomas Schulthess nhấn mạnh rằng nỗ lực chung giữa các viện nghiên cứu công và ngành công nghiệp đã chứng minh khả năng đóng góp cho hạ tầng AI có chủ quyền, đổi mới mở, cũng như khoa học và xã hội trên toàn thế giới
Khả năng tiếp cận công khai và ứng dụng toàn cầu
- LLM dự kiến sẽ được công bố vào cuối mùa hè theo giấy phép Apache 2.0
- Tài liệu như kiến trúc mô hình, phương pháp huấn luyện và hướng dẫn sử dụng cũng sẽ được cung cấp để hỗ trợ tái sử dụng minh bạch và phát triển tiếp theo
- Giáo sư Antoine Bosselut cho biết ông hy vọng các nhà nghiên cứu công sẽ đi đầu trong việc phát triển mô hình mở, và nhiều tổ chức khác nhau sẽ xây dựng ứng dụng riêng dựa trên đó
- Giáo sư Martin Jaggi nhận định rằng “tính mở hoàn toàn là yếu tố quan trọng để thúc đẩy đổi mới thông qua hợp tác giữa Thụy Sĩ, châu Âu và quốc tế, đồng thời thu hút những nhân tài hàng đầu”
1 bình luận
Ý kiến trên Hacker News
Tôi đang kỳ vọng vào kết quả; theo những gì tôi biết thì ETH và EPFL đang huấn luyện hoặc fine-tune các phiên bản LLaMA cũ hơn chứ không phải model mới nhất, nên có thể sẽ hơi tụt lại so với hiệu năng SOTA. Nhưng điều quan trọng nhất, theo tôi, là ETH và EPFL tích lũy được kinh nghiệm huấn luyện ở quy mô lớn. Theo những gì tôi nghe được thì cụm AI mới xây vẫn đang gặp khá nhiều trục trặc ở giai đoạn đầu. Mọi người thường đánh giá thấp việc tự huấn luyện model trên hạ tầng riêng ở quy mô này khó đến mức nào<br>Tiện nói thêm, tôi sinh ra ở Thụy Sĩ và từng học ở ETH. Họ chắc chắn có đủ nhân tài, nhưng kinh nghiệm huấn luyện ở quy mô lớn thì vẫn còn thiếu. Ngoài ra, cá nhân tôi nghĩ phần lớn "phép màu" của LLM thực ra đến từ hạ tầng
Thực ra tôi nghĩ phần lớn phép màu đến từ dataset, đặc biệt là SFT và các bộ dữ liệu fine-tuning/RLHF khác; đó mới là yếu tố phân biệt model mà mọi người thực sự dùng với model không ai dùng. Tôi hoàn toàn đồng ý về chuyện cần tích lũy kinh nghiệm, và tôi cũng cho rằng xây dựng hạ tầng là phần cốt lõi của chuỗi cung ứng LLM có chủ quyền. Nhưng dữ liệu cũng cần được chú trọng đầy đủ ngay từ sớm thì model mới thực sự hữu dụng
Để huấn luyện một SOTA LLM thì hạ tầng cũng khá phức tạp. Nhiều người nghĩ chỉ cần lấy kiến trúc và dataset về rồi dùng Ray hay gì đó là xong, nhưng thực tế còn cần vô số thứ như thiết kế dataset, xây dựng pipeline đánh giá, phương thức huấn luyện, tối ưu phần cứng đến mức cao nhất, độ trễ giữa các node, khôi phục lỗi, v.v. Dù vậy, tôi vẫn nghĩ có thêm nhiều người chơi trong lĩnh vực này là điều tốt
Tôi thấy cụm từ "from scratch" nên đoán là họ đang pretraining chứ không phải fine-tuning; nếu ai có ý kiến khác thì tôi rất muốn nghe. Và tôi cũng tò mò không biết họ có đi theo kiến trúc Llama thông thường hay không. Tôi muốn xem kết quả benchmark
Câu <i>tôn trọng việc opt-out khỏi web crawling mà gần như không làm giảm hiệu năng</i> thật sự rất đáng mừng
Tôi tự hỏi liệu đây có phải là trường hợp đặt ra chuẩn mực mới về tính minh bạch của dataset hay không; nếu làm được thì đây sẽ là một bước tiến quan trọng. Mà nếu họ đặt tên cỗ máy là AIps (AI Petaflops Supercomputer) thì còn vui hơn nữa
Model OLMo của Allen Institute for Artificial Intelligence cũng hoàn toàn công khai<br><i>OLMo is fully open</i><br>Lập trường của AI2 là sự cởi mở thực sự nghĩa là công khai cả dữ liệu, model và mã nguồn<br>Tìm hiểu thêm về OLMo
Smollm cũng là một model hoàn toàn công khai, ít nhất theo những gì tôi biết
Dữ liệu huấn luyện mở mới là điểm khác biệt mang tính quyết định. Tôi tự hỏi đây có phải là dataset thật sự mở đầu tiên ở quy mô này không. Những nỗ lực trước đây như The Pile cũng rất có giá trị, nhưng vẫn có giới hạn. Tôi cũng đang chờ xem họ sẽ đảm bảo khả năng tái lập việc huấn luyện như thế nào
Từ câu "model sẽ được công khai hoàn toàn: mã nguồn và trọng số được mở, dữ liệu huấn luyện minh bạch và có thể tái lập" thì tôi nghĩ trọng tâm nằm ở "có thể tái lập" hơn là việc toàn bộ dữ liệu huấn luyện sẽ được công khai. Có lẽ họ có thể công bố tài liệu tham chiếu như danh sách URL các trang đã dùng để train, chứ không nhất thiết là toàn bộ nội dung đó
Đúng vậy, vẫn còn vướng các vấn đề bản quyền truyền thống nên có lẽ họ sẽ không thể cung cấp ngay như một dataset đóng gói sẵn
Đây mới đúng là ý nghĩa của "dân chủ hóa AI"
Thông cáo báo chí nói rất nhiều về cách họ tạo ra nó, nhưng gần như không có thông tin về năng lực thực tế của nó so với các model mở khác
Với đại học thì việc dạy "làm ra nó như thế nào" là trọng tâm, nên việc tập trung vào phần này là điều tự nhiên
Họ nói rằng <i>model sẽ được phát hành với hai phiên bản 8B và 70B, và bản 70B sẽ là một trong những model mở mạnh nhất thế giới; dự kiến phát hành vào cuối mùa hè này theo giấy phép Apache 2.0</i>, nên thực tế đến tháng 9 là có thể kiểm chứng
Là người Thụy Sĩ, tôi thấy rất tự hào khi tin này xuất hiện ở top HN. Hai trường này đã đào tạo ra rất nhiều nhà sáng lập, nhà nghiên cứu và kỹ sư đẳng cấp thế giới, nhưng luôn bị lu mờ dưới cái bóng của Mỹ. Tuy vậy, nhờ hạ tầng công cộng/giáo dục/sự ổn định chính trị (+ tính trung lập) rất tốt, tôi nghĩ họ có thể nắm được cơ hội đặc biệt trong mảng open LLM
Bài báo có nhắc rằng<br>"open LLM ngày càng được xem là một lựa chọn thay thế đáng tin cậy, trong khi phần lớn hệ thống thương mại đang được phát triển kín ở Mỹ hoặc Trung Quốc"<br>Các công ty hiện đang làm LLM quy mô lớn có động cơ làm giảm chất lượng vì họ muốn kiếm tiền bằng cách lôi kéo đăng ký thuê bao, quảng bá sản phẩm, v.v. Một số thậm chí đã mang thiên kiến chính trị. Nếu ở châu Âu có thể cung cấp dịch vụ tìm kiếm/AI vì lợi ích công thông qua hợp tác giữa học giới và chính phủ, và đi theo hướng đặt người dùng làm trung tâm, thì sẽ rất có ý nghĩa
Tôi cũng muốn sớm được thử nghiệm thực tế
Tôi thắc mắc vì sao họ lại công bố kiểu này khi còn chưa phát hành; theo tôi nên nói thẳng hơn
Thông báo này được đưa ra tại International Open-Source LLM Builders Summit tổ chức ở Thụy Sĩ tuần này. Tôi không nghĩ việc chia sẻ lịch trình và kế hoạch là điều gì quá lạ
Có thể là vì mục đích gọi vốn. Và nó cũng có ý nghĩa trong việc khắc sâu vào tâm trí người dùng châu Âu rằng có một LLM được phát triển công khai ở châu Âu, tức ít nhất không phải của Mỹ hay Trung Quốc (thậm chí có lẽ còn logic đến mức Brussels sẽ không duyệt)
Ở Thụy Sĩ có một khuôn mẫu là làm gì cũng rất từ tốn