LLM mở thực sự, Hello OLMo xuất hiện
(blog.allenai.org)-
AI2 đã công bố mô hình OLMo 7B. Đây là mô hình ngôn ngữ lớn mã nguồn mở theo đúng nghĩa, khi công khai cả dữ liệu tiền huấn luyện lẫn mã huấn luyện.
- Điều này cho phép các nhà nghiên cứu và nhà phát triển cùng sử dụng mô hình mở tốt nhất để thúc đẩy một cách tập thể khoa học về mô hình ngôn ngữ.
- Nhà khoa học AI của Meta, Yann LeCun, cho biết cộng đồng mã nguồn mở có thể xây dựng tương lai của AI nhanh hơn và hiệu quả hơn bất kỳ ai.
-
Các đặc điểm chính của framework OLMo:
- Dữ liệu tiền huấn luyện đầy đủ: sử dụng bộ dữ liệu Dolma của AI2, đồng thời bao gồm cả mã tạo ra dữ liệu huấn luyện.
- Mã huấn luyện và trọng số mô hình: cung cấp toàn bộ trọng số mô hình, mã suy luận, chỉ số huấn luyện và log huấn luyện cho 4 biến thể mô hình ở quy mô 7B.
- Đánh giá: công khai hơn 500 checkpoint, mã đánh giá và các công cụ đánh giá được sử dụng trong quá trình phát triển dưới dự án Catwalk.
-
Thông qua OLMo, các nhà nghiên cứu và nhà phát triển AI có thể trải nghiệm những điều sau:
- Phân tích chính xác hơn: có thể làm việc nhanh hơn dựa trên hiểu biết đầy đủ về dữ liệu huấn luyện.
- Giảm phát thải carbon: việc công khai toàn bộ hệ sinh thái huấn luyện và đánh giá có thể giúp giảm phát triển trùng lặp.
- Kết quả bền vững: công khai mô hình và bộ dữ liệu để mọi người có thể học hỏi từ các mô hình trước đó và tiếp tục phát triển trên nền tảng đó.
-
Việc phát triển OLMo trở nên khả thi nhờ hợp tác với AMD, CSC (siêu máy tính Lumi), University of Washington, Databricks và nhiều bên khác.
Ý kiến của GN⁺
- Việc công khai dữ liệu huấn luyện và mã để tăng tính minh bạch của mô hình AI có vẻ mang ý nghĩa rất lớn. Tuy nhiên, vẫn có thể tồn tại các vấn đề như độ thiên lệch của dữ liệu, nên cũng cần được xem xét.
- Hệ sinh thái mô hình ngôn ngữ mã nguồn mở được kích hoạt mạnh hơn có thể sẽ đẩy nhanh tiến bộ công nghệ. Dù vậy, vẫn cần theo dõi xem nó sẽ đạt được kết quả ra sao trong cạnh tranh với các mô hình AI đóng của các tập đoàn IT lớn.
- Để đảm bảo được nguồn tài nguyên tính toán khổng lồ cần cho phát triển AI, hợp tác với nhiều tổ chức khác nhau có vẻ là điều rất quan trọng. Đây có thể trở thành hình mẫu tốt cho mô hình hợp tác giữa học thuật và công nghiệp.
- Kỳ vọng rằng thông qua OLMo, nghiên cứu khoa học về nguyên lý vận hành của mô hình ngôn ngữ sẽ trở nên sôi động hơn. Điều này có thể dẫn đến việc phát triển AI an toàn và đáng tin cậy hơn.
1 bình luận
Ý kiến trên Hacker News