LLM mở thực sự, Hello OLMo xuất hiện

(blog.allenai.org)

7 điểm bởi GN⁺ 2024-04-09 | 1 bình luận | Chia sẻ qua WhatsApp

AI2 đã công bố mô hình OLMo 7B. Đây là mô hình ngôn ngữ lớn mã nguồn mở theo đúng nghĩa, khi công khai cả dữ liệu tiền huấn luyện lẫn mã huấn luyện.
- Điều này cho phép các nhà nghiên cứu và nhà phát triển cùng sử dụng mô hình mở tốt nhất để thúc đẩy một cách tập thể khoa học về mô hình ngôn ngữ.
- Nhà khoa học AI của Meta, Yann LeCun, cho biết cộng đồng mã nguồn mở có thể xây dựng tương lai của AI nhanh hơn và hiệu quả hơn bất kỳ ai.
Các đặc điểm chính của framework OLMo:
- Dữ liệu tiền huấn luyện đầy đủ: sử dụng bộ dữ liệu Dolma của AI2, đồng thời bao gồm cả mã tạo ra dữ liệu huấn luyện.
- Mã huấn luyện và trọng số mô hình: cung cấp toàn bộ trọng số mô hình, mã suy luận, chỉ số huấn luyện và log huấn luyện cho 4 biến thể mô hình ở quy mô 7B.
- Đánh giá: công khai hơn 500 checkpoint, mã đánh giá và các công cụ đánh giá được sử dụng trong quá trình phát triển dưới dự án Catwalk.
Thông qua OLMo, các nhà nghiên cứu và nhà phát triển AI có thể trải nghiệm những điều sau:
- Phân tích chính xác hơn: có thể làm việc nhanh hơn dựa trên hiểu biết đầy đủ về dữ liệu huấn luyện.
- Giảm phát thải carbon: việc công khai toàn bộ hệ sinh thái huấn luyện và đánh giá có thể giúp giảm phát triển trùng lặp.
- Kết quả bền vững: công khai mô hình và bộ dữ liệu để mọi người có thể học hỏi từ các mô hình trước đó và tiếp tục phát triển trên nền tảng đó.
Việc phát triển OLMo trở nên khả thi nhờ hợp tác với AMD, CSC (siêu máy tính Lumi), University of Washington, Databricks và nhiều bên khác.

Ý kiến của GN⁺

Việc công khai dữ liệu huấn luyện và mã để tăng tính minh bạch của mô hình AI có vẻ mang ý nghĩa rất lớn. Tuy nhiên, vẫn có thể tồn tại các vấn đề như độ thiên lệch của dữ liệu, nên cũng cần được xem xét.
Hệ sinh thái mô hình ngôn ngữ mã nguồn mở được kích hoạt mạnh hơn có thể sẽ đẩy nhanh tiến bộ công nghệ. Dù vậy, vẫn cần theo dõi xem nó sẽ đạt được kết quả ra sao trong cạnh tranh với các mô hình AI đóng của các tập đoàn IT lớn.
Để đảm bảo được nguồn tài nguyên tính toán khổng lồ cần cho phát triển AI, hợp tác với nhiều tổ chức khác nhau có vẻ là điều rất quan trọng. Đây có thể trở thành hình mẫu tốt cho mô hình hợp tác giữa học thuật và công nghiệp.
Kỳ vọng rằng thông qua OLMo, nghiên cứu khoa học về nguyên lý vận hành của mô hình ngôn ngữ sẽ trở nên sôi động hơn. Điều này có thể dẫn đến việc phát triển AI an toàn và đáng tin cậy hơn.

1 bình luận

GN⁺ 2024-04-09

Ý kiến trên Hacker News

Khi sử dụng LLM, phải thông báo cho tác giả biết mục đích sử dụng. Đây là nội dung được nêu trong giấy phép.
Nếu tạo ra sản phẩm phái sinh, phải nộp Derivative Impact Report cho AI2 hoặc cung cấp thông tin tương tự bằng văn bản. AI2 có thể công khai thông tin này với công chúng.
Phải công khai minh bạch về mục đích sử dụng của sản phẩm phái sinh.
Derivative Impact Report không nhằm trừng phạt việc công bố thiện chí. Nếu khởi kiện liên quan, hợp đồng sẽ chấm dứt ngay lập tức.
Đây là một trong những mô hình mã nguồn mở thực sự. Phần lớn chỉ công khai trọng số, còn mô hình này mở từ đầu đến cuối.
Thật bất ngờ khi không thấy nhắc đến so sánh với Mistral 7b.
Có vẻ như "The Pile" không được đưa vào dữ liệu huấn luyện. Về mặt pháp lý, có thể lành mạnh hơn các LLM "mở" khác.
Ý nghĩa thực sự của phân loại rủi ro áp dụng cho bộ dữ liệu là gì? Trang giấy phép giải thích chưa đủ rõ. Có phải nó ám chỉ rủi ro không tương thích về mặt giấy phép khi dùng làm bộ dữ liệu huấn luyện không?
Tốc độ nhanh đến ngạc nhiên dù ở kích thước nhỏ.
Đây có phải là một trong những LLM đáng chú ý đầu tiên được huấn luyện thành công trên GPU AMD không? Tôi tò mò quá trình đó có suôn sẻ không, và có gặp khó khăn gì không.
Ở mô hình này và các mô hình tương tự, khi suy luận có hiện tượng "token lặp lại". Điều này thường xảy ra khi cửa sổ ngữ cảnh dài ở mức trung bình.
Có vẻ như trong quá trình huấn luyện, mô hình rơi vào một dạng cực tiểu cục bộ. Nhiệt độ có vẻ có ảnh hưởng, nhưng không giải quyết triệt để.
Thật tiếc là bài blog không có bảng so sánh.
Cá nhân tôi thấy đây là LLM thú vị nhất. Nó là một công cụ mạnh mẽ có thể thay thế tìm kiếm, thậm chí thực hiện nghiên cứu rồi đưa ra câu trả lời cuối cùng. Các mô hình đóng như OpenAI, Anthropic... thì không thể kiểm toán được.
Đã có những trường hợp thực tế mà thiên kiến bị tiêm vào LLM (ví dụ: Google Gemini tạo ảnh sai lệch về mặt lịch sử do meta prompt bí mật).
Tôi thích cách tiếp cận của AI2. Họ không chỉ chia sẻ trọng số mà còn chia sẻ toàn bộ mã nguồn huấn luyện, dữ liệu, công cụ đánh giá... đều theo giấy phép Apache.
Các mô hình trọng số mở như Llama đang bắt kịp các mô hình đóng như OpenAI và các bên khác. Tôi hy vọng các mô hình mở thực sự như OLMo cũng sẽ tiếp tục phát triển.
Tôi hy vọng việc phát triển AI mã nguồn mở sẽ không bị chặn bằng quy định. Trong tương lai, nó có thể trở thành phương tiện ngôn luận của xã hội, nên việc quản lý sẽ giống như hạn chế tự do biểu đạt. Việc giảm áp lực cạnh tranh sẽ gây hại cho đổi mới.
Đây là bài viết từ 2 tháng trước.

LLM mở thực sự, Hello OLMo xuất hiện

Ý kiến của GN⁺

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News