xAI công bố trọng số mô hình cơ sở và kiến trúc mạng của Grok-1 LLM

(github.com/xai-org)

6 điểm bởi GN⁺ 2024-03-18 | 1 bình luận | Chia sẻ qua WhatsApp

Phát hành trọng số và kiến trúc của mô hình Mixture-of-Experts với 314B (314 tỷ) tham số
Mô hình cơ sở thô của giai đoạn tiền huấn luyện Grok-1 kết thúc vào tháng 10 năm 2023
- Điều này có nghĩa là mô hình chưa được tinh chỉnh cho các tác vụ cụ thể như hội thoại
Chi tiết mô hình
- Mô hình cơ sở được huấn luyện trên lượng lớn dữ liệu văn bản mà chưa được tinh chỉnh cho tác vụ cụ thể
- Mô hình Mixture of Experts 314B tham số, với 25% trọng số được kích hoạt cho mỗi token đầu vào
- Được xAI huấn luyện từ đầu vào tháng 10 năm 2023 bằng ngăn xếp huấn luyện tùy chỉnh xây dựng trên JAX và Rust

Cách sử dụng kho Grok-1

Kho Grok-1, bao gồm mã ví dụ JAX, được dùng để tải và chạy mô hình open-weight Grok-1.
Tải checkpoint và đặt thư mục ckpt-0 vào trong thư mục checkpoint, sau đó chạy pip install -r requirements.txt và python run.py để kiểm tra mã.
Script sẽ tải checkpoint và tạo mẫu từ mô hình cho đầu vào thử nghiệm.
Do kích thước mô hình rất lớn (314B tham số), cần một máy có đủ bộ nhớ GPU.
Phần triển khai lớp MoE (Mixture of Experts) trong kho này không hiệu quả, và được chọn để tránh dùng kernel tùy chỉnh nhằm xác minh độ chính xác của mô hình.

Tải trọng số

Có thể tải trọng số bằng trình khách torrent và liên kết sau: magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

Giấy phép

Mã nguồn và trọng số Grok-1 trong bản phát hành này được cấp phép theo Apache 2.0.
Giấy phép chỉ áp dụng cho các tệp nguồn trong kho này và trọng số của mô hình Grok-1.

Ý kiến của GN⁺

Grok-1 là mô hình có số lượng tham số rất lớn, mang lại cơ hội tốt để các nhà nghiên cứu và kỹ sư machine learning thử nghiệm với tài nguyên tính toán hiệu năng cao.
Việc sử dụng giấy phép mã nguồn mở Apache 2.0 cho phép cộng đồng tự do sử dụng, chỉnh sửa và phân phối mô hình, điều này có thể thúc đẩy hợp tác và đổi mới.
Vì kích thước mô hình cực lớn, việc thử nghiệm thực tế với mô hình này đòi hỏi tài nguyên tính toán đáng kể, điều này có thể hạn chế khả năng tiếp cận.
Phần triển khai kém hiệu quả của lớp MoE có thể hữu ích cho mục đích nghiên cứu, nhưng khi áp dụng vào sản phẩm hoặc dịch vụ thực tế thì sẽ cần tìm một triển khai đã được tối ưu hóa.
Các dự án mã nguồn mở khác cung cấp chức năng tương tự gồm có TensorFlow của Google và PyTorch của Facebook, và chúng cũng có thể được dùng để thử nghiệm các mô hình quy mô lớn.

1 bình luận

GN⁺ 2024-03-18

Ý kiến trên Hacker News

Mô hình 8x86B có vẻ là mô hình mở lớn nhất cho đến nay. Sẽ rất thú vị nếu biết mô hình này được huấn luyện trên bao nhiêu token.
- Đây là mô hình nền tảng được huấn luyện trên dữ liệu văn bản quy mô lớn và không được tinh chỉnh cho tác vụ cụ thể nào.
- Có vẻ phiên bản được xem trước trên Twitter là một mô hình đã được tinh chỉnh theo chỉ dẫn, hoạt động khác với trọng số thô.
Vì sao lại muốn dùng mô hình này thay vì các lựa chọn thay thế mã nguồn mở như Mistral?
Đây có phải là mô hình lớn đầu tiên hỗ trợ FP8 native không? Có vẻ đây sẽ là một lợi thế lớn khi phần cứng hỗ trợ, nên tôi tò mò vì sao đến giờ mọi người vẫn chưa làm vậy.
Mô hình này hỗ trợ những ngôn ngữ nào?
Bài viết blog: Grok-OS
- Trong tổng số 314B tham số, 86B được kích hoạt.
- 2 trong số 8 chuyên gia trong mô hình mixture-of-experts được kích hoạt.
- Trọng số và kiến trúc được phát hành theo giấy phép Apache 2.0.
Bài viết blog được công bố năm ngoái: Grok
- Bao gồm benchmark so sánh với Claude 2, GPT-3.5 và GPT-4.
- Có năng lực tương đương GPT-3.5, Mixtral và Qwen-1.5-72B, nhưng lớn hơn nhiều so với các mô hình open-weight.
Xét về số lượng tham số và mixture-of-experts, khi nào chúng ta sẽ chạm trần hoặc đến điểm lợi suất giảm dần?
Có model card ở đâu không? Tôi muốn biết mô hình này được huấn luyện trên những gì.
Một điểm tinh tế: Musk nói là "open source", nhưng thứ chúng ta nhận được lại là "open weight" (dù vậy vẫn rất đáng cảm ơn vì còn hơn là không có gì).
Kho lưu trữ khác duy nhất chỉ là một nhánh fork của Qdrant.

xAI công bố trọng số mô hình cơ sở và kiến trúc mạng của Grok-1 LLM

Cách sử dụng kho Grok-1

Tải trọng số

Giấy phép

Ý kiến của GN⁺

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News