Tái hiện mô hình GPT-2 với chi phí thấp bằng `llm.c`

(github.com/karpathy)

12 điểm bởi GN⁺ 2024-05-29 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Giải thích cách tái tạo mô hình GPT-2 (124M) trong 90 phút với chi phí $20 bằng llm.c
GPT-2 (124M) là mô hình nhỏ nhất do OpenAI công bố vào năm 2019
Khi dùng node 8X A100 80GB SXM trên Lambda, chi phí vào khoảng $14/giờ, tổng cộng khoảng $20
- Cũng có thể huấn luyện bằng một GPU duy nhất nhưng sẽ mất nhiều thời gian hơn (4-24 giờ)

Trên bộ dữ liệu kiểm định FineWeb, mô hình cho hiệu năng tốt hơn checkpoint do OpenAI công bố
- Tuy nhiên, GPT-2 được huấn luyện bằng WebText nên đây không phải là một phép so sánh hoàn toàn công bằng
Độ chính xác HellaSwag cũng được đo và đạt 29.9, gần với mức 33.7 của GPT-3 Small (124M)
- Đã vượt mức 29.4 của GPT-2 (124M)
- Tuy nhiên ở đây mô hình được huấn luyện với 10B token, trong khi GPT-3 được huấn luyện với 300B token

Với 10B token huấn luyện và kích thước batch 0.5M, dự kiến khoảng 20K bước
Trên GPU A100 40GB PCIe, hệ thống sẽ in ra thời gian mỗi bước, MFU và thông lượng token
Ở giai đoạn đầu có hiện tượng gradient exploding nhưng được xử lý bằng clipping

Cung cấp notebook Jupyter để phân tích file log và trực quan hóa đường cong huấn luyện

Có sampling được không: Có, nhưng kém hiệu quả.
Có thể chat không: Hiện tại chỉ hỗ trợ pretraining, chưa thể fine-tune cho chat.
Huấn luyện phân tán đa node: Có thể, nhưng vẫn chưa được kiểm thử.
Có tính xác định ở mức bit không: Gần như xác định, nhưng cần vá một số kernel.
Có thể huấn luyện FP8 không: Hiện đang huấn luyện bằng BF16, FP8 sẽ sớm được hỗ trợ.
Có hỗ trợ GPU không phải NVIDIA không: Hiện chỉ hỗ trợ C/CUDA.

Ý kiến của GN⁺

GPT-2 là một mô hình rất quan trọng, đặt nền móng cho các LLM hiện đại. Sau này GPT-3 hay các LLM khác cũng không khác biệt quá nhiều so với GPT-2.
Dự án này giúp bất kỳ ai cũng có thể tự huấn luyện một mô hình cấp độ GPT-2 với chi phí hợp lý. Điều này có vẻ sẽ rất hữu ích để nâng cao mức độ hiểu biết về LLM.
Tuy nhiên, hiện tại nó vẫn chưa được tối ưu cho suy luận nên còn hạn chế nếu muốn dùng cho dịch vụ thực tế. Việc fine-tune thành mô hình hội thoại cũng chưa được hỗ trợ.
Hiện dự án chỉ hỗ trợ GPU NVIDIA, nhưng có thể kỳ vọng trong tương lai sẽ hỗ trợ thêm nhiều nền tảng như AMD hay Apple Silicon.
Các dự án mã nguồn mở có mục tiêu tương tự gồm Megatron-LM, DeepSpeed, FairSeq, v.v. Mỗi dự án đều có ưu và nhược điểm riêng nên có thể chọn theo nhu cầu sử dụng.
Đây là một dự án rất đáng khích lệ xét trên khía cạnh thúc đẩy hệ sinh thái phát triển LLM. Rất đáng chờ đợi các bước tiếp theo.