- Đã phát hành các mô hình 8B, 70B (cả mô hình nền tảng lẫn mô hình đã fine-tune). Chúng cho thấy hiệu năng mạnh trong từng lớp mô hình.
- Mô hình 400B vẫn đang được huấn luyện, nhưng đã tiệm cận vùng của GPT-4 (ví dụ: MMLU 84.8 so với 86.5 của GPT-4)
Tokenizer
- Số lượng token tăng gấp 4 từ 32K (Llama 2) lên 128K (Llama 3)
- Nhiều token hơn cho phép nén độ dài chuỗi tốt hơn. Bài viết dẫn con số ít hơn 15% token và hiệu năng downstream được cải thiện
Kiến trúc
- Trong Llama 2, chỉ các mô hình lớn mới dùng Grouped Query Attention (GQA), nhưng giờ tất cả mô hình, bao gồm cả mô hình nhỏ nhất 8B, đều dùng GQA
- GQA là cơ chế chia sẻ tham số cho key/value của Attention, giúp giảm kích thước KV cache trong lúc suy luận
- Đây là một thay đổi tốt và đáng hoan nghênh, giúp giảm độ phức tạp và tối ưu hóa
Độ dài chuỗi
- Số token tối đa của context window tăng từ 4096 (Llama 2) và 2048 (Llama 1) lên 8192
- Mức tăng này là đáng hoan nghênh, nhưng vẫn khá nhỏ so với chuẩn hiện đại (ví dụ: GPT-4 là 128K)
- Nhiều người có lẽ đã kỳ vọng nhiều hơn ở trục này. Có thể sau này sẽ làm được bằng fine-tuning (?)
Dữ liệu huấn luyện
- Llama 2 được huấn luyện với 2T token, còn Llama 3 tăng lên bộ dữ liệu huấn luyện 15T
- Đã chú ý nhiều đến chất lượng dữ liệu, số token code nhiều hơn 4 lần, và 5% token non-en trải trên hơn 30 ngôn ngữ
- 5% là khá thấp so với tỷ lệ trộn non-en:en, nên mô hình này chủ yếu vẫn là mô hình tiếng Anh. Tuy vậy, lớn hơn 0 vẫn là khá tốt
Định luật scaling
- 15T là bộ dữ liệu rất lớn để huấn luyện một mô hình “nhỏ” như 8B tham số, và đây là điều mới mẻ, rất đáng hoan nghênh vì thường không ai làm vậy
- Ở điểm “compute optimal” theo Chinchilla, để huấn luyện mô hình 8B chỉ cần khoảng ~200B token
- Nếu chỉ quan tâm đến hiệu năng/chi phí cho hiệu quả tốt nhất thì chừng đó là đủ
- Nhưng Meta đã huấn luyện vượt quá điểm đó khoảng ~75 lần, điều này là bất thường nhưng cá nhân tôi thấy rất đáng hoan nghênh.
- Tất cả chúng ta sẽ có được những mô hình rất nhỏ, dễ làm việc và dễ suy luận nhưng vẫn cực kỳ có năng lực
- Meta cũng nhắc rằng ngay cả ở mức này, mô hình dường như vẫn chưa “hội tụ” theo nghĩa thông thường
- Tức là các LLM mà chúng ta vẫn luôn làm việc cùng đang thiếu những lượt huấn luyện dài hơn rất nhiều, từ 100-1000 lần, và còn chưa gần điểm hội tụ
- Hy vọng xu hướng huấn luyện lâu hơn và phát hành các mô hình nhỏ hơn nhiều sẽ tiếp tục trong tương lai
Hệ thống
- Có đề cập rằng Llama 3 được huấn luyện trên 16K GPU với throughput quan sát được là 400 TFLOPS
- Dù không nói rõ, tôi đoán họ dùng H100 fp16 của NVIDIA, loại được ghi 1,979 TFLOPS trong tài liệu marketing
- Nhưng ai cũng biết dấu sao nhỏ của họ (*with sparsity) đang “gánh” rất nhiều việc, và để ra TFLOPS thực tế thì phải chia số đó cho 2 để được ~990
- (Vì sao sparsity lại được tính vào FLOPS nhỉ?)
- Dù sao thì 400/990 ~= mức sử dụng 40%, và với ngần ấy GPU thì như vậy là không tệ chút nào!
- Để đạt được mức này ở quy mô đó cần một lượng kỹ thuật thực sự vững chắc
Tóm tắt
- Llama 3 có vẻ là một bản phát hành mô hình rất có năng lực và rất đáng hoan nghênh
- Bám sát những điều cơ bản, dành nhiều thời gian cho hệ thống vững chắc và công việc dữ liệu, đồng thời khám phá giới hạn của các mô hình huấn luyện dài hạn
- Mô hình 400B cũng rất đáng mong đợi, và có thể trở thành bản phát hành mã nguồn mở đầu tiên ở cấp độ GPT-4
- Tôi nghĩ nhiều người sẽ đòi hỏi độ dài ngữ cảnh lớn hơn
Chưa có bình luận nào.