Đánh giá của Andrej Karpathy về Meta Llama 3

xguru · 2024-04-19T09:17:00+09:00

Đã phát hành các mô hình 8B, 70B (cả mô hình nền tảng lẫn mô hình đã fine-tune). Chúng cho thấy hiệu năng mạnh trong từng lớp mô hình. Mô hình 400B vẫn đang được huấn luyện, nhưng đã tiệm cận vùng của GPT-4 (ví dụ: MMLU 84.8 so với 86.5 của GPT-4) Tokenizer Số lượng token tăng gấp 4 từ 32K (Llama 2) lên 128K (Llama 3) Nhiều token hơn cho phép nén độ dài chuỗi tốt hơn. Bài viết dẫn con số ít hơn 15% token và hiệu năng downstream được cải thiện Kiến trúc Trong Llama 2, chỉ các mô hình lớn mới dùng Grouped Query Attention (GQA), nhưng giờ tất cả mô hình, bao gồm cả mô hình nhỏ nhất 8B, đều dùng GQA GQA là cơ chế chia sẻ tham số cho key/value của Attention, giúp giảm kích thước KV cache trong lúc suy luận Đây là một thay đổi tốt và đáng hoan nghênh, giúp giảm độ phức tạp và tối ưu hóa Độ dài chuỗi Số token tối đa của context window tăng từ 4096 (Llama 2) và 2048 (Llama 1) lên 8192 Mức tăng này là đáng hoan nghênh, nhưng vẫn khá nhỏ so với chuẩn hiện đại (ví dụ: GPT-4 là 128K) Nhiều người có lẽ đã kỳ vọng nhiều hơn ở trục này. Có thể sau này sẽ làm được bằng fine-tuning (?) Dữ liệu huấn luyện Llama 2 được huấn luyện với 2T token, còn Llama 3 tăng lên bộ dữ liệu huấn luyện 15T Đã chú ý nhiều đến chất lượng dữ liệu, số token code nhiều hơn 4 lần, và 5% token non-en trải trên hơn 30 ngôn ngữ 5% là khá thấp so với tỷ lệ trộn non-en:en, nên mô hình này chủ yếu vẫn là mô hình tiếng Anh. Tuy vậy, lớn hơn 0 vẫn là khá tốt Định luật scaling 15T là bộ dữ liệu rất lớn để huấn luyện một mô hình “nhỏ” như 8B tham số, và đây là điều mới mẻ, rất đáng hoan nghênh vì thường không ai làm vậy Ở điểm “compute optimal” theo Chinchilla, để huấn luyện mô hình 8B chỉ cần khoảng ~200B token Nếu chỉ quan tâm đến hiệu năng/chi phí cho hiệu quả tốt nhất thì chừng đó là đủ Nhưng Meta đã huấn luyện vượt quá điểm đó khoảng ~75 lần, điều này là bất thường nhưng cá nhân tôi thấy rất đáng hoan nghênh. Tất cả chúng ta sẽ có được những mô hình rất nhỏ, dễ làm việc và dễ suy luận nhưng vẫn cực kỳ có năng lực Meta cũng nhắc rằng ngay cả ở mức này, mô hình dường như vẫn chưa “hội tụ” theo nghĩa thông thường Tức là các LLM mà chúng ta vẫn luôn làm việc cùng đang thiếu những lượt huấn luyện dài hơn rất nhiều, từ 100-1000 lần, và còn chưa gần điểm hội tụ Hy vọng xu hướng huấn luyện lâu hơn và phát hành các mô hình nhỏ hơn nhiều sẽ tiếp tục trong tương lai Hệ thống Có đề cập rằng Llama 3 được huấn luyện trên 16K GPU với throughput quan sát được là 400 TFLOPS Dù không nói rõ, tôi đoán họ dùng H100 fp16 của NVIDIA, loại được ghi 1,979 TFLOPS trong tài liệu marketing Nhưng ai cũng biết dấu sao nhỏ của họ (*with sparsity) đang “gánh” rất nhiều việc, và để ra TFLOPS thực tế thì phải chia số đó cho 2 để được ~990 (Vì sao sparsity lại được tính vào FLOPS nhỉ?) Dù sao thì 400/990 ~= mức sử dụng 40%, và với ngần ấy GPU thì như vậy là không tệ chút nào! Để đạt được mức này ở quy mô đó cần một lượng kỹ thuật thực sự vững chắc Tóm tắt Llama 3 có vẻ là một bản phát hành mô hình rất có năng lực và rất đáng hoan nghênh Bám sát những điều cơ bản, dành nhiều thời gian cho hệ thống vững chắc và công việc dữ liệu, đồng thời khám phá giới hạn của các mô hình huấn luyện dài hạn Mô hình 400B cũng rất đáng mong đợi, và có thể trở thành bản phát hành mã nguồn mở đầu tiên ở cấp độ GPT-4 Tôi nghĩ nhiều người sẽ đòi hỏi độ dài ngữ cảnh lớn hơn

(twitter.com/karpathy)

16 điểm bởi xguru 2024-04-19 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Đã phát hành các mô hình 8B, 70B (cả mô hình nền tảng lẫn mô hình đã fine-tune). Chúng cho thấy hiệu năng mạnh trong từng lớp mô hình.
Mô hình 400B vẫn đang được huấn luyện, nhưng đã tiệm cận vùng của GPT-4 (ví dụ: MMLU 84.8 so với 86.5 của GPT-4)

Tokenizer

Số lượng token tăng gấp 4 từ 32K (Llama 2) lên 128K (Llama 3)
Nhiều token hơn cho phép nén độ dài chuỗi tốt hơn. Bài viết dẫn con số ít hơn 15% token và hiệu năng downstream được cải thiện

Kiến trúc

Trong Llama 2, chỉ các mô hình lớn mới dùng Grouped Query Attention (GQA), nhưng giờ tất cả mô hình, bao gồm cả mô hình nhỏ nhất 8B, đều dùng GQA
GQA là cơ chế chia sẻ tham số cho key/value của Attention, giúp giảm kích thước KV cache trong lúc suy luận
Đây là một thay đổi tốt và đáng hoan nghênh, giúp giảm độ phức tạp và tối ưu hóa

Độ dài chuỗi

Số token tối đa của context window tăng từ 4096 (Llama 2) và 2048 (Llama 1) lên 8192
Mức tăng này là đáng hoan nghênh, nhưng vẫn khá nhỏ so với chuẩn hiện đại (ví dụ: GPT-4 là 128K)
Nhiều người có lẽ đã kỳ vọng nhiều hơn ở trục này. Có thể sau này sẽ làm được bằng fine-tuning (?)

Dữ liệu huấn luyện

Llama 2 được huấn luyện với 2T token, còn Llama 3 tăng lên bộ dữ liệu huấn luyện 15T
Đã chú ý nhiều đến chất lượng dữ liệu, số token code nhiều hơn 4 lần, và 5% token non-en trải trên hơn 30 ngôn ngữ
5% là khá thấp so với tỷ lệ trộn non-en:en, nên mô hình này chủ yếu vẫn là mô hình tiếng Anh. Tuy vậy, lớn hơn 0 vẫn là khá tốt

Định luật scaling

15T là bộ dữ liệu rất lớn để huấn luyện một mô hình “nhỏ” như 8B tham số, và đây là điều mới mẻ, rất đáng hoan nghênh vì thường không ai làm vậy
Ở điểm “compute optimal” theo Chinchilla, để huấn luyện mô hình 8B chỉ cần khoảng ~200B token
Nếu chỉ quan tâm đến hiệu năng/chi phí cho hiệu quả tốt nhất thì chừng đó là đủ
Nhưng Meta đã huấn luyện vượt quá điểm đó khoảng ~75 lần, điều này là bất thường nhưng cá nhân tôi thấy rất đáng hoan nghênh.
Tất cả chúng ta sẽ có được những mô hình rất nhỏ, dễ làm việc và dễ suy luận nhưng vẫn cực kỳ có năng lực
Meta cũng nhắc rằng ngay cả ở mức này, mô hình dường như vẫn chưa “hội tụ” theo nghĩa thông thường
Tức là các LLM mà chúng ta vẫn luôn làm việc cùng đang thiếu những lượt huấn luyện dài hơn rất nhiều, từ 100-1000 lần, và còn chưa gần điểm hội tụ
Hy vọng xu hướng huấn luyện lâu hơn và phát hành các mô hình nhỏ hơn nhiều sẽ tiếp tục trong tương lai

Hệ thống

Có đề cập rằng Llama 3 được huấn luyện trên 16K GPU với throughput quan sát được là 400 TFLOPS
Dù không nói rõ, tôi đoán họ dùng H100 fp16 của NVIDIA, loại được ghi 1,979 TFLOPS trong tài liệu marketing
Nhưng ai cũng biết dấu sao nhỏ của họ (*with sparsity) đang “gánh” rất nhiều việc, và để ra TFLOPS thực tế thì phải chia số đó cho 2 để được ~990
(Vì sao sparsity lại được tính vào FLOPS nhỉ?)
Dù sao thì 400/990 ~= mức sử dụng 40%, và với ngần ấy GPU thì như vậy là không tệ chút nào!
Để đạt được mức này ở quy mô đó cần một lượng kỹ thuật thực sự vững chắc

Tóm tắt

Llama 3 có vẻ là một bản phát hành mô hình rất có năng lực và rất đáng hoan nghênh
Bám sát những điều cơ bản, dành nhiều thời gian cho hệ thống vững chắc và công việc dữ liệu, đồng thời khám phá giới hạn của các mô hình huấn luyện dài hạn
Mô hình 400B cũng rất đáng mong đợi, và có thể trở thành bản phát hành mã nguồn mở đầu tiên ở cấp độ GPT-4
Tôi nghĩ nhiều người sẽ đòi hỏi độ dài ngữ cảnh lớn hơn