- Công bố hai mô hình đầu tiên của Llama 3 (các mô hình 8B và 70B được tiền huấn luyện và tinh chỉnh theo chỉ dẫn)
- Thể hiện hiệu năng tiên tiến nhất trên nhiều benchmark trong ngành, đồng thời cung cấp các khả năng mới như suy luận được cải thiện
- Hướng tới xây dựng mô hình mở tốt nhất ở mức ngang bằng với các mô hình độc quyền tốt nhất hiện có. Mục tiêu là phản ánh phản hồi của nhà phát triển và phát hành nhanh, thường xuyên
- Giới thiệu các công cụ mới về độ tin cậy và an toàn như Llama Guard 2, Code Shield, CyberSec Eval 2
- Trong vài tháng tới dự kiến sẽ bổ sung các tính năng mới, cửa sổ ngữ cảnh dài hơn, thêm các kích cỡ mô hình và hiệu năng được cải thiện, đồng thời cũng sẽ chia sẻ bài báo nghiên cứu về Llama 3
- Sắp có mặt trên AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, Snowflake và cũng sẽ được hỗ trợ trên các nền tảng phần cứng như AMD, AWS, Dell, Intel, NVIDIA, Qualcomm
- Meta AI được xây dựng trên công nghệ Llama 3 hiện là một trong những trợ lý AI hàng đầu thế giới, có thể nâng cao năng lực trí tuệ của người dùng và giảm bớt gánh nặng cho họ
Hiệu năng của Llama 3
- Các mô hình Llama 3 8B và 70B tham số là một bước nhảy vọt lớn so với Llama 2, đạt đỉnh cao mới cho các mô hình LLM ở quy mô này
- Nhờ các cải tiến trong tiền huấn luyện và hậu huấn luyện, các mô hình được tiền huấn luyện và tinh chỉnh theo chỉ dẫn hiện là những mô hình tốt nhất đang tồn tại ở quy mô 8B và 70B tham số
- Các cải tiến trong quy trình hậu huấn luyện giúp giảm đáng kể tỷ lệ từ chối sai, cải thiện mức độ căn chỉnh và tăng tính đa dạng trong phản hồi của mô hình
- Đồng thời, các khả năng như suy luận, sinh mã và làm theo chỉ dẫn cũng được cải thiện đáng kể, giúp Llama 3 dễ điều khiển hơn (Steerable)
- Trong quá trình phát triển Llama 3, Meta xem xét hiệu năng của mô hình trên các benchmark tiêu chuẩn và đồng thời theo đuổi tối ưu hiệu năng cho các kịch bản thực tế
- Để làm điều này, Meta đã phát triển một bộ đánh giá chất lượng cao mới do con người đánh giá, gồm 1.800 prompt bao phủ 12 trường hợp sử dụng cốt lõi
- Qua bộ đánh giá này, mô hình 70B làm theo chỉ dẫn cho thấy hiệu năng mạnh mẽ hơn các mô hình cạnh tranh có quy mô tương tự trong các kịch bản thực tế
- Các mô hình tiền huấn luyện cũng đạt trình độ tiên tiến mới cho các mô hình LLM ở quy mô này
- Meta tin rằng để phát triển một mô hình ngôn ngữ xuất sắc, đổi mới, mở rộng quy mô và tối ưu sự đơn giản là những yếu tố quan trọng
- Trong toàn bộ dự án Llama 3, triết lý thiết kế này được áp dụng với trọng tâm vào bốn yếu tố cốt lõi: kiến trúc mô hình, dữ liệu tiền huấn luyện, mở rộng tiền huấn luyện và tinh chỉnh theo chỉ dẫn
Kiến trúc mô hình
- Với Llama 3, Meta chọn kiến trúc transformer chỉ giải mã tương đối tiêu chuẩn
- So với Llama 2, có một số cải tiến chính
- Llama 3 sử dụng tokenizer với từ vựng 128K token, mã hóa ngôn ngữ hiệu quả hơn nhiều và nhờ đó cải thiện đáng kể hiệu năng mô hình
- Để cải thiện hiệu quả suy luận của các mô hình Llama 3, Meta áp dụng grouped query attention (GQA) cho cả hai kích thước 8B và 70B
- Mô hình được huấn luyện trên các chuỗi 8.192 token bằng cách dùng mask để self-attention không vượt qua ranh giới tài liệu
Dữ liệu huấn luyện
- Để huấn luyện mô hình ngôn ngữ tốt nhất, việc tuyển chọn một bộ dữ liệu huấn luyện quy mô lớn, chất lượng cao là điều quan trọng nhất
- Llama 3 được tiền huấn luyện trên hơn 15T token thu thập từ các nguồn công khai
- Bộ dữ liệu huấn luyện lớn gấp 7 lần bộ được dùng cho Llama 2 và chứa lượng mã nhiều hơn gấp 4 lần
- Để chuẩn bị cho các trường hợp sử dụng đa ngôn ngữ trong tương lai, hơn 5% bộ dữ liệu tiền huấn luyện của Llama 3 là dữ liệu phi tiếng Anh chất lượng cao bao phủ hơn 30 ngôn ngữ
Mở rộng tiền huấn luyện
- Để tận dụng hiệu quả dữ liệu tiền huấn luyện trong các mô hình Llama 3, Meta đã đầu tư đáng kể vào việc mở rộng tiền huấn luyện
- Cụ thể, Meta đã phát triển một loạt quy luật mở rộng chi tiết cho việc đánh giá benchmark hạ nguồn
- Các quy luật mở rộng này giúp đưa ra quyết định có cơ sở về cách chọn phối trộn dữ liệu tối ưu và cách sử dụng năng lực tính toán huấn luyện ở mức tốt nhất
Tinh chỉnh theo chỉ dẫn
- Để khai thác trọn vẹn tiềm năng của các mô hình tiền huấn luyện trong các trường hợp sử dụng chat, Meta cũng đã đổi mới trong cách tiếp cận tinh chỉnh theo chỉ dẫn
- Cách tiếp cận hậu huấn luyện là sự kết hợp của supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO) và direct policy optimization (DPO)
- Chất lượng của các prompt dùng cho SFT và thứ hạng ưu tiên dùng cho PPO và DPO có ảnh hưởng quá lớn đến hiệu năng của mô hình đã được căn chỉnh
Xây dựng với Llama 3
- Tầm nhìn của Meta là giúp các nhà phát triển tùy chỉnh Llama 3 để hỗ trợ các trường hợp sử dụng phù hợp, dễ dàng áp dụng best practice và cải thiện hệ sinh thái mở
- Trong lần phát hành này, Meta giới thiệu các công cụ mới về độ tin cậy và an toàn, bao gồm các thành phần được cập nhật cùng với Llama Guard 2 và Cybersec Eval 2, cũng như Code Shield, một guardrail ở thời điểm suy luận để lọc mã không an toàn do LLM tạo ra
- Meta cũng phát triển Llama 3 cùng với torchtune, một thư viện mới gốc PyTorch giúp dễ dàng soạn, tinh chỉnh và thử nghiệm với LLM
Cách tiếp cận ở cấp hệ thống cho phát triển và triển khai có trách nhiệm
- Các mô hình Llama 3 được thiết kế để vừa hữu ích tối đa vừa bảo đảm cách tiếp cận triển khai có trách nhiệm ở mức hàng đầu ngành
- Để làm được điều này, Meta áp dụng một cách tiếp cận mới ở cấp hệ thống cho việc phát triển và triển khai có trách nhiệm của Llama
- Meta xem các mô hình Llama là yếu tố nền tảng của những hệ thống được nhà phát triển thiết kế với các mục tiêu cuối riêng biệt trong đầu
- Tinh chỉnh theo chỉ dẫn đóng vai trò quan trọng trong việc bảo đảm an toàn cho mô hình
- Các mô hình đã tinh chỉnh theo chỉ dẫn trải qua red team (kiểm thử) về an toàn thông qua cả nỗ lực nội bộ và bên ngoài
- Những nỗ lực này mang tính lặp lại và được dùng để tinh chỉnh độ an toàn của các mô hình được phát hành
- Các mô hình Llama Guard là nền tảng cho an toàn của prompt và phản hồi, đồng thời có thể dễ dàng tạo các phân loại mới tùy theo yêu cầu của ứng dụng
- Llama Guard 2 mới sử dụng taxonomy do MLCommons công bố gần đây để hỗ trợ tiêu chuẩn ngành
- CyberSecEval 2 mở rộng phiên bản trước bằng cách bổ sung phép đo xu hướng khai thác code interpreter của LLM, các năng lực an ninh mạng mang tính tấn công và mức độ dễ bị tổn thương trước các cuộc tấn công prompt injection
- Code Shield hỗ trợ lọc ở thời điểm suy luận đối với mã không an toàn do LLM tạo ra, từ đó giảm thiểu rủi ro liên quan đến các gợi ý mã không an toàn, ngăn chặn việc khai thác code interpreter và thực thi lệnh bảo mật
Triển khai Llama 3 ở quy mô lớn
- Llama 3 sẽ sớm có mặt trên các nền tảng lớn như nhà cung cấp đám mây, nhà cung cấp model API và nhiều bên khác
- Theo benchmark, tokenizer tạo ra ít token hơn tới 15% so với Llama 2, nhờ đó cải thiện hiệu quả token
- Grouped query attention (GQA) cũng được bổ sung vào Llama 3 8B
Kế hoạch sắp tới cho Llama 3
- Các mô hình Llama 3 8B và 70B chỉ mới là khởi đầu của kế hoạch phát hành Llama 3
- Trong vài tháng tới, Meta dự kiến phát hành nhiều mô hình với các tính năng mới như đa phương thức, khả năng hội thoại đa ngôn ngữ, cửa sổ ngữ cảnh dài hơn nhiều và năng lực mạnh mẽ hơn trên mọi mặt
- Khi quá trình huấn luyện Llama 3 hoàn tất, Meta cũng sẽ công bố một bài báo nghiên cứu chi tiết
2 bình luận
Tôi không rõ các nền tảng đám mây khác thế nào, nhưng trên Azure AI Studio thì cùng với Mixtral 8x22B, Llma-3 (Meta-Llama-3-8B, Meta-Llama-3-70B, Meta-Llama-3-70B-Instruct, Meta-Llama-3-8B-Instruct) đã có sẵn rồi.