Giới thiệu mô hình Llama 3
- Meta đã công bố mô hình Llama 3. Hãng cung cấp cả phiên bản đã tiền huấn luyện và phiên bản tinh chỉnh theo chỉ dẫn với quy mô 8B và 70B, hỗ trợ phát triển nhiều loại ứng dụng khác nhau.
- Llama 3 được tích hợp vào Meta AI và có thể được sử dụng cho các tác vụ lập trình cũng như giải quyết vấn đề. Nhờ đó, người dùng có thể trực tiếp trải nghiệm hiệu năng của Llama 3.
- Llama 3 dự kiến sẽ cung cấp các tính năng và độ linh hoạt cần thiết cho việc phát triển agent hoặc các ứng dụng dựa trên AI.
Cải thiện hiệu năng của Llama 3
- Llama 3 là một mô hình tiên tiến hàng đầu có thể truy cập công khai, cho thấy hiệu năng vượt trội trong các tác vụ phức tạp như nắm bắt sắc thái ngôn ngữ, hiểu ngữ cảnh, dịch thuật và tạo hội thoại.
- Với khả năng mở rộng và hiệu năng được cải thiện, Llama 3 có thể dễ dàng xử lý các tác vụ nhiều bước. Quy trình hậu huấn luyện được cải tiến giúp giảm đáng kể tỷ lệ từ chối sai, cải thiện sự căn chỉnh phản hồi và tăng tính đa dạng trong câu trả lời của mô hình.
- Ngoài ra, các khả năng như suy luận, sinh mã và thực thi chỉ dẫn cũng được cải thiện đáng kể. Có thể xây dựng tương lai của AI với Llama 3.
Benchmark của mô hình Llama 3
- Mô hình Llama 3 đưa dữ liệu và quy mô lên một tầm cao mới. Mô hình được huấn luyện với hơn 15 nghìn tỷ token dữ liệu trên hai cụm GPU 24K vừa được công bố gần đây; quy mô này lớn gấp 7 lần bộ dữ liệu huấn luyện dùng cho Llama 2 và lượng mã nguồn nhiều hơn 4 lần.
- Nhờ đó, đây trở thành mô hình Llama có hiệu năng mạnh nhất từ trước đến nay, đồng thời hỗ trợ độ dài ngữ cảnh 8K, gấp đôi dung lượng của Llama 2.
Cách tiếp cận toàn diện để sử dụng Llama 3 một cách có trách nhiệm
- Cùng với việc phát hành Llama 3, hướng dẫn sử dụng có trách nhiệm (RUG) đã được cập nhật nhằm cung cấp thông tin toàn diện nhất về phát triển có trách nhiệm khi sử dụng LLM.
- Các công cụ về độ tin cậy và an toàn cũng đã được cập nhật, bao gồm Llama Guard 2 được tối ưu để hỗ trợ hệ phân loại mới do MLCommons công bố, cùng với Code Shield và Cybersec Eval 2.
- Theo các nguyên tắc được nêu trong RUG, Meta khuyến nghị kiểm tra và lọc kỹ lưỡng mọi đầu vào và đầu ra của LLM dựa trên các hướng dẫn nội dung riêng phù hợp với từng trường hợp sử dụng và đối tượng mục tiêu.
Ý kiến của GN⁺
- Bên cạnh việc cải thiện hiệu năng của Llama 3, việc đồng thời cung cấp các hướng dẫn cho phát triển có trách nhiệm là điều đáng chú ý. Mô hình AI càng mạnh thì càng cần đi kèm với nỗ lực sử dụng đúng đắn.
- Tuy vậy, do đặc tính của một dự án mã nguồn mở, có vẻ không có cách nào để cưỡng chế việc tuân thủ các hướng dẫn này. Có lẽ sẽ cần sự hợp tác tự nguyện từ phía các nhà phát triển.
- Llama 3 được kỳ vọng sẽ cho hiệu năng đủ sức so sánh với các mô hình mới nhất của OpenAI như GPT-4, nhưng hiện vẫn chưa có các kết quả benchmark khách quan được công bố. Điều này khiến người ta tò mò về hiệu năng thực tế của mô hình trên nhiều tác vụ khác nhau.
- Vì là một dự án mã nguồn mở, có thể kỳ vọng rằng ngoài Meta, nhiều tổ chức và nhà phát triển khác cũng sẽ giới thiệu các dự án thú vị tận dụng Llama 3. Đây sẽ là cơ hội để kiểm chứng tiềm năng của Llama 3.
1 bình luận
Ý kiến Hacker News
Có ý kiến bày tỏ sự cảm kích vì Meta đã chọn cách tiếp cận mã nguồn mở và chia sẻ trọng số mô hình, tokenizer, cùng thông tin về dữ liệu huấn luyện. Nhờ cách tiếp cận cởi mở này của Meta, giờ đây đã có thể chạy cục bộ những mô hình khá ổn trên phần cứng tiêu dùng.
Cùng với việc công bố Llama 3, Meta cũng cho biết sẽ cho phép thử nghiệm Meta AI đa phương thức trên kính thông minh Ray-Ban Meta. Có ý kiến cho rằng giao diện máy tính/điện thoại thông minh truyền thống sẽ biến mất, ngoại trừ một vài ứng dụng ngách, và thay vào đó mọi người sẽ có trợ lý AI của riêng mình để tương tác một cách tự nhiên như khi tương tác với người khác.
Có ý kiến muốn thấy các mô hình phù hợp với GPU 24GB dành cho người tiêu dùng, chẳng hạn mô hình 20B lượng tử hóa 8 bit hoặc mô hình 40B có thể lượng tử hóa 4 bit. Người này cho biết khá thất vọng khi Meta ngừng công bố mô hình 30B kể từ sau Llama 1.
Thẻ mô tả mô hình của Llama 3 có bao gồm kết quả benchmark so với các mô hình Llama khác. Mức cải thiện hiệu năng rất lớn của Llama 3 so với Llama 2 gây ấn tượng mạnh, và việc tăng gấp đôi context window lên 8k dường như sẽ mở ra nhiều cơ hội mới.
Thông tin về việc Zuckerberg đã thực hiện một cuộc phỏng vấn về Llama 3 cũng được chia sẻ.