Meta ra mắt mô hình ngôn ngữ Llama 3

(llama.meta.com)

1 điểm bởi GN⁺ 2024-04-19 | 1 bình luận | Chia sẻ qua WhatsApp

Trang Llama của Meta giới thiệu họ mô hình Llama như một bộ AI mã nguồn mở hướng đến khả năng triển khai dễ dàng, hiệu quả chi phí, hiệu năng và mở rộng ở quy mô lớn, đồng thời bao quát cả dòng Llama 4 và Llama 3
Llama 4 Maverick và Llama 4 Scout là các mô hình đa phương thức gốc dựa trên early fusion, được tiền huấn luyện đồng thời trên token văn bản và thị giác, và cả hai đều nhấn mạnh ngữ cảnh 10M token
Dòng Llama 3 được chia thành 3.1·3.2·3.3, cung cấp các lựa chọn theo kích thước và mục đích sử dụng như 8B·70B·405B, 1B·3B·11B·90B, 70B cùng các hướng dùng cho văn bản, edge và đa phương thức
So sánh hiệu năng bao gồm MMLU Pro, GPQA Diamond, LiveCodeBench, MMMU, ChartQA, DocVQA, MMLU Multi, MTOB..., trong đó Llama 4 Maverick đạt MMLU Pro 80.5 còn Scout đạt 74.3
Trong các trường hợp của Stoque và Shopify, kết quả triển khai bao gồm giảm 50% câu hỏi hỗ trợ kỹ thuật lặp lại, tăng 11% mức độ hài lòng nội bộ, tăng 76% thông lượng xử lý token và giảm 33% chi phí compute nhờ đầu ra JSON

Họ mô hình Llama và các lựa chọn theo phiên bản

Llama là một họ mô hình có thể xây dựng theo đúng điều kiện riêng của bạn, hướng tới triển khai dễ dàng, hiệu quả chi phí, hiệu năng và mở rộng tới quy mô hàng tỷ người dùng
Các trụ cột chính của mô hình Llama mới nhất là đa phương thức gốc, suy luận nâng cao và cửa sổ ngữ cảnh dài
Có thể xem model card và định dạng prompt tại Model overview
Llama 4: đa phương thức gốc và ngữ cảnh 10M
- Llama 4 là một họ mô hình đa phương thức gốc sử dụng early fusion để tiền huấn luyện đồng thời dữ liệu văn bản và thị giác không gắn nhãn
- Llama 4 Maverick hỗ trợ hiểu hình ảnh và văn bản, đồng thời xử lý các tác vụ dạng dài với ngữ cảnh 10M token
- Các mục đích sử dụng chính gồm bộ nhớ, cá nhân hóa và ứng dụng đa phương thức
- Llama 4 Scout là mô hình cung cấp trí tuệ văn bản và thị giác, nhấn mạnh hiệu quả trên một GPU H100 duy nhất và cửa sổ ngữ cảnh 10M
- Phân tích tài liệu dài được nêu là trường hợp sử dụng chính của Scout
- Thông tin chi tiết được cung cấp tại tài liệu mô hình Llama 4
Llama 3: họ mô hình theo kích thước và mục đích sử dụng
- Llama 3 là họ mô hình AI mã nguồn mở có thể fine-tuning, chưng cất và triển khai ở bất cứ đâu
- Llama 3.3 là mô hình ngôn ngữ lớn mã nguồn mở đa ngôn ngữ có cấu hình 70B, được giới thiệu là có thể mang lại hiệu năng và chất lượng ở mức 405B với chi phí thấp hơn
- Mô hình này phù hợp với các mục đích sử dụng dựa trên văn bản như tạo dữ liệu tổng hợp, và có thể xem chi tiết tại tài liệu mô hình Llama 3.3
- Llama 3.2 là họ mô hình linh hoạt, hiệu quả chi phí, phù hợp cho các mục đích sử dụng edge
  - Bản 1B và 3B nhẹ và hiệu quả chi phí nên có thể chạy ở bất cứ đâu
  - Bản 11B và 90B là các mô hình đa phương thức có thể suy luận trên hình ảnh độ phân giải cao và xuất văn bản
  - Thông tin chi tiết được cung cấp tại tài liệu mô hình Llama 3.2
- Llama 3.1 là mô hình nền tảng mở dành cho tính linh hoạt và khả năng kiểm soát, được cung cấp ở các kích thước 8B·70B·405B
- Mô hình bao gồm kiến thức tổng quát, khả năng tinh chỉnh, toán học, sử dụng công cụ và năng lực dịch đa ngôn ngữ, đồng thời được dùng cho tóm tắt văn bản, agent đa ngôn ngữ và lập trình
- Có thể xem chi tiết tại tài liệu mô hình Llama 3.1

Chỉ số hiệu năng và kết quả triển khai thực tế

Benchmark của Llama 4 và điều kiện đánh giá
- Năng lực của Llama 4 được tóm lược thành đa phương thức gốc, ngữ cảnh dài và image grounding
- Tất cả các mô hình Llama 4 đều sử dụng early fusion để có thể tiền huấn luyện đồng thời trên quy mô lớn các token văn bản và thị giác không gắn nhãn
- Benchmark so sánh Llama 4 Maverick và Llama 4 Scout
  - Suy luận: MMLU Pro là Maverick 80.5, Scout 74.3; GPQA Diamond là Maverick 69.8, Scout 57.2
  - Lập trình: LiveCodeBench là Maverick 43.4, Scout 32.8
  - Hình ảnh đa phương thức: MMMU là Maverick 73.4, Scout 69.4; ChartQA là Maverick 90.0, Scout 88.8; DocVQA đều là 94.4
  - Đa ngôn ngữ: MMLU Multi là Maverick 84.6, Scout 74.3
  - Ngữ cảnh dài: MTOB Half Book là Maverick 54.0 / 46.4, Scout 42.2 / 36.6; MTOB Full Book là Maverick 50.8 / 46.7, Scout 39.7 / 36.3
  - Hiệu quả: chi phí trên mỗi 1M token đều được nêu là $0.19–$0.49
- Theo phương pháp luận và chú thích, kết quả Llama là đánh giá 0-shot với temperature 0, không dùng majority voting hay compute thời gian kiểm thử song song
- Với các benchmark có độ phân tán lớn như GPQA Diamond và LiveCodeBench, nhiều kết quả sinh được lấy trung bình để giảm bất định
- Vì các đánh giá chuyên sâu về ngữ cảnh dài trước đây thường không được báo cáo ở các mô hình phổ thông, hãng chia sẻ kết quả chạy nội bộ
- Chi phí $0.19/Mtok của Llama 4 Maverick là ước tính blended 3:1 với giả định suy luận phân tán; trên một host đơn có thể đạt khoảng $0.30–$0.49/Mtok
Các trường hợp sử dụng của Stoque và Shopify
- Stoque đã chuyển đổi hệ thống intelligence nội bộ bằng Llama để giúp các nhóm tìm insight nhanh hơn, giảm ma sát và làm việc hiệu quả hơn ở quy mô lớn
- Câu hỏi hỗ trợ kỹ thuật lặp lại giảm 50%, còn số lượng công việc quản trị và hỗ trợ hoàn tất tăng 30%
- Mức độ hài lòng của người dùng nội bộ tăng 11%
- Shopify sử dụng Llama để tạo trang sản phẩm, bản địa hóa nội dung và tự động hóa hỗ trợ
- So với mô hình trước đó, thông lượng xử lý token cao hơn 76% và đạt độ chính xác Macro-F1 97.7% trong nhận diện ý định
- Nhờ đầu ra JSON, chi phí compute giảm 33%
- Các biện pháp bảo vệ cho AI tạo sinh giúp nhận diện và giảm thiểu rủi ro tiềm ẩn từ sớm thông qua bảo vệ ở cấp hệ thống, đồng thời hỗ trợ nhà phát triển triển khai AI tạo sinh một cách có trách nhiệm hơn

1 bình luận

GN⁺ 2024-04-19

Các ý kiến trên Hacker News

Các liên kết đáng tham khảo: https://ai.meta.com/blog/meta-llama-3/, https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi..., https://twitter.com/karpathy/status/1781028605709234613
Meta cũng đã mở công khai console: https://www.meta.ai/
Họ cũng công bố tích hợp Meta AI trên toàn bộ hệ sinh thái sản phẩm của Meta: https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi...
Tuy nhiên, việc họ không đưa vào so sánh với GPT-4-Turbo hay Claude Opus cho thấy có vẻ nó vẫn còn cách xa các mô hình tuyến đầu; cần xem hiệu năng sẽ ra sao trên LLM Arena
- Việc không so với các mô hình hàng đầu có lẽ là vì họ muốn so sánh “cùng hạng”. Mô hình 70B cùng hạng với Sonnet, và nếu thắng được Sonnet thì trong đa số tác vụ nó có thể tiến gần Opus hoặc GPT-4
  Khác biệt lớn có khả năng chỉ xuất hiện ở các benchmark suy luận cực khó. Vì Llama có trọng số mở, khác với Opus, sẽ có nhiều bản fine-tuning và LoRA xuất hiện
- Nếu Llama-3-400B ngang tầm Claude 3 Opus và các mô hình tương tự, bên thua có thể là giá cổ phiếu Nvidia, OpenAI và Sam, Google; bên thắng có thể là AMD, Intel, các trường đại học và lập trình viên trên toàn thế giới
  Nếu các quốc gia và tập đoàn lớn dùng Llama-3/Llama-4 thay vì đổ tiền vào GPU để huấn luyện mô hình riêng, kỳ vọng tăng trưởng GPU có thể bị kìm lại; OpenAI sẽ yếu đi lý do huy động 100 tỷ USD, còn lợi thế AI của Google cũng mờ nhạt hơn. AMD và Intel có thể tập trung vào chip suy luận AI thay vì cố bắt kịp GPU huấn luyện của Nvidia
- Việc cho dùng không cần đăng nhập cũng khá bất ngờ. Đây là điều không ngờ tới từ Meta
- Meta cho biết họ vẫn đang huấn luyện các biến thể mô hình lớn có tính cạnh tranh hơn
  Các mô hình lớn nhất, trên 400B, vẫn đang được huấn luyện; họ nói trong vài tháng tới sẽ phát hành nhiều mô hình có đa phương thức, hội thoại đa ngôn ngữ, cửa sổ ngữ cảnh dài hơn nhiều và năng lực tổng thể mạnh hơn
- Tôi thấy hiện “Meta AI isn't available yet in your country”, không biết dùng được ở đâu. Ở Na Uy thì hiện như vậy
Các benchmark công khai rất hữu ích như chỉ báo sơ bộ, nhưng lập trình viên nên chạy benchmark tùy chỉnh phù hợp với trường hợp sử dụng của mình
Replicate đã nhanh chóng tạo API Llama 3 https://replicate.com/blog/run-llama-3-with-an-api, và có thể dùng promptfoo https://github.com/typpo/promptfoo để so sánh Llama 3, Mixtral, GPT, Claude, v.v. Ví dụ có thể đánh giá meta/meta-llama-3-8b-instruct, meta/meta-llama-3-70b-instruct của Replicate, OpenAI gpt-4-turbo, Anthropic claude-3-opus-20240229, v.v. với cùng một prompt
Vẫn đang thử nghiệm, nhưng trong một tập câu hỏi lập trình ngẫu nhiên, Llama 3 8B trông khá tốt. ollama giờ cũng hỗ trợ Llama 3 8B, nên việc đánh giá cục bộ bằng ollama:chat:llama3 trở nên dễ hơn
- Cần hết sức cẩn trọng khi kiểm thử bằng các bài toán có khả năng cao đã bị đưa nguyên vẹn lên mạng
  Một bài kiểm thử tốt là bài đơn giản như giải phương trình bậc hai với a, b, c ngẫu nhiên, nhưng phải xem khả năng áp dụng thực tế. Dù là thuật toán mà mọi mô hình có lẽ đều biết, chúng vẫn mắc lỗi, rồi sau đó còn giả vờ đã kiểm chứng và lặp lại đáp án sai. LLAMA 3 cũng vậy: sau nhiều lần được chỉ ra lỗi, nó nói “đã tìm ra nghiệm chính xác và kiểm chứng bằng nhiều cách”, nhưng nghiệm thực tế vẫn sai như ban đầu và cũng không hề có nỗ lực kiểm chứng nào
- Trước đây có hiện tượng liên quan đến từ vựng, trong đó assistant bị gắn ở cuối phản hồi, nhưng giờ có lẽ đã hoạt động đúng
  Có thể chạy bằng ollama run llama3, và nhiều phiên bản lượng tử hóa cùng mô hình text/70B cũng đang được đưa lên
Llama 3 70B ra mắt ở vị trí thứ 5 trên bảng xếp hạng chatbot arena nổi tiếng LMSYS, đồng hạng với Claude 2 Sonnet, Bard(Gemini Pro), Command R+, và xếp trên Claude 2 Haiku cùng các phiên bản GPT-4 cũ
Hiện độ bất định của điểm số còn lớn nên thứ hạng chính xác phải chờ thời gian và vẫn có thể thay đổi. Llama 3 8B đứng thứ 12, đồng hạng với Claude 1, Mixtral 8x22B, Qwen-1.5-72B. Có thể xem bảng xếp hạng mới nhất tại https://arena.lmsys.org/
Trên bảng xếp hạng chỉ tiếng Anh, Llama 3 70B còn ấn tượng hơn khi đang nằm trong nhóm đầu cùng GPT-4 và Claude Opus. Có thể một phần do tinh chỉnh an toàn đã bớt mạnh hơn trước nên ít từ chối prompt hơn, nhưng dù sao đây vẫn là cải thiện hữu ích trên thực tế. Với tốc độ này, mô hình 400B rất có thể sẽ gần như áp đảo
Thử tạo rap tiếng Trung thì nó làm khá ổn, nhưng ngay sau khi hoàn tất, phản hồi bị xóa và đổi thành câu “chưa hiểu tiếng Trung, nhưng đang phát triển, và sẽ gửi tin nhắn khi có thể trò chuyện bằng tiếng Trung”
Các ngôn ngữ khác cũng vậy: vẫn tạo nội dung không phải tiếng Anh được, nhưng khi kết thúc thì phản hồi bị xóa và thay bằng cùng một thông báo
- Có vẻ có một bộ hậu xử lý đánh giá chất lượng phản hồi sau khi đã tạo một số lượng token nhất định, và nếu thấp hơn tiêu chuẩn thì hoàn tác phản hồi
- Chạy cục bộ là được. Bản cục bộ không có cơ chế bảo vệ đó
- Với tiếng Ý thì hoạt động, nhưng luôn kèm tuyên bố miễn trừ rằng “năng lực ngoài tiếng Anh vẫn đang được cải thiện nên có thể có lỗi, và hữu ích nhất khi hỗ trợ bằng tiếng Anh”
- Việc lỗi này vẫn tiếp diễn sau 12 giờ thì thật lạ
Blog có rất nhiều chi tiết hay: https://ai.meta.com/blog/meta-llama-3/
Phiên bản 400B cũng sẽ ra mắt, và có vẻ sẽ tốt hơn GPT-4 và Claude Opus rất nhiều. Xu hướng là phi tập trung hóa và phần mềm mở đang thắng thế
- So với các con số của Claude 3 từ Anthropic https://www.anthropic.com/news/claude-3-family, các chỉ số của Llama 400B trông có vẻ thấp hơn một chút
  Tất nhiên, thứ được benchmark là checkpoint trung gian và quá trình huấn luyện vẫn đang tiếp tục
- Họ hoàn toàn không nói như vậy. Ngược lại, các benchmark được công bố còn thấp hơn GPT-4 hay Opus
  Không nên tin benchmark một cách mù quáng, nhưng không có tuyên bố nào nói rằng nó vượt GPT-4 hay Opus. Vì là checkpoint trung gian nên trong tương lai vẫn có khả năng vượt qua
- Không rõ chỗ nào nói mô hình 400B tốt hơn GPT-4 rất nhiều
- Khó có thể gọi là phi tập trung. Có thể chạy ở nhiều nơi, nhưng nguồn phân phối thì chỉ có một
  Và cũng không phải mã nguồn mở
- Không phải mã nguồn mở, cũng không phi tập trung
Thật sự cảm ơn Zuck, Yann và đội ngũ Meta vì đã chọn cách tiếp cận mở, chia sẻ trọng số mô hình, tokenizer, thông tin về dữ liệu huấn luyện, v.v.
Chính họ là động lực lớn nhất đằng sau làn sóng bùng nổ nghiên cứu mở, giúp chạy cục bộ các mô hình khá ổn trên phần cứng tiêu dùng thông qua các dự án như llama.cpp, đồng thời tránh được kiểm duyệt hay kiểm soát
Không phải tôi muốn đưa ra những yêu cầu sẽ bị OpenAI hay Anthropic chặn, nhưng tôi không thích tình cảnh một công nghệ mạnh như vậy bị đặt sau những bức tường, với các gatekeeper kiểm soát cách nó được sử dụng. Có nhiều người và công ty tin vào sự mở, nhưng khi một nơi có hàng trăm tỷ USD vốn, dòng tiền bền vững và lượng GPU trị giá hàng tỷ USD làm như vậy thì tác động lớn hơn rất nhiều. Zuck không nhất thiết phải chọn con đường này, và nếu Facebook được điều hành bởi một nhà quản lý chuyên nghiệp kiểu HBS/McKinsey thì rất có thể họ đã không mở như vậy. Việc không lấy danh nghĩa rủi ro an toàn AI để giấu “báu vật vương miện” sau một API tập trung đã mang lại lợi ích rất lớn cho tất cả mọi người
- Xem phỏng vấn của Zuck sẽ thấy trong thâm tâm anh ấy vẫn là một kỹ sư. Các công ty công nghệ lớn khác đã đánh mất kiểu lãnh đạo đó
- Việc anh ấy vẫn mới 39 tuổi và có vẻ còn tràn đầy năng lượng để điều hành công ty là điều tốt. Tôi nghĩ việc có một nhà sáng lập đầy nhiệt huyết là lợi thế lớn của Meta so với các công ty công nghệ lớn khác
- Rất có thể không phải chỉ vì thiện chí. Khả năng cao đây là chiến lược biến mô hình thành hàng hóa phổ dụng để bán các sản phẩm bổ trợ
  Đây là chiến lược Joel Spolsky từng nói đến, nhưng chưa rõ chính xác Meta có thể bán sản phẩm bổ trợ nào cho các mô hình AI. Dù vậy, rõ ràng đây có vẻ là một lựa chọn mang tính chiến lược dưới hình thức nào đó
- Đó là vì đây là CEO nhà sáng lập. Khác với những MBA kiểu sự nghiệp về mức độ nhiệt huyết hay sự chân thật
  Có nhiều điểm có thể phê phán Zuck, nhưng thiếu chân thành với sứ mệnh không phải là một trong số đó
- Meta cũng đã dẫn dắt Open Compute Project. Tôi gia nhập Google vì cam kết với mã nguồn mở của họ, nhưng đã rất thất vọng khi văn hóa đó không được tiếp nối trong lúc xây dựng các giải pháp exascale
  Thật vui khi thấy Meta tiếp tục cầm ngọn đuốc đó ở đây, và hy vọng họ sẽ tiếp tục
Vì không có so sánh trực tiếp với GPT-4 của ChatGPT Plus trả phí nên tôi đã đối chiếu các con số
Theo Llama 3 8B / Llama 3 70B / GPT-4, MMLU là 68.4 / 82.0 / 86.5, GPQA là 34.2 / 39.5 / 49.1, MATH là 30.0 / 50.4 / 72.2, HumanEval là 62.2 / 81.7 / 87.6, DROP là 58.4 / 79.7 / 85.4
ChatGPT miễn phí mà đa số mọi người dùng dựa trên GPT-3.5, yếu hơn GPT-4 rất nhiều. Tôi không tìm được số liệu đánh giá toàn diện của GPT-3.5 mới nhất, nhưng Llama 3 70B có lẽ thắng khá thoải mái, còn 8B cũng có vẻ tiệm cận. Việc có thể chạy và chỉnh sửa một mô hình cỡ này cục bộ là rất thú vị. Số liệu GPT-4 dựa trên gpt-4-turbo-2024-04-09 (chatgpt) từ https://github.com/openai/simple-evals
- Ở cuối https://ai.meta.com/blog/meta-llama-3/ cũng có kết quả của mô hình 400B đang được phát triển. Có vẻ vẫn chưa hoàn toàn đạt tới mức đó
  Theo Llama 3 400B Base / Instruct, MMLU là 84.8 / 86.1, GPQA - / 48.0, MATH - / 57.8, HumanEval - / 84.1, DROP 83.5 / -
- Thật đáng kinh ngạc nếu xét việc GPT-4 có 1.8T tham số
- Tôi đang chờ các mô hình đã được fine-tune hoặc merge. Nhiều nhà phát triển đã tạo ra các mô hình tốt hơn rất nhiều so với mô hình gốc dựa trên Llama 2, nên tôi cũng kỳ vọng phiên bản mới sẽ đi theo xu hướng tương tự
- Không biết đã có tài liệu nào so sánh với Mixtral 8x22B chưa. Thế giới thật sự đang chuyển động rất nhanh
- Đặc biệt kỳ vọng vì điểm HumanEval cao. Mô hình 400B còn chưa ra, và bản tinh chỉnh CodeLlama cũng chưa có
  Nếu ai muốn thử dùng cho lập trình trong IDE, tôi đã thêm Llama 3 70B vào công cụ hỗ trợ lập trình https://www.double.bot
Cũng đã có phỏng vấn Zuck: https://twitter.com/dwarkesh_sp/status/1780990840179187715
- Khoảng phút thứ 5 có đoạn thú vị: Zuck nói rằng vài năm trước anh ấy đã mua một lượng rất lớn GPU H100 để xây dựng engine đề xuất Reels cạnh tranh với TikTok
  Khi đó họ đã dự phòng an toàn gấp đôi nhu cầu, và nhờ vậy tình cờ trở thành một trong số ít công ty có năng lực GPU để huấn luyện LLM ở quy mô này
- Có vẻ 1–2 năm tập MMA giúp ích cho sức hút cá nhân hơn nhiều so với mọi khóa huấn luyện truyền thông trước đây. Trong các cuộc phỏng vấn gần đây, anh ấy tự nhiên hơn rất nhiều
- Podcast của Dwarkesh nhìn chung thật sự rất hay
Thẻ mô hình có kết quả benchmark so với các mô hình Llama khác, bao gồm Llama 2: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md...
Mức cải thiện hiệu năng của Llama 3 so với Llama 2 ấn tượng đến mức rất đáng chú ý. Ngay cả khi so với Llama 2 13B cũng vậy, và việc cửa sổ ngữ cảnh tăng gấp đôi lên 8k cũng sẽ mở ra nhiều cơ hội mới
- Xét theo mô hình đã được tinh chỉnh theo chỉ dẫn, Llama 3 8B tốt hơn đáng kể cả Llama 2 70B
- Thật tiếc là độ dài ngữ cảnh 8k ngắn hơn rất nhiều so với ngữ cảnh 64k của Mixtral 8x22B
  Dù vậy, các chỉ số hiệu năng được công bố vẫn rất ấn tượng, và việc Meta phát hành các mô hình này là điều đáng khen

Meta ra mắt mô hình ngôn ngữ Llama 3

Họ mô hình Llama và các lựa chọn theo phiên bản

Llama 4: đa phương thức gốc và ngữ cảnh 10M

Llama 3: họ mô hình theo kích thước và mục đích sử dụng

Chỉ số hiệu năng và kết quả triển khai thực tế

Benchmark của Llama 4 và điều kiện đánh giá

Các trường hợp sử dụng của Stoque và Shopify

Bài viết liên quan

1 bình luận

Các ý kiến trên Hacker News