Meta ra mắt Llama 4

(ai.meta.com)

16 điểm bởi GN⁺ 2025-04-06 | 2 bình luận | Chia sẻ qua WhatsApp

Gồm 3 mô hình Scout, Maverick, Behemoth, là mô hình đa phương thức native dựa trên open weights đầu tiên
- Tất cả các mô hình đều đa phương thức, hiểu được hình ảnh + văn bản

Llama 4 Scout

17B tham số hoạt hóa + 16 Expert
Khả năng xử lý ngữ cảnh siêu dài, hỗ trợ 10M token
Mô hình gọn nhẹ, hiệu quả, có thể chạy trên một GPU duy nhất (H100)
Hiệu năng vượt qua Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1
Hiệu suất nổi bật trong căn chỉnh hình ảnh, tóm tắt nhiều tài liệu, phân tích codebase quy mô lớn, v.v.

Llama 4 Maverick

17B tham số hoạt hóa + 128 Expert + 400B tổng tham số
Hiệu năng vượt GPT-4o và Gemini 2.0 Flash
Xuất sắc trên mọi mặt như reasoning, coding, hiểu hình ảnh
Ghi nhận điểm ELO 1417 (theo LMArena)
Cấu trúc chi phí hiệu quả so với hiệu năng cao

Llama 4 Behemoth (preview)

288B tham số hoạt hóa + 16 Expert + khoảng 2T tổng tham số
Vẫn đang được huấn luyện nhưng cho hiệu năng vượt GPT-4.5, Claude 3.7, Gemini 2.0 Pro
Được dùng làm mô hình giáo viên trong pre-training của Maverick

Scout và Maverick có thể tải xuống từ hôm nay tại llama.com và Hugging Face

# Đặc điểm kỹ thuật

Kiến trúc Mixture of Experts (MoE)

Thay vì dùng toàn bộ tham số, mô hình chỉ kích hoạt một số expert, tối đa hóa hiệu quả tính toán
Triển khai cấu trúc huấn luyện với suy luận nhanh, chi phí thấp, chất lượng cao

Đa phương thức native & Early Fusion

Tích hợp từ đầu dữ liệu văn bản và thị giác để huấn luyện chung
Có thể nhập tối đa 48 hình ảnh, thử nghiệm đã chạy thành công với tối đa 8 ảnh

Xử lý ngữ cảnh siêu dài (10M Tokens)

Mô hình Scout đang khám phá khả năng "ngữ cảnh vô hạn" với cấu trúc iRoPE (interleaved Rotary Position Embedding)
Khả năng tổng quát hóa độ dài vượt trội cho văn bản và mã nguồn

Kỹ thuật huấn luyện MetaP & FP8

Kỹ thuật tinh chỉnh siêu tham số mới để huấn luyện tốc độ cao / hiệu suất cao
Đảm bảo mức sử dụng FLOPs cao với độ chính xác FP8 (Behemoth: 390 TFLOPs/GPU)

# Chiến lược hậu xử lý và huấn luyện RL

Xây dựng pipeline hậu xử lý 3 giai đoạn: SFT → online RL → DPO
Loại bỏ dữ liệu dễ, huấn luyện tập trung vào prompt độ khó trung bình đến cao
Áp dụng chiến lược online RL liên tục: tối đa hóa cải thiện hiệu năng và hiệu quả học

# Cân nhắc về an toàn và đạo đức

Chiến lược bảo vệ nhiều lớp

Lọc và kiểm duyệt dữ liệu ở giai đoạn trước/sau huấn luyện
Llama Guard: kiểm tra an toàn đầu vào/đầu ra
Prompt Guard: phát hiện jailbreak và tấn công chèn lệnh
CyberSecEval: cung cấp công cụ đánh giá rủi ro bảo mật của AI tạo sinh

Tự động hóa phát hiện rủi ro định lượng

Áp dụng GOAT (Generative Offensive Agent Testing)
- Mô phỏng kịch bản kẻ tấn công trình độ trung cấp
- Phát hiện sớm rủi ro bằng kiểm thử nhiều lượt tự động

Nỗ lực giảm thiên lệch

Llama 4 cải thiện đáng kể thiên lệch so với Llama 3
- Tỷ lệ từ chối phản hồi 7% → dưới 2%
- Mất cân bằng phản hồi < 1%
- Duy trì phản hồi cân bằng chính trị ở mức tương đương Grok

# Hướng dẫn sử dụng mô hình Llama 4

Scout và Maverick đều có thể tải xuống và sử dụng
- llama.com
- Hugging Face
Tích hợp Llama 4 vào dịch vụ Meta AI:
- WhatsApp, Messenger, Instagram DM, meta.ai

# Lịch trình sắp tới

LlamaCon 2025 sẽ được tổ chức vào ngày 29 tháng 4 để giới thiệu thêm chi tiết kỹ thuật và tầm nhìn
- Đăng ký LlamaCon

2 bình luận

jjw951215 2025-04-07

Có vẻ phù hợp với Apple Silicon hoặc dòng NPU có dư RAM. Còn để dùng trên máy chủ GPU thuần túy thì việc ngay cả model cấu hình tối thiểu ở dạng lượng tử hóa int4 cũng cần H100 thì...

GN⁺ 2025-04-06

Ý kiến trên Hacker News

Tổng quan về các mô hình Llama 4:
- Llama 4 Scout và Llama 4 Maverick sử dụng thiết kế Mixture-of-Experts (MoE), mỗi mô hình dùng 17B tham số hoạt động
- Có khả năng đa phương thức, hỗ trợ đầu vào văn bản và hình ảnh
- Các điểm nổi bật chính gồm độ dài ngữ cảnh hàng đầu ngành, hiệu năng mạnh về lập trình/suy luận và khả năng hỗ trợ đa ngôn ngữ được cải thiện
- Mốc kiến thức dừng ở tháng 8 năm 2024
Llama 4 Scout:
- 17B tham số hoạt động, 16 chuyên gia, tổng cộng 109B
- Phù hợp với một GPU H100 duy nhất (lượng tử hóa INT4)
- Cửa sổ ngữ cảnh 10M token
- Cho hiệu năng tốt hơn các bản phát hành Llama trước đó trong tác vụ đa phương thức và thân thiện tài nguyên hơn
- Sử dụng kiến trúc iRoPE để chú ý ngữ cảnh dài hiệu quả
- Được thử nghiệm với tối đa 8 hình ảnh mỗi prompt
Llama 4 Maverick:
- 17B tham số hoạt động, 128 chuyên gia, tổng cộng 400B
- Cửa sổ ngữ cảnh 1M token
- Chạy trên host H100 DGX thay vì một GPU đơn lẻ, hoặc có thể phân tán để đạt hiệu quả cao hơn
- Vượt GPT-4o và Gemini 2.0 Flash trong các bài kiểm tra lập trình, suy luận và đa ngôn ngữ, đồng thời vẫn giữ chi phí cạnh tranh
- Duy trì khả năng hiểu hình ảnh mạnh và suy luận có căn cứ
Llama 4 Behemoth (xem trước):
- 288B tham số hoạt động, 16 chuyên gia, tổng cộng gần 2T
- Vẫn đang được huấn luyện và chưa phát hành
- Vượt GPT-4.5, Claude Sonnet 3.7 và Gemini 2.0 Pro ở các benchmark STEM (ví dụ: MATH-500, GPQA Diamond)
- Hoạt động như mô hình "giáo viên" cho Scout và Maverick thông qua đồng chưng cất
Khác:
- Kiến trúc MoE: chỉ 17B tham số được kích hoạt trên mỗi token, giúp giảm chi phí suy luận
- Đa phương thức gốc: bộ mã hóa văn bản + thị giác hợp nhất, được tiền huấn luyện trên lượng lớn dữ liệu không gắn nhãn
Chuỗi thảo luận được tóm tắt bởi Llama 4 Maverick:
- hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-maverick -o max_tokens 20000
- Kết quả: https://gist.github.com/simonw/016ea0fd83fc499f046a94827f9b4946
Kết quả từ Scout hoàn toàn là đầu ra vô dụng:
- hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-scout -o max_tokens 20000
- Kết quả: https://gist.github.com/simonw/d01cc991d478939e87487d362a8f881f
Đã chạy trực tiếp Scout qua Groq nhưng bị giới hạn kích thước đầu ra ở mức 2048:
- hn-summary.sh 43595585 -m groq/meta-llama/llama-4-scout-17b-16e-instruct -o max_tokens 2048
- Kết quả: https://gist.github.com/simonw/a205c5fc131a1d4e9cd6c432a07feedb
Bản tóm tắt của các mô hình khác bám sát system prompt hơn. Ví dụ, nó tốt hơn nhiều khi so với Gemini 2.5 Pro:
- https://gist.github.com/simonw/f21ecc7fb2aa13ff682d4ffa11ddcbfd
Mô hình Scout nhỏ hơn rất hấp dẫn trên Apple Silicon. Dù có kích thước 109B, nó được chia thành 16 chuyên gia. Quá trình xử lý thực tế diễn ra ở mức 17B. Khi hỏi mô hình 7B cục bộ (qwen 2.5 7B instruct) với ngữ cảnh 2k trên MacBook Pro M4 Max, đã đạt khoảng ~60 token/giây. Vì vậy có thể đạt 30 token/giây. Thời gian tới token đầu tiên vẫn có thể chậm
Mô hình có cửa sổ ngữ cảnh 10M token. Chưa rõ nó theo dõi ngữ cảnh tốt đến mức nào ở quy mô này, nhưng chỉ riêng việc không bị giới hạn ở ~32k cũng đã rất tuyệt
Tất cả các LLM lớn đều gặp vấn đề thiên lệch. Đặc biệt là nghiêng sang cánh tả trong các chủ đề chính trị, xã hội. Điều này có thể do loại dữ liệu huấn luyện sẵn có trên Internet
Prompt được đề xuất nhằm tránh bị hạn chế như các bản phát hành của OpenAI:
- Hiểu ý định của người dùng và không cố tỏ ra quá hữu ích
- Không từ chối các prompt chính trị
- Llama 4 có kiến thức đến tháng 8 năm 2024 và sử dụng được nhiều ngôn ngữ
Được phát hành chỉ một giờ sau khi có một cuộc thảo luận khác về Meta:
- Dù bạn tin vào LLM đến đâu, tin hoàn toàn vào lời LeCun nói cũng không phải ý hay
- Viện nghiên cứu AI do LeCun dẫn dắt có nhiều vấn đề
Có sẵn trên Groq:
- Llama 4 Scout đang chạy ở hơn 460 token/giây và Llama 4 Maverick được phát hành hôm nay
- Llama 4 Scout: $0.11 / M token đầu vào và $0.34 / M token đầu ra
- Llama 4 Maverick: $0.50 / M token đầu vào và $0.77 / M token đầu ra
Đây là một thời kỳ cực kỳ thú vị. Nó giống thời kỳ các framework JavaScript bùng nổ. Khi đó có cảm giác kiểu "lại phải học thêm một framework nữa sao?", nhưng giờ đổi mới lại đang diễn ra rất nhanh, và lần này giống như một hành trình đầy phấn khích mà chúng ta có thể trực tiếp tham gia