- Gồm 3 mô hình Scout, Maverick, Behemoth, là mô hình đa phương thức native dựa trên open weights đầu tiên
- Tất cả các mô hình đều đa phương thức, hiểu được hình ảnh + văn bản
Llama 4 Scout
- 17B tham số hoạt hóa + 16 Expert
- Khả năng xử lý ngữ cảnh siêu dài, hỗ trợ 10M token
- Mô hình gọn nhẹ, hiệu quả, có thể chạy trên một GPU duy nhất (H100)
- Hiệu năng vượt qua Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1
- Hiệu suất nổi bật trong căn chỉnh hình ảnh, tóm tắt nhiều tài liệu, phân tích codebase quy mô lớn, v.v.
Llama 4 Maverick
- 17B tham số hoạt hóa + 128 Expert + 400B tổng tham số
- Hiệu năng vượt GPT-4o và Gemini 2.0 Flash
- Xuất sắc trên mọi mặt như reasoning, coding, hiểu hình ảnh
- Ghi nhận điểm ELO 1417 (theo LMArena)
- Cấu trúc chi phí hiệu quả so với hiệu năng cao
Llama 4 Behemoth (preview)
- 288B tham số hoạt hóa + 16 Expert + khoảng 2T tổng tham số
- Vẫn đang được huấn luyện nhưng cho hiệu năng vượt GPT-4.5, Claude 3.7, Gemini 2.0 Pro
- Được dùng làm mô hình giáo viên trong pre-training của Maverick
# Đặc điểm kỹ thuật
Kiến trúc Mixture of Experts (MoE)
- Thay vì dùng toàn bộ tham số, mô hình chỉ kích hoạt một số expert, tối đa hóa hiệu quả tính toán
- Triển khai cấu trúc huấn luyện với suy luận nhanh, chi phí thấp, chất lượng cao
Đa phương thức native & Early Fusion
- Tích hợp từ đầu dữ liệu văn bản và thị giác để huấn luyện chung
- Có thể nhập tối đa 48 hình ảnh, thử nghiệm đã chạy thành công với tối đa 8 ảnh
Xử lý ngữ cảnh siêu dài (10M Tokens)
- Mô hình Scout đang khám phá khả năng "ngữ cảnh vô hạn" với cấu trúc iRoPE (interleaved Rotary Position Embedding)
- Khả năng tổng quát hóa độ dài vượt trội cho văn bản và mã nguồn
Kỹ thuật huấn luyện MetaP & FP8
- Kỹ thuật tinh chỉnh siêu tham số mới để huấn luyện tốc độ cao / hiệu suất cao
- Đảm bảo mức sử dụng FLOPs cao với độ chính xác FP8 (Behemoth: 390 TFLOPs/GPU)
# Chiến lược hậu xử lý và huấn luyện RL
- Xây dựng pipeline hậu xử lý 3 giai đoạn: SFT → online RL → DPO
- Loại bỏ dữ liệu dễ, huấn luyện tập trung vào prompt độ khó trung bình đến cao
- Áp dụng chiến lược online RL liên tục: tối đa hóa cải thiện hiệu năng và hiệu quả học
# Cân nhắc về an toàn và đạo đức
Chiến lược bảo vệ nhiều lớp
- Lọc và kiểm duyệt dữ liệu ở giai đoạn trước/sau huấn luyện
- Llama Guard: kiểm tra an toàn đầu vào/đầu ra
- Prompt Guard: phát hiện jailbreak và tấn công chèn lệnh
- CyberSecEval: cung cấp công cụ đánh giá rủi ro bảo mật của AI tạo sinh
Tự động hóa phát hiện rủi ro định lượng
- Áp dụng GOAT (Generative Offensive Agent Testing)
- Mô phỏng kịch bản kẻ tấn công trình độ trung cấp
- Phát hiện sớm rủi ro bằng kiểm thử nhiều lượt tự động
Nỗ lực giảm thiên lệch
- Llama 4 cải thiện đáng kể thiên lệch so với Llama 3
- Tỷ lệ từ chối phản hồi 7% → dưới 2%
- Mất cân bằng phản hồi < 1%
- Duy trì phản hồi cân bằng chính trị ở mức tương đương Grok
# Hướng dẫn sử dụng mô hình Llama 4
- Scout và Maverick đều có thể tải xuống và sử dụng
- Tích hợp Llama 4 vào dịch vụ Meta AI:
- WhatsApp, Messenger, Instagram DM, meta.ai
# Lịch trình sắp tới
- LlamaCon 2025 sẽ được tổ chức vào ngày 29 tháng 4 để giới thiệu thêm chi tiết kỹ thuật và tầm nhìn
2 bình luận
Có vẻ phù hợp với Apple Silicon hoặc dòng NPU có dư RAM. Còn để dùng trên máy chủ GPU thuần túy thì việc ngay cả model cấu hình tối thiểu ở dạng lượng tử hóa int4 cũng cần H100 thì...
Ý kiến trên Hacker News
Tổng quan về các mô hình Llama 4:
Llama 4 Scout:
Llama 4 Maverick:
Llama 4 Behemoth (xem trước):
Khác:
Chuỗi thảo luận được tóm tắt bởi Llama 4 Maverick:
hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-maverick -o max_tokens 20000Kết quả từ Scout hoàn toàn là đầu ra vô dụng:
hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-scout -o max_tokens 20000Đã chạy trực tiếp Scout qua Groq nhưng bị giới hạn kích thước đầu ra ở mức 2048:
hn-summary.sh 43595585 -m groq/meta-llama/llama-4-scout-17b-16e-instruct -o max_tokens 2048Bản tóm tắt của các mô hình khác bám sát system prompt hơn. Ví dụ, nó tốt hơn nhiều khi so với Gemini 2.5 Pro:
Mô hình Scout nhỏ hơn rất hấp dẫn trên Apple Silicon. Dù có kích thước 109B, nó được chia thành 16 chuyên gia. Quá trình xử lý thực tế diễn ra ở mức 17B. Khi hỏi mô hình 7B cục bộ (
qwen 2.5 7B instruct) với ngữ cảnh 2k trên MacBook Pro M4 Max, đã đạt khoảng ~60 token/giây. Vì vậy có thể đạt 30 token/giây. Thời gian tới token đầu tiên vẫn có thể chậmMô hình có cửa sổ ngữ cảnh 10M token. Chưa rõ nó theo dõi ngữ cảnh tốt đến mức nào ở quy mô này, nhưng chỉ riêng việc không bị giới hạn ở ~32k cũng đã rất tuyệt
Tất cả các LLM lớn đều gặp vấn đề thiên lệch. Đặc biệt là nghiêng sang cánh tả trong các chủ đề chính trị, xã hội. Điều này có thể do loại dữ liệu huấn luyện sẵn có trên Internet
Prompt được đề xuất nhằm tránh bị hạn chế như các bản phát hành của OpenAI:
Được phát hành chỉ một giờ sau khi có một cuộc thảo luận khác về Meta:
Có sẵn trên Groq:
Đây là một thời kỳ cực kỳ thú vị. Nó giống thời kỳ các framework JavaScript bùng nổ. Khi đó có cảm giác kiểu "lại phải học thêm một framework nữa sao?", nhưng giờ đổi mới lại đang diễn ra rất nhanh, và lần này giống như một hành trình đầy phấn khích mà chúng ta có thể trực tiếp tham gia