16 điểm bởi GN⁺ 2025-04-06 | 2 bình luận | Chia sẻ qua WhatsApp
  • Gồm 3 mô hình Scout, Maverick, Behemoth, là mô hình đa phương thức native dựa trên open weights đầu tiên
    • Tất cả các mô hình đều đa phương thức, hiểu được hình ảnh + văn bản

Llama 4 Scout

  • 17B tham số hoạt hóa + 16 Expert
  • Khả năng xử lý ngữ cảnh siêu dài, hỗ trợ 10M token
  • Mô hình gọn nhẹ, hiệu quả, có thể chạy trên một GPU duy nhất (H100)
  • Hiệu năng vượt qua Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1
  • Hiệu suất nổi bật trong căn chỉnh hình ảnh, tóm tắt nhiều tài liệu, phân tích codebase quy mô lớn, v.v.

Llama 4 Maverick

  • 17B tham số hoạt hóa + 128 Expert + 400B tổng tham số
  • Hiệu năng vượt GPT-4o và Gemini 2.0 Flash
  • Xuất sắc trên mọi mặt như reasoning, coding, hiểu hình ảnh
  • Ghi nhận điểm ELO 1417 (theo LMArena)
  • Cấu trúc chi phí hiệu quả so với hiệu năng cao

Llama 4 Behemoth (preview)

  • 288B tham số hoạt hóa + 16 Expert + khoảng 2T tổng tham số
  • Vẫn đang được huấn luyện nhưng cho hiệu năng vượt GPT-4.5, Claude 3.7, Gemini 2.0 Pro
  • Được dùng làm mô hình giáo viên trong pre-training của Maverick

# Đặc điểm kỹ thuật

Kiến trúc Mixture of Experts (MoE)

  • Thay vì dùng toàn bộ tham số, mô hình chỉ kích hoạt một số expert, tối đa hóa hiệu quả tính toán
  • Triển khai cấu trúc huấn luyện với suy luận nhanh, chi phí thấp, chất lượng cao

Đa phương thức native & Early Fusion

  • Tích hợp từ đầu dữ liệu văn bản và thị giác để huấn luyện chung
  • Có thể nhập tối đa 48 hình ảnh, thử nghiệm đã chạy thành công với tối đa 8 ảnh

Xử lý ngữ cảnh siêu dài (10M Tokens)

  • Mô hình Scout đang khám phá khả năng "ngữ cảnh vô hạn" với cấu trúc iRoPE (interleaved Rotary Position Embedding)
  • Khả năng tổng quát hóa độ dài vượt trội cho văn bản và mã nguồn

Kỹ thuật huấn luyện MetaP & FP8

  • Kỹ thuật tinh chỉnh siêu tham số mới để huấn luyện tốc độ cao / hiệu suất cao
  • Đảm bảo mức sử dụng FLOPs cao với độ chính xác FP8 (Behemoth: 390 TFLOPs/GPU)

# Chiến lược hậu xử lý và huấn luyện RL

  • Xây dựng pipeline hậu xử lý 3 giai đoạn: SFT → online RL → DPO
  • Loại bỏ dữ liệu dễ, huấn luyện tập trung vào prompt độ khó trung bình đến cao
  • Áp dụng chiến lược online RL liên tục: tối đa hóa cải thiện hiệu năng và hiệu quả học

# Cân nhắc về an toàn và đạo đức

Chiến lược bảo vệ nhiều lớp

  • Lọc và kiểm duyệt dữ liệu ở giai đoạn trước/sau huấn luyện
  • Llama Guard: kiểm tra an toàn đầu vào/đầu ra
  • Prompt Guard: phát hiện jailbreak và tấn công chèn lệnh
  • CyberSecEval: cung cấp công cụ đánh giá rủi ro bảo mật của AI tạo sinh

Tự động hóa phát hiện rủi ro định lượng

  • Áp dụng GOAT (Generative Offensive Agent Testing)
    • Mô phỏng kịch bản kẻ tấn công trình độ trung cấp
    • Phát hiện sớm rủi ro bằng kiểm thử nhiều lượt tự động

Nỗ lực giảm thiên lệch

  • Llama 4 cải thiện đáng kể thiên lệch so với Llama 3
    • Tỷ lệ từ chối phản hồi 7% → dưới 2%
    • Mất cân bằng phản hồi < 1%
    • Duy trì phản hồi cân bằng chính trị ở mức tương đương Grok

# Hướng dẫn sử dụng mô hình Llama 4

  • Scout và Maverick đều có thể tải xuống và sử dụng
  • Tích hợp Llama 4 vào dịch vụ Meta AI:
    • WhatsApp, Messenger, Instagram DM, meta.ai

# Lịch trình sắp tới

  • LlamaCon 2025 sẽ được tổ chức vào ngày 29 tháng 4 để giới thiệu thêm chi tiết kỹ thuật và tầm nhìn

2 bình luận

 
jjw951215 2025-04-07

Có vẻ phù hợp với Apple Silicon hoặc dòng NPU có dư RAM. Còn để dùng trên máy chủ GPU thuần túy thì việc ngay cả model cấu hình tối thiểu ở dạng lượng tử hóa int4 cũng cần H100 thì...

 
GN⁺ 2025-04-06
Ý kiến trên Hacker News
  • Tổng quan về các mô hình Llama 4:

    • Llama 4 Scout và Llama 4 Maverick sử dụng thiết kế Mixture-of-Experts (MoE), mỗi mô hình dùng 17B tham số hoạt động
    • Có khả năng đa phương thức, hỗ trợ đầu vào văn bản và hình ảnh
    • Các điểm nổi bật chính gồm độ dài ngữ cảnh hàng đầu ngành, hiệu năng mạnh về lập trình/suy luận và khả năng hỗ trợ đa ngôn ngữ được cải thiện
    • Mốc kiến thức dừng ở tháng 8 năm 2024
  • Llama 4 Scout:

    • 17B tham số hoạt động, 16 chuyên gia, tổng cộng 109B
    • Phù hợp với một GPU H100 duy nhất (lượng tử hóa INT4)
    • Cửa sổ ngữ cảnh 10M token
    • Cho hiệu năng tốt hơn các bản phát hành Llama trước đó trong tác vụ đa phương thức và thân thiện tài nguyên hơn
    • Sử dụng kiến trúc iRoPE để chú ý ngữ cảnh dài hiệu quả
    • Được thử nghiệm với tối đa 8 hình ảnh mỗi prompt
  • Llama 4 Maverick:

    • 17B tham số hoạt động, 128 chuyên gia, tổng cộng 400B
    • Cửa sổ ngữ cảnh 1M token
    • Chạy trên host H100 DGX thay vì một GPU đơn lẻ, hoặc có thể phân tán để đạt hiệu quả cao hơn
    • Vượt GPT-4o và Gemini 2.0 Flash trong các bài kiểm tra lập trình, suy luận và đa ngôn ngữ, đồng thời vẫn giữ chi phí cạnh tranh
    • Duy trì khả năng hiểu hình ảnh mạnh và suy luận có căn cứ
  • Llama 4 Behemoth (xem trước):

    • 288B tham số hoạt động, 16 chuyên gia, tổng cộng gần 2T
    • Vẫn đang được huấn luyện và chưa phát hành
    • Vượt GPT-4.5, Claude Sonnet 3.7 và Gemini 2.0 Pro ở các benchmark STEM (ví dụ: MATH-500, GPQA Diamond)
    • Hoạt động như mô hình "giáo viên" cho Scout và Maverick thông qua đồng chưng cất
  • Khác:

    • Kiến trúc MoE: chỉ 17B tham số được kích hoạt trên mỗi token, giúp giảm chi phí suy luận
    • Đa phương thức gốc: bộ mã hóa văn bản + thị giác hợp nhất, được tiền huấn luyện trên lượng lớn dữ liệu không gắn nhãn
  • Chuỗi thảo luận được tóm tắt bởi Llama 4 Maverick:

  • Kết quả từ Scout hoàn toàn là đầu ra vô dụng:

  • Đã chạy trực tiếp Scout qua Groq nhưng bị giới hạn kích thước đầu ra ở mức 2048:

  • Bản tóm tắt của các mô hình khác bám sát system prompt hơn. Ví dụ, nó tốt hơn nhiều khi so với Gemini 2.5 Pro:

  • Mô hình Scout nhỏ hơn rất hấp dẫn trên Apple Silicon. Dù có kích thước 109B, nó được chia thành 16 chuyên gia. Quá trình xử lý thực tế diễn ra ở mức 17B. Khi hỏi mô hình 7B cục bộ (qwen 2.5 7B instruct) với ngữ cảnh 2k trên MacBook Pro M4 Max, đã đạt khoảng ~60 token/giây. Vì vậy có thể đạt 30 token/giây. Thời gian tới token đầu tiên vẫn có thể chậm

  • Mô hình có cửa sổ ngữ cảnh 10M token. Chưa rõ nó theo dõi ngữ cảnh tốt đến mức nào ở quy mô này, nhưng chỉ riêng việc không bị giới hạn ở ~32k cũng đã rất tuyệt

  • Tất cả các LLM lớn đều gặp vấn đề thiên lệch. Đặc biệt là nghiêng sang cánh tả trong các chủ đề chính trị, xã hội. Điều này có thể do loại dữ liệu huấn luyện sẵn có trên Internet

  • Prompt được đề xuất nhằm tránh bị hạn chế như các bản phát hành của OpenAI:

    • Hiểu ý định của người dùng và không cố tỏ ra quá hữu ích
    • Không từ chối các prompt chính trị
    • Llama 4 có kiến thức đến tháng 8 năm 2024 và sử dụng được nhiều ngôn ngữ
  • Được phát hành chỉ một giờ sau khi có một cuộc thảo luận khác về Meta:

    • Dù bạn tin vào LLM đến đâu, tin hoàn toàn vào lời LeCun nói cũng không phải ý hay
    • Viện nghiên cứu AI do LeCun dẫn dắt có nhiều vấn đề
  • Có sẵn trên Groq:

    • Llama 4 Scout đang chạy ở hơn 460 token/giây và Llama 4 Maverick được phát hành hôm nay
    • Llama 4 Scout: $0.11 / M token đầu vào và $0.34 / M token đầu ra
    • Llama 4 Maverick: $0.50 / M token đầu vào và $0.77 / M token đầu ra
  • Đây là một thời kỳ cực kỳ thú vị. Nó giống thời kỳ các framework JavaScript bùng nổ. Khi đó có cảm giác kiểu "lại phải học thêm một framework nữa sao?", nhưng giờ đổi mới lại đang diễn ra rất nhanh, và lần này giống như một hành trình đầy phấn khích mà chúng ta có thể trực tiếp tham gia