10 điểm bởi xguru 2024-07-24 | 3 bình luận | Chia sẻ qua WhatsApp
  • Hỗ trợ độ dài ngữ cảnh 128K, 8 ngôn ngữ và bổ sung mô hình 405B (8B, 70B, 405B)
    • Mô hình AI instruction-tuned mã nguồn mở mà bất kỳ ai cũng có thể fine-tuning, tinh chỉnh và triển khai ở bất cứ đâu
  • Mô hình 405B mới được công bố đạt mức gần tương đương hoặc vượt GPT-4o trong các benchmark như MMLU (tổng quát), Human Eval (lập trình), GSM8K (toán học)
    • Mô hình AI đẳng cấp hàng đầu về tính linh hoạt và khả năng kiểm soát
    • Giúp cộng đồng có thể tận dụng các workflow mới như tạo dữ liệu tổng hợp và chưng cất mô hình
    • Được huấn luyện với hơn 15 nghìn tỷ token và sử dụng hơn 16.000 GPU H100
  • Mô hình 70B được nâng cấp vượt xa GPT-3.5 Turbo trong phần lớn các benchmark

3 bình luận

 
wedding 2024-07-24

Wow, không biết phải cấu hình GPU thế nào mới có thể chạy được bản 405B nhỉ.

 
gcback 2024-07-24

Có vẻ như bản 405B không dành cho mục đích fine-tuning trực tiếp hoặc serving. Nhìn vào việc CEO đã nhiều lần nhắc đến distillation, có lẽ đây là mô hình teacher dùng cho fine-tuning nhằm nâng cao chất lượng của các mô hình nhẹ hơn.

 
xguru 2024-07-24

Ý kiến Hacker News

  • Các mô hình Llama 3.1 đã được cải thiện hiệu năng

    • Các mô hình 8B và 70B có hiệu năng tốt hơn Llama 3
    • Mô hình 405B đạt mức có thể cạnh tranh với GPT-4o, GPT-4 turbo, Claude 3.5 Sonnet, Claude 3 Opus
  • So sánh GPT-4o và mô hình Llama 3.1 405B

    • MMLU: GPT-4o 88.7, Llama 3.1 405B 88.6
    • GPQA: GPT-4o 53.6, Llama 3.1 405B 51.1
    • MATH: GPT-4o 76.6, Llama 3.1 405B 73.8
    • HumanEval: GPT-4o 90.2, Llama 3.1 405B 89.0
    • MGSM: GPT-4o 90.5, Llama 3.1 405B 91.6
  • Có thể trò chuyện với các mô hình mới trên Groq.com với độ trễ cực thấp

    • Có thể truy cập API cho 8B và 70B
    • API 405B chỉ dành cho một số khách hàng được chọn
  • Nếu dùng phần cứng phù hợp, bạn có thể chạy một LLM cạnh tranh với GPT-4o ngay tại nhà

  • Có thể chạy mô hình cục bộ qua Ollama, Huggingface, Groq, v.v.

    • Có thể dùng LLMStack để thử nghiệm mô hình cục bộ hoặc nhanh chóng xây dựng ứng dụng
  • Kết quả chạy bản 70B trên Ollama là rất tốt

    • Có thể chạy lệnh để tắt guideline và disclaimer
    • Nhận được danh sách lệnh để giảm thiên kiến tiềm ẩn của kỹ sư
  • Claude 3.5 Sonnet rất tốt cho công việc lập trình

    • Vẫn là lựa chọn hàng đầu trên các benchmark lập trình, cùng với tính năng Artifacts
  • Hỏi về thông tin giá của các mô hình mã nguồn mở

    • Tự host rất hấp dẫn, nhưng giá suy luận hosting theo token vẫn kém cạnh tranh hơn so với OpenAI và Anthropic
    • Ví dụ: Llama 3 70B có giá từ $1 đến $10 cho mỗi một triệu token trên nhiều nền tảng khác nhau, còn Claude Sonnet 3.5 là $3 cho mỗi một triệu token