3 điểm bởi GN⁺ 2024-11-20 | 1 bình luận | Chia sẻ qua WhatsApp

Điểm nổi bật của Llama 3.1 405B trên Cerebras Inference

  • Tạo 969 token đầu ra mỗi giây - nhanh hơn 12 lần so với kết quả GPU tốt nhất
  • Thời gian đến token đầu tiên là 240ms - ngắn hơn phần lớn API
  • Hỗ trợ độ dài ngữ cảnh 128K - hiệu năng cao nhất từng được ghi nhận
  • Trọng số 16-bit - duy trì độ chính xác của toàn bộ mô hình
  • Dự kiến phát hành rộng rãi trong quý 1 năm 2025, giá $6 cho mỗi một triệu token đầu vào và $12 cho mỗi một triệu token đầu ra

AI frontier với tốc độ tức thì

  • Năm nay, Cerebras đã đẩy Llama 3.1 8B và 70B lên hơn 2.000 token mỗi giây
  • Các mô hình frontier như GPT-4o, Claude 3.5 Sonnet và Llama 3.1 405B trước đây chưa từng vượt quá 200 token mỗi giây trên GPU, ASIC hay đám mây
  • Cerebras Inference giải quyết vấn đề này, cho phép Llama 3.1 405B phát huy đầy đủ hiệu năng trong ngữ cảnh 128K
  • Thiết lập kỷ lục mới với 969 token đầu ra mỗi giây trên prompt 1.000 token
  • Đạt 539 token/giây với prompt đầu vào 100.000 token, nhanh hơn 11 lần so với Fireworks và 44 lần so với AWS

Độ trễ hàng đầu

  • Thời gian đến token đầu tiên là một trong những chỉ số quan trọng nhất trong ứng dụng thực tế
  • Với 240 mili giây, Cerebras cung cấp thời gian đến token đầu tiên nhanh nhất trong số mọi nền tảng chạy Llama 3.1-405B
  • Thời gian phản hồi nhanh hơn nhiều so với các giải pháp dựa trên GPU, giúp cải thiện đáng kể trải nghiệm người dùng

Khả dụng

  • Cerebras Inference cho Llama 3.1-405B hiện đang trong giai đoạn thử nghiệm với khách hàng và dự kiến phát hành rộng rãi vào quý 1 năm 2025
  • Giá đầu ra rẻ hơn 20% so với AWS, Azure và GCP

Mô hình mở là mô hình nhanh nhất

  • Nhờ cách tiếp cận mở của Meta và công nghệ suy luận đổi mới của Cerebras, Llama 3.1-405B chạy nhanh hơn hơn 10 lần so với các mô hình frontier đóng
  • Cung cấp nền tảng phù hợp cho các ứng dụng giọng nói, video và suy luận

1 bình luận

 
GN⁺ 2024-11-20
Ý kiến trên Hacker News
  • Khó vượt quá 100 tok/s khi triển khai mô hình Llama 3.1 70b trên cụm 8x H100

    • Tò mò không biết họ đã đạt được tốc độ này như thế nào
    • Có vẻ sẽ cần suy luận đa nút hoặc cơ chế sparse attention
  • Không chắc việc so sánh độ trễ có công bằng hay không

    • Độ trễ bao gồm thông lượng xử lý context/prompt, thời gian chờ truy cập phần cứng và các overhead API khác
    • Có khả năng con số của Cerebras gần như không tính phần thời gian chờ
  • Để cung cấp thông lượng cao với độ trễ tốt thì cần overprovisioning đáng kể

    • Chưa rõ độ trễ có bao gồm thời gian nạp mô hình hay không
    • Với tác vụ batch, có thể tận dụng máy Cerebras ở mức 100% để duy trì liên tục 1k tokens/s
  • Với các mô hình thế hệ hiện tại cùng RAG, đa tác tử và code interpreter, độ trễ của mô hình trở thành điểm nghẽn

    • Thông lượng token của mô hình lớp 405B mở ra nhiều trải nghiệm tương tác hơn
  • Chip Cerebras sử dụng toàn bộ wafer và chỉ có 44GB SRAM

    • Để chứa mô hình 405B ở độ chính xác bf16 sẽ cần 19 chip
    • Xét theo chi phí sản xuất wafer, điều này tương đương với việc dùng hơn 1.500 H100
  • Có danh sách chờ để thử API

    • Khi chưa thể mua dịch vụ thì cần hoài nghi về các tuyên bố của công ty
  • Nghĩ rằng khả năng Nvidia thâu tóm Cerebras là khá cao

  • Việc phần cứng mới có thể cải thiện hiệu năng là điều ấn tượng

    • Tò mò giới hạn của việc cải thiện hiệu năng huấn luyện thông qua phần cứng là ở đâu
  • Muốn xem so sánh token/giây/watt

  • Không có nhắc đến đối thủ Groq

  • Tò mò chi phí cần thiết để cung cấp dịch vụ với mức độ trễ như vậy

    • Chi phí sẽ quyết định mức độ có thể được chấp nhận rộng rãi
    • Tò mò liệu đây chỉ dành cho các doanh nghiệp thực sự cần độ trễ thấp hay có thể triển khai phổ biến hơn nói chung