Điểm nổi bật của Llama 3.1 405B trên Cerebras Inference
- Tạo 969 token đầu ra mỗi giây - nhanh hơn 12 lần so với kết quả GPU tốt nhất
- Thời gian đến token đầu tiên là 240ms - ngắn hơn phần lớn API
- Hỗ trợ độ dài ngữ cảnh 128K - hiệu năng cao nhất từng được ghi nhận
- Trọng số 16-bit - duy trì độ chính xác của toàn bộ mô hình
- Dự kiến phát hành rộng rãi trong quý 1 năm 2025, giá $6 cho mỗi một triệu token đầu vào và $12 cho mỗi một triệu token đầu ra
AI frontier với tốc độ tức thì
- Năm nay, Cerebras đã đẩy Llama 3.1 8B và 70B lên hơn 2.000 token mỗi giây
- Các mô hình frontier như GPT-4o, Claude 3.5 Sonnet và Llama 3.1 405B trước đây chưa từng vượt quá 200 token mỗi giây trên GPU, ASIC hay đám mây
- Cerebras Inference giải quyết vấn đề này, cho phép Llama 3.1 405B phát huy đầy đủ hiệu năng trong ngữ cảnh 128K
- Thiết lập kỷ lục mới với 969 token đầu ra mỗi giây trên prompt 1.000 token
- Đạt 539 token/giây với prompt đầu vào 100.000 token, nhanh hơn 11 lần so với Fireworks và 44 lần so với AWS
Độ trễ hàng đầu
- Thời gian đến token đầu tiên là một trong những chỉ số quan trọng nhất trong ứng dụng thực tế
- Với 240 mili giây, Cerebras cung cấp thời gian đến token đầu tiên nhanh nhất trong số mọi nền tảng chạy Llama 3.1-405B
- Thời gian phản hồi nhanh hơn nhiều so với các giải pháp dựa trên GPU, giúp cải thiện đáng kể trải nghiệm người dùng
Khả dụng
- Cerebras Inference cho Llama 3.1-405B hiện đang trong giai đoạn thử nghiệm với khách hàng và dự kiến phát hành rộng rãi vào quý 1 năm 2025
- Giá đầu ra rẻ hơn 20% so với AWS, Azure và GCP
Mô hình mở là mô hình nhanh nhất
- Nhờ cách tiếp cận mở của Meta và công nghệ suy luận đổi mới của Cerebras, Llama 3.1-405B chạy nhanh hơn hơn 10 lần so với các mô hình frontier đóng
- Cung cấp nền tảng phù hợp cho các ứng dụng giọng nói, video và suy luận
1 bình luận
Ý kiến trên Hacker News
Khó vượt quá 100 tok/s khi triển khai mô hình Llama 3.1 70b trên cụm 8x H100
Không chắc việc so sánh độ trễ có công bằng hay không
Để cung cấp thông lượng cao với độ trễ tốt thì cần overprovisioning đáng kể
Với các mô hình thế hệ hiện tại cùng RAG, đa tác tử và code interpreter, độ trễ của mô hình trở thành điểm nghẽn
Chip Cerebras sử dụng toàn bộ wafer và chỉ có 44GB SRAM
Có danh sách chờ để thử API
Nghĩ rằng khả năng Nvidia thâu tóm Cerebras là khá cao
Việc phần cứng mới có thể cải thiện hiệu năng là điều ấn tượng
Muốn xem so sánh token/giây/watt
Không có nhắc đến đối thủ Groq
Tò mò chi phí cần thiết để cung cấp dịch vụ với mức độ trễ như vậy