Cerebras Inference xử lý 969 token mỗi giây trên Llama 3.1 405B

(cerebras.ai)

3 điểm bởi GN⁺ 2024-11-20 | 1 bình luận | Chia sẻ qua WhatsApp

Các mô hình frontier cỡ lớn thường bị nghẽn ở tốc độ và độ trễ, nhưng Cerebras Inference đã ghi nhận 969 token đầu ra mỗi giây trên workload khách hàng với Llama 3.1 405B
Với prompt 1.000 token, kết quả nhanh hơn SambaNova 8 lần, nhanh hơn cloud GPU nhanh nhất 12 lần và nhanh hơn AWS 75 lần
Với đầu vào 100.000 token, chỉ 6 nhà cung cấp trả về kết quả; Cerebras là nhà cung cấp không dùng GPU duy nhất hoàn thành benchmark, đạt 539 token mỗi giây
Thời gian đến token đầu tiên là 240ms, và khách hàng chuyển từ GPT-4 báo cáo tổng độ trễ giảm 75%
Cerebras Inference cho Llama 3.1 405B hiện được cung cấp dưới dạng bản thử nghiệm cho khách hàng; dự kiến cung cấp rộng rãi vào quý 1/2025 với giá $6/M token đầu vào · $12/M token đầu ra

Kỷ lục hiệu năng của Llama 3.1 405B

Cerebras Inference đạt 969 output tokens/s khi chạy Llama 3.1 405B
- Kết quả dựa trên prompt 1.000 token
- Theo phép đo của Artificial Analysis, thiết lập kỷ lục về tốc độ đầu ra, hiệu năng ngữ cảnh dài và thời gian token đầu tiên
Trong cùng phép so sánh, Llama 3.1 405B trên Cerebras được giới thiệu là nhanh hơn GPT-4o 12 lần và nhanh hơn Claude 3.5 Sonnet 18 lần
Cerebras cho biết trong năm nay họ đã nâng Llama 3.1 8B và 70B lên hơn 2.000 tokens/s, trong khi các mô hình frontier như GPT-4o, Claude 3.5 Sonnet và Llama 3.1 405B chưa vượt quá 200 tokens/s ở bất kỳ GPU, ASIC hay cloud nào
So sánh với prompt 1.000 token như sau
- Nhanh hơn SambaNova 8 lần
- Nhanh hơn cloud GPU nhanh nhất 12 lần
- Nhanh hơn AWS 75 lần
Với prompt đầu vào 100.000 token, đạt 539 tokens/s
- Chỉ 6 nhà cung cấp trả về kết quả
- Cerebras là nhà cung cấp không dùng GPU duy nhất hoàn thành benchmark
- Nhanh hơn Fireworks 11 lần và nhanh hơn AWS 44 lần

Độ trễ, lịch cung cấp và giá

Cerebras Inference cho Llama 3.1 405B ghi nhận thời gian token đầu tiên 240ms
- Thời gian token đầu tiên là chỉ số độ trễ cốt lõi mà người dùng cảm nhận trong ứng dụng thực tế
- Với các giải pháp dựa trên GPU, thời gian phản hồi ban đầu có thể tăng lên đến vài giây
Khách hàng chuyển từ GPT-4 sang Cerebras Inference báo cáo tổng độ trễ giảm 75%
- Điều này dẫn đến cải thiện trải nghiệm người dùng trong các use case cần tương tác thời gian thực, như ứng dụng AI giọng nói và video
Cerebras Inference cho Llama 3.1 405B hiện được cung cấp dưới dạng bản thử nghiệm cho khách hàng
- Dự kiến cung cấp rộng rãi vào quý 1/2025
- Giá là $6 cho mỗi 1 triệu token đầu vào và $12 cho mỗi 1 triệu token đầu ra
- Giá đầu ra thấp hơn AWS, Azure và GCP 20%
Sự kết hợp giữa cách tiếp cận mở của Meta và công nghệ suy luận của Cerebras được mô tả là giúp Llama 3.1 405B chạy nhanh hơn các mô hình frontier đóng hơn 10 lần
- Được giới thiệu là nền tảng phù hợp cho các ứng dụng giọng nói, video và suy luận, nơi độ trễ thấp và nhiều bước suy luận là yếu tố quan trọng

1 bình luận

GN⁺ 2024-11-20

Ý kiến trên Hacker News

Thật sự nhanh đến kinh ngạc. Llama 3.1 70B tự triển khai trên cụm 8x H100 cũng khó vượt 100 token/giây, nên tôi rất tò mò họ làm thế nào
Các kỹ thuật thông thường, chẳng hạn speculative decoding hay FlashAttention, có lẽ còn lâu mới chạm tới mức đó; tối thiểu có vẻ cần những thứ như suy luận đa node hoặc sparse attention
- Cerebras tạo ra một CPU khoảng 1 triệu lõi và chạy suy luận trên đó, không phải GPU. Đây là kiến trúc hoàn toàn khác nên không bị mạng chen vào
  Cũng có khả năng phần đáng kể được xử lý ở phía cache CPU hơn là HBM. Nếu muốn hiểu thiết kế chip, tôi khuyên xem các video YouTube về Cerebras của TechTechPotato
- Họ dùng silicon tùy chỉnh có diện tích lớn hơn 8x H100 vài lần. Tất nhiên cũng có tối ưu thực thi/runtime, nhưng khác biệt cốt lõi có lẽ là số lượng transistor áp đảo
  https://cerebras.ai/product-chip/
- Con chip có kích thước cỡ cái đĩa. Nhìn ảnh sẽ dễ hình dung: https://cerebras.ai/product-chip/
- Cerebras là công ty chip và không dùng GPU. Con chip này dùng tích hợp quy mô wafer, nên về mặt vật lý nó có kích thước bằng cả một wafer, tương đương gộp hàng chục GPU thành một
  Bộ nhớ on-chip bị giới hạn và toàn bộ là SRAM; băng thông HBM trên mỗi wafer là bao nhiêu thì chưa rõ. Đây là một bài toán tối ưu hoàn toàn khác so với chạy trên cụm GPU
- Bí quyết lớn có hai điểm. Con chip cực kỳ lớn, và dùng SRAM làm bộ nhớ nên nhanh hơn HBM của GPU rất nhiều
  Thực ra đây là lý do chính khiến nó nhanh như vậy. Groq cũng đạt tốc độ nhờ cùng lý do
Tôi không chắc ở đây họ có thật sự so sánh độ trễ trong cùng điều kiện hay không. Độ trễ đại khái chia thành ba phần: thông lượng xử lý context/prompt, thời gian xếp hàng chờ truy cập phần cứng, và overhead API thông thường như mạng
Theo tôi hiểu, nhiều dịch vụ được đem ra so sánh, có thể là tất cả, không dựa trên dung lượng đặt trước nên số đo bao gồm cả thời gian xếp hàng. Với LLM, thời gian này có thể khá lớn. Trong khi đó, các con số của Cerebras nhiều khả năng được đo khi có quyền truy cập phần cứng được bảo đảm, nên gần như không bao gồm thời gian xếp hàng có thể tăng vô hạn
Bản thân thông lượng thì rất ấn tượng, nhưng để cung cấp thông lượng đó cho người dùng cuối với độ trễ thấp thì cần over-provisioning, và chưa rõ hàng đợi sẽ ảnh hưởng thế nào. Tôi cũng tò mò đó là tính trên máy đã có sẵn model, hay có bao gồm cả thời gian tải model khi cần. Cũng cần xem độ trễ có thay đổi khi dùng model fine-tune hay không
Nó chắc chắn có vẻ có lợi cho các tác vụ batch có thể khai thác máy Cerebras ở mức 100% và liên tục lấy ra 1.000 token/giây
- Ngay cả giả định tất cả đều trong điều kiện lý tưởng thì vẫn rất ghê. Ở batch size 1, một model 405B tham số đạt 1.000 token/giây là nhanh đến phi lý
Nhìn vào những việc có thể làm khi gắn RAG, multi-agent và code interpreter vào các model thế hệ hiện tại, bức tường giờ đây gần với độ trễ của model hơn là độ chính xác
Nếu model cỡ 405B đạt được thông lượng token như vậy, sẽ có rất nhiều trải nghiệm tương tác trở nên khả thi
- Tôi không rõ sổ tay quy tắc giúp xử lý sự cố như thế nào. Tôi nghĩ sự cố lần nào cũng phải mới, vì ta đã sửa nguyên nhân gốc rồi
  Vì vậy mỗi lần đều phải đào vào code hoặc code vừa được triển khai gần đây, rồi xem tương quan với các chỉ số vận hành. Hoặc ý bạn là sổ tay đó chỉ là quy trình rollback đơn giản?
Nói cho rõ, một chip Cerebras dùng toàn bộ wafer nhưng chỉ có 44GB SRAM trên đó. Để nạp model 405B ở độ chính xác bf16, chưa tính KV cache và bộ nhớ activation, cũng cần 19 “chip” như vậy
Khi độ dài chuỗi tăng, yêu cầu còn lớn hơn vì KV cache. Tìm hiểu thì thấy một wafer có thể đặt khoảng 60–80 chip H100, nên xét theo chi phí sản xuất wafer thì tương tự dùng hơn 1.500 H100
- Ngân sách mà các công ty này đổ vào công nghệ này thật sự vượt ngoài sức tưởng tượng
- Tôi tò mò chi phí wafer chiếm tỷ trọng lớn đến mức nào trong giá chip thực tế
Hiệu năng thật sự ấn tượng. Tôi nghĩ khả năng khá cao là Nvidia sẽ cố mua lại Cerebras
- Cerebras đang cân nhắc IPO. Khả năng bị mua lại có vẻ thấp. Dù vậy nếu được mua lại, có lẽ nó sẽ có giá trị hơn với Facebook hoặc MS
Muốn dùng thử API thì phải vào danh sách chờ. Nếu một công ty đưa ra các tuyên bố như vậy nhưng lại không cung cấp dịch vụ để có thể mua, thì cần hoài nghi ở mức nhất định
Trong số các startup chip AI, Cerebras có lẽ là hàng thật
- Groq cũng là hàng thật. Chỉ là đến nay Cerebras dường như chưa mở rộng rộng rãi bằng Groq. Còn phải xem tiếp
- Thời điểm này đúng lúc chuẩn bị IPO
Không có nhắc gì đến Groq, đối thủ cạnh tranh trực tiếp sao?
- Tôi là khách hàng trả phí của Groq và đang dùng khá hài lòng, nhưng ở phân khúc 405B thì họ không cạnh tranh được với Cerebras
  Groq có lợi thế là nhận cả khách hàng trả phí dưới mức enterprise, không cung cấp theo kiểu rất chọn lọc như Cerebras, và hỗ trợ nhiều model rộng rãi. Nhưng xét riêng tốc độ thuần và các model cỡ lớn nhất thì Groq khó mà so được
- Sambanova cũng không thường được nhắc tới [0]. Một trong các đồng sáng lập được biết đến là “cha đẻ của bộ xử lý đa lõi” [1]
  [0]: https://sambanova.ai/
  [1]: https://en.wikipedia.org/wiki/Kunle_Olukotun
Tôi tò mò chi phí để cung cấp dịch vụ với độ trễ như thế này là bao nhiêu. Từ góc nhìn khách hàng, chi phí cố định sẽ thay đổi tùy chiến lược giá, nhưng cuối cùng chi phí sẽ quyết định phạm vi phổ biến của công nghệ này
Điều quan trọng là nó chỉ phù hợp với các doanh nghiệp thật sự cần độ trễ thấp, hay đã ở mức có thể triển khai đại trà
- Liệu việc mọi người tạo chip khổng lồ và dùng SRAM có thể trở thành chuẩn không?
  Có bao nhiêu nhà sản xuất SRAM? Hay đây nhất thiết phải là cấu trúc tích hợp hoàn toàn bên trong chip?
Nếu phần cứng mới có thể đem lại cải thiện hiệu năng như vậy, tôi tò mò hiệu năng huấn luyện còn có thể được phần cứng kéo lên thêm bao nhiêu
- Nếu phía machine learning không có thay đổi lớn thì có lẽ sẽ không quá khổng lồ. Ở đây có hai trục: cải thiện hiệu quả và cải thiện lượng tính toán
  Tăng lượng tính toán là cách rõ ràng nhất để tăng tốc, nhưng ở một node quy trình và độ chính xác kiểu dữ liệu nhất định, có vẻ ta đã khá gần giới hạn vật lý. Khó chứng minh chắc chắn, nhưng có vài cơ sở. Phép toán nền tảng của LLM là nhân ma trận, rất đơn giản không giống tác vụ CPU, nên các phần như logic điều khiển đã được tối thiểu hóa rất nhiều. Phần lớn điện năng được dùng cho chính phép nhân ma trận, và phép nhân ma trận thực sự bị giới hạn bởi công suất[1]. Đổi độ chính xác có thể có lợi nhưng khó, và hiện đã dùng độ chính xác rất thấp như fp8; fp8 thậm chí không biểu diễn được 17. Nghiên cứu gần đây cũng cho thấy các giới hạn
  Hiệu quả huấn luyện LLM được đo bằng một tiêu chuẩn rất khắc nghiệt gọi là “mức sử dụng FLOPS của model (MFU)”. Đó là cách lấy FLOPS lý thuyết mà phần cứng có thể cung cấp chia cho FLOPS lý thuyết cần thiết để triển khai các phép toán toán học. Chỉ dùng FSDP cũng dễ đạt 30%, và 50–60% không phải là bất khả thi hay chưa từng có tiền lệ. Sự kém hiệu quả chủ yếu đến từ 1) phần cứng vì nhiều lý do không thực sự cung cấp được FLOPS ghi trên nhãn và 2) phải đồng bộ dữ liệu cấp terabyte giữa hàng chục nghìn máy. Giới hạn lý thuyết là 2x, nhưng thực tế không còn nhiều dư địa để vắt thêm
  Lợi ích sắp tới phần lớn sẽ tập trung vào TPU giúp giảm biên lợi nhuận của Nvidia, cải tiến node quy trình, giảm kiểu dữ liệu như B100, hoặc tăng kích thước chip để giảm giao tiếp liên chip tốn kém. Ở cùng độ chính xác và cùng node quy trình, tôi không thấy có dư địa cải thiện 10 lần
  [1]: https://www.thonking.ai/p/strangely-matrix-multiplications
- Giải pháp cuối cùng có lẽ là biến LLM thành ASIC thuần túy
  Hiệu năng có vẻ sẽ tăng khoảng 10 lần, nhưng đó sẽ là một giải pháp rất đắt đỏ

Cerebras Inference xử lý 969 token mỗi giây trên Llama 3.1 405B

Kỷ lục hiệu năng của Llama 3.1 405B

Độ trễ, lịch cung cấp và giá

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News