- Loạt bài "Behind the Compute" là chuỗi bài đăng blog ghi lại hành trình kinh doanh của Stability AI, đồng thời cung cấp những góc nhìn giúp người khác tận dụng sức mạnh của AI tạo sinh
- Kỳ này đi sâu hơn vào benchmark hiệu năng và các lợi thế của nhiều giải pháp điện toán khác nhau
Phân tích hiệu năng
- Nhóm đã thực hiện phân tích hiệu năng bằng cách huấn luyện hai mô hình, một trong số đó là Stable Diffusion 3 rất được mong đợi
- Tốc độ huấn luyện được đo bằng cách so sánh bộ tăng tốc Intel Gaudi 2 với A100 và H100 của Nvidia
- Đây là những lựa chọn phổ biến nhất mà các startup và nhà phát triển dùng để huấn luyện mô hình ngôn ngữ lớn
Mô hình 1: Stable Diffusion 3
- Stable Diffusion 3 là mô hình văn bản-sang-hình ảnh mạnh nhất, dự kiến sớm bước vào giai đoạn xem trước ban đầu
- Phiên bản công khai của Stable Diffusion 3 sẽ có nhiều kích cỡ trong khoảng từ 800M đến 8B tham số
- Phân tích với phiên bản 2B tham số cho thấy kết quả vượt kỳ vọng
- Nhóm đã đo thông lượng huấn luyện của mô hình kiến trúc 2B Multimodal Diffusion Transformer (MMDiT), sử dụng d=24, độ chính xác hỗn hợp BFloat16 và attention được tối ưu hóa (
xFormers cho A100 và FusedSDPA cho Intel Gaudi)
- Phiên bản mô hình này được gọi là MMDiT-ps2-d24
- Trong benchmark huấn luyện trên 2 node, tổng cộng 16 bộ tăng tốc (Gaudi/GPU), hệ thống Gaudi 2 xử lý 927 ảnh huấn luyện mỗi giây trong khi vẫn giữ batch size 16 trên mỗi bộ tăng tốc - nhanh hơn 1,5 lần so với H100-80GB
- Tận dụng 96GB bộ nhớ băng thông cao (HBM2E) của Gaudi 2, batch size trên mỗi bộ tăng tốc được tăng lên 32, giúp tốc độ huấn luyện cải thiện thêm lên 1.254 ảnh mỗi giây
- Khi mở rộng huấn luyện phân tán lên 32 node Gaudi 2 (tổng cộng 256 bộ tăng tốc), nhóm tiếp tục đo được hiệu năng rất cạnh tranh
- Trong cấu hình này, cụm Gaudi 2 xử lý nhiều hơn hơn 3 lần số ảnh mỗi giây so với GPU A100-80GB. Điều này đặc biệt ấn tượng dù A100 có stack phần mềm được tối ưu hóa rất tốt
- Trong bài test suy luận với mô hình Stable Diffusion 3 8B tham số, chip Gaudi 2 mang lại tốc độ suy luận tương đương chip Nvidia A100 khi dùng PyTorch thuần
- Tuy nhiên, với tối ưu hóa TensorRT, chip A100 tạo ảnh nhanh hơn Gaudi 2 40%
- Nhóm kỳ vọng với các tối ưu hóa bổ sung, Gaudi 2 sẽ sớm vượt A100 ở mô hình này
- Trong các thử nghiệm trước đó dùng PyTorch thuần, Gaudi 2 tạo ảnh 1024x1024 qua 30 bước chỉ trong 3,2 giây, trong khi A100 mất 3,6 giây với PyTorch và 2,7 giây với TensorRT
- Nhờ bộ nhớ lớn hơn, kết nối liên thông nhanh hơn và các cân nhắc thiết kế khác của Gaudi 2, việc chạy kiến trúc Diffusion Transformer làm nền tảng cho thế hệ mô hình media tiếp theo có tính cạnh tranh cao
Mô hình 2: Stable Beluga 2.5 70B
- Stable Beluga 2.5 70B là phiên bản fine-tune của LLaMA 2 70B, dựa trên Stable Beluga 2, mô hình mở đầu tiên vượt ChatGPT 3.5 trong một số benchmark nhất định
- Benchmark huấn luyện này được thực hiện trên 256 bộ tăng tốc Gaudi 2, và khi chạy nguyên mã PyTorch không cần tối ưu hóa bổ sung, nhóm đo được thông lượng tổng trung bình là 116.777 token/giây
- Cấu hình này sử dụng kiểu dữ liệu FP16, global batch size 1024, gradient accumulation steps 2 và micro batch size 2
- Khi thực hiện test suy luận cho mô hình ngôn ngữ 70B trên Gaudi 2, hệ thống tạo ra 673 token/giây trên mỗi bộ tăng tốc với kích thước token đầu vào 128 và đầu ra 2048
- So với TensorRT-LLM, Gaudi 2 nhanh hơn 28% so với mức 525 token/giây của A100
- Nhóm kỳ vọng sẽ cải thiện tốc độ hơn nữa với FP8
Nhu cầu đối với các giải pháp điện toán
- Những công ty như chúng tôi đang chứng kiến nhu cầu ngày càng tăng đối với các giải pháp điện toán mạnh hơn và hiệu quả hơn
- Các phát hiện của chúng tôi nhấn mạnh sự cần thiết của những lựa chọn thay thế như Gaudi 2. Nó không chỉ mang lại hiệu năng vượt trội hơn các chip 7nm khác mà còn giải quyết những nhu cầu quan trọng của thị trường như tỷ lệ hiệu năng/giá tốt, chi phí thấp hơn và thời gian chờ ngắn hơn
- Nhiều lựa chọn hơn trong các phương án điện toán sẽ mở rộng sự tham gia và đổi mới, đồng thời giúp công nghệ AI tiên tiến trở nên dễ tiếp cận hơn với mọi người
1 bình luận
Ý kiến Hacker News