6 điểm bởi xguru 2024-03-12 | 1 bình luận | Chia sẻ qua WhatsApp
  • Loạt bài "Behind the Compute" là chuỗi bài đăng blog ghi lại hành trình kinh doanh của Stability AI, đồng thời cung cấp những góc nhìn giúp người khác tận dụng sức mạnh của AI tạo sinh
  • Kỳ này đi sâu hơn vào benchmark hiệu năng và các lợi thế của nhiều giải pháp điện toán khác nhau

Phân tích hiệu năng

  • Nhóm đã thực hiện phân tích hiệu năng bằng cách huấn luyện hai mô hình, một trong số đó là Stable Diffusion 3 rất được mong đợi
  • Tốc độ huấn luyện được đo bằng cách so sánh bộ tăng tốc Intel Gaudi 2 với A100 và H100 của Nvidia
  • Đây là những lựa chọn phổ biến nhất mà các startup và nhà phát triển dùng để huấn luyện mô hình ngôn ngữ lớn

Mô hình 1: Stable Diffusion 3

  • Stable Diffusion 3 là mô hình văn bản-sang-hình ảnh mạnh nhất, dự kiến sớm bước vào giai đoạn xem trước ban đầu
  • Phiên bản công khai của Stable Diffusion 3 sẽ có nhiều kích cỡ trong khoảng từ 800M đến 8B tham số
  • Phân tích với phiên bản 2B tham số cho thấy kết quả vượt kỳ vọng
  • Nhóm đã đo thông lượng huấn luyện của mô hình kiến trúc 2B Multimodal Diffusion Transformer (MMDiT), sử dụng d=24, độ chính xác hỗn hợp BFloat16 và attention được tối ưu hóa (xFormers cho A100 và FusedSDPA cho Intel Gaudi)
  • Phiên bản mô hình này được gọi là MMDiT-ps2-d24
  • Trong benchmark huấn luyện trên 2 node, tổng cộng 16 bộ tăng tốc (Gaudi/GPU), hệ thống Gaudi 2 xử lý 927 ảnh huấn luyện mỗi giây trong khi vẫn giữ batch size 16 trên mỗi bộ tăng tốc - nhanh hơn 1,5 lần so với H100-80GB
  • Tận dụng 96GB bộ nhớ băng thông cao (HBM2E) của Gaudi 2, batch size trên mỗi bộ tăng tốc được tăng lên 32, giúp tốc độ huấn luyện cải thiện thêm lên 1.254 ảnh mỗi giây
  • Khi mở rộng huấn luyện phân tán lên 32 node Gaudi 2 (tổng cộng 256 bộ tăng tốc), nhóm tiếp tục đo được hiệu năng rất cạnh tranh
  • Trong cấu hình này, cụm Gaudi 2 xử lý nhiều hơn hơn 3 lần số ảnh mỗi giây so với GPU A100-80GB. Điều này đặc biệt ấn tượng dù A100 có stack phần mềm được tối ưu hóa rất tốt
  • Trong bài test suy luận với mô hình Stable Diffusion 3 8B tham số, chip Gaudi 2 mang lại tốc độ suy luận tương đương chip Nvidia A100 khi dùng PyTorch thuần
  • Tuy nhiên, với tối ưu hóa TensorRT, chip A100 tạo ảnh nhanh hơn Gaudi 2 40%
  • Nhóm kỳ vọng với các tối ưu hóa bổ sung, Gaudi 2 sẽ sớm vượt A100 ở mô hình này
  • Trong các thử nghiệm trước đó dùng PyTorch thuần, Gaudi 2 tạo ảnh 1024x1024 qua 30 bước chỉ trong 3,2 giây, trong khi A100 mất 3,6 giây với PyTorch và 2,7 giây với TensorRT
  • Nhờ bộ nhớ lớn hơn, kết nối liên thông nhanh hơn và các cân nhắc thiết kế khác của Gaudi 2, việc chạy kiến trúc Diffusion Transformer làm nền tảng cho thế hệ mô hình media tiếp theo có tính cạnh tranh cao

Mô hình 2: Stable Beluga 2.5 70B

  • Stable Beluga 2.5 70B là phiên bản fine-tune của LLaMA 2 70B, dựa trên Stable Beluga 2, mô hình mở đầu tiên vượt ChatGPT 3.5 trong một số benchmark nhất định
  • Benchmark huấn luyện này được thực hiện trên 256 bộ tăng tốc Gaudi 2, và khi chạy nguyên mã PyTorch không cần tối ưu hóa bổ sung, nhóm đo được thông lượng tổng trung bình là 116.777 token/giây
  • Cấu hình này sử dụng kiểu dữ liệu FP16, global batch size 1024, gradient accumulation steps 2 và micro batch size 2
  • Khi thực hiện test suy luận cho mô hình ngôn ngữ 70B trên Gaudi 2, hệ thống tạo ra 673 token/giây trên mỗi bộ tăng tốc với kích thước token đầu vào 128 và đầu ra 2048
  • So với TensorRT-LLM, Gaudi 2 nhanh hơn 28% so với mức 525 token/giây của A100
  • Nhóm kỳ vọng sẽ cải thiện tốc độ hơn nữa với FP8

Nhu cầu đối với các giải pháp điện toán

  • Những công ty như chúng tôi đang chứng kiến nhu cầu ngày càng tăng đối với các giải pháp điện toán mạnh hơn và hiệu quả hơn
  • Các phát hiện của chúng tôi nhấn mạnh sự cần thiết của những lựa chọn thay thế như Gaudi 2. Nó không chỉ mang lại hiệu năng vượt trội hơn các chip 7nm khác mà còn giải quyết những nhu cầu quan trọng của thị trường như tỷ lệ hiệu năng/giá tốt, chi phí thấp hơn và thời gian chờ ngắn hơn
  • Nhiều lựa chọn hơn trong các phương án điện toán sẽ mở rộng sự tham gia và đổi mới, đồng thời giúp công nghệ AI tiên tiến trở nên dễ tiếp cận hơn với mọi người

1 bình luận

 
xguru 2024-03-12

Ý kiến Hacker News

  • Thật thú vị khi TPU dễ dàng vượt A100s. Tại dreamlook.ai, nơi cung cấp fine-tuning Stable Diffusion bằng TPU, mọi người ngạc nhiên về tốc độ cung cấp và chi phí. Nhưng không có bí mật lớn nào cả, chỉ đơn giản là dùng phần cứng nhanh hơn và rẻ hơn cho mỗi đơn vị công việc.
  • Việc thúc đẩy cạnh tranh trong huấn luyện mô hình bằng phần cứng mới là điều tốt, nhưng khả năng tiếp cận các cỗ máy này rất hạn chế. Các nhà cung cấp đám mây lớn không cho thuê VM Gaudi2 theo giờ, và ngay trên trang của Intel thì họ hướng bạn đến việc mua máy chủ 8x GPU giá hơn 40k USD. Hiện tại Nvidia vẫn chiếm ưu thế về stack phần mềm và mức độ sẵn có, nhưng có thể đến cuối năm nay mọi thứ sẽ bắt đầu thay đổi.
  • NVIDIA đang giữ biên lợi nhuận gần 92% trên H100. Thật ngạc nhiên khi không có nhiều công ty chip hơn lao vào mảng "bộ tăng tốc ML".
  • Nếu có một phân tích giải thích vì sao nó có thể nhanh hơn 3 lần dù các chỉ số phần cứng không tốt hơn 3 lần, thì đó mới thực sự là thông tin hữu ích và có chiều sâu. Nếu không thì đây chỉ là quảng cáo đơn thuần.
  • H100 đã ra mắt gần 1 năm trước, nên nếu Intel đã sẵn sàng cạnh tranh với mẫu của năm ngoái thì cũng ổn. Cần nhớ rằng CUDA là một phần cực kỳ quan trọng, và phải mất 10 năm để cả phần cứng lẫn phần mềm cùng trưởng thành.
  • H100 đã được xuất xưởng số lượng lớn gần 1 năm nay. Gaudi2 có sẵn ở quy mô tương tự không? Đừng bao giờ xem nhẹ NVIDIA cho đến khi họ không còn tạo được khoảng cách dẫn đầu rõ rệt so với linh kiện cạnh tranh trong cùng khung thời gian.
  • Không ai, kể cả nhân viên Intel AXG, có thể đưa ra câu trả lời thỏa đáng về việc vì sao cả Gaudi lẫn Ponte Vecchio đều cùng tồn tại. Liệu Intel tập trung vào một dòng sản phẩm duy nhất có làm tăng khả năng thành công không?
  • Tôi tò mò các nhà khoa học AI hiện nay làm việc như thế nào. Họ thực sự tự tay hack các Cudakernels, hay chỉ lắp ghép mô hình bằng các toolkit cấp cao như pytorch? Nếu là vế sau, thì nếu pytorch cung cấp backend được tối ưu cho nhiều loại phần cứng khác nhau, CUDA có thực sự là rào cản lớn không?