4 điểm bởi GN⁺ 2024-07-31 | 1 bình luận | Chia sẻ qua WhatsApp
  • "Cách đốt khoảng $10M (130 tỷ won) vào một bản preprint arXiv"
  • Gần đây, DeepMind (GDM) đã công bố một bài báo rất xuất sắc có tên "Scaling Exponents Across Parameterizations and Optimizers"
    • Bài báo này thực hiện hơn 10.000 lượt huấn luyện LLM để suy ra các siêu tham số tối ưu trong nhiều môi trường khác nhau
  • Sau khi đọc bài báo, tác giả đã thử tổng hợp toàn bộ kết quả thực nghiệm và tính chi phí tổng lượng tính toán cần thiết để tái hiện bài báo
  • Kết quả là tổng FLOPS cần thiết là 5.42e24, và chi phí là $12.9M (178 tỷ won) (khi tính theo mức $3/H100/giờ)
    • Nhìn ở quy mô lớn, 5.42e24 là mức "không quá lớn"
    • Con số này còn chưa đến 15% lượng tính toán dùng cho Llama 3, và có thể chạy toàn bộ các thí nghiệm này chỉ trong 2 ngày với một cụm 100.000 H100

Giải thích thêm về giá trị của H100

  • Vì đây là bài báo từ những người xuất thân từ Google DeepMind nên gần như chắc chắn các thí nghiệm đã được chạy trên TPU
  • Vì bài báo không nhắc đến việc dùng int8, nên có thể suy đoán rằng họ đã dùng độ chính xác bfloat16
  • H100-SXM có hiệu năng tính toán tensor 16-bit là 989.40 TFLOP/s
  • Blog PyTorch gần đây và torchtitan báo cáo MFU của H100 ở mức khoảng 40%
  • Chi phí một node H100 được ước tính vào khoảng $3 mỗi giờ (giá trị trung bình vì còn thay đổi tùy nơi sử dụng)

1 bình luận

 
parkindani 2024-08-01

Tôi thấy tò mò về tổng năng lượng đã được sử dụng hơn là về giá cả.