1 điểm bởi GN⁺ 2024-12-25 | 1 bình luận | Chia sẻ qua WhatsApp
  • Tầm quan trọng của MLC-LLM

    • MLC-LLM cho phép biên dịch và triển khai LLM trên GPU AMD bằng ROCm
    • AMD Radeon™ RX 7900 XTX cung cấp khoảng 80% hiệu năng của NVIDIA® GeForce RTX™ 4090 và 94% hiệu năng của RTX™ 3090 Ti
    • Nhờ hỗ trợ Vulkan, có thể triển khai LLM ngay cả trên các thiết bị AMD APU như SteamDeck
  • Bối cảnh

    • Sau khi LLM mã nguồn mở lan rộng, đã xuất hiện rất nhiều giải pháp suy luận LLM
    • Phần lớn các giải pháp suy luận hiệu năng cao là dựa trên CUDA và được tối ưu cho GPU NVIDIA
    • Do nhu cầu rất lớn về khả năng có sẵn của tính toán, việc hỗ trợ phạm vi rộng hơn các bộ tăng tốc phần cứng là hữu ích
    • AMD là một ứng viên tiềm năng
  • Thảo luận phần cứng và phần mềm

    • AMD RX 7900 XTX có thông số có thể so sánh với NVIDIA RTX 4090 và RTX 3090 Ti
    • Tất cả các mẫu đều có 24GB bộ nhớ, nên có thể chứa mô hình cùng kích thước
    • Hiệu năng FP16 của 4090 cao gấp 2 lần so với 7900 XTX, và 1,3 lần so với 3090 Ti
    • RX 7900 XTX rẻ hơn RTX 4090 tới 40%
    • Nguyên nhân AMD từng bị tụt lại sau không phải do phần cứng mà do thiếu hỗ trợ phần mềm
  • Biên dịch máy học cho ROCm

    • Machine Learning Compilation (MLC) là công nghệ mới tự động hóa tối ưu hóa công việc học máy
    • MLC-LLM dựa trên Apache TVM Unity và cung cấp triển khai rộng rãi với hiệu năng cao cho nhiều backend khác nhau
    • Qua quy trình làm việc dựa trên Python, nó biên dịch mô hình ngôn ngữ và tối ưu hóa bố cục cũng như lịch trình của GPU kernel
  • MLC cho GPU và APU AMD

    • Các cách hỗ trợ GPU AMD gồm: ROCm, OpenCL, Vulkan, WebGPU
    • Stack ROCm là một nỗ lực mới của AMD, bao gồm nhiều thành phần tương tự stack CUDA
    • Vulkan là chuẩn đồ họa hiện đại và có phạm vi hỗ trợ rộng nhất trên các thiết bị GPU
    • MLC hỗ trợ sinh mã tự động, giúp hỗ trợ nhiều phương thức mà không cần tái cấu trúc từng GPU kernel
  • Benchmark với gói Python của MLC

    • Đã benchmark các mô hình Llama 2 7B và 13B theo lượng tử hóa 4-bit
    • Hiệu năng suy luận một lô đơn đạt đến 80% tốc độ của NVIDIA 4090 cùng lúc với việc ra mắt ROCm 5.6
  • Chạy trên SteamDeck bằng Vulkan

    • Trên SteamDeck trang bị AMD APU, có thể chạy bằng Vulkan
    • Với ROCm, VRAM GPU bị giới hạn ở 4GB trong BIOS, nhưng driver Mesa Vulkan có thể mở rộng lên đến 16GB nhờ bộ nhớ hợp nhất
  • Thảo luận và công việc tiếp theo

    • Khả năng sẵn có của phần cứng nổi bật hơn như một vấn đề quan trọng trong thời đại AI tạo sinh
    • ML compilation cho phép triển khai rộng rãi với hiệu năng cao trên toàn bộ các backend phần cứng
    • Nghiên cứu cho GPU người dùng phổ thông có thể được áp dụng cho cả GPU đám mây
    • Khuyến nghị cộng đồng xây dựng giải pháp dựa trên luồng triển khai linh hoạt của MLC
  • Kết luận cuối cùng

    • Kỹ thuật hệ thống học máy vẫn là một vấn đề liên tục
    • NVIDIA vẫn dẫn đầu lĩnh vực này qua đổi mới, và dự kiến sẽ thay đổi nhờ sự tiến bộ về phần cứng và phần mềm mới
    • Nhờ quy trình phát triển ML compilation dựa trên Python, chỉ trong vài giờ đã có thể có hỗ trợ tối ưu hóa ROCm
  • Liên kết và lời cảm ơn

    • Xem trang dự án để biết hướng dẫn chi tiết về triển khai MLC LLM
    • Mã nguồn của MLC LLM có sẵn tại kho GitHub chính thức
    • Gửi lời cảm ơn đến cộng đồng Apache TVM và các nhà phát triển trình biên dịch TVM Unity

1 bình luận

 
GN⁺ 2024-12-25
Ý kiến Hacker News
  • Hiệu năng GPU tiêu dùng của AMD (RX7900XTX) khác với GPU cho trung tâm dữ liệu của AMD (MI300X), do sự khác biệt giữa kiến trúc RDNA và CDNA. Khoảng năm 2026, AMD dự kiến sẽ ra mắt kiến trúc UDNA. Tại CentML, họ đang tích hợp hỗ trợ AMD CDNA và HIP vào trình biên dịch deep learning Hidet.

  • Nhiều công ty khởi nghiệp đang cố gắng phá vỡ thế độc quyền của Nvidia bằng cách tận dụng GPU của AMD. Felafax, Lamini, tensorwave và SlashML là một vài ví dụ. Một số người cho rằng rào cản của CUDA chỉ khoảng 18 tháng.

  • Đội ngũ từng làm việc với TVM và MLC đã rời OctoAI để gia nhập NVIDIA.

  • Phi-4 Q6 khi thử trên 7950x và 7900XT cho thấy rất nhanh ngay cả khi chỉ dùng CPU, qua đó xác nhận tính khả dụng của AMD cho người dùng cá nhân.

  • Mình không hiểu vì sao cộng đồng ML không thoát ra khỏi CUDA. CUDA mang tính đóng kín và không đa nền tảng. Sự phát triển của AI/LLM đáng ra đã khiến chuyển sang đa nền tảng nhanh hơn.

  • 3090 đã qua sử dụng có giá từ 600 đến 900 USD, nhanh hơn 7900 và linh hoạt hơn nhờ CUDA.

  • Việc tăng hiệu quả rất quan trọng. Không chỉ hiệu quả về chi phí, mà còn cần cả hiệu quả về điện năng và tính toán. Đang thử chạy suy luận trên CPU thông thường bằng llama.cpp.

  • Modular cho biết đã đạt mức sử dụng GPU 93% trên GPU AMD và dự kiến ​​phát hành bản xem trước chính thức vào đầu năm sau. Họ lạc quan sau khi nhận được phản hồi tích cực về hiệu năng GPU của Nvidia.