2 điểm bởi GN⁺ 2023-12-14 | 1 bình luận | Chia sẻ qua WhatsApp

So sánh hiệu năng của framework Apple MLX với Nvidia RTX 4090

  • Apple đã phát hành một framework machine learning dành cho Apple Silicon.
  • Để benchmark hiệu năng của framework này, đã sử dụng ví dụ Whisper.
  • Việc đo hiệu năng được thực hiện trên tệp âm thanh thông qua mã Python.

Kết quả

  • Để xử lý một tệp âm thanh dài 10 phút, M1 Pro mất 216 giây, còn Nvidia 4090 mất 186 giây.
  • Nếu dùng mô hình được tối ưu hóa cho Nvidia thì có thể xử lý chỉ trong 8 giây.
  • Cấu hình phần cứng của Macbook và PC được mô tả chi tiết.

Whisper với tốc độ đáng kinh ngạc

  • Đây là bài viết gây chú ý trên HackerNews, trong đó có người dùng chia sẻ trường hợp xử lý bằng Nvidia 4090 chỉ trong 8 giây.
  • Cũng đã tiến hành thử nghiệm trên MacOS, và kết quả chậm hơn phiên bản MLX.

Cập nhật M2 Ultra / M3 Max

  • Kết quả xử lý cùng một tệp âm thanh trên M2 Ultra và M3 Max cho thấy nhanh hơn nhiều so với M1, nhưng tốc độ giữa hai GPU lại tương tự nhau.

So sánh

  • Dù có thể không hoàn toàn chính xác do nhiều yếu tố, vẫn có thể thực hiện một phép so sánh hiệu năng tương đối.

Mức tiêu thụ điện năng

  • Đã đo chênh lệch mức tiêu thụ điện năng giữa PC và Macbook.
  • Chênh lệch điện năng tiêu thụ của PC khi Nvidia 4090 hoạt động so với lúc nhàn rỗi là 242W, còn chênh lệch điện năng tiêu thụ của Macbook khi các lõi GPU của M1 hoạt động so với lúc nhàn rỗi là 38W.

Tại sao lại làm bài kiểm tra này?

  • Vận hành công cụ tìm kiếm podcast tại https://podpodgogo.com, nơi hàng nghìn tập được phiên âm để có thể tìm kiếm toàn văn và phục vụ cho data mining.

Ý kiến của GN⁺:

  • Điểm quan trọng nhất của bài viết này là hiệu năng của framework machine learning dành cho Apple Silicon có tính cạnh tranh khi so với card đồ họa tiêu dùng mới nhất của Nvidia.
  • Đặc biệt, việc đạt được hiệu năng như vậy trên laptop là điều rất đáng chú ý, và đây có thể là một lựa chọn hấp dẫn cho những người dùng đang tìm kiếm sự cân bằng giữa tính di động và hiệu năng trong các tác vụ machine learning.
  • Về mặt tiêu thụ điện năng, Macbook cũng được nhấn mạnh là tương đối hiệu quả, đây có thể là thông tin quan trọng đối với những người dùng coi trọng tính bền vững môi trường và hiệu quả chi phí.

1 bình luận

 
GN⁺ 2023-12-14
Ý kiến Hacker News
  • Có vẻ đang dùng kho lưu trữ OpenAI Whisper. Để so sánh công bằng, nên đem MLX so với faster-whisper hoặc insanely-fast-whisper chạy trên 4090.

    • Trong các trường hợp sử dụng thực tế, tôi nhận thấy faster-whisper cho chất lượng tốt hơn khi bao gồm văn bản của các đoạn trước.
    • faster-whisper nhanh hơn OpenAI/whisper khoảng 4-5 lần, còn insanely-fast-whisper lại nhanh hơn faster-whisper thêm 3-4 lần nữa.
    • Nếu Whisper chạy trên 4090 không được tối ưu tốt thì những kết quả này là đáng nghi.
  • Đây là mã tận dụng bản phát hành mới nhất của Apple MLX và sử dụng các tối ưu hóa dành riêng cho Apple.

    • Dự kiến MLX sẽ thu hút sự chú ý khi các binding Swift được phát hành cho Mac và iOS.
    • Hiện tại có thể có vấn đề khi biên dịch với C++20.
  • Tôi tự hỏi liệu Whisper được chọn vì tính chất tuần tự và phép toán số nguyên của nó hay không, và liệu những kết quả này có áp dụng cho các mô hình khác không.

    • Vẫn còn những phép toán trên MLX chưa được tối ưu.
    • Đây là những con số ấn tượng xét tới lợi thế của RAM cực nhanh được nối trực tiếp với CPU/GPU, và từ góc nhìn độ trễ/khả năng truy cập dùng chung mà điều này mang lại.
    • Cũng đáng cân nhắc rằng hệ thống M3 Max có giá khoảng gấp đôi 4090.
  • Chạy Whisper trên Mac M1 thì dễ, nhưng mặc định không dùng MLX.

    • Tôi đã mất vài giờ để tìm ra cần làm gì để cấu hình nó dùng MLX.
    • Tôi thuê một VM có GPU và khởi động Whisper chỉ trong vài phút.
  • Có thể sẽ còn nhiều tranh luận về đâu là lựa chọn tốt nhất cho công việc X, nhưng việc đạt được mức hiệu năng này với mức tiêu thụ điện thấp là điều hấp dẫn.

  • Xét đến Vision Pro của Apple, điều này có thể không quá nhiều ý nghĩa trên laptop, nhưng là lợi thế lớn với một chiếc headset ngốn điện.

  • Nhờ gợi ý về ứng dụng hoặc quy trình mã nguồn mở tốt cho chép lời và nhận diện người nói.

    • Tôi đã thử xem qua vài cái nhưng chúng hoạt động không tốt và hay bị crash.
  • Khuyến nghị dùng các kho lưu trữ phái sinh từ Whisper có thể chép lời 1 giờ âm thanh trong chưa đầy 1 phút trên hầu hết GPU.