Những ngộ nhận về GPU

(fly.io)

7 điểm bởi GN⁺ 2025-02-15 | 1 bình luận | Chia sẻ qua WhatsApp

Fly.io đang xây dựng một đám mây công cộng sử dụng phần cứng riêng, và đã phát triển Fly GPU Machines với mục tiêu cung cấp suy luận AI/ML dùng GPU
Fly GPU Machines là các VM chạy container Docker/OCI, được thiết kế để ánh xạ trực tiếp GPU NVIDIA nhằm cho phép tính toán CUDA nhanh
Tầm quan trọng của AI/ML lớn hơn dự đoán, nhưng có vẻ như các sản phẩm GPU đã không phản ánh đúng nhu cầu của thị trường

Khó khăn kỹ thuật khi triển khai GPU

Fly GPU Machines được thiết kế để hỗ trợ PCI passthrough bằng cách dùng Cloud Hypervisor của Intel thay vì Firecracker
Hệ sinh thái của NVIDIA không hỗ trợ hypervisor microVM, khiến việc tối ưu bảo mật và hiệu năng GPU trở nên khó khăn
GPU là đối tượng khiến đội ngũ bảo mật lo ngại, vì có thể thực hiện truyền DMA (Direct Memory Access) đa hướng và các phép toán do người dùng kiểm soát, tạo ra rủi ro bảo mật cao
Để tách biệt workload GPU và không-GPU, họ phải dùng phần cứng máy chủ riêng, dẫn đến cấu trúc chi phí kém hiệu quả
Để xác minh bảo mật, họ đã tiến hành các đợt đánh giá bảo mật quy mô lớn với Atredis và Tetrel, tốn nhiều chi phí và thời gian

Những thử-và-sai về mặt kỹ thuật

Họ không đi theo cách mà NVIDIA khuyến nghị (xây dựng cụm K8s hoặc dùng QEMU), mà cố giữ tốc độ khởi động nhanh của Fly Machines
Họ đã thử dùng driver vGPU của NVIDIA trên Intel Cloud Hypervisor nhưng thất bại
Do môi trường driver khép kín của NVIDIA, rất khó xây dựng một kiến trúc có thể tận dụng GPU hiệu quả
Cần tối ưu việc nạp trọng số mô hình bằng GPU, nhưng rất khó giải quyết mà vẫn giữ được trải nghiệm nhà phát triển (DX)
Họ đã mua nhiều GPU nhưng không đạt được kết quả như kỳ vọng

Vì sao mô hình kinh doanh GPU thất bại

Các nhà phát triển phổ thông muốn LLM hơn là GPU
- So với việc tối ưu mô hình AI/ML, sử dụng API LLM của OpenAI, Anthropic và các bên tương tự tiện hơn nhiều, và khác biệt hiệu năng cũng không quá lớn
- Hầu hết nhà phát triển coi trọng hiệu năng tính theo "tokens per second", và không mấy quan tâm đến các tối ưu ở mức mili giây mà GPU mang lại
Các công ty thực hiện công việc AI quy mô lớn cần năng lực tính toán GPU khổng lồ, và ngay cả một GPU A100 đơn lẻ cũng không đủ
- Các phòng thí nghiệm AI và doanh nghiệp lớn muốn các cụm H100 nền tảng SXM
Có thể tồn tại thị trường GPU cỡ nhỏ cho các tác vụ ML nhẹ, nhưng rất khó tận dụng NVIDIA MIG trong môi trường ảo hóa hoàn toàn
GPU L40S vẫn được dùng hữu ích, nhưng không thể trở thành động lực tăng trưởng cốt lõi cho hoạt động kinh doanh của Fly.io

Bài học rút ra

Ban đầu (2022), họ dự đoán sẽ có nhiều mô hình AI khác nhau xuất hiện, nhưng hiện nay thị trường đang hội tụ về một số ít mô hình LLM như OpenAI và Anthropic
Fly.io tuân theo nguyên tắc "thiết kế tính năng cho 10.000 nhà phát triển"
- GPU chỉ là tính năng dành cho nhà phát triển thứ 10.001, nên khó trở thành sản phẩm chủ lực
Startup là quá trình học hỏi thông qua nhiều lần thử thách, và việc đưa GPU vào là một khoản đặt cược thất bại
Khoản đầu tư liên quan đến GPU không hoàn toàn là tổn thất, vì một phần phần cứng có thể được bán lại sau này
Họ có thể điều chỉnh theo hướng thu hẹp hỗ trợ GPU trong khi vẫn giữ được tính bảo mật và trải nghiệm nhà phát triển của Fly Machines
Cũng như sản phẩm ban đầu của Fly.io là runtime điện toán biên JavaScript đã không phải thứ thị trường mong muốn và cuối cùng chuyển sang hỗ trợ container, GPU cũng là một lựa chọn không phù hợp với nhu cầu thị trường
Các startup thường tìm ra đáp án đúng thông qua những giả định sai, và trường hợp GPU lần này cũng là một phần của quá trình đó

1 bình luận

GN⁺ 2025-02-15

Ý kiến trên Hacker News

Các nhà phát triển muốn LLM hơn là GPU hay mô hình AI/ML. Các kỹ sư hệ thống quan tâm đến CUDA và GPU, nhưng các nhà phát triển phần mềm thì không
- Có một sự chia rẽ lớn giữa các nhà phát triển phần mềm. Một số muốn hiểu mã chạy ở đâu và hoạt động như thế nào
- Một nhóm khác chỉ muốn xong việc với git push, và không muốn hiểu những thứ như DNS hay Linux
- Các công ty như fly.io hấp dẫn nhóm sau. Các instance GPU hấp dẫn nhóm trước
- Cần tiếp cận hai thị trường này theo cách khác nhau. Với nhóm sau, có thể bán nhiều lớp trừu tượng hóa và tự động hóa hơn
Định luật Moore trên thực tế đã kết thúc từ năm 2012. Thực thi đơn luồng đã dừng lại ở mức 2GHz
- Trong giai đoạn 2012-2022, việc chuyển sang đám mây khiến mọi người không nhận ra sự đình trệ của đơn luồng
- Đến năm 2022, các trung tâm dữ liệu nhận ra rằng họ không cần mua các chip thế hệ tiếp theo với nhiều lõi hơn
- LLM có thể được xử lý song song 100%, vì vậy vốn đầu tư có thể được rót trở lại
- Năm 2024, silicon quy mô wafer sẽ xuất hiện. Nó có thể chạy mô hình Llama nhanh hơn A100 gấp 10 lần
- Phần mềm cần tìm cách tận dụng hiệu năng này
Máy GPU của fly rất nhanh và đáng tin cậy, và không đắt hơn so với các lựa chọn thay thế
- DX rất tuyệt. Không cần học lệnh mới
- Mong rằng giá sẽ rẻ hơn và có thể dùng ở nhiều khu vực hơn
Đã mua 4090, nhưng 24GB VRAM là không đủ
- Từ 2 chiếc 3090 trở lên cùng bộ nguồn tùy chỉnh có lẽ sẽ tốt hơn
- Hiệu năng và chất lượng vẫn còn thiếu
Khách hàng chọn Fly có lẽ sẽ là những người cuối cùng sử dụng máy chủ GPU chuyên dụng trong thời gian dài
- Họ có nhiều khả năng sẽ dùng các giải pháp serverless
Thật tiếc là không có GPU slice. Mức chi phí $1,000/tháng rất khó để biện minh
- Kết nối GPU tiêu dùng của AMD với Raspberry Pi có thể kinh tế hơn
“Chúng ta đã sai” là một trong những câu nói cao quý và đẹp đẽ nhất trong tiếng Anh
Fly.io thu hút các nhà phát triển tương tự như nền tảng Workers của Cloudflare
- Họ muốn tốc độ phát triển của môi trường PaaS
- Cloudflare vẫn giữ cách tiếp cận PaaS cùng với GPU và xây dựng Workers AI
Mất một tháng để thiết lập endpoint serverless trên Runpod, và nó đắt đỏ cũng như không đáng tin cậy
- Có thể dùng credit Google Cloud để cung cấp sản phẩm cho khách hàng
- Có nhu cầu đối với các nhà cung cấp GPU. Chưa chắc Fly có thể bước vào thị trường này hay không

Những ngộ nhận về GPU

Khó khăn kỹ thuật khi triển khai GPU

Những thử-và-sai về mặt kỹ thuật

Vì sao mô hình kinh doanh GPU thất bại

Bài học rút ra

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News