- Fly.io đang xây dựng một đám mây công cộng sử dụng phần cứng riêng, và đã phát triển Fly GPU Machines với mục tiêu cung cấp suy luận AI/ML dùng GPU
- Fly GPU Machines là các VM chạy container Docker/OCI, được thiết kế để ánh xạ trực tiếp GPU NVIDIA nhằm cho phép tính toán CUDA nhanh
- Tầm quan trọng của AI/ML lớn hơn dự đoán, nhưng có vẻ như các sản phẩm GPU đã không phản ánh đúng nhu cầu của thị trường
Khó khăn kỹ thuật khi triển khai GPU
- Fly GPU Machines được thiết kế để hỗ trợ PCI passthrough bằng cách dùng Cloud Hypervisor của Intel thay vì Firecracker
- Hệ sinh thái của NVIDIA không hỗ trợ hypervisor microVM, khiến việc tối ưu bảo mật và hiệu năng GPU trở nên khó khăn
- GPU là đối tượng khiến đội ngũ bảo mật lo ngại, vì có thể thực hiện truyền DMA (Direct Memory Access) đa hướng và các phép toán do người dùng kiểm soát, tạo ra rủi ro bảo mật cao
- Để tách biệt workload GPU và không-GPU, họ phải dùng phần cứng máy chủ riêng, dẫn đến cấu trúc chi phí kém hiệu quả
- Để xác minh bảo mật, họ đã tiến hành các đợt đánh giá bảo mật quy mô lớn với Atredis và Tetrel, tốn nhiều chi phí và thời gian
Những thử-và-sai về mặt kỹ thuật
- Họ không đi theo cách mà NVIDIA khuyến nghị (xây dựng cụm K8s hoặc dùng QEMU), mà cố giữ tốc độ khởi động nhanh của Fly Machines
- Họ đã thử dùng driver vGPU của NVIDIA trên Intel Cloud Hypervisor nhưng thất bại
- Do môi trường driver khép kín của NVIDIA, rất khó xây dựng một kiến trúc có thể tận dụng GPU hiệu quả
- Cần tối ưu việc nạp trọng số mô hình bằng GPU, nhưng rất khó giải quyết mà vẫn giữ được trải nghiệm nhà phát triển (DX)
- Họ đã mua nhiều GPU nhưng không đạt được kết quả như kỳ vọng
Vì sao mô hình kinh doanh GPU thất bại
- Các nhà phát triển phổ thông muốn LLM hơn là GPU
- So với việc tối ưu mô hình AI/ML, sử dụng API LLM của OpenAI, Anthropic và các bên tương tự tiện hơn nhiều, và khác biệt hiệu năng cũng không quá lớn
- Hầu hết nhà phát triển coi trọng hiệu năng tính theo "tokens per second", và không mấy quan tâm đến các tối ưu ở mức mili giây mà GPU mang lại
- Các công ty thực hiện công việc AI quy mô lớn cần năng lực tính toán GPU khổng lồ, và ngay cả một GPU A100 đơn lẻ cũng không đủ
- Các phòng thí nghiệm AI và doanh nghiệp lớn muốn các cụm H100 nền tảng SXM
- Có thể tồn tại thị trường GPU cỡ nhỏ cho các tác vụ ML nhẹ, nhưng rất khó tận dụng NVIDIA MIG trong môi trường ảo hóa hoàn toàn
- GPU L40S vẫn được dùng hữu ích, nhưng không thể trở thành động lực tăng trưởng cốt lõi cho hoạt động kinh doanh của Fly.io
Bài học rút ra
- Ban đầu (2022), họ dự đoán sẽ có nhiều mô hình AI khác nhau xuất hiện, nhưng hiện nay thị trường đang hội tụ về một số ít mô hình LLM như OpenAI và Anthropic
- Fly.io tuân theo nguyên tắc "thiết kế tính năng cho 10.000 nhà phát triển"
- GPU chỉ là tính năng dành cho nhà phát triển thứ 10.001, nên khó trở thành sản phẩm chủ lực
- Startup là quá trình học hỏi thông qua nhiều lần thử thách, và việc đưa GPU vào là một khoản đặt cược thất bại
- Khoản đầu tư liên quan đến GPU không hoàn toàn là tổn thất, vì một phần phần cứng có thể được bán lại sau này
- Họ có thể điều chỉnh theo hướng thu hẹp hỗ trợ GPU trong khi vẫn giữ được tính bảo mật và trải nghiệm nhà phát triển của Fly Machines
- Cũng như sản phẩm ban đầu của Fly.io là runtime điện toán biên JavaScript đã không phải thứ thị trường mong muốn và cuối cùng chuyển sang hỗ trợ container, GPU cũng là một lựa chọn không phù hợp với nhu cầu thị trường
- Các startup thường tìm ra đáp án đúng thông qua những giả định sai, và trường hợp GPU lần này cũng là một phần của quá trình đó
1 bình luận
Ý kiến trên Hacker News
Các nhà phát triển muốn LLM hơn là GPU hay mô hình AI/ML. Các kỹ sư hệ thống quan tâm đến CUDA và GPU, nhưng các nhà phát triển phần mềm thì không
git push, và không muốn hiểu những thứ như DNS hay LinuxĐịnh luật Moore trên thực tế đã kết thúc từ năm 2012. Thực thi đơn luồng đã dừng lại ở mức 2GHz
Máy GPU của fly rất nhanh và đáng tin cậy, và không đắt hơn so với các lựa chọn thay thế
Đã mua 4090, nhưng 24GB VRAM là không đủ
Khách hàng chọn Fly có lẽ sẽ là những người cuối cùng sử dụng máy chủ GPU chuyên dụng trong thời gian dài
Thật tiếc là không có GPU slice. Mức chi phí $1,000/tháng rất khó để biện minh
“Chúng ta đã sai” là một trong những câu nói cao quý và đẹp đẽ nhất trong tiếng Anh
Fly.io thu hút các nhà phát triển tương tự như nền tảng Workers của Cloudflare
Mất một tháng để thiết lập endpoint serverless trên Runpod, và nó đắt đỏ cũng như không đáng tin cậy