7 điểm bởi GN⁺ 2025-02-15 | 1 bình luận | Chia sẻ qua WhatsApp
  • Fly.io đang xây dựng một đám mây công cộng sử dụng phần cứng riêng, và đã phát triển Fly GPU Machines với mục tiêu cung cấp suy luận AI/ML dùng GPU
  • Fly GPU Machines là các VM chạy container Docker/OCI, được thiết kế để ánh xạ trực tiếp GPU NVIDIA nhằm cho phép tính toán CUDA nhanh
  • Tầm quan trọng của AI/ML lớn hơn dự đoán, nhưng có vẻ như các sản phẩm GPU đã không phản ánh đúng nhu cầu của thị trường

Khó khăn kỹ thuật khi triển khai GPU

  • Fly GPU Machines được thiết kế để hỗ trợ PCI passthrough bằng cách dùng Cloud Hypervisor của Intel thay vì Firecracker
  • Hệ sinh thái của NVIDIA không hỗ trợ hypervisor microVM, khiến việc tối ưu bảo mật và hiệu năng GPU trở nên khó khăn
  • GPU là đối tượng khiến đội ngũ bảo mật lo ngại, vì có thể thực hiện truyền DMA (Direct Memory Access) đa hướng và các phép toán do người dùng kiểm soát, tạo ra rủi ro bảo mật cao
  • Để tách biệt workload GPU và không-GPU, họ phải dùng phần cứng máy chủ riêng, dẫn đến cấu trúc chi phí kém hiệu quả
  • Để xác minh bảo mật, họ đã tiến hành các đợt đánh giá bảo mật quy mô lớn với Atredis và Tetrel, tốn nhiều chi phí và thời gian

Những thử-và-sai về mặt kỹ thuật

  • Họ không đi theo cách mà NVIDIA khuyến nghị (xây dựng cụm K8s hoặc dùng QEMU), mà cố giữ tốc độ khởi động nhanh của Fly Machines
  • Họ đã thử dùng driver vGPU của NVIDIA trên Intel Cloud Hypervisor nhưng thất bại
  • Do môi trường driver khép kín của NVIDIA, rất khó xây dựng một kiến trúc có thể tận dụng GPU hiệu quả
  • Cần tối ưu việc nạp trọng số mô hình bằng GPU, nhưng rất khó giải quyết mà vẫn giữ được trải nghiệm nhà phát triển (DX)
  • Họ đã mua nhiều GPU nhưng không đạt được kết quả như kỳ vọng

Vì sao mô hình kinh doanh GPU thất bại

  • Các nhà phát triển phổ thông muốn LLM hơn là GPU
    • So với việc tối ưu mô hình AI/ML, sử dụng API LLM của OpenAI, Anthropic và các bên tương tự tiện hơn nhiều, và khác biệt hiệu năng cũng không quá lớn
    • Hầu hết nhà phát triển coi trọng hiệu năng tính theo "tokens per second", và không mấy quan tâm đến các tối ưu ở mức mili giây mà GPU mang lại
  • Các công ty thực hiện công việc AI quy mô lớn cần năng lực tính toán GPU khổng lồ, và ngay cả một GPU A100 đơn lẻ cũng không đủ
    • Các phòng thí nghiệm AI và doanh nghiệp lớn muốn các cụm H100 nền tảng SXM
  • Có thể tồn tại thị trường GPU cỡ nhỏ cho các tác vụ ML nhẹ, nhưng rất khó tận dụng NVIDIA MIG trong môi trường ảo hóa hoàn toàn
  • GPU L40S vẫn được dùng hữu ích, nhưng không thể trở thành động lực tăng trưởng cốt lõi cho hoạt động kinh doanh của Fly.io

Bài học rút ra

  • Ban đầu (2022), họ dự đoán sẽ có nhiều mô hình AI khác nhau xuất hiện, nhưng hiện nay thị trường đang hội tụ về một số ít mô hình LLM như OpenAI và Anthropic
  • Fly.io tuân theo nguyên tắc "thiết kế tính năng cho 10.000 nhà phát triển"
    • GPU chỉ là tính năng dành cho nhà phát triển thứ 10.001, nên khó trở thành sản phẩm chủ lực
  • Startup là quá trình học hỏi thông qua nhiều lần thử thách, và việc đưa GPU vào là một khoản đặt cược thất bại
  • Khoản đầu tư liên quan đến GPU không hoàn toàn là tổn thất, vì một phần phần cứng có thể được bán lại sau này
  • Họ có thể điều chỉnh theo hướng thu hẹp hỗ trợ GPU trong khi vẫn giữ được tính bảo mật và trải nghiệm nhà phát triển của Fly Machines
  • Cũng như sản phẩm ban đầu của Fly.io là runtime điện toán biên JavaScript đã không phải thứ thị trường mong muốn và cuối cùng chuyển sang hỗ trợ container, GPU cũng là một lựa chọn không phù hợp với nhu cầu thị trường
  • Các startup thường tìm ra đáp án đúng thông qua những giả định sai, và trường hợp GPU lần này cũng là một phần của quá trình đó

1 bình luận

 
GN⁺ 2025-02-15
Ý kiến trên Hacker News
  • Các nhà phát triển muốn LLM hơn là GPU hay mô hình AI/ML. Các kỹ sư hệ thống quan tâm đến CUDA và GPU, nhưng các nhà phát triển phần mềm thì không

    • Có một sự chia rẽ lớn giữa các nhà phát triển phần mềm. Một số muốn hiểu mã chạy ở đâu và hoạt động như thế nào
    • Một nhóm khác chỉ muốn xong việc với git push, và không muốn hiểu những thứ như DNS hay Linux
    • Các công ty như fly.io hấp dẫn nhóm sau. Các instance GPU hấp dẫn nhóm trước
    • Cần tiếp cận hai thị trường này theo cách khác nhau. Với nhóm sau, có thể bán nhiều lớp trừu tượng hóa và tự động hóa hơn
  • Định luật Moore trên thực tế đã kết thúc từ năm 2012. Thực thi đơn luồng đã dừng lại ở mức 2GHz

    • Trong giai đoạn 2012-2022, việc chuyển sang đám mây khiến mọi người không nhận ra sự đình trệ của đơn luồng
    • Đến năm 2022, các trung tâm dữ liệu nhận ra rằng họ không cần mua các chip thế hệ tiếp theo với nhiều lõi hơn
    • LLM có thể được xử lý song song 100%, vì vậy vốn đầu tư có thể được rót trở lại
    • Năm 2024, silicon quy mô wafer sẽ xuất hiện. Nó có thể chạy mô hình Llama nhanh hơn A100 gấp 10 lần
    • Phần mềm cần tìm cách tận dụng hiệu năng này
  • Máy GPU của fly rất nhanh và đáng tin cậy, và không đắt hơn so với các lựa chọn thay thế

    • DX rất tuyệt. Không cần học lệnh mới
    • Mong rằng giá sẽ rẻ hơn và có thể dùng ở nhiều khu vực hơn
  • Đã mua 4090, nhưng 24GB VRAM là không đủ

    • Từ 2 chiếc 3090 trở lên cùng bộ nguồn tùy chỉnh có lẽ sẽ tốt hơn
    • Hiệu năng và chất lượng vẫn còn thiếu
  • Khách hàng chọn Fly có lẽ sẽ là những người cuối cùng sử dụng máy chủ GPU chuyên dụng trong thời gian dài

    • Họ có nhiều khả năng sẽ dùng các giải pháp serverless
  • Thật tiếc là không có GPU slice. Mức chi phí $1,000/tháng rất khó để biện minh

    • Kết nối GPU tiêu dùng của AMD với Raspberry Pi có thể kinh tế hơn
  • “Chúng ta đã sai” là một trong những câu nói cao quý và đẹp đẽ nhất trong tiếng Anh

  • Fly.io thu hút các nhà phát triển tương tự như nền tảng Workers của Cloudflare

    • Họ muốn tốc độ phát triển của môi trường PaaS
    • Cloudflare vẫn giữ cách tiếp cận PaaS cùng với GPU và xây dựng Workers AI
  • Mất một tháng để thiết lập endpoint serverless trên Runpod, và nó đắt đỏ cũng như không đáng tin cậy

    • Có thể dùng credit Google Cloud để cung cấp sản phẩm cho khách hàng
    • Có nhu cầu đối với các nhà cung cấp GPU. Chưa chắc Fly có thể bước vào thị trường này hay không