6 điểm bởi GN⁺ 2026-03-22 | 1 bình luận | Chia sẻ qua WhatsApp
  • tinygrad là một framework mạng nơ-ron kết hợp tính đơn giản và hiệu năng, cho phép hiện thực các mô hình phức tạp với cấu trúc phép toán tối thiểu
  • Dựa trên nền tảng đó, tinybox là một máy tính AI ngoại tuyến hiệu năng cao dành cho huấn luyện và suy luận deep learning, được cung cấp với ba mẫu: red, green và exa
  • Mẫu cao cấp green v2 blackwell đạt hiệu năng 3086 TFLOPS với 4 GPU RTX PRO 6000 và có thể giao ngay với giá $65,000
  • Mẫu cao cấp nhất exabox nhắm tới hiệu năng khoảng 1 EXAFLOP, dự kiến ra mắt vào năm 2027 với mức giá khoảng 10 triệu USD
  • Nhà sản xuất tiny corp đặt mục tiêu thương mại hóa petaflop và hiện thực hóa AI cho mọi người

Tổng quan về tinygrad

  • tinygrad là một framework mạng nơ-ron chú trọng sự đơn giản và hiệu năng, là một dự án đang tăng trưởng nhanh
  • Mạng phức tạp được cấu thành chỉ từ 3 OpType: ElementwiseOps, ReduceOps, MovementOps
    • ElementwiseOps thực hiện phép toán theo từng phần tử trên 1 đến 3 tensor, bao gồm SQRT, LOG2, ADD, MUL, WHERE...
    • ReduceOps nhận một tensor đầu vào và trả về tensor nhỏ hơn, gồm SUM, MAX...
    • MovementOps là các phép toán ảo di chuyển dữ liệu mà không cần sao chép, dùng ShapeTracker để thực hiện RESHAPE, PERMUTE, EXPAND...
  • Việc hiện thực các phép toán CONV hay MATMUL có thể xem trực tiếp trong mã nguồn

Dòng sản phẩm tinybox

  • tinybox là máy tính hiệu năng cao cho deep learning, gồm ba mẫu red, green, exa
  • Thông số chính của từng mẫu như sau
    • red v2

      • GPU: 4x 9070XT
      • Hiệu năng FP16(FP32 acc): 778 TFLOPS
      • GPU RAM: 64GB, băng thông 2560 GB/s
      • CPU: AMD EPYC 32 lõi
      • RAM hệ thống: 128GB, băng thông 204.8 GB/s
      • Ổ đĩa: NVMe 2TB, tốc độ đọc 7.3 GB/s
      • Kết nối mạng: 2x 1GbE + OCP3.0
      • Nguồn điện: 1600W
      • Độ ồn: dưới 50dB
      • Giá: $12,000, có thể giao ngay
    • green v2 blackwell

      • GPU: 4x RTX PRO 6000 Blackwell
      • Hiệu năng FP16(FP32 acc): 3086 TFLOPS
      • GPU RAM: 384GB, băng thông 7168 GB/s
      • CPU: AMD GENOA 32 lõi
      • RAM hệ thống: 192GB, băng thông 460.8 GB/s
      • Ổ đĩa: RAID 4TB + 1TB dùng để khởi động, tốc độ đọc 59.3 GB/s
      • Kết nối mạng: 2x 10GbE + OCP3.0
      • Nguồn điện: 2x 1600W
      • Độ ồn: 65dB (đo ở khoảng cách 10m)
      • Giá: $65,000, có thể giao ngay
    • exabox

      • GPU: 720x RDNA5 AT0 XL
      • Hiệu năng FP16(FP32 acc): khoảng 1 EXAFLOP
      • GPU RAM: 25,920GB, băng thông 1244 TB/s
      • CPU: 120x AMD GENOA 32 lõi
      • RAM hệ thống: 23,040GB, băng thông 55.2 TB/s
      • Ổ đĩa: RAID 480TB, tốc độ đọc 7.1 TB/s
      • Kết nối mạng: hỗ trợ mở rộng PCIe5 3.2 TB/s
      • Nguồn điện: 600kW
      • Kích thước: 20x8x8.5 ft, trọng lượng 20,000 lbs
      • Dự kiến ra mắt: năm 2027, giá dự kiến khoảng $10M
      • Tất cả các mẫu đều sử dụng hệ điều hành Ubuntu 24.04 và có thể lắp đặt theo dạng độc lập hoặc rack mount
      • Cập nhật sản phẩm và tình trạng hàng được cung cấp qua mailing list

FAQ

  • Tổng quan về tinybox

    • máy tính hiệu năng cao cho deep learning, có hiệu năng trên giá thành rất cao

      • Đã được so sánh trong benchmark MLPerf Training 4.0 với các hệ thống đắt hơn gấp 10 lần
      • Không chỉ huấn luyện mà còn có thể thực hiện suy luận (inference)
  • Đặt hàng và giao hàng

    • Có thể đặt hàng trên website và giao trong vòng 1 tuần sau khi thanh toán
    • Hỗ trợ nhận tại chỗ ở San Diego hoặc giao hàng toàn cầu
  • Tùy chỉnh và thanh toán

    • Không hỗ trợ tùy chỉnh để duy trì giá và chất lượng

      • Thanh toán chỉ chấp nhận chuyển khoản ngân hàng (wire transfer)
      • Biểu mẫu W-9 được cung cấp tại liên kết tải xuống
  • tinygrad được dùng ở đâu

    • Được dùng trong openpilot để chạy mô hình lái xe dựa trên GPU Snapdragon 845
    • Thay thế Qualcomm SNPE, nhanh hơn và cung cấp tải ONNX, hỗ trợ huấn luyện, tính năng attention
  • Tính năng và hiệu năng

    • Không chỉ dành cho suy luận, mà hỗ trợ đầy đủ cả forward/backward pass dựa trên autodiff
    • Cung cấp API tương tự PyTorch nhưng cấu trúc đơn giản hơn
    • Đang ở phiên bản alpha, độ ổn định còn thấp nhưng gần đây đã tương đối ổn định hơn
    • Dự kiến sẽ kết thúc giai đoạn alpha khi có thể tái hiện các bài báo nhanh gấp 2 lần PyTorch
    • Các yếu tố giúp tăng tốc
      • Biên dịch kernel tùy biến cho từng phép toán để tối ưu theo từng dạng
      • Tích cực fusion phép toán nhờ cấu trúc lazy tensor
      • Backend gọn nhẹ giúp tối ưu kernel là có thể nâng hiệu năng toàn hệ thống
  • Phát triển và cộng đồng

    • Việc phát triển đang diễn ra trên GitHubDiscord
    • Đóng góp tinygrad (PR) được xem là con đường quan trọng để tham gia tuyển dụng và đầu tư
    • Mục tiêu của tiny corpthương mại hóa petaflophiện thực hóa AI cho mọi người

1 bình luận

 
GN⁺ 2026-03-22
Ý kiến trên Hacker News
  • Trang web này tạo cảm giác do con người làm bằng tay chứ không phải AI, nên thấy khá mỉa mai
    Thiết kế và giọng văn rất đậm chất con người
    Dù vậy, ý tưởng thì rất tuyệt, và tôi nghĩ những mô hình huấn luyện cục bộ như thế này sẽ là tương lai giúp giảm phụ thuộc vào các mô hình của tập đoàn lớn
    Chỉ là sẽ tốt hơn nếu có thể cắm thẳng vào mạch 240V. Việc phải đi tìm hai mạch 120V khá phiền

    • Trong các bài viết về AI, những bài thực sự được tôn trọng phần lớn hầu như không có dấu vết do AI viết
      Tôi nghĩ vì người trong ngành rất nhạy trong việc phân biệt tín hiệu với nhiễu
    • Tôi thấy lạ khi họ công khai nhận đóng góp mã với câu “Invest with your PRs” nhưng lại không có chính sách nào với mã do AI tạo ra
      Có lẽ khối lượng PR ít đến mức họ có thể lịch sự bỏ qua các PR chất lượng thấp, nên cách tạo ra mã không quá quan trọng
    • Với người mua thiết bị giá 65 nghìn USD thì việc tìm hai mạch điện chắc chỉ là chuyện nhỏ
    • Thực ra mạch 240V ở Mỹ là hai đường 120V ghép lại, nên đi dây lại không khó
  • Mẫu cơ bản giá 12 nghìn USD thì quá đắt
    Tôi chạy mô hình 120B tham số trên Apple M3 Max (128GB RAM) ở mức 80W với tốc độ 15~20 token/giây
    Không hoàn hảo, nhưng tôi vẫn thấy ổn hơn một cỗ máy giá 12 nghìn USD

    • Hiệu năng tflops của M3 Max nhỏ đến mức không thể đem so với chiếc hộp 12k được
    • Mấy thiết bị kiểu này dành cho người ngốc. Năm ngoái tôi mua 160GB VRAM với giá 1 nghìn USD, còn 96GB VRAM P40 thì dưới 1 nghìn USD
      Với số đó có thể chạy gpt-oss-120b Q8 ở khoảng 30 token/giây
  • red v2 không thể nào chạy tử tế mô hình 120B được
    Tôi đã tự dựng một AI homelab dual A100 với 80GB VRAM nối bằng NVLink
    Mô hình 120B là bất khả thi nếu không lượng tử hóa mạnh, mà đến mức đó thì mô hình trở nên thiếu ổn định
    Không gian cho KV cache cũng không đủ nên khoảng ngữ cảnh 4k là OOM
    Hiện tôi chạy cả mô hình 70B cũng đã rất chật vật. Máy tôi còn nhiều hơn red v2 tới 16GB VRAM
    Với lại tôi không hiểu vì sao lại là 12U. Dàn của tôi là 4U
    green v2 thì GPU tốt hơn, nhưng với giá 65 nghìn USD thì CPU và RAM cũng phải tốt hơn rất nhiều
    Tôi mừng vì nó tồn tại, nhưng thật lòng thì tỷ lệ phân bổ cấu hình này khó hiểu

    • Hiệu năng ổn, nhưng không đến mức điên rồ
      Tôi chạy gpt-oss-120b Q4 trên một box Epyc Milan, chia giữa RAM và GPU, và được khoảng 30~50 token/giây
      Cấu hình 64G VRAM/128G RAM là không hiệu quả. Ngay cả mô hình MoE cũng chỉ cần khoảng 20B cho router, phần VRAM còn lại là lãng phí
    • Lý do là 12U có lẽ vì họ dùng một SKU vỏ máy duy nhất
      Kiểu như sẽ trả lời rằng “để giảm giá và giữ chất lượng, chúng tôi không cung cấp tùy biến kích thước máy chủ”
    • Thành thật mà nói, hai chiếc RTX 8000 có vẻ sẽ cho ROI tốt hơn red v2
      Tôi dùng máy chủ 8 GPU (5 RTX 8000, 3 RTX 6000 Ada), và với suy luận cơ bản thì 8000 là đủ
      Mẫu green có thể nhanh hơn, nhưng tôi không thấy thuyết phục với 25 nghìn USD chi phí cộng thêm
    • Tôi tò mò không biết như vậy có rẻ hơn Blackwell 6000 không
      4 chiếc Blackwell 6000 có giá khoảng 32~36 nghìn USD, nên tôi không rõ 30 nghìn USD còn lại đã đi đâu
    • Tôi nghĩ có thể dùng ngữ cảnh dài hơn nếu offload KV sang RAM hệ thống hoặc lưu trữ
      Một số framework AI cục bộ hỗ trợ chính sách LRU chỉ dùng một phần VRAM làm cache, nên overhead có thể chấp nhận được
  • exabox khá thú vị
    Tôi tò mò ai sẽ là khách hàng. Sau khi xem video ra mắt Vera Rubin, tôi gần như không thể tưởng tượng chuyện ai đó sẽ cạnh tranh với NVIDIA ở thị trường hyperscale
    Có lẽ họ nhắm đến các startup ML ưu tiên hiệu năng/giá thành
    Nhìn giá thực tế thì Vera Rubin chỉ bằng khoảng một nửa ở mức RAM GPU tương đương
    Dù chắc chắn không thể bằng chất lượng interconnect của NV
    Tôi không rõ ai sẽ mua thứ này. NV thì đã giao hàng rồi

    • Hạ tầng của các tập đoàn lớn thường đã hơn 5 năm tuổi, nên chi phí nâng cấp quá lớn khiến họ không thể đổi dễ dàng
      Nếu nhắm vào khe hở đó thì vẫn có thể cạnh tranh. Nếu thị phần dưới 0,01% thì các ông lớn cũng chẳng bận tâm
    • Có người đùa lại câu “exabox khá thú vị” bằng phản ứng “chạy được Crysis không
  • Không biết cái này có phải dạng máy đào crypto mới không
    Trước đây người ta bán phần cứng để đào, giờ thì có cảm giác đang bán cho AI

    • Cũng na ná, nhưng khác ở chỗ không có block reward
  • Tinybox thì ngầu đấy, nhưng thị trường có lẽ sẽ muốn những sản phẩm kiểu bảo đảm hiệu năng rõ ràng hơn, như “có thể chạy Kimi 2.5 ở 50 token/giây”

  • Gợi nhớ đến khái niệm Decoy effect

  • Tôi tò mò hệ thống này xử lý làm mát thế nào

  • Về điều kiện tinygrad sẽ ra khỏi alpha “khi nhanh hơn pytorch 2 lần”
    Cần có giải thích cụ thể pytorch chậm hơn phần cứng tới hơn 2 lần ở loại workload nào
    Phần lớn bài báo dùng các thành phần tiêu chuẩn, và pytorch hiện đã khai thác được hơn 50% hiệu năng GPU
    Nếu đó là trường hợp đặc biệt mà chỉ khi viết custom kernel mới ra hiệu năng, thì đó lại là chuyện khác

  • Tôi không hiểu vì sao họ ngừng cấu hình 6 GPU
    Bản 4 GPU (9070, RTX6000) là thiết kế 2 khe nên có thể dựng bằng cả mainboard phổ thông
    Bản 6 GPU thì cần riser, PCIe retimer, PSU kép và vỏ máy tùy biến nên phức tạp hơn
    Nhưng đổi lại tôi nghĩ hiệu năng/giá thành tốt hơn nhiều