1 điểm bởi GN⁺ 5 ngày trước | 2 bình luận | Chia sẻ qua WhatsApp
  • Darkbloom là một mạng suy luận AI phân tán kết nối các Apple Silicon Mac đang nhàn rỗi để xử lý tác vụ AI trên thiết bị cá nhân mà không cần đám mây tập trung
  • Loại bỏ cấu trúc ba tầng biên lợi nhuận giữa các nhà cung cấp GPU, đám mây và API hiện có, qua đó giảm chi phí tới 70%
  • Mọi yêu cầu đều được mã hóa đầu cuối, nên nhà vận hành không thể xem dữ liệu người dùng, đồng thời độ tin cậy được đảm bảo bằng chuỗi chứng thực dựa trên phần cứng bảo mật của Apple
  • Cung cấp API tương thích OpenAI, hỗ trợ các chức năng tương tự SDK hiện có như trò chuyện, tạo ảnh và nhận dạng giọng nói
  • Nhà vận hành giữ lại 95~100% doanh thu, và có thể kiếm thu nhập bằng USD từ Mac nhàn rỗi mà gần như không phát sinh chi phí ngoài tiền điện

Mạng suy luận AI cá nhân tận dụng Mac nhàn rỗi

  • Darkbloommạng suy luận AI phân tán do Eigen Labs phát triển, kết nối các Apple Silicon Mac đang nhàn rỗi để thực hiện tính toán AI
  • Hiện nay, tác vụ AI phải đi qua cấu trúc biên lợi nhuận ba tầng từ nhà sản xuất GPU → hyperscaler → nhà cung cấp API → người dùng cuối; Darkbloom loại bỏ cấu trúc này để giảm chi phí tới 70%
  • Nhà vận hành mạng không thể xem dữ liệu người dùng, và mọi yêu cầu đều được xử lý bằng mã hóa đầu cuối
  • API tương thích OpenAI, hỗ trợ trò chuyện, tạo ảnh và nhận dạng giọng nói giống như các SDK hiện có
  • Nhà vận hành giữ lại 95~100% doanh thu, trong khi gần như không có thêm chi phí ngoài tiền điện

Tính năng cho người dùng

  • Do chi phí biên của phần cứng nhàn rỗi gần như bằng 0, khoản tiết kiệm chi phí được phản ánh trực tiếp vào giá cho người dùng
  • Cung cấp chức năng trò chuyện, tạo ảnh và chuyển giọng nói thành văn bản thông qua API tương thích OpenAI
  • Mọi yêu cầu đều được mã hóa đầu cuối khi truyền đi

Tính năng cho chủ sở hữu phần cứng

  • Người dùng sở hữu Apple Silicon Mac có thể thực hiện suy luận AI trong thời gian máy nhàn rỗi để kiếm thu nhập bằng USD
  • Nhà vận hành giữ lại 100% doanh thu từ suy luận, còn chi phí điện ở mức $0.01~$0.03 mỗi giờ
  • Phần còn lại trở thành lợi nhuận ròng

Vấn đề cấu trúc của thị trường tính toán AI

  • Thị trường tính toán AI hiện nay có cấu trúc ba tầng biên lợi nhuận: nhà sản xuất GPU → nhà cung cấp đám mây → công ty AI → người dùng cuối
  • Vì vậy người dùng cuối phải trả hơn 3 lần chi phí silicon thực tế
  • Trong khi đó, hơn 100 triệu thiết bị Apple Silicon vẫn ở trạng thái nhàn rỗi hơn 18 giờ mỗi ngày
  • Nếu kết nối những tài nguyên tính toán nhàn rỗi này, có thể khai thác tài sản phân tán giống như Airbnb hay Uber
  • Darkbloom chuyển các máy Mac nhàn rỗi này thành node suy luận AI, thay thế hạ tầng tập trung

Bài toán niềm tin và hướng giải quyết

  • Vấn đề cốt lõi của mạng tính toán phân tán là độ tin cậy
  • Người dùng phải xử lý dữ liệu của mình trên thiết bị của bên thứ ba không quen biết, nên mức bảo mật chỉ dựa trên điều khoản sử dụng là không đủ
  • Nếu không có quyền riêng tư có thể kiểm chứng (Verifiable Privacy) thì không thể triển khai suy luận phân tán

Cách tiếp cận kỹ thuật của Darkbloom

  • Loại bỏ đường truy cập

    • Loại bỏ mọi đường truy cập phần mềm mà nhà vận hành có thể dùng để tiếp cận dữ liệu
    • Gồm bốn lớp độc lập, mỗi lớp đều có thể kiểm chứng
  • Lớp mã hóa

    • Yêu cầu được mã hóa trên thiết bị người dùng trước khi truyền
    • Coordinator chỉ định tuyến bản mã, và chỉ khóa phần cứng của node đích mới có thể giải mã
  • Lớp phần cứng

    • Mỗi node sở hữu khóa được tạo ra trong phần cứng bảo mật của Apple
    • Có thể xác minh thông qua chuỗi chứng thực (attestation chain) bắt nguồn từ Apple Root CA
  • Lớp runtime

    • Tiến trình suy luận được khóa ở cấp độ OS
    • Chặn việc gắn debugger và kiểm tra bộ nhớ
    • Nhà vận hành không thể trích xuất dữ liệu từ tiến trình đang chạy
  • Lớp đầu ra

    • Mọi phản hồi đều có thể được xác minh bằng chữ ký của phần cứng tương ứng
    • Toàn bộ chuỗi chứng thực được công khai để bất kỳ ai cũng có thể kiểm chứng độc lập
  • Kết quả là nhà vận hành chạy suy luận nhưng không thể xem dữ liệu

    • Prompt được mã hóa trước khi truyền
    • Coordinator định tuyến mà không thể đọc nội dung
    • Provider giải mã và thực thi trong môi trường cô lập đã được xác minh
    • Chuỗi chứng thực được công khai để đảm bảo tính minh bạch

Chi tiết triển khai

  • API tương thích OpenAI

    • Hoàn toàn tương thích với OpenAI SDK hiện có
    • Có thể dùng cùng đoạn mã, chỉ cần đổi Base URL
    • Hỗ trợ đầy đủ Streaming, Function Calling, Image Generation, Speech-to-Text
    • Các tính năng được hỗ trợ
    • Streaming: dựa trên SSE, định dạng OpenAI
    • Image Generation: FLUX.2 on Metal
    • Speech-to-Text: Cohere Transcribe
    • Large MoE: hỗ trợ mô hình tối đa 239B tham số

Kết quả so sánh chi phí

  • Do chi phí biên của phần cứng nhàn rỗi gần như bằng 0, nên tạo ra hiệu quả giảm giá
  • Không có phí thuê bao hoặc mức sử dụng tối thiểu
  • Mức giá thấp hơn 50% so với OpenRouter
Mô hình Đầu vào Đầu ra OpenRouter Tỷ lệ giảm
Gemma 4 26B4B $0.03 $0.20 $0.40 50%
Qwen3.5 27B $0.10 $0.78 $1.56 50%
Qwen3.5 122B MoE $0.13 $1.04 $2.08 50%
MiniMax M2.5 239B $0.06 $0.50 $1.00 50%
  • Tạo ảnh: $0.0015/ảnh (thấp hơn 50% so với Together.ai)
  • Nhận dạng giọng nói: $0.001/phút (thấp hơn 50% so với AssemblyAI)
  • Phí nền tảng 0%, nhà vận hành giữ 100% doanh thu

Hiệu quả kinh tế cho nhà vận hành

  • Khi cung cấp thiết bị Apple Silicon, có thể kiếm thu nhập bằng USD
  • Không có chi phí bổ sung ngoài tiền điện, và giữ lại 100% doanh thu
  • Hỗ trợ cài đặt qua CLI, ứng dụng menu bar trên macOS đang được phát triển
  • Cách cài đặt

    • Tải provider binary bằng lệnh terminal và đăng ký dịch vụ launchd
    • Không có dependency**,** tự động cập nhật**,** chạy nền

      • Chỉ dành cho macOS 14 trở lên và Apple Silicon
  • Doanh thu dự kiến

    • Có thể ước tính doanh thu theo mức vận hành 18 giờ mỗi ngày
    • Doanh thu thực tế sẽ thay đổi tùy theo nhu cầu mạng và độ phổ biến của mô hình

Nghiên cứu và danh mục mô hình

  • Bài nghiên cứu mô tả chi tiết kiến trúc, mô hình đe dọa, phân tích bảo mật và mô hình kinh tế
  • Nội dung xoay quanh kiến trúc suy luận riêng tư dựa trên xác minh phần cứng
  • Cung cấp liên kết tải PDF
  • Các mô hình có thể dùng

    • Gemma 4 26B: MoE đa phương thức mới nhất của Google, 4B tham số hoạt động
    • Qwen3.5 27B: mô hình suy luận chất lượng cao (distillation từ Claude Opus)
    • Qwen3.5 122B MoE: 10B tham số hoạt động, chất lượng hàng đầu trên mỗi token
    • MiniMax M2.5 239B: mô hình lập trình SOTA, đạt 100 tok/s trên Mac Studio
    • Cohere Transcribe: conformer 2B, chuyển giọng nói thành văn bản ở đẳng cấp hàng đầu

2 bình luận

 

Về mặt ý tưởng thì khá thú vị, nhưng vẫn có phần nghi ngờ liệu trên thực tế nó có vận hành trơn tru hay không. Như cũng đã được nhắc trong các ý kiến trên HN, thị trường hai phía (two-sided market) là bài toán lớn vì phải thành công trong việc thu hút khách hàng ban đầu ở cả hai phía.

 
Ý kiến trên Hacker News
  • Tôi thấy cách tính doanh thu của họ khó tin
    Nếu một chiếc Mac mini có thể hoàn vốn sau 2~4 tháng rồi sau đó kiếm 1~2 nghìn USD mỗi tháng, thì tôi thắc mắc vì sao họ không просто mua Mac mini và tự vận hành

    • Bản thân phép tính đó dựa trên các giả định lạc quan. Vì họ giả định mọi máy lúc nào cũng có nhu cầu
      Hiện tại không phải vậy, nhưng họ kỳ vọng một lúc nào đó sẽ như thế. Vì vậy không khuyến nghị mua thiết bị mới. Nếu chạy trên thiết bị đã có sẵn thì gần như không tốn chi phí
      Tiền điện chỉ phát sinh khi có request, và mỗi lần như vậy đều được bù lại
      Nếu có gì thắc mắc thì có thể DM cho @gajesh
    • Nếu họ bắt đầu tự mua Mac mini, cuối cùng họ sẽ phải xây một trung tâm dữ liệu nhỏ vì các vấn đề điện năng, làm mát và lưu trữ
      Khi hiệu ứng kinh tế theo quy mô bắt đầu phát huy, họ sẽ ngày càng muốn các trung tâm lớn hơn, nhưng việc này tốn kém và hàng xóm cũng không thích
      Cuối cùng trông giống như một cuộc chiến bất đối xứng chống lại các hyperscaler
    • Không nhà cung cấp GPU nào duy trì được mức sử dụng 100%. Nhu cầu luôn lên xuống thất thường
      Ví dụ giờ thị trường chứng khoán mở cửa thì bận, còn ngoài thời gian đó thì vắng
      Nếu không overprovision thì khách sẽ bỏ đi, còn nếu làm quá mức thì lợi nhuận giảm
      Thực tế có lẽ chỉ đạt mức sử dụng khoảng 1/8. Nếu tính với chiếc M4 Pro mini của tôi thì với mô hình Gemma 4, có vẻ chỉ khoảng 24 USD/tháng
    • Mấu chốt là thiếu vốn ban đầu. Phần lớn mọi người đã có sẵn máy tính đang nhàn rỗi, chỉ cần thuyết phục họ cài phần mềm là được
      Việc tự mua và bảo trì phần cứng đắt hơn nhiều. Khoản đầu tư ban đầu là rào cản gia nhập lớn nhất
    • Trên đời có rất nhiều máy Mac đang nhàn rỗi nên việc gom được tập người dùng là khá dễ
      Có thể bắt đầu mà không cần vốn VC, và điểm khác biệt cũng rất rõ ràng
      Chỉ là cũng có thể sẽ có ai đó làm điều tương tự với mức phí cao hơn, nên việc chiếm lĩnh thị trường sớm là quan trọng
  • Tôi đã tự cài thử, nhưng mức độ hoàn thiện chưa cao
    Có rất nhiều lỗi như tải model ảnh thất bại, load model audio/TTS thất bại
    Tôi đã phục vụ Gemma trong 15 phút nhưng số request suy luận thực tế là 0, chỉ có health check vào vài lần
    Hiện tại thiếu nhu cầu nên dự báo doanh thu không đúng

    • Mới ra mắt được một ngày nên chưa có nhu cầu cũng là chuyện bình thường. Cần thêm thời gian
    • Tôi tò mò không biết đã có ai thực sự gửi prompt và nhận phản hồi ở phía bên kia để kiểm thử chưa
    • Nhìn trang thống kê thì có nhiều nhà cung cấp nhưng gần như không có nhu cầu thực tế
      Có vẻ hiện giờ họ đang tập trung vào việc kiếm nhà cung cấp, và việc tìm khách hàng trả tiền là cấp bách
    • Tôi cứ nghĩ ít nhất lúc đầu họ sẽ tự tạo request để tạo động lực hosting, nhưng lại không có tính năng đó
    • Tôi cũng thấy cùng lỗi đó, và trong log có cảnh báo “STT backend health check failed”. Ngay cả khi có nhu cầu thực tế thì đây cũng có thể là nguyên nhân
  • Muốn dùng dịch vụ này thì phải cài MDM (phần mềm quản lý thiết bị)
    Thực tế là từ khoảnh khắc đó, chiếc máy tính ấy nằm dưới sự kiểm soát của họ
    Tôi tuyệt đối không khuyến nghị dùng trên máy tính có xử lý việc nhạy cảm như ngân hàng

    • MDM trên macOS bị giới hạn quyền bởi AccessRights, nên không thể truy cập ở mức thay chứng chỉ SSL
      Nhưng chính sách quyền riêng tư của họ lại khá sơ sài nên khó mà tin tưởng
    • MDM là điều kiện tuyệt đối không thể chấp nhận. Tôi không thể biến MacBook của mình thành một cục gạch tiềm tàng
      Hơn nữa cũng chẳng có lý do gì để chấp nhận rủi ro đó chỉ để kiếm vài USD mỗi tháng
  • Họ nói dùng TEE (Trusted Execution Environment) để xác minh tính toàn vẹn của model và code
    Tôi cũng từng làm thứ tương tự trên AWS, nhưng vẫn nghi ngờ liệu có thể bảo vệ bộ nhớ khi dùng GPU hay không
    Có thể xem bài báo liên quan ở đây

    • Cả bài báo toát ra mùi LLM. Việc dùng quá nhiều công thức khiến độ tin cậy giảm đi
    • Trong thực tế, nếu gửi dữ liệu lên máy chủ bên ngoài thì ở mức nào đó khó tránh khỏi việc lưu giữ dữ liệu
      Sẽ an toàn hơn nếu chỉ dùng cho những mục đích không thương mại như phân loại hoặc tạo ảnh thay vì dữ liệu nhạy cảm
    • Apple Silicon dùng bộ nhớ hợp nhất cho CPU và GPU
      Kỹ thuật bảng trang hypervisor được nói tới trong bài báo khẳng định có thể bảo vệ bộ nhớ GPU khỏi RDMA
    • Máy Mac không có TEE phần cứng kiểu SGX, chỉ có Secure Enclave
  • Trên MacBook ngày nay, quyền riêng tư có thể kiểm chứng là điều không thể về mặt vật lý
    Có Secure Enclave, nhưng không phải enclave công khai kiểu SGX/TDX/SEV
    Rốt cuộc đây chỉ là mức bảo mật kiểu hardening của OS, chứ không phải môi trường thực thi bí mật thực sự

    • Tôi từng tự làm SGX SDK. Trên nền tảng Apple cũng có thể triển khai mức bảo mật tương tự ở mức độ nào đó
      Nếu có thể xác thực từ xa boot sequence và cấu hình TCC của macOS thì đây là một kiến trúc khá đáng tin
      Không hoàn hảo như SGX thực thụ, nhưng về tính khả dụng thì tốt hơn
    • Tôi lại cảm thấy các node phân tán ngẫu nhiên còn đáng tin hơn nhà cung cấp tập trung hóa như OpenAI
    • Nếu có đủ động lực, cuối cùng bất kỳ khóa phần cứng nào cũng sẽ bị phá. Những gì họ tuyên bố có phần quá tự tin
  • Nếu tính đơn giản thì chiếc M5 Pro của tôi tạo ra 130 token mỗi giây (4 stream) với Gemma 4 26B
    Giá của Darkbloom là $0.20 mỗi Mtok, nên nếu chạy 24 giờ thì doanh thu mỗi tháng khoảng 67 USD
    Trừ tiền điện thì chi phí khoảng 9 USD/tháng, tức chỉ tầm kiếm thêm khoảng 700 USD/năm

    • Thực tế nó tiêu thụ điện nhiều hơn rất nhiều so với 50W. Tiền điện cũng đắt và phần cứng cũng xuống cấp nhanh hơn
      Cá nhân tôi thấy ý tưởng thú vị hơn là khả năng sinh lời
    • Cách tính của họ lấy 414 tok/s cho Gemma 4 26B
      Khi tính điện năng họ dùng mẹo trừ đi 12W công suất idle, nhưng đa số mọi người không bật máy tính 24/7
    • Con số 130 tok/s có vẻ cao. Tôi tò mò không biết theo chuẩn quantization nào
    • Không tính đến hỏng hóc phần cứng. Trước đây tôi từng đào bằng GPU và quạt hỏng chỉ sau một tháng nên bị lỗ
    • Ngay cả OpenAI cũng chỉ có 5% khách trả tiền, nên tôi nghi ngờ mô hình này có bền vững không
      Trước đây cũng từng có các thử nghiệm lưu trữ phân tán như Cubbit nhưng đã thất bại
  • Điều tôi muốn nói với @eigengajesh là Mac Mini M4 Pro cũng có tùy chọn 64GB
    Và có nhiều bug — thất bại khi load metallib, tải model bị 404, tài liệu mâu thuẫn về chia sẻ doanh thu (100% vs 95%), v.v.
    Nhìn chung có nhiều tài liệu như thể do LLM viết, và có lẽ nên trau chuốt thêm rồi hãy công bố

  • Dự án này làm tôi nhớ đến DataseamGrid từng được triển khai trên máy tính ở trường học trước đây
    Đó cũng là một mạng tính toán phân tán với khái niệm tương tự

  • Đây là một ý tưởng thú vị. Thị trường hai phía (two-sided marketplace) luôn khó khởi động ban đầu, nhưng sự tò mò có thể trở thành động lực
    Nếu không chỉ nhắm đến nhà cung cấp mà còn khuyến khích chính họ tự dùng dịch vụ, có lẽ có thể cân bằng cung-cầu
    Sẽ hay nếu có phiên bản self-hosted cho doanh nghiệp. Nhiều công ty có sẵn lượng máy Mac tồn kho nên có thể dùng làm mạng suy luận nội bộ

  • Quyền riêng tư dựa trên phần cứng cũng thú vị, nhưng về mặt kinh tế thì chi phí load là rủi ro lớn
    Ví dụ model MiniMax M2.5 239B, dù chỉ kích hoạt 11B trong tổng 239B thì vẫn phải load 120GB
    Chỉ riêng việc đọc từ SSD cũng đã mất hàng chục giây
    Nếu request bị route sang máy Mac khác thì mỗi lần sẽ phát sinh độ trễ cold load
    Nếu luôn giữ model trong bộ nhớ thì tiền điện tăng lên, còn nếu không thì độ trễ sẽ lớn
    Đặc biệt, các máy Mac 16GB~32GB thậm chí không thể host model lớn, nên số nhà cung cấp thực sự khả dụng là cực kỳ hạn chế