- Darkbloom là một mạng suy luận AI phân tán kết nối các Apple Silicon Mac đang nhàn rỗi để xử lý tác vụ AI trên thiết bị cá nhân mà không cần đám mây tập trung
- Loại bỏ cấu trúc ba tầng biên lợi nhuận giữa các nhà cung cấp GPU, đám mây và API hiện có, qua đó giảm chi phí tới 70%
- Mọi yêu cầu đều được mã hóa đầu cuối, nên nhà vận hành không thể xem dữ liệu người dùng, đồng thời độ tin cậy được đảm bảo bằng chuỗi chứng thực dựa trên phần cứng bảo mật của Apple
- Cung cấp API tương thích OpenAI, hỗ trợ các chức năng tương tự SDK hiện có như trò chuyện, tạo ảnh và nhận dạng giọng nói
- Nhà vận hành giữ lại 95~100% doanh thu, và có thể kiếm thu nhập bằng USD từ Mac nhàn rỗi mà gần như không phát sinh chi phí ngoài tiền điện
Mạng suy luận AI cá nhân tận dụng Mac nhàn rỗi
- Darkbloom là mạng suy luận AI phân tán do Eigen Labs phát triển, kết nối các Apple Silicon Mac đang nhàn rỗi để thực hiện tính toán AI
- Hiện nay, tác vụ AI phải đi qua cấu trúc biên lợi nhuận ba tầng từ nhà sản xuất GPU → hyperscaler → nhà cung cấp API → người dùng cuối; Darkbloom loại bỏ cấu trúc này để giảm chi phí tới 70%
- Nhà vận hành mạng không thể xem dữ liệu người dùng, và mọi yêu cầu đều được xử lý bằng mã hóa đầu cuối
- API tương thích OpenAI, hỗ trợ trò chuyện, tạo ảnh và nhận dạng giọng nói giống như các SDK hiện có
- Nhà vận hành giữ lại 95~100% doanh thu, trong khi gần như không có thêm chi phí ngoài tiền điện
Tính năng cho người dùng
- Do chi phí biên của phần cứng nhàn rỗi gần như bằng 0, khoản tiết kiệm chi phí được phản ánh trực tiếp vào giá cho người dùng
- Cung cấp chức năng trò chuyện, tạo ảnh và chuyển giọng nói thành văn bản thông qua API tương thích OpenAI
- Mọi yêu cầu đều được mã hóa đầu cuối khi truyền đi
Tính năng cho chủ sở hữu phần cứng
- Người dùng sở hữu Apple Silicon Mac có thể thực hiện suy luận AI trong thời gian máy nhàn rỗi để kiếm thu nhập bằng USD
- Nhà vận hành giữ lại 100% doanh thu từ suy luận, còn chi phí điện ở mức $0.01~$0.03 mỗi giờ
- Phần còn lại trở thành lợi nhuận ròng
Vấn đề cấu trúc của thị trường tính toán AI
- Thị trường tính toán AI hiện nay có cấu trúc ba tầng biên lợi nhuận: nhà sản xuất GPU → nhà cung cấp đám mây → công ty AI → người dùng cuối
- Vì vậy người dùng cuối phải trả hơn 3 lần chi phí silicon thực tế
- Trong khi đó, hơn 100 triệu thiết bị Apple Silicon vẫn ở trạng thái nhàn rỗi hơn 18 giờ mỗi ngày
- Nếu kết nối những tài nguyên tính toán nhàn rỗi này, có thể khai thác tài sản phân tán giống như Airbnb hay Uber
- Darkbloom chuyển các máy Mac nhàn rỗi này thành node suy luận AI, thay thế hạ tầng tập trung
Bài toán niềm tin và hướng giải quyết
- Vấn đề cốt lõi của mạng tính toán phân tán là độ tin cậy
- Người dùng phải xử lý dữ liệu của mình trên thiết bị của bên thứ ba không quen biết, nên mức bảo mật chỉ dựa trên điều khoản sử dụng là không đủ
- Nếu không có quyền riêng tư có thể kiểm chứng (Verifiable Privacy) thì không thể triển khai suy luận phân tán
Cách tiếp cận kỹ thuật của Darkbloom
-
Loại bỏ đường truy cập
- Loại bỏ mọi đường truy cập phần mềm mà nhà vận hành có thể dùng để tiếp cận dữ liệu
- Gồm bốn lớp độc lập, mỗi lớp đều có thể kiểm chứng
-
Lớp mã hóa
- Yêu cầu được mã hóa trên thiết bị người dùng trước khi truyền
- Coordinator chỉ định tuyến bản mã, và chỉ khóa phần cứng của node đích mới có thể giải mã
-
Lớp phần cứng
- Mỗi node sở hữu khóa được tạo ra trong phần cứng bảo mật của Apple
- Có thể xác minh thông qua chuỗi chứng thực (attestation chain) bắt nguồn từ Apple Root CA
-
Lớp runtime
- Tiến trình suy luận được khóa ở cấp độ OS
- Chặn việc gắn debugger và kiểm tra bộ nhớ
- Nhà vận hành không thể trích xuất dữ liệu từ tiến trình đang chạy
-
Lớp đầu ra
- Mọi phản hồi đều có thể được xác minh bằng chữ ký của phần cứng tương ứng
- Toàn bộ chuỗi chứng thực được công khai để bất kỳ ai cũng có thể kiểm chứng độc lập
-
Kết quả là nhà vận hành chạy suy luận nhưng không thể xem dữ liệu
- Prompt được mã hóa trước khi truyền
- Coordinator định tuyến mà không thể đọc nội dung
- Provider giải mã và thực thi trong môi trường cô lập đã được xác minh
- Chuỗi chứng thực được công khai để đảm bảo tính minh bạch
Chi tiết triển khai
-
API tương thích OpenAI
- Hoàn toàn tương thích với OpenAI SDK hiện có
- Có thể dùng cùng đoạn mã, chỉ cần đổi Base URL
- Hỗ trợ đầy đủ Streaming, Function Calling, Image Generation, Speech-to-Text
- Các tính năng được hỗ trợ
- Streaming: dựa trên SSE, định dạng OpenAI
- Image Generation: FLUX.2 on Metal
- Speech-to-Text: Cohere Transcribe
- Large MoE: hỗ trợ mô hình tối đa 239B tham số
Kết quả so sánh chi phí
- Do chi phí biên của phần cứng nhàn rỗi gần như bằng 0, nên tạo ra hiệu quả giảm giá
- Không có phí thuê bao hoặc mức sử dụng tối thiểu
- Mức giá thấp hơn 50% so với OpenRouter
| Mô hình |
Đầu vào |
Đầu ra |
OpenRouter |
Tỷ lệ giảm |
| Gemma 4 26B4B |
$0.03 |
$0.20 |
$0.40 |
50% |
| Qwen3.5 27B |
$0.10 |
$0.78 |
$1.56 |
50% |
| Qwen3.5 122B MoE |
$0.13 |
$1.04 |
$2.08 |
50% |
| MiniMax M2.5 239B |
$0.06 |
$0.50 |
$1.00 |
50% |
- Tạo ảnh: $0.0015/ảnh (thấp hơn 50% so với Together.ai)
- Nhận dạng giọng nói: $0.001/phút (thấp hơn 50% so với AssemblyAI)
- Phí nền tảng 0%, nhà vận hành giữ 100% doanh thu
Hiệu quả kinh tế cho nhà vận hành
- Khi cung cấp thiết bị Apple Silicon, có thể kiếm thu nhập bằng USD
- Không có chi phí bổ sung ngoài tiền điện, và giữ lại 100% doanh thu
- Hỗ trợ cài đặt qua CLI, ứng dụng menu bar trên macOS đang được phát triển
-
Cách cài đặt
- Tải provider binary bằng lệnh terminal và đăng ký dịch vụ launchd
-
Không có dependency**,** tự động cập nhật**,** chạy nền
- Chỉ dành cho macOS 14 trở lên và Apple Silicon
-
Doanh thu dự kiến
- Có thể ước tính doanh thu theo mức vận hành 18 giờ mỗi ngày
- Doanh thu thực tế sẽ thay đổi tùy theo nhu cầu mạng và độ phổ biến của mô hình
Nghiên cứu và danh mục mô hình
- Bài nghiên cứu mô tả chi tiết kiến trúc, mô hình đe dọa, phân tích bảo mật và mô hình kinh tế
- Nội dung xoay quanh kiến trúc suy luận riêng tư dựa trên xác minh phần cứng
- Cung cấp liên kết tải PDF
-
Các mô hình có thể dùng
- Gemma 4 26B: MoE đa phương thức mới nhất của Google, 4B tham số hoạt động
- Qwen3.5 27B: mô hình suy luận chất lượng cao (distillation từ Claude Opus)
- Qwen3.5 122B MoE: 10B tham số hoạt động, chất lượng hàng đầu trên mỗi token
- MiniMax M2.5 239B: mô hình lập trình SOTA, đạt 100 tok/s trên Mac Studio
- Cohere Transcribe: conformer 2B, chuyển giọng nói thành văn bản ở đẳng cấp hàng đầu
2 bình luận
Về mặt ý tưởng thì khá thú vị, nhưng vẫn có phần nghi ngờ liệu trên thực tế nó có vận hành trơn tru hay không. Như cũng đã được nhắc trong các ý kiến trên HN, thị trường hai phía (two-sided market) là bài toán lớn vì phải thành công trong việc thu hút khách hàng ban đầu ở cả hai phía.
Ý kiến trên Hacker News
Tôi thấy cách tính doanh thu của họ khó tin
Nếu một chiếc Mac mini có thể hoàn vốn sau 2~4 tháng rồi sau đó kiếm 1~2 nghìn USD mỗi tháng, thì tôi thắc mắc vì sao họ không просто mua Mac mini và tự vận hành
Hiện tại không phải vậy, nhưng họ kỳ vọng một lúc nào đó sẽ như thế. Vì vậy không khuyến nghị mua thiết bị mới. Nếu chạy trên thiết bị đã có sẵn thì gần như không tốn chi phí
Tiền điện chỉ phát sinh khi có request, và mỗi lần như vậy đều được bù lại
Nếu có gì thắc mắc thì có thể DM cho @gajesh
Khi hiệu ứng kinh tế theo quy mô bắt đầu phát huy, họ sẽ ngày càng muốn các trung tâm lớn hơn, nhưng việc này tốn kém và hàng xóm cũng không thích
Cuối cùng trông giống như một cuộc chiến bất đối xứng chống lại các hyperscaler
Ví dụ giờ thị trường chứng khoán mở cửa thì bận, còn ngoài thời gian đó thì vắng
Nếu không overprovision thì khách sẽ bỏ đi, còn nếu làm quá mức thì lợi nhuận giảm
Thực tế có lẽ chỉ đạt mức sử dụng khoảng 1/8. Nếu tính với chiếc M4 Pro mini của tôi thì với mô hình Gemma 4, có vẻ chỉ khoảng 24 USD/tháng
Việc tự mua và bảo trì phần cứng đắt hơn nhiều. Khoản đầu tư ban đầu là rào cản gia nhập lớn nhất
Có thể bắt đầu mà không cần vốn VC, và điểm khác biệt cũng rất rõ ràng
Chỉ là cũng có thể sẽ có ai đó làm điều tương tự với mức phí cao hơn, nên việc chiếm lĩnh thị trường sớm là quan trọng
Tôi đã tự cài thử, nhưng mức độ hoàn thiện chưa cao
Có rất nhiều lỗi như tải model ảnh thất bại, load model audio/TTS thất bại
Tôi đã phục vụ Gemma trong 15 phút nhưng số request suy luận thực tế là 0, chỉ có health check vào vài lần
Hiện tại thiếu nhu cầu nên dự báo doanh thu không đúng
Có vẻ hiện giờ họ đang tập trung vào việc kiếm nhà cung cấp, và việc tìm khách hàng trả tiền là cấp bách
Muốn dùng dịch vụ này thì phải cài MDM (phần mềm quản lý thiết bị)
Thực tế là từ khoảnh khắc đó, chiếc máy tính ấy nằm dưới sự kiểm soát của họ
Tôi tuyệt đối không khuyến nghị dùng trên máy tính có xử lý việc nhạy cảm như ngân hàng
Nhưng chính sách quyền riêng tư của họ lại khá sơ sài nên khó mà tin tưởng
Hơn nữa cũng chẳng có lý do gì để chấp nhận rủi ro đó chỉ để kiếm vài USD mỗi tháng
Họ nói dùng TEE (Trusted Execution Environment) để xác minh tính toàn vẹn của model và code
Tôi cũng từng làm thứ tương tự trên AWS, nhưng vẫn nghi ngờ liệu có thể bảo vệ bộ nhớ khi dùng GPU hay không
Có thể xem bài báo liên quan ở đây
Sẽ an toàn hơn nếu chỉ dùng cho những mục đích không thương mại như phân loại hoặc tạo ảnh thay vì dữ liệu nhạy cảm
Kỹ thuật bảng trang hypervisor được nói tới trong bài báo khẳng định có thể bảo vệ bộ nhớ GPU khỏi RDMA
Trên MacBook ngày nay, quyền riêng tư có thể kiểm chứng là điều không thể về mặt vật lý
Có Secure Enclave, nhưng không phải enclave công khai kiểu SGX/TDX/SEV
Rốt cuộc đây chỉ là mức bảo mật kiểu hardening của OS, chứ không phải môi trường thực thi bí mật thực sự
Nếu có thể xác thực từ xa boot sequence và cấu hình TCC của macOS thì đây là một kiến trúc khá đáng tin
Không hoàn hảo như SGX thực thụ, nhưng về tính khả dụng thì tốt hơn
Nếu tính đơn giản thì chiếc M5 Pro của tôi tạo ra 130 token mỗi giây (4 stream) với Gemma 4 26B
Giá của Darkbloom là $0.20 mỗi Mtok, nên nếu chạy 24 giờ thì doanh thu mỗi tháng khoảng 67 USD
Trừ tiền điện thì chi phí khoảng 9 USD/tháng, tức chỉ tầm kiếm thêm khoảng 700 USD/năm
Cá nhân tôi thấy ý tưởng thú vị hơn là khả năng sinh lời
Khi tính điện năng họ dùng mẹo trừ đi 12W công suất idle, nhưng đa số mọi người không bật máy tính 24/7
Trước đây cũng từng có các thử nghiệm lưu trữ phân tán như Cubbit nhưng đã thất bại
Điều tôi muốn nói với @eigengajesh là Mac Mini M4 Pro cũng có tùy chọn 64GB
Và có nhiều bug — thất bại khi load metallib, tải model bị 404, tài liệu mâu thuẫn về chia sẻ doanh thu (100% vs 95%), v.v.
Nhìn chung có nhiều tài liệu như thể do LLM viết, và có lẽ nên trau chuốt thêm rồi hãy công bố
Dự án này làm tôi nhớ đến DataseamGrid từng được triển khai trên máy tính ở trường học trước đây
Đó cũng là một mạng tính toán phân tán với khái niệm tương tự
Đây là một ý tưởng thú vị. Thị trường hai phía (two-sided marketplace) luôn khó khởi động ban đầu, nhưng sự tò mò có thể trở thành động lực
Nếu không chỉ nhắm đến nhà cung cấp mà còn khuyến khích chính họ tự dùng dịch vụ, có lẽ có thể cân bằng cung-cầu
Sẽ hay nếu có phiên bản self-hosted cho doanh nghiệp. Nhiều công ty có sẵn lượng máy Mac tồn kho nên có thể dùng làm mạng suy luận nội bộ
Quyền riêng tư dựa trên phần cứng cũng thú vị, nhưng về mặt kinh tế thì chi phí load là rủi ro lớn
Ví dụ model MiniMax M2.5 239B, dù chỉ kích hoạt 11B trong tổng 239B thì vẫn phải load 120GB
Chỉ riêng việc đọc từ SSD cũng đã mất hàng chục giây
Nếu request bị route sang máy Mac khác thì mỗi lần sẽ phát sinh độ trễ cold load
Nếu luôn giữ model trong bộ nhớ thì tiền điện tăng lên, còn nếu không thì độ trễ sẽ lớn
Đặc biệt, các máy Mac 16GB~32GB thậm chí không thể host model lớn, nên số nhà cung cấp thực sự khả dụng là cực kỳ hạn chế