- Máy chủ AI cục bộ được AMD hỗ trợ, là nền tảng mã nguồn mở tận dụng GPU và NPU để xử lý nhanh văn bản, hình ảnh và giọng nói
- Đề cao chạy cục bộ và bảo vệ quyền riêng tư, đồng thời tương thích với chuẩn API của OpenAI nên có thể tích hợp ngay với nhiều ứng dụng
- Cung cấp môi trường AI cục bộ thực dụng nhờ backend nhẹ dựa trên C++, tự động cấu hình phần cứng và chạy đồng thời nhiều mô hình
- Hỗ trợ Chat, Vision, Image Generation, Transcription, Speech Generation thông qua một API hợp nhất
- Cung cấp cùng một môi trường trên Windows, Linux, macOS(beta), kèm GUI tích hợp giúp tải xuống và chuyển đổi mô hình dễ dàng
Tính năng cốt lõi
-
Thiết kế mã nguồn mở và ưu tiên chạy cục bộ
- Được phát triển dựa trên triết lý AI cục bộ phải tự do, cởi mở, nhanh và riêng tư
- Được xây dựng với vai trò chủ đạo từ cộng đồng AI cục bộ và có thể chạy trên mọi PC
- Chú trọng bảo vệ quyền riêng tư và môi trường thực thi độc lập
-
Cài đặt nhanh và kiến trúc gọn nhẹ
- One Minute Install tự động thiết lập toàn bộ stack
- Backend native C++ là dịch vụ gọn nhẹ chỉ khoảng 2MB
- Tính năng tự động cấu hình phần cứng sẽ tự động thiết lập môi trường GPU và NPU
-
Khả năng tương thích rộng
- Tương thích API OpenAI cho phép tích hợp ngay với hàng trăm ứng dụng
- Hỗ trợ nhiều engine suy luận như llama.cpp, Ryzen AI SW, FastFlowLM
- Có thể chạy đồng thời nhiều mô hình, cho phép vận hành song song nhiều model
-
Cung cấp API hợp nhất
- Một dịch vụ cục bộ duy nhất hỗ trợ đầy đủ Chat, Vision, Image Generation, Transcription, Speech Generation
- Được cung cấp dưới dạng REST API tiêu chuẩn; ví dụ có thể gọi mô hình hội thoại qua endpoint
POST /api/v1/chat/completions
- Trong ví dụ yêu cầu,
"model": "Qwen3-0.6B-GGUF" được dùng để hỏi về dân số Paris
-
Giao diện người dùng và hệ sinh thái
- Ứng dụng GUI tích hợp giúp tải xuống, kiểm thử và chuyển đổi mô hình nhanh chóng
- Tương thích ngay với nhiều ứng dụng nhờ dựa trên chuẩn API OpenAI
- Liên tục được cải thiện và mở rộng tính năng thông qua sự tham gia của cộng đồng
Thông số kỹ thuật và ví dụ sử dụng
-
Phần cứng và hiệu năng
- Trong môi trường RAM hợp nhất 128GB, có thể chạy các mô hình lớn như gpt-oss-120b, Qwen-Coder-Next
- Với tùy chọn
--no-mmap, có thể rút ngắn thời gian tải và mở rộng kích thước ngữ cảnh (từ 64 trở lên)
-
Tính năng hình ảnh và giọng nói
- Ví dụ tạo ảnh: “đặc trưng Lemonade theo phong cách hội họa Phục Hưng”
- Ví dụ giọng nói: “Hello, I am your AI assistant. What can I do for you today?”
Bản phát hành mới nhất
- Lemonade đang liên tục được cải tiến, với các tính năng mới nhất và cải thiện hiệu năng được cung cấp qua luồng phát hành
- Có thể xem các tính năng mới và điểm nổi bật trên trang web chính thức
1 bình luận
Ý kiến trên Hacker News
Tôi đã dùng Lemonade gần 1 năm rồi. Trên Strix Halo, tôi chỉ dùng mỗi cái này mà không cần công cụ nào khác. AMD Strix Halo Toolboxes của kyuz0 cũng ổn, nhưng Lemonade còn làm được TTS, STT, tạo văn bản·hình ảnh, thậm chí chỉnh sửa ảnh. Nó hỗ trợ nhiều backend như ROCm, Vulkan, CPU, GPU, NPU và tốc độ phát triển thực dụng và nhanh. Nếu dùng phần cứng AMD thì tôi rất khuyến nghị.
Nhờ các endpoint tương thích OpenAI và Ollama, có thể dùng ngay trong VSCode Copilot hoặc Open Web UI
Tôi đã chạy LLM cục bộ trên 7900 XTX vài tháng nay, và trải nghiệm với ROCm khá gập ghềnh. Việc AMD tung ra máy chủ suy luận chính thức để giải quyết các vấn đề driver·dependency là một bước tiến lớn. Tuy vậy, tôi vẫn thắc mắc liệu hỗ trợ NPU có thực sự cho ra throughput đủ ý nghĩa không. Trong các bài test của tôi, ngoài những mô hình nhỏ ra thì nó lại thành nút thắt cổ chai
Tôi tò mò không biết cái tên ‘Lemonade’ có phải mang nghĩa vắt kiệt quả chanh để tận dụng tối đa hay không
Lemonade cho cảm giác nằm đâu đó giữa Ollama và LM Studio. Điều thú vị là nó không chỉ tập trung vào phục vụ mô hình đơn lẻ mà nhắm đến một runtime tích hợp. Trọng tâm là điều phối nhiều modality cùng lúc như văn bản, hình ảnh, âm thanh. Tôi tò mò không biết trên thực tế nó là một lớp trừu tượng hay chỉ là gói ghém nhiều công cụ lại với nhau. Cũng tự hỏi liệu tối ưu hóa cho AMD/NPU có làm giảm tính di động hay không
Tôi đang chạy nó trên NAS cùng với trợ lý gia đình. Ngoài Strix Halo, tôi còn quản lý riêng một máy chủ dùng card CUDA
Hơi tiếc là các mô hình·kernel NPU mà Lemonade dùng lại không công khai. Sẽ tốt hơn nếu có thêm hỗ trợ mở
Điểm mạnh thực sự của Lemonade là tích hợp đa phương thức. Ba dịch vụ thường phải quản lý API và mô hình riêng biệt như tạo văn bản, tạo ảnh, nhận dạng giọng nói có thể được xử lý trong một máy chủ duy nhất qua các endpoint tương thích OpenAI. Điều này cải thiện chất lượng đáng kể khi làm prototype.
NPU hữu ích cho các mô hình nhỏ chạy thường trực hoặc offload prefill, nhưng với chatbot thông thường thì phần nào đang bị thổi phồng quá mức.
Nếu AMD có thể làm cho việc lập lịch GPU+NPU trở nên trong suốt để lập trình viên không cần bận tâm đến phần cứng, thì nó rất có thể sẽ trở thành lựa chọn mặc định
Tôi đang chạy Lemonade trên Strix Halo. Nó gồm nhiều backend như diffusion, llama..., nhưng tôi chỉ dùng bản build llama.cpp ROCm (liên kết). Tôi không đụng tới hình ảnh hay âm thanh. Với GPT OSS 120B, tốc độ khoảng 50 token/giây. NPU là cho các mô hình thường trực tiêu thụ điện thấp nên không mang lại lợi ích lớn cho chatbot thông thường
Tôi đã đọc website và thông báo tin tức nhưng vẫn thấy mơ hồ không biết chính xác Lemonade là gì. Nó có phải bản thay thế LM Studio không, và có hỗ trợ MLX hay Metal trên Mac không. Nếu nó chủ yếu tối ưu cho AMD thì tôi muốn biết trên GPU khác có bất lợi không
Tôi ngạc nhiên khi hướng dẫn cài máy chủ cho Linux không có tùy chọn Docker/Podman. Chỉ thấy Snap/PPA và RPM. Có lẽ ý là người dùng container phải tự build
Có ai so sánh với Ollama chưa. Tôi đang dùng Ollama khá tốt trên 9070 XT với ROCm 7.4