Lemonade by AMD: Máy chủ LLM cục bộ mã nguồn mở tốc độ cao tận dụng GPU và NPU

(lemonade-server.ai)

11 điểm bởi GN⁺ 19 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp

Máy chủ AI cục bộ được AMD hỗ trợ, là nền tảng mã nguồn mở tận dụng GPU và NPU để xử lý nhanh văn bản, hình ảnh và giọng nói
Đề cao chạy cục bộ và bảo vệ quyền riêng tư, đồng thời tương thích với chuẩn API của OpenAI nên có thể tích hợp ngay với nhiều ứng dụng
Cung cấp môi trường AI cục bộ thực dụng nhờ backend nhẹ dựa trên C++, tự động cấu hình phần cứng và chạy đồng thời nhiều mô hình
Hỗ trợ Chat, Vision, Image Generation, Transcription, Speech Generation thông qua một API hợp nhất
Cung cấp cùng một môi trường trên Windows, Linux, macOS(beta), kèm GUI tích hợp giúp tải xuống và chuyển đổi mô hình dễ dàng

Tính năng cốt lõi

Thiết kế mã nguồn mở và ưu tiên chạy cục bộ
- Được phát triển dựa trên triết lý AI cục bộ phải tự do, cởi mở, nhanh và riêng tư
- Được xây dựng với vai trò chủ đạo từ cộng đồng AI cục bộ và có thể chạy trên mọi PC
- Chú trọng bảo vệ quyền riêng tư và môi trường thực thi độc lập
Cài đặt nhanh và kiến trúc gọn nhẹ
- One Minute Install tự động thiết lập toàn bộ stack
- Backend native C++ là dịch vụ gọn nhẹ chỉ khoảng 2MB
- Tính năng tự động cấu hình phần cứng sẽ tự động thiết lập môi trường GPU và NPU
Khả năng tương thích rộng
- Tương thích API OpenAI cho phép tích hợp ngay với hàng trăm ứng dụng
- Hỗ trợ nhiều engine suy luận như llama.cpp, Ryzen AI SW, FastFlowLM
- Có thể chạy đồng thời nhiều mô hình, cho phép vận hành song song nhiều model
Cung cấp API hợp nhất
- Một dịch vụ cục bộ duy nhất hỗ trợ đầy đủ Chat, Vision, Image Generation, Transcription, Speech Generation
- Được cung cấp dưới dạng REST API tiêu chuẩn; ví dụ có thể gọi mô hình hội thoại qua endpoint POST /api/v1/chat/completions
- Trong ví dụ yêu cầu, "model": "Qwen3-0.6B-GGUF" được dùng để hỏi về dân số Paris
Giao diện người dùng và hệ sinh thái
- Ứng dụng GUI tích hợp giúp tải xuống, kiểm thử và chuyển đổi mô hình nhanh chóng
- Tương thích ngay với nhiều ứng dụng nhờ dựa trên chuẩn API OpenAI
- Liên tục được cải thiện và mở rộng tính năng thông qua sự tham gia của cộng đồng

Thông số kỹ thuật và ví dụ sử dụng

Phần cứng và hiệu năng
- Trong môi trường RAM hợp nhất 128GB, có thể chạy các mô hình lớn như gpt-oss-120b, Qwen-Coder-Next
- Với tùy chọn --no-mmap, có thể rút ngắn thời gian tải và mở rộng kích thước ngữ cảnh (từ 64 trở lên)
Tính năng hình ảnh và giọng nói
- Ví dụ tạo ảnh: “đặc trưng Lemonade theo phong cách hội họa Phục Hưng”
- Ví dụ giọng nói: “Hello, I am your AI assistant. What can I do for you today?”

Bản phát hành mới nhất

Lemonade đang liên tục được cải tiến, với các tính năng mới nhất và cải thiện hiệu năng được cung cấp qua luồng phát hành
Có thể xem các tính năng mới và điểm nổi bật trên trang web chính thức

1 bình luận

GN⁺ 19 ngày trước

Ý kiến trên Hacker News

Tôi đã dùng Lemonade gần 1 năm rồi. Trên Strix Halo, tôi chỉ dùng mỗi cái này mà không cần công cụ nào khác. AMD Strix Halo Toolboxes của kyuz0 cũng ổn, nhưng Lemonade còn làm được TTS, STT, tạo văn bản·hình ảnh, thậm chí chỉnh sửa ảnh. Nó hỗ trợ nhiều backend như ROCm, Vulkan, CPU, GPU, NPU và tốc độ phát triển thực dụng và nhanh. Nếu dùng phần cứng AMD thì tôi rất khuyến nghị.
Nhờ các endpoint tương thích OpenAI và Ollama, có thể dùng ngay trong VSCode Copilot hoặc Open Web UI
- Tôi tò mò không biết khi chạy mô hình Qwen3.5-122B bằng Lemonade trên Strix Halo thì mức tăng tốc so với llama.cpp dựa trên Vulkan sẽ là bao nhiêu
- Không biết có ai đã dùng cùng agents hoặc Claw chưa, và đã chạy mô hình nào
Tôi đã chạy LLM cục bộ trên 7900 XTX vài tháng nay, và trải nghiệm với ROCm khá gập ghềnh. Việc AMD tung ra máy chủ suy luận chính thức để giải quyết các vấn đề driver·dependency là một bước tiến lớn. Tuy vậy, tôi vẫn thắc mắc liệu hỗ trợ NPU có thực sự cho ra throughput đủ ý nghĩa không. Trong các bài test của tôi, ngoài những mô hình nhỏ ra thì nó lại thành nút thắt cổ chai
- Tôi muốn biết cụ thể điều gì khiến nó khó đến vậy. Tôi đang chạy mô hình cục bộ bằng Ollama trên RX 7900 XTX và hầu như không gặp vấn đề gì liên quan đến ROCm. Chỉ tiếc là giới hạn VRAM 24GB. Tôi đang cân nhắc chuyển sang Radeon Pro để có VRAM lớn hơn
- Trên kernel 7.0.0, hiệu năng Vulkan tốt hơn ROCm khá nhiều, nhanh hơn khoảng trên 20%
- NPU là để hiệu quả điện năng khi chạy bằng pin. Nó không phải thứ thay thế GPU
Tôi tò mò không biết cái tên ‘Lemonade’ có phải mang nghĩa vắt kiệt quả chanh để tận dụng tối đa hay không
- Có vẻ là một cách chơi chữ kiểu LLM-aid → lemonade, vì cách đọc “L-L-M” nghe hơi giống “lemon”
- Nếu cuộc đời cứ tiếp tục đưa cho bạn chanh, thì thà làm quả chanh phát nổ còn hơn
- Tôi chỉ dùng phần cứng AMD cho suy luận cục bộ. Xét về driver mã nguồn mở, hiệu quả điện năng và giá cả thì ở góc nhìn người dùng, tôi thấy nó tốt hơn Nvidia
- Nghe nói tên ‘Lemonsqueeze’ bị loại vì quá bạo lực
Lemonade cho cảm giác nằm đâu đó giữa Ollama và LM Studio. Điều thú vị là nó không chỉ tập trung vào phục vụ mô hình đơn lẻ mà nhắm đến một runtime tích hợp. Trọng tâm là điều phối nhiều modality cùng lúc như văn bản, hình ảnh, âm thanh. Tôi tò mò không biết trên thực tế nó là một lớp trừu tượng hay chỉ là gói ghém nhiều công cụ lại với nhau. Cũng tự hỏi liệu tối ưu hóa cho AMD/NPU có làm giảm tính di động hay không
- Nó bundle nhiều công cụ, lựa chọn mô hình và chức năng quản lý. Có thể cài với backend CPU hoặc Vulkan, nhưng về cơ bản chỉ hỗ trợ bản build ROCm và AMD NPU. Nếu muốn chạy bằng CUDA thì phải override phiên bản llama.cpp nên việc quản lý khá phiền. Nếu muốn chạy mô hình cục bộ đơn giản trên máy AMD thì đây là cách dễ nhất.
  Tôi đang chạy nó trên NAS cùng với trợ lý gia đình. Ngoài Strix Halo, tôi còn quản lý riêng một máy chủ dùng card CUDA
Hơi tiếc là các mô hình·kernel NPU mà Lemonade dùng lại không công khai. Sẽ tốt hơn nếu có thêm hỗ trợ mở
- Trong tài liệu có ghi: “Có thể đăng ký mô hình Hugging Face vào Lemonade Server”
- Tôi đã mua thiết bị dù biết có thể không dùng được NPU, nhưng nghe tin này vẫn thấy bực mình
Điểm mạnh thực sự của Lemonade là tích hợp đa phương thức. Ba dịch vụ thường phải quản lý API và mô hình riêng biệt như tạo văn bản, tạo ảnh, nhận dạng giọng nói có thể được xử lý trong một máy chủ duy nhất qua các endpoint tương thích OpenAI. Điều này cải thiện chất lượng đáng kể khi làm prototype.
NPU hữu ích cho các mô hình nhỏ chạy thường trực hoặc offload prefill, nhưng với chatbot thông thường thì phần nào đang bị thổi phồng quá mức.
Nếu AMD có thể làm cho việc lập lịch GPU+NPU trở nên trong suốt để lập trình viên không cần bận tâm đến phần cứng, thì nó rất có thể sẽ trở thành lựa chọn mặc định
Tôi đang chạy Lemonade trên Strix Halo. Nó gồm nhiều backend như diffusion, llama..., nhưng tôi chỉ dùng bản build llama.cpp ROCm (liên kết). Tôi không đụng tới hình ảnh hay âm thanh. Với GPT OSS 120B, tốc độ khoảng 50 token/giây. NPU là cho các mô hình thường trực tiêu thụ điện thấp nên không mang lại lợi ích lớn cho chatbot thông thường
- Ngay cả NPU nhỏ cũng có thể offload một phần tính toán prefill. Tuy nhiên, ở giai đoạn decode thì còn tùy vào băng thông bộ nhớ và việc nó có hỗ trợ phép toán nội bộ hay không. Ví dụ, Apple Neural Engine chỉ hỗ trợ tính toán INT8/FP16 nên cũng không giúp được nhiều
Tôi đã đọc website và thông báo tin tức nhưng vẫn thấy mơ hồ không biết chính xác Lemonade là gì. Nó có phải bản thay thế LM Studio không, và có hỗ trợ MLX hay Metal trên Mac không. Nếu nó chủ yếu tối ưu cho AMD thì tôi muốn biết trên GPU khác có bất lợi không
- Theo lộ trình trên GitHub thì bản beta macOS đã hoàn tất, còn hỗ trợ MLX đang được phát triển
- Đây là giải pháp một cửa để cài đặt và duy trì local AI stack một cách dễ dàng. Nó cung cấp STT, TTS, tạo ảnh, endpoint LLM cùng lúc, và còn có WebUI riêng. Nó cũng hỗ trợ các endpoint tương thích OpenAI, Ollama, Anthropic
- Giống LM Studio ở chỗ trừu tượng hóa nhiều runtime, nhưng thông qua runtime FastFlowML của AMD, nó có thể tận dụng NPU của Ryzen AI CPU trên Linux
- LM Studio giao việc chạy LLM thực tế cho phần mềm khác; nếu phần mềm đó không hỗ trợ NPU thì hiệu năng sẽ kém. Có vẻ Lemonade chính là thứ đóng vai trò backend đó
Tôi ngạc nhiên khi hướng dẫn cài máy chủ cho Linux không có tùy chọn Docker/Podman. Chỉ thấy Snap/PPA và RPM. Có lẽ ý là người dùng container phải tự build
- Thực ra có tùy chọn cài bằng Docker. Sẽ tốt hơn nếu nó được thêm vào trang phát hành
Có ai so sánh với Ollama chưa. Tôi đang dùng Ollama khá tốt trên 9070 XT với ROCm 7.4
- Lemonade hỗ trợ nhiều API và các bản build dành riêng cho GPU·NPU của AMD. Nó do AMD trực tiếp vận hành. Bên trong thì cả hai đều dựa trên llama.cpp, nhưng Lemonade có các bản build được tối ưu theo từng GPU
- Khi test trên MacBook M1 Max (RAM 64GB) với mô hình qwen3.59b, Ollama mất 1 phút 44 giây, còn Lemonade là 1 phút 14 giây, nên Lemonade nhanh hơn
- Tôi cũng tò mò muốn so với vLLM
- Hiện tôi đang dùng Ollama, nhưng muốn biết chênh lệch hiệu năng so với Lemonade thế nào
- Không biết nó có tốt hơn Vulkan không

Lemonade by AMD: Máy chủ LLM cục bộ mã nguồn mở tốc độ cao tận dụng GPU và NPU

Tính năng cốt lõi

Thiết kế mã nguồn mở và ưu tiên chạy cục bộ

Cài đặt nhanh và kiến trúc gọn nhẹ

Khả năng tương thích rộng

Cung cấp API hợp nhất

Giao diện người dùng và hệ sinh thái

Thông số kỹ thuật và ví dụ sử dụng

Phần cứng và hiệu năng

Tính năng hình ảnh và giọng nói

Bản phát hành mới nhất

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News