- Trên Windows, Ollama cũng có thể chạy trong môi trường native, giúp luồng tải về, chạy và sinh nội dung với mô hình ngôn ngữ lớn cục bộ trở nên dễ dàng hơn
- Ollama cho Windows cung cấp tăng tốc GPU tích hợp, quyền truy cập toàn bộ thư viện mô hình và API Ollama tương thích OpenAI
- Khi chạy mô hình, hệ thống tận dụng GPU NVIDIA và các tập lệnh CPU hiện đại như AVX, AVX2, đồng thời không cần thiết lập hay ảo hóa riêng
- Có thể sử dụng toàn bộ thư viện mô hình và mô hình thị giác trên Windows; với LLaVA 1.6, có thể kéo thả hình ảnh vào
ollama run để thêm vào tin nhắn
- Nhờ API Ollama chạy nền, có thể kết nối các công cụ vốn dành cho OpenAI với mô hình cục bộ để sử dụng
Cung cấp bản Windows Preview
- Ollama được cung cấp dưới dạng Windows Preview, cho phép tải về, chạy và sinh nội dung với mô hình ngôn ngữ lớn trên Windows
- Ollama cho Windows bao gồm các tính năng chính trong một lần
Tăng tốc phần cứng và cách chạy
- Khi chạy mô hình, hệ thống được tăng tốc bằng GPU NVIDIA
- Nếu khả dụng, cũng tận dụng các tập lệnh CPU hiện đại như AVX, AVX2
- Có thể sử dụng ngay trong môi trường Windows mà không cần thiết lập thêm hay ảo hóa
Toàn bộ thư viện mô hình và mô hình thị giác
API Ollama hoạt động trong nền
- API Ollama tự động chạy trong nền và được cung cấp tại
http://localhost:11434
- Công cụ và ứng dụng có thể kết nối tới API này mà không cần cấu hình thêm
- Ví dụ gọi API Ollama trong PowerShell như sau
(Invoke-WebRequest -method POST -Body '{"model":"llama2", "prompt":"Why is the sky blue?", "stream": false}' -uri http://localhost:11434/api/generate ).Content | ConvertFrom-json
- Ollama cho Windows cũng hỗ trợ khả năng tương thích OpenAI giống như các nền tảng khác
- Có thể dùng các công cụ hiện có dành cho OpenAI cùng với mô hình cục bộ thông qua Ollama
Cài đặt và phản hồi
- Để bắt đầu Windows Preview, hãy tải OllamaSetup.exe
- Nhấp đúp tệp cài đặt
OllamaSetup.exe để cài đặt
- Sau khi cài đặt, mở terminal và chạy mô hình bằng lệnh sau
ollama run llama2
- Khi có bản phát hành mới, Ollama sẽ hướng dẫn cập nhật
- Nếu gặp vấn đề, có thể mở GitHub issue hoặc tham gia máy chủ Discord để gửi phản hồi
1 bình luận
Ý kiến trên Hacker News
Mình đang dùng Open-WebUI làm frontend trên desktop
Mình đã gom khoảng 12 mô hình Mistral tinh chỉnh cùng vài mô hình khác, và chúng đủ dùng cho chat hoặc các tác vụ trích xuất thông tin
Ứng dụng Open-WebUI trông khá giống ChatGPT và cũng có thể tìm kiếm hội thoại
https://github.com/open-webui/open-webui
Có thể khẳng định đây là một frontend khá vững cho Ollama. Nó hoạt động rất tốt và tốc độ phát triển cũng nhanh đáng kinh ngạc
Cứ vài tuần lấy image Docker mới nhất là lần nào cũng ngạc nhiên vì nó đã cải thiện nhiều đến vậy
[0] https://github.com/open-webui/open-webui/discussions/764
Như mọi khi, không thấy nói gì đến hỗ trợ GPU AMD
Tình hình đáng tiếc đến mức mình hối hận vì lần này đã mua AMD
Tiếc là chúng tôi chưa công bố rõ ràng ở nơi như ROADMAP.md, nhưng sẽ sớm làm vậy
Vài maintainer của dự án đến từ khu vực Toronto, quê hương ban đầu của ATI Technologies, nên về mặt cá nhân cũng rất muốn Ollama chạy tốt trên GPU AMD :)
Một trong các máy thử nghiệm dùng cho việc hỗ trợ AMD đang dùng Radeon RX 7900XT và khá nhanh. Hoàn toàn có thể so sánh với GPU GeForce 40 series cao cấp
[1]: https://en.wikipedia.org/wiki/ATI_Technologies
Mình đã mua một card AMD mạnh với giá đắt, kỳ vọng họ sẽ sớm bắt kịp Nvidia, nhưng thực tế hoàn toàn không như vậy, và mình cho rằng đó là do AMD đã không đầu tư đủ nguồn lực cần thiết
AMD vẫn có thể thay đổi, nhưng phải bắt đầu ngay bây giờ
Đây là một trong những hành vi tự hủy tệ nhất mình từng thấy trong ngành công nghệ
Trên Windows, nhờ thư viện tinyBLAS nên chỉ cần có driver đồ họa
https://github.com/Mozilla-Ocho/llamafile/releases/tag/0.6.2
Mặc định nó sẽ mở một tab trình duyệt có GUI chat, và cũng có thể chạy như chatbot dòng lệnh kiểu Ollama như bên dưới
https://justine.lol/oneliners/#chat
Mình đã dùng llama.cpp biên dịch với hỗ trợ Vulkan cùng ứng dụng của mình [1] và chạy thành công trên laptop AMD, nhưng Ollama có một số giả định trong cách tìm GPU khả dụng trên máy nên mình chưa làm cho nó hoạt động được
[1]: https://msty.app
Nếu bạn đang tìm một UI chat tốt để dùng trên Ollama và muốn hỗ trợ cả mô hình online lẫn local, có ứng dụng [1] mình đang làm
Nó tập trung vào chế độ offline và quyền riêng tư, và sáng nay mình đã phát hành hỗ trợ Windows
[1]: https://msty.app
Tôi tò mò về lý do vì sao lại có nhiều bản port AI kiểu “chạy cục bộ” nhưng lại chạy dưới dạng server đến vậy
Có phải các nhà phát triển đã quên rằng có thể chạy mã ngay trong tiến trình UI không?
Tôi thấy cùng một mẫu này ở các trình chạy Stable Diffusion hay các host LLM
Nếu không thật sự cần thiết thì tôi không muốn chạy dịch vụ nền cục bộ, nhưng tại sao các bản triển khai này trông như đều hoạt động theo cách đó?
Một phép so sánh hay có thể là engine cơ sở dữ liệu. SQLite là thư viện còn Postgres là dịch vụ chạy lâu dài; cả hai đều được dùng rộng rãi và mỗi bên có các đánh đổi riêng
Một yếu tố lớn nữa, theo tôi, là việc đưa máy, môi trường và hệ điều hành vào trạng thái để model có thể chạy hiệu quả không hề dễ
Nếu đặt sự phức tạp này vào trong container, tức là “server”, thì việc thiết lập ban đầu cũng như theo kịp các cải tiến/cập nhật liên tục sẽ dễ hơn rất nhiều
Thay vào đó, cấu trúc đúng là một tiến trình chạy lâu dài xử lý nhiều yêu cầu dự đoán
Rất có thể một ngày gần đây nó cũng sẽ phục vụ nhiều client
Tôi không có laptop hay workstation mạnh, nhưng có một server headless nhiều GPU
Nhờ các dự án như vậy, tôi có thể thử nghiệm LLM trên server và mở API cùng web UI trong mạng nội bộ
Vì vậy tôi chạy Open-WebUI ở chat.domain.example, còn Ollama ở api.chat.domain.example. Cả hai chỉ truy cập được trong mạng cục bộ
Với cấu hình này, laptop và điện thoại có thể dùng model cục bộ ở tốc độ tối đa qua web UI, còn Raspberry Pi chạy trợ lý giọng nói thử nghiệm có thể truy vấn Ollama qua API endpoint
Nhờ GPU gaming, tất cả đều hoạt động ở tốc độ tối đa. Logic tương tự cũng áp dụng cho cấu hình Stable Diffusion
Tôi không biết là người dùng Windows vẫn chưa dùng được Ollama
Có vẻ chỉ vài năm trước thôi, phía phải chờ lại là người dùng Mac
Chỉ là với đa số người dùng thì không tiện lắm, nên hỗ trợ Windows native là điều quá tốt
Rốt cuộc thì đó là x86 Linux, nên mọi thứ cứ thế hoạt động tốt
Tôi tò mò LM Studio mã nguồn đóng (https://lmstudio.ai) so với Ollama thì thế nào
Điểm tôi không thích là trên Windows, nó đặt trọng số vào một cấu trúc thư mục riêng dưới /users/username/.cache, chiếm hàng chục GB mà không thông báo, cũng không cho chia sẻ với các client khác
Nó không cho nhập model đã tự tải về, chức năng tìm kiếm thì rất tệ, và tôi cũng không thích cách nó xử lý cấu hình instance
Có vẻ nó đã dùng được trên Linux và Mac
Thay đổi lần này là bổ sung Windows: https://github.com/ollama/ollama
Đúng lúc tôi đang định tự cài thử và nghịch nhẹ những yêu cầu kiểu này thì bài này xuất hiện
Sau khi thử, điều thú vị là nó thật sự đơn giản và hoạt động tốt
Tuy nhiên có vẻ vấn đề là trình cài đặt lại không có tùy chọn chọn vị trí đích. Nếu server có nhiều người dùng, mỗi người sẽ có một bản sao riêng thay vì một bản cài đặt toàn cục
Tôi đang chạy Ollama với ý định tạo workflow kiểm tra ngữ pháp/lỗi chính tả cho việc viết lách
Chuyện này không liên quan trực tiếp đến bản thân Ollama, và đến giờ Ollama vẫn hoạt động tốt
Có nơi nào phù hợp để hỏi những câu kiểu này không? Tôi đang thắc mắc có chỗ nào giống Stack Overflow dành cho LLM không
Tôi đã cài và chạy model llama2 trên Mac Mini mới, nhưng bị kernel panic hoàn toàn. Chuyện gì vậy?
Bạn đã chọn phiên bản llama2 nào, và máy có bao nhiêu bộ nhớ hợp nhất?