Ollama hiện khả dụng trên Windows dưới dạng bản Preview

(ollama.com)

2 điểm bởi GN⁺ 2024-02-18 | 1 bình luận | Chia sẻ qua WhatsApp

Trên Windows, Ollama cũng có thể chạy trong môi trường native, giúp luồng tải về, chạy và sinh nội dung với mô hình ngôn ngữ lớn cục bộ trở nên dễ dàng hơn
Ollama cho Windows cung cấp tăng tốc GPU tích hợp, quyền truy cập toàn bộ thư viện mô hình và API Ollama tương thích OpenAI
Khi chạy mô hình, hệ thống tận dụng GPU NVIDIA và các tập lệnh CPU hiện đại như AVX, AVX2, đồng thời không cần thiết lập hay ảo hóa riêng
Có thể sử dụng toàn bộ thư viện mô hình và mô hình thị giác trên Windows; với LLaVA 1.6, có thể kéo thả hình ảnh vào ollama run để thêm vào tin nhắn
Nhờ API Ollama chạy nền, có thể kết nối các công cụ vốn dành cho OpenAI với mô hình cục bộ để sử dụng

Cung cấp bản Windows Preview

Ollama được cung cấp dưới dạng Windows Preview, cho phép tải về, chạy và sinh nội dung với mô hình ngôn ngữ lớn trên Windows
Ollama cho Windows bao gồm các tính năng chính trong một lần
- Tăng tốc GPU tích hợp
  - Truy cập toàn bộ thư viện mô hình
  - API Ollama bao gồm khả năng tương thích OpenAI

Tăng tốc phần cứng và cách chạy

Khi chạy mô hình, hệ thống được tăng tốc bằng GPU NVIDIA
Nếu khả dụng, cũng tận dụng các tập lệnh CPU hiện đại như AVX, AVX2
Có thể sử dụng ngay trong môi trường Windows mà không cần thiết lập thêm hay ảo hóa

Toàn bộ thư viện mô hình và mô hình thị giác

Trên Windows cũng có thể chạy toàn bộ thư viện mô hình của Ollama
Bao gồm cả mô hình thị giác
Khi chạy mô hình thị giác như LLaVA 1.6, có thể kéo thả hình ảnh vào ollama run để thêm vào tin nhắn

API Ollama hoạt động trong nền

API Ollama tự động chạy trong nền và được cung cấp tại http://localhost:11434
Công cụ và ứng dụng có thể kết nối tới API này mà không cần cấu hình thêm
Ví dụ gọi API Ollama trong PowerShell như sau

(Invoke-WebRequest -method POST -Body '{"model":"llama2", "prompt":"Why is the sky blue?", "stream": false}' -uri http://localhost:11434/api/generate ).Content | ConvertFrom-json

Ollama cho Windows cũng hỗ trợ khả năng tương thích OpenAI giống như các nền tảng khác
Có thể dùng các công cụ hiện có dành cho OpenAI cùng với mô hình cục bộ thông qua Ollama

Cài đặt và phản hồi

Để bắt đầu Windows Preview, hãy tải OllamaSetup.exe
Nhấp đúp tệp cài đặt OllamaSetup.exe để cài đặt
Sau khi cài đặt, mở terminal và chạy mô hình bằng lệnh sau

ollama run llama2

Khi có bản phát hành mới, Ollama sẽ hướng dẫn cập nhật
Nếu gặp vấn đề, có thể mở GitHub issue hoặc tham gia máy chủ Discord để gửi phản hồi

1 bình luận

GN⁺ 2024-02-18

Ý kiến trên Hacker News

Mình đang dùng Open-WebUI làm frontend trên desktop
Mình đã gom khoảng 12 mô hình Mistral tinh chỉnh cùng vài mô hình khác, và chúng đủ dùng cho chat hoặc các tác vụ trích xuất thông tin
Ứng dụng Open-WebUI trông khá giống ChatGPT và cũng có thể tìm kiếm hội thoại
https://github.com/open-webui/open-webui
- Với những ai đã bỏ lỡ thông báo vài giờ trước: open-webui là bản đổi thương hiệu của dự án trước đây có tên ollama-webui
  Có thể khẳng định đây là một frontend khá vững cho Ollama. Nó hoạt động rất tốt và tốc độ phát triển cũng nhanh đáng kinh ngạc
  Cứ vài tuần lấy image Docker mới nhất là lần nào cũng ngạc nhiên vì nó đã cải thiện nhiều đến vậy
  [0] https://github.com/open-webui/open-webui/discussions/764
- Mình tò mò là các mô hình tinh chỉnh đó được dùng vào việc gì? Không biết bạn tự tinh chỉnh bằng dữ liệu của mình, hay chọn dùng các mô hình công khai theo từng tác vụ?
- Có công cụ tương tự nào dùng được trong terminal không?
Như mọi khi, không thấy nói gì đến hỗ trợ GPU AMD
Tình hình đáng tiếc đến mức mình hối hận vì lần này đã mua AMD
- Hỗ trợ GPU AMD chắc chắn là một phần quan trọng trong roadmap của dự án
  Tiếc là chúng tôi chưa công bố rõ ràng ở nơi như ROADMAP.md, nhưng sẽ sớm làm vậy
  Vài maintainer của dự án đến từ khu vực Toronto, quê hương ban đầu của ATI Technologies, nên về mặt cá nhân cũng rất muốn Ollama chạy tốt trên GPU AMD :)
  Một trong các máy thử nghiệm dùng cho việc hỗ trợ AMD đang dùng Radeon RX 7900XT và khá nhanh. Hoàn toàn có thể so sánh với GPU GeForce 40 series cao cấp
  [1]: https://en.wikipedia.org/wiki/ATI_Technologies
- Mình cũng vậy. Là người dùng Linux lâu năm, mình rất ghét Nvidia vì những khổ sở mà họ gây ra, nên thực sự đã mong AMD thành công
  Mình đã mua một card AMD mạnh với giá đắt, kỳ vọng họ sẽ sớm bắt kịp Nvidia, nhưng thực tế hoàn toàn không như vậy, và mình cho rằng đó là do AMD đã không đầu tư đủ nguồn lực cần thiết
  AMD vẫn có thể thay đổi, nhưng phải bắt đầu ngay bây giờ
- Có vẻ AMD tin rằng cơn sốt mới về tính toán GPU này sẽ sớm qua đi, nên họ nghĩ không cần đầu tư
  Đây là một trong những hành vi tự hủy tệ nhất mình từng thấy trong ngành công nghệ
- llamafile hỗ trợ GPU AMD
  Trên Windows, nhờ thư viện tinyBLAS nên chỉ cần có driver đồ họa
  https://github.com/Mozilla-Ocho/llamafile/releases/tag/0.6.2
  Mặc định nó sẽ mở một tab trình duyệt có GUI chat, và cũng có thể chạy như chatbot dòng lệnh kiểu Ollama như bên dưới
  https://justine.lol/oneliners/#chat
- Như những người khác đã nói, Ollama dùng Llama.CPP ở bên trong, và Llama.CPP gần đây đã phát hành hỗ trợ Vulkan, dự kiến cũng sẽ chạy trên GPU AMD
  Mình đã dùng llama.cpp biên dịch với hỗ trợ Vulkan cùng ứng dụng của mình [1] và chạy thành công trên laptop AMD, nhưng Ollama có một số giả định trong cách tìm GPU khả dụng trên máy nên mình chưa làm cho nó hoạt động được
  [1]: https://msty.app
Nếu bạn đang tìm một UI chat tốt để dùng trên Ollama và muốn hỗ trợ cả mô hình online lẫn local, có ứng dụng [1] mình đang làm
Nó tập trung vào chế độ offline và quyền riêng tư, và sáng nay mình đã phát hành hỗ trợ Windows
[1]: https://msty.app
- Lưu ý là có cảnh báo phát hiện Program:Win32/Wacapew.C!ml
- Hơi ngoài chủ đề, nhưng landing page được làm bằng gì vậy?
- Cái này có giống LLM Studio không?
- Có kế hoạch làm client cho Linux không?
- Có định thêm Gemini API không?
Tôi tò mò về lý do vì sao lại có nhiều bản port AI kiểu “chạy cục bộ” nhưng lại chạy dưới dạng server đến vậy
Có phải các nhà phát triển đã quên rằng có thể chạy mã ngay trong tiến trình UI không?
Tôi thấy cùng một mẫu này ở các trình chạy Stable Diffusion hay các host LLM
Nếu không thật sự cần thiết thì tôi không muốn chạy dịch vụ nền cục bộ, nhưng tại sao các bản triển khai này trông như đều hoạt động theo cách đó?
- Câu hỏi thật sự thú vị. Tôi nghĩ cả hai mô hình phân phối đều có thể tồn tại
  Một phép so sánh hay có thể là engine cơ sở dữ liệu. SQLite là thư viện còn Postgres là dịch vụ chạy lâu dài; cả hai đều được dùng rộng rãi và mỗi bên có các đánh đổi riêng
- Ngoài thời gian tải ban đầu như những người khác đã nói, có thể bạn sẽ muốn dùng cùng một engine suy luận hoặc cùng một LLM cho nhiều mục đích trong nhiều ứng dụng
  Một yếu tố lớn nữa, theo tôi, là việc đưa máy, môi trường và hệ điều hành vào trạng thái để model có thể chạy hiệu quả không hề dễ
  Nếu đặt sự phức tạp này vào trong container, tức là “server”, thì việc thiết lập ban đầu cũng như theo kịp các cải tiến/cập nhật liên tục sẽ dễ hơn rất nhiều
- Tải trọng số tức thời mỗi lần là không hợp lý. Vì phải liên tục di chuyển bộ nhớ ở quy mô nhiều gigabit
  Thay vào đó, cấu trúc đúng là một tiến trình chạy lâu dài xử lý nhiều yêu cầu dự đoán
  Rất có thể một ngày gần đây nó cũng sẽ phục vụ nhiều client
- Cá nhân tôi xem đây là một điểm tốt
  Tôi không có laptop hay workstation mạnh, nhưng có một server headless nhiều GPU
  Nhờ các dự án như vậy, tôi có thể thử nghiệm LLM trên server và mở API cùng web UI trong mạng nội bộ
- Vì tốc độ, tôi chạy Ollama trên một PC gaming lớn, nhưng cũng muốn dùng model ở những nơi khác trong nhà
  Vì vậy tôi chạy Open-WebUI ở chat.domain.example, còn Ollama ở api.chat.domain.example. Cả hai chỉ truy cập được trong mạng cục bộ
  Với cấu hình này, laptop và điện thoại có thể dùng model cục bộ ở tốc độ tối đa qua web UI, còn Raspberry Pi chạy trợ lý giọng nói thử nghiệm có thể truy vấn Ollama qua API endpoint
  Nhờ GPU gaming, tất cả đều hoạt động ở tốc độ tối đa. Logic tương tự cũng áp dụng cho cấu hình Stable Diffusion
Tôi không biết là người dùng Windows vẫn chưa dùng được Ollama
Có vẻ chỉ vài năm trước thôi, phía phải chờ lại là người dùng Mac
- Từ vài tháng trước nó đã chạy tốt trên WSL, kể cả hỗ trợ GPU đầy đủ
  Chỉ là với đa số người dùng thì không tiện lắm, nên hỗ trợ Windows native là điều quá tốt
- Tôi đã chạy Ollama trên Windows WSL một thời gian
  Rốt cuộc thì đó là x86 Linux, nên mọi thứ cứ thế hoạt động tốt
Tôi tò mò LM Studio mã nguồn đóng (https://lmstudio.ai) so với Ollama thì thế nào
- Điểm tốt là thiết lập rất dễ, có thể tải và nạp model/trọng số chỉ bằng một cú nhấp, và hoạt động rất ổn
  Điểm tôi không thích là trên Windows, nó đặt trọng số vào một cấu trúc thư mục riêng dưới /users/username/.cache, chiếm hàng chục GB mà không thông báo, cũng không cho chia sẻ với các client khác
  Nó không cho nhập model đã tự tải về, chức năng tìm kiếm thì rất tệ, và tôi cũng không thích cách nó xử lý cấu hình instance
Có vẻ nó đã dùng được trên Linux và Mac
Thay đổi lần này là bổ sung Windows: https://github.com/ollama/ollama
Đúng lúc tôi đang định tự cài thử và nghịch nhẹ những yêu cầu kiểu này thì bài này xuất hiện
Sau khi thử, điều thú vị là nó thật sự đơn giản và hoạt động tốt
Tuy nhiên có vẻ vấn đề là trình cài đặt lại không có tùy chọn chọn vị trí đích. Nếu server có nhiều người dùng, mỗi người sẽ có một bản sao riêng thay vì một bản cài đặt toàn cục
Tôi đang chạy Ollama với ý định tạo workflow kiểm tra ngữ pháp/lỗi chính tả cho việc viết lách
Chuyện này không liên quan trực tiếp đến bản thân Ollama, và đến giờ Ollama vẫn hoạt động tốt
Có nơi nào phù hợp để hỏi những câu kiểu này không? Tôi đang thắc mắc có chỗ nào giống Stack Overflow dành cho LLM không
Tôi đã cài và chạy model llama2 trên Mac Mini mới, nhưng bị kernel panic hoàn toàn. Chuyện gì vậy?
- Việc đó có thể xảy ra nếu model bạn chọn lớn hơn bộ nhớ hợp nhất khả dụng
  Bạn đã chọn phiên bản llama2 nào, và máy có bao nhiêu bộ nhớ hợp nhất?

Ollama hiện khả dụng trên Windows dưới dạng bản Preview

Cung cấp bản Windows Preview

Tăng tốc GPU tích hợp

Tăng tốc phần cứng và cách chạy

Toàn bộ thư viện mô hình và mô hình thị giác

API Ollama hoạt động trong nền

Cài đặt và phản hồi

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News