2 điểm bởi GN⁺ 2024-02-18 | 1 bình luận | Chia sẻ qua WhatsApp
  • Trên Windows, Ollama cũng có thể chạy trong môi trường native, giúp luồng tải về, chạy và sinh nội dung với mô hình ngôn ngữ lớn cục bộ trở nên dễ dàng hơn
  • Ollama cho Windows cung cấp tăng tốc GPU tích hợp, quyền truy cập toàn bộ thư viện mô hình và API Ollama tương thích OpenAI
  • Khi chạy mô hình, hệ thống tận dụng GPU NVIDIA và các tập lệnh CPU hiện đại như AVX, AVX2, đồng thời không cần thiết lập hay ảo hóa riêng
  • Có thể sử dụng toàn bộ thư viện mô hình và mô hình thị giác trên Windows; với LLaVA 1.6, có thể kéo thả hình ảnh vào ollama run để thêm vào tin nhắn
  • Nhờ API Ollama chạy nền, có thể kết nối các công cụ vốn dành cho OpenAI với mô hình cục bộ để sử dụng

Cung cấp bản Windows Preview

  • Ollama được cung cấp dưới dạng Windows Preview, cho phép tải về, chạy và sinh nội dung với mô hình ngôn ngữ lớn trên Windows
  • Ollama cho Windows bao gồm các tính năng chính trong một lần

Tăng tốc phần cứng và cách chạy

  • Khi chạy mô hình, hệ thống được tăng tốc bằng GPU NVIDIA
  • Nếu khả dụng, cũng tận dụng các tập lệnh CPU hiện đại như AVX, AVX2
  • Có thể sử dụng ngay trong môi trường Windows mà không cần thiết lập thêm hay ảo hóa

Toàn bộ thư viện mô hình và mô hình thị giác

API Ollama hoạt động trong nền

  • API Ollama tự động chạy trong nền và được cung cấp tại http://localhost:11434
  • Công cụ và ứng dụng có thể kết nối tới API này mà không cần cấu hình thêm
  • Ví dụ gọi API Ollama trong PowerShell như sau
(Invoke-WebRequest -method POST -Body '{"model":"llama2", "prompt":"Why is the sky blue?", "stream": false}' -uri http://localhost:11434/api/generate ).Content | ConvertFrom-json
  • Ollama cho Windows cũng hỗ trợ khả năng tương thích OpenAI giống như các nền tảng khác
  • Có thể dùng các công cụ hiện có dành cho OpenAI cùng với mô hình cục bộ thông qua Ollama

Cài đặt và phản hồi

  • Để bắt đầu Windows Preview, hãy tải OllamaSetup.exe
  • Nhấp đúp tệp cài đặt OllamaSetup.exe để cài đặt
  • Sau khi cài đặt, mở terminal và chạy mô hình bằng lệnh sau
ollama run llama2
  • Khi có bản phát hành mới, Ollama sẽ hướng dẫn cập nhật
  • Nếu gặp vấn đề, có thể mở GitHub issue hoặc tham gia máy chủ Discord để gửi phản hồi

1 bình luận

 
GN⁺ 2024-02-18
Ý kiến trên Hacker News
  • Mình đang dùng Open-WebUI làm frontend trên desktop
    Mình đã gom khoảng 12 mô hình Mistral tinh chỉnh cùng vài mô hình khác, và chúng đủ dùng cho chat hoặc các tác vụ trích xuất thông tin
    Ứng dụng Open-WebUI trông khá giống ChatGPT và cũng có thể tìm kiếm hội thoại
    https://github.com/open-webui/open-webui

    • Với những ai đã bỏ lỡ thông báo vài giờ trước: open-webui là bản đổi thương hiệu của dự án trước đây có tên ollama-webui
      Có thể khẳng định đây là một frontend khá vững cho Ollama. Nó hoạt động rất tốt và tốc độ phát triển cũng nhanh đáng kinh ngạc
      Cứ vài tuần lấy image Docker mới nhất là lần nào cũng ngạc nhiên vì nó đã cải thiện nhiều đến vậy
      [0] https://github.com/open-webui/open-webui/discussions/764
    • Mình tò mò là các mô hình tinh chỉnh đó được dùng vào việc gì? Không biết bạn tự tinh chỉnh bằng dữ liệu của mình, hay chọn dùng các mô hình công khai theo từng tác vụ?
    • Có công cụ tương tự nào dùng được trong terminal không?
  • Như mọi khi, không thấy nói gì đến hỗ trợ GPU AMD
    Tình hình đáng tiếc đến mức mình hối hận vì lần này đã mua AMD

    • Hỗ trợ GPU AMD chắc chắn là một phần quan trọng trong roadmap của dự án
      Tiếc là chúng tôi chưa công bố rõ ràng ở nơi như ROADMAP.md, nhưng sẽ sớm làm vậy
      Vài maintainer của dự án đến từ khu vực Toronto, quê hương ban đầu của ATI Technologies, nên về mặt cá nhân cũng rất muốn Ollama chạy tốt trên GPU AMD :)
      Một trong các máy thử nghiệm dùng cho việc hỗ trợ AMD đang dùng Radeon RX 7900XT và khá nhanh. Hoàn toàn có thể so sánh với GPU GeForce 40 series cao cấp
      [1]: https://en.wikipedia.org/wiki/ATI_Technologies
    • Mình cũng vậy. Là người dùng Linux lâu năm, mình rất ghét Nvidia vì những khổ sở mà họ gây ra, nên thực sự đã mong AMD thành công
      Mình đã mua một card AMD mạnh với giá đắt, kỳ vọng họ sẽ sớm bắt kịp Nvidia, nhưng thực tế hoàn toàn không như vậy, và mình cho rằng đó là do AMD đã không đầu tư đủ nguồn lực cần thiết
      AMD vẫn có thể thay đổi, nhưng phải bắt đầu ngay bây giờ
    • Có vẻ AMD tin rằng cơn sốt mới về tính toán GPU này sẽ sớm qua đi, nên họ nghĩ không cần đầu tư
      Đây là một trong những hành vi tự hủy tệ nhất mình từng thấy trong ngành công nghệ
    • llamafile hỗ trợ GPU AMD
      Trên Windows, nhờ thư viện tinyBLAS nên chỉ cần có driver đồ họa
      https://github.com/Mozilla-Ocho/llamafile/releases/tag/0.6.2
      Mặc định nó sẽ mở một tab trình duyệt có GUI chat, và cũng có thể chạy như chatbot dòng lệnh kiểu Ollama như bên dưới
      https://justine.lol/oneliners/#chat
    • Như những người khác đã nói, Ollama dùng Llama.CPP ở bên trong, và Llama.CPP gần đây đã phát hành hỗ trợ Vulkan, dự kiến cũng sẽ chạy trên GPU AMD
      Mình đã dùng llama.cpp biên dịch với hỗ trợ Vulkan cùng ứng dụng của mình [1] và chạy thành công trên laptop AMD, nhưng Ollama có một số giả định trong cách tìm GPU khả dụng trên máy nên mình chưa làm cho nó hoạt động được
      [1]: https://msty.app
  • Nếu bạn đang tìm một UI chat tốt để dùng trên Ollama và muốn hỗ trợ cả mô hình online lẫn local, có ứng dụng [1] mình đang làm
    Nó tập trung vào chế độ offline và quyền riêng tư, và sáng nay mình đã phát hành hỗ trợ Windows
    [1]: https://msty.app

    • Lưu ý là có cảnh báo phát hiện Program:Win32/Wacapew.C!ml
    • Hơi ngoài chủ đề, nhưng landing page được làm bằng gì vậy?
    • Cái này có giống LLM Studio không?
    • Có kế hoạch làm client cho Linux không?
    • Có định thêm Gemini API không?
  • Tôi tò mò về lý do vì sao lại có nhiều bản port AI kiểu “chạy cục bộ” nhưng lại chạy dưới dạng server đến vậy
    Có phải các nhà phát triển đã quên rằng có thể chạy mã ngay trong tiến trình UI không?
    Tôi thấy cùng một mẫu này ở các trình chạy Stable Diffusion hay các host LLM
    Nếu không thật sự cần thiết thì tôi không muốn chạy dịch vụ nền cục bộ, nhưng tại sao các bản triển khai này trông như đều hoạt động theo cách đó?

    • Câu hỏi thật sự thú vị. Tôi nghĩ cả hai mô hình phân phối đều có thể tồn tại
      Một phép so sánh hay có thể là engine cơ sở dữ liệu. SQLite là thư viện còn Postgres là dịch vụ chạy lâu dài; cả hai đều được dùng rộng rãi và mỗi bên có các đánh đổi riêng
    • Ngoài thời gian tải ban đầu như những người khác đã nói, có thể bạn sẽ muốn dùng cùng một engine suy luận hoặc cùng một LLM cho nhiều mục đích trong nhiều ứng dụng
      Một yếu tố lớn nữa, theo tôi, là việc đưa máy, môi trường và hệ điều hành vào trạng thái để model có thể chạy hiệu quả không hề dễ
      Nếu đặt sự phức tạp này vào trong container, tức là “server”, thì việc thiết lập ban đầu cũng như theo kịp các cải tiến/cập nhật liên tục sẽ dễ hơn rất nhiều
    • Tải trọng số tức thời mỗi lần là không hợp lý. Vì phải liên tục di chuyển bộ nhớ ở quy mô nhiều gigabit
      Thay vào đó, cấu trúc đúng là một tiến trình chạy lâu dài xử lý nhiều yêu cầu dự đoán
      Rất có thể một ngày gần đây nó cũng sẽ phục vụ nhiều client
    • Cá nhân tôi xem đây là một điểm tốt
      Tôi không có laptop hay workstation mạnh, nhưng có một server headless nhiều GPU
      Nhờ các dự án như vậy, tôi có thể thử nghiệm LLM trên server và mở API cùng web UI trong mạng nội bộ
    • Vì tốc độ, tôi chạy Ollama trên một PC gaming lớn, nhưng cũng muốn dùng model ở những nơi khác trong nhà
      Vì vậy tôi chạy Open-WebUI ở chat.domain.example, còn Ollama ở api.chat.domain.example. Cả hai chỉ truy cập được trong mạng cục bộ
      Với cấu hình này, laptop và điện thoại có thể dùng model cục bộ ở tốc độ tối đa qua web UI, còn Raspberry Pi chạy trợ lý giọng nói thử nghiệm có thể truy vấn Ollama qua API endpoint
      Nhờ GPU gaming, tất cả đều hoạt động ở tốc độ tối đa. Logic tương tự cũng áp dụng cho cấu hình Stable Diffusion
  • Tôi không biết là người dùng Windows vẫn chưa dùng được Ollama
    Có vẻ chỉ vài năm trước thôi, phía phải chờ lại là người dùng Mac

    • Từ vài tháng trước nó đã chạy tốt trên WSL, kể cả hỗ trợ GPU đầy đủ
      Chỉ là với đa số người dùng thì không tiện lắm, nên hỗ trợ Windows native là điều quá tốt
    • Tôi đã chạy Ollama trên Windows WSL một thời gian
      Rốt cuộc thì đó là x86 Linux, nên mọi thứ cứ thế hoạt động tốt
  • Tôi tò mò LM Studio mã nguồn đóng (https://lmstudio.ai) so với Ollama thì thế nào

    • Điểm tốt là thiết lập rất dễ, có thể tải và nạp model/trọng số chỉ bằng một cú nhấp, và hoạt động rất ổn
      Điểm tôi không thích là trên Windows, nó đặt trọng số vào một cấu trúc thư mục riêng dưới /users/username/.cache, chiếm hàng chục GB mà không thông báo, cũng không cho chia sẻ với các client khác
      Nó không cho nhập model đã tự tải về, chức năng tìm kiếm thì rất tệ, và tôi cũng không thích cách nó xử lý cấu hình instance
  • Có vẻ nó đã dùng được trên Linux và Mac
    Thay đổi lần này là bổ sung Windows: https://github.com/ollama/ollama

  • Đúng lúc tôi đang định tự cài thử và nghịch nhẹ những yêu cầu kiểu này thì bài này xuất hiện
    Sau khi thử, điều thú vị là nó thật sự đơn giản và hoạt động tốt
    Tuy nhiên có vẻ vấn đề là trình cài đặt lại không có tùy chọn chọn vị trí đích. Nếu server có nhiều người dùng, mỗi người sẽ có một bản sao riêng thay vì một bản cài đặt toàn cục

  • Tôi đang chạy Ollama với ý định tạo workflow kiểm tra ngữ pháp/lỗi chính tả cho việc viết lách
    Chuyện này không liên quan trực tiếp đến bản thân Ollama, và đến giờ Ollama vẫn hoạt động tốt
    Có nơi nào phù hợp để hỏi những câu kiểu này không? Tôi đang thắc mắc có chỗ nào giống Stack Overflow dành cho LLM không

  • Tôi đã cài và chạy model llama2 trên Mac Mini mới, nhưng bị kernel panic hoàn toàn. Chuyện gì vậy?

    • Việc đó có thể xảy ra nếu model bạn chọn lớn hơn bộ nhớ hợp nhất khả dụng
      Bạn đã chọn phiên bản llama2 nào, và máy có bao nhiêu bộ nhớ hợp nhất?