Ollama ra mắt API tìm kiếm web

(ollama.com)

13 điểm bởi GN⁺ 2025-09-29 | 3 bình luận | Chia sẻ qua WhatsApp

Ollama công bố API cho tính năng tìm kiếm thông tin web mới nhất, giúp giảm hiện tượng ảo giác của mô hình và cải thiện độ chính xác
Ngay cả tài khoản miễn phí cũng có hạn mức tìm kiếm miễn phí khá rộng rãi, còn người dùng tần suất cao có thể dùng giới hạn cao hơn qua Ollama Cloud
Dựa trên REST API và tích hợp với thư viện Python, JavaScript, cho phép các mô hình như OpenAI gpt-oss thực hiện các tác vụ nghiên cứu kéo dài
Các tính năng web_search và web_fetch trả về kết quả ở mức hàng nghìn token và hỗ trợ tích hợp với nhiều công cụ như Cline, Codex, Goose thông qua máy chủ MCP
Có thể trực tiếp xây dựng agent tìm kiếm bằng cách tận dụng các tính năng này, qua đó mở rộng đáng kể tính đa dụng trong việc để mô hình AI tương tác với dữ liệu mới nhất

Giới thiệu tính năng tìm kiếm web của Ollama

Ollama đã công bố API tìm kiếm web, cung cấp môi trường để mô hình AI có thể nhận ngay thông tin web mới nhất
Nhờ đó có thể kỳ vọng vào hiệu quả giảm hiện tượng ảo giác (hallucination) cùng với cải thiện độ chính xác
Người dùng cá nhân được cung cấp hạn mức tìm kiếm miễn phí khá rộng rãi, và nếu cần mức sử dụng cao hơn thì có thể mở rộng hạn mức thông qua đăng ký Ollama Cloud
Được cung cấp dưới dạng REST API, đồng thời hỗ trợ tích hợp công cụ nâng cao thông qua thư viện Python và JavaScript
Nhờ cấu trúc này, nhiều mô hình như gpt-oss có thể thực hiện các tác vụ nghiên cứu và tìm kiếm dài hạn

Ví dụ cách sử dụng API

Có thể dùng khóa API được cấp từ tài khoản Ollama để gọi bằng cURL, trong Python là ollama.web_search(), và trong JavaScript là client.webSearch()
Kết quả được trả về dưới dạng JSON bao gồm tiêu đề, URL, tóm tắt nội dung
Khi dùng API web_fetch, có thể lấy nội dung trang theo từng URL, bao gồm cả văn bản chính và danh sách liên kết

Triển khai agent tìm kiếm dựa trên web search

API Ollama có thể kết hợp với các mô hình như Qwen3, gpt-oss để phát triển agent tìm kiếm nhiều lượt hội thoại được tự động hóa
Trong mã ví dụ, mô hình Qwen3:4B được dùng để tự động hóa quy trình tìm kiếm → suy luận → tóm tắt kết quả
Dựa trên kết quả tìm kiếm, mô hình trải qua quá trình "Thinking" và lặp đi lặp lại việc sử dụng kết quả gọi công cụ tìm kiếm/fetch để thực hiện các kịch bản nghiên cứu hoặc khám phá phức tạp
Bản nâng cấp mới của engine Ollama bao gồm quản lý bộ nhớ chính xác, tối ưu hóa GPU/đa GPU, cải thiện hiệu năng và hỗ trợ đầy đủ cho các mô hình vision (đa phương thức)

Hướng dẫn về mô hình khuyến nghị và hiệu năng

Khuyến nghị các mô hình cloud có khả năng dùng công cụ mạnh mẽ (ví dụ: qwen3:480b-cloud, gpt-oss:120b-cloud, deepseek-v3.1-cloud)
Vì các công cụ tìm kiếm/fetch có thể trả về dữ liệu tới hàng nghìn token, nên khuyến nghị tăng độ dài ngữ cảnh của mô hình lên khoảng 32000 token

Tính năng fetch từng trang web riêng lẻ

Ngoài tìm kiếm web, còn có API/hàm cho phép trực tiếp fetch văn bản và cấu trúc liên kết của từng trang web được chỉ định
Có thể dễ dàng truyền url làm đối số trong Python, JavaScript hoặc cURL để trích xuất title, content, các liên kết liên quan của trang
Có thể xem mã ví dụ chi tiết hơn trong kho GitHub chính thức

Tích hợp công cụ và agent

web_search, web_fetch trả về dữ liệu ở mức hàng nghìn token, và khuyến nghị tăng ngữ cảnh mô hình lên từ 32K trở lên
Hỗ trợ máy chủ MCP cho phép tích hợp trực tiếp với các môi trường phát triển AI như Cline, Codex, Goose
Mã ví dụ Python và JavaScript được cung cấp trong kho GitHub chính thức

Bắt đầu

Tìm kiếm web được cung cấp mặc định cho tài khoản Ollama miễn phí, và mức sử dụng cao hơn có thể dùng qua gói trả phí
Có thể tạo tài khoản trên website Ollama, nhận khóa API và bắt đầu sử dụng dịch vụ ngay

3 bình luận

shakespeares 2025-10-06

Có vẻ bản ollama miễn phí sẽ khó đạt đến mức có thể dùng thực tế..

slowandsnow 2025-09-30

Ngay cả trên trang giá cũng không có giải thích nào về hạn mức, nên tôi khó mà đánh giá được liệu nó có đáng tiền hay không.

GN⁺ 2025-09-29

Ý kiến trên Hacker News

Tò mò không biết họ dùng công cụ tìm kiếm nào ở bên dưới, tôi còn hỏi qua Twitter nữa https://twitter.com/simonw/status/1971210260015919488 phần đặc biệt quan trọng là giấy phép của kết quả tìm kiếm. Có được lưu trữ hay phân phối lại hay không, vì mỗi nhà cung cấp có quy định khác nhau
- Chúng tôi hợp tác với nhà cung cấp tìm kiếm và bảo đảm một môi trường hoàn toàn không có chính sách lưu giữ dữ liệu. Kết quả tìm kiếm thuộc sở hữu của người dùng và có thể tự do sử dụng. Tuy nhiên, vẫn phải tuân thủ luật pháp địa phương
- Nếu nói là đang huấn luyện mô hình AI thì có thể dùng theo ý muốn
- Nếu kết quả tìm kiếm chỉ đơn thuần là danh sách liên kết, thì cũng phải đặt câu hỏi liệu bản thân nó có được bảo hộ bản quyền hay không
- Thật lạ khi họ phát hành tính năng này mà thậm chí còn không có cả chính sách quyền riêng tư. Tôi đoán có khi đây là một ca hợp tác với đối tác VC mới đầu tư gần đây, hoặc là câu chuyện khách hàng để đem đi quảng bá. Tôi cược là Exa, từng được YC hỗ trợ từ sớm và đã gọi vốn Series B trị giá $85M. Bing có lẽ quá đắt để vận hành tự do nếu không có quan hệ hợp tác với Microsoft. Mong Ollama sớm cập nhật thông báo về quyền riêng tư. Trụ sở ở CA nên thuộc diện áp dụng CCPA, kể cả không có doanh thu thì chỉ cần xử lý dữ liệu của 50.000 cư dân California là đã tính rồi https://oag.ca.gov/privacy/ccpa Nếu cuối cùng lộ ra nhà cung cấp backend “không lưu dữ liệu” lại là Alibaba thì tôi rất tò mò phản ứng sẽ thế nào
Tôi còn không biết Ollama là một doanh nghiệp, cũng không biết họ đã gọi vốn. Cứ tưởng đây là một utility mã nguồn mở. Tò mò không biết họ định kiếm tiền từ người dùng kiểu gì về sau, nói thật là không kỳ vọng lắm
- Dạo gần đây hầu như không còn dự án nào phát hành hoàn toàn mã nguồn mở, đa phần theo mô hình nhận quyên góp hoặc được doanh nghiệp tài trợ, và trong lĩnh vực AI thì tôi nghĩ lại càng hiếm hơn
- Ollama đang được vận hành theo kiểu Docker bởi những người từng làm ở Docker
- Họ vừa ra mắt nền tảng hosting cách đây không lâu
- Trước khi thấy bình luận trả lời của bạn tôi còn tưởng bài này nói về OpenAI
Tôi hy vọng có thêm thông tin chi tiết về cách Ollama triển khai việc này, vì tôi từng xem nó là một công cụ mã nguồn mở và độc lập nền tảng, nhưng dạo gần đây cảm giác không còn như vậy nên khá băn khoăn
- Tôi cũng từng cân nhắc thêm vào Ollama khả năng lấy kết quả tìm kiếm và nội dung website bằng headless browser các thứ, nhưng lo về chất lượng kết quả và việc bị chặn IP (vì có thể trông giống crawler). Tôi nghĩ triển khai API hosted là con đường cho kết quả nhanh hơn, nhưng vẫn đang tiếp tục khám phá phương án local. Lý tưởng nhất là nếu người dùng muốn thì có thể dùng tính năng tìm kiếm kiểu này hoàn toàn trong môi trường local
- GUI không phải mã nguồn mở. Nếu muốn một ứng dụng dễ dùng thì có thể LMStudio sẽ hợp hơn (ít ra nó không giả vờ là OSS), còn ramalama cũng khá giống ollama ở chỗ container hóa LLM. Hoặc cũng có thể quay về những “nền tảng cơ bản” như llama.cpp hay vllm
- Tôi có cảm giác cách Ollama vận hành đang ngày càng tệ đi, mất niềm tin nên đã xóa nó khỏi tất cả hệ thống
Có vẻ Ollama đang đi theo hướng ngày càng ít local hơn, và tôi cũng thấy hiệu năng của nó thua vLLM. Tôi muốn chạy kiểu open-webui thông qua OpenAI-compatible API để người dùng có thể chọn giữa nhiều LLM khác nhau, nên đang tìm một lựa chọn thay thế Ollama dùng tốt với nhiều RTX 3090 (1–5 GPU)
- Tôi từng nghe nhắc đến Llamaswap hoặc vllm
Tôi không biết Ollama có dịch vụ cloud riêng. Chẳng phải ban đầu tinh thần của Ollama là model local sao? Tại sao phải trả $20/tháng để dùng cái này chỉ nhằm chạy những model nhỏ và yếu hơn? Dùng các công ty AI như OpenAI hay Mistral chẳng phải tốt hơn sao? Tôi cũng không thấy lý do phải tạo tài khoản chỉ để dùng model trên chính máy tính của mình
- Câu hỏi hay. Trong số các model được hỗ trợ có nhiều model quá lớn để chạy trên thiết bị của đa số người dùng. Đây mới chỉ là giai đoạn đầu, và nhờ quan hệ mà chúng tôi có với các nhà cung cấp model, Ollama cũng có thể đưa vào các model cloud hiện đại nhất. Ollama đồng hành cùng nhà phát triển và mục tiêu là giải quyết nhu cầu của họ https://ollama.com/cloud
- Lý do tạo tài khoản là để dùng các model do họ host hoặc dùng model local thông qua Ollama API. Hiện tôi đang trả $100 cho Claude và $200 cho GPT-5, nên $20 thật sự rất rẻ cho giá trị được dùng những model như: Qwen3 235b, Deepseek 3.1 671b, Llama 3.1 405b, GPT OSS 120b — hoàn toàn không phải các model “nhỏ hay hiệu năng thấp”. Việc nối Codex vào Ollama API để dùng công cụ với nhiều model cũng là một điểm cực hay
- Tôi xem đây là một quá trình chuyển đổi nhất quán sang các tính năng có thể kiếm tiền. Xây dựng niềm tin và thương hiệu bằng mã nguồn mở cùng lao động miễn phí, rồi chuyển sang kiếm tiền
- Có những model không thể chạy local được (gpt-oss-120b, deepseek, qwen3-coder 480b, v.v.). Đây là cách để Ollama kiếm tiền từ thành công của mình
- Ngay cả nhiều model “local” cũng có dung lượng tải xuống rất lớn và chạy chậm trên phần cứng bình thường. Ưu điểm là có thể đánh giá chúng trên cloud với chi phí thấp trước, rồi mới quyết định có tải về chạy local hay không. Điều quan trọng là nguyên tắc rằng thực sự “có thể” chạy cái gì đó ở local. Tôi không thích bị phụ thuộc vào công nghệ mà ai đó có thể dễ dàng thu hồi hoặc chặn lại
Hơi lạc đề một chút, nhưng tôi đang nghĩ đến việc dựng một “Google mini” trong nhà để dùng cá nhân. Tôi nhận ra rằng những khi thực sự cần tìm kiếm thì phần lớn nhu cầu của mình đều nằm trong khoảng hơn 1.000 website. Việc crawl toàn bộ web là quá sức với tôi. Thiết kế sơ bộ sẽ là crawler (scraper nhẹ), indexer (chuyển văn bản và lập chỉ mục đảo), storage (lưu nén HTML và văn bản), lớp tìm kiếm (xếp hạng bằng TF-IDF hoặc embedding), cập nhật định kỳ và một web UI đơn giản để duyệt. Không biết có ai từng dùng dự án thực tế nào hoặc thử thách tương tự chưa
- Tôi từng xem qua dump của Common Crawl, và 99,99% web toàn là quảng cáo, nội dung khiêu dâm, spam, blog vô nghĩa, nói chung là cực kỳ vô dụng. Tất nhiên nó vẫn có giá trị lịch sử, văn hóa hoặc văn chương nào đó, nhưng với mục đích của tôi thì gần như chẳng giúp ích gì. Từ đó tôi có thêm niềm tin rằng nếu chỉ lập chỉ mục có chọn lọc những “trang web thật sự quan trọng” thì ngay cả laptop của tôi cũng đủ sức làm được. Chỉ riêng Wikipedia đã khoảng 20GB (ở dạng nén), nên nếu chỉ lấy các chủ đề tôi thực sự quan tâm thì có lẽ còn chưa tới 200MB
- YaCy (https://yacy.net) có thể làm được phần lớn những thứ đó. Tuy nhiên nếu crawl nhiều thì Cloudflare có thể chặn IP rất nhanh
- Tôi cũng rất thích https://marginalia-search.com
- Drew DeVault trước đây từng định làm thứ tương tự tên là SearchHut rồi dừng lại. Ông ấy vật lộn với việc hiểu extension RUM của Postgres rồi cuối cùng bỏ cuộc liên kết thread HN nhắc đến SearchHut
- Không hoàn toàn giống, nhưng tôi cũng đang dùng Google CSE theo từng domain để giới hạn kết quả tìm kiếm vào các site phù hợp với chủ đề mình quan tâm. Tôi gọi nó bằng phím tắt trong Alfred nên có thể tìm khá tiện trong các lĩnh vực mình thích https://blog.gingerbeardman.com/2021/04/20/interest-specific-search-engines/
Sẽ rất hay nếu có mẹo nào về tìm kiếm local/doanh nghiệp. Tôi đang dùng Ollama local và cũng trực tiếp lập chỉ mục tài liệu của mình. Không phải embedding tài liệu hay fine-tune, mà tôi muốn biết cách tích hợp Ollama với một hệ thống full-text search truyền thống
- Tôi khuyên dùng solr. Đây là một hệ thống full-text search rất tốt và còn có tích hợp mcp nên dùng khá dễ https://github.com/mjochum64/mcp-solr-search Nếu làm thêm một chút thì có thể vector hóa tài liệu để kiêm luôn tìm kiếm tương đồng ngữ nghĩa dựa trên knn. Có thể dùng cả tìm kiếm ngữ nghĩa lẫn tìm kiếm văn bản nên chất lượng cũng tốt. Cũng có thể kết nối chromadb với solr để hợp nhất kết quả, dù khi quy mô lớn hơn thì tôi cũng băn khoăn liệu chromadb có hiệu quả hơn không
- docling cũng có thể là một lựa chọn tốt, và các công cụ full-text search đã được kiểm chứng như Typesense cũng đáng cân nhắc
Tôi đã dùng chức năng tìm kiếm bằng cách nối LLM với gói python DuckDuckGo từ lâu. Nhưng vì Google cho kết quả tốt hơn nên tôi đã cấu hình gì đó trong developer console rồi chuyển sang Google (không nhớ chính xác đã làm gì). Phía DDG là không chính thức, còn API chính thức của Google thì có giới hạn truy vấn (nên không phù hợp cho deep research). Thường chỉ cần nhét vài kết quả tìm kiếm vào GPT rồi thêm câu hỏi của mình là đa số sẽ ra câu trả lời tốt. Dĩ nhiên Ollama cũng dùng được cấu trúc này, nhưng GPU của tôi không mạnh nên nếu context dài thì tốc độ chậm
- Tôi tò mò không biết làm thế nào để dùng có ý nghĩa mà không cần API scraping, vì API chính thức bị giới hạn quá nhiều
Tôi thấy khó hiểu “tài khoản Ollama” nghĩa là gì, ban đầu tôi hiểu mục đích của Ollama là tự host model
- Bạn cần đăng ký tài khoản để dùng tính năng bổ sung hoặc các model cloud do Ollama host. Về cơ bản đây thực sự là tùy chọn, và bạn vẫn hoàn toàn có thể tự tạo model local rồi chia sẻ lên ollama.com
Tôi cũng vừa kết nối web search và đang làm công cụ thử nghiệm với nhiều nhà cung cấp. openAI, xAI, gemini không dùng được trên website của đối thủ vì bị chặn. Trên video YT thì tìm kiếm này hoạt động tốt trong các thử nghiệm đơn giản, và có thể truy cập được theo cách mà OpenAI web search không làm được. Trên X thì không hiệu quả lắm nhưng đôi khi vẫn cho ra kết quả ổn. Không hoàn hảo, nhưng nhìn chung chất lượng trung bình là dùng được