- Ollama công bố API cho tính năng tìm kiếm thông tin web mới nhất, giúp giảm hiện tượng ảo giác của mô hình và cải thiện độ chính xác
- Ngay cả tài khoản miễn phí cũng có hạn mức tìm kiếm miễn phí khá rộng rãi, còn người dùng tần suất cao có thể dùng giới hạn cao hơn qua Ollama Cloud
- Dựa trên REST API và tích hợp với thư viện Python, JavaScript, cho phép các mô hình như OpenAI
gpt-oss thực hiện các tác vụ nghiên cứu kéo dài
- Các tính năng
web_search và web_fetch trả về kết quả ở mức hàng nghìn token và hỗ trợ tích hợp với nhiều công cụ như Cline, Codex, Goose thông qua máy chủ MCP
- Có thể trực tiếp xây dựng agent tìm kiếm bằng cách tận dụng các tính năng này, qua đó mở rộng đáng kể tính đa dụng trong việc để mô hình AI tương tác với dữ liệu mới nhất
Giới thiệu tính năng tìm kiếm web của Ollama
- Ollama đã công bố API tìm kiếm web, cung cấp môi trường để mô hình AI có thể nhận ngay thông tin web mới nhất
- Nhờ đó có thể kỳ vọng vào hiệu quả giảm hiện tượng ảo giác (hallucination) cùng với cải thiện độ chính xác
- Người dùng cá nhân được cung cấp hạn mức tìm kiếm miễn phí khá rộng rãi, và nếu cần mức sử dụng cao hơn thì có thể mở rộng hạn mức thông qua đăng ký Ollama Cloud
- Được cung cấp dưới dạng REST API, đồng thời hỗ trợ tích hợp công cụ nâng cao thông qua thư viện Python và JavaScript
- Nhờ cấu trúc này, nhiều mô hình như gpt-oss có thể thực hiện các tác vụ nghiên cứu và tìm kiếm dài hạn
Ví dụ cách sử dụng API
- Có thể dùng khóa API được cấp từ tài khoản Ollama để gọi bằng
cURL, trong Python là ollama.web_search(), và trong JavaScript là client.webSearch()
- Kết quả được trả về dưới dạng JSON bao gồm tiêu đề, URL, tóm tắt nội dung
- Khi dùng API
web_fetch, có thể lấy nội dung trang theo từng URL, bao gồm cả văn bản chính và danh sách liên kết
Triển khai agent tìm kiếm dựa trên web search
- API Ollama có thể kết hợp với các mô hình như Qwen3, gpt-oss để phát triển agent tìm kiếm nhiều lượt hội thoại được tự động hóa
- Trong mã ví dụ, mô hình Qwen3:4B được dùng để tự động hóa quy trình tìm kiếm → suy luận → tóm tắt kết quả
- Dựa trên kết quả tìm kiếm, mô hình trải qua quá trình "Thinking" và lặp đi lặp lại việc sử dụng kết quả gọi công cụ tìm kiếm/fetch để thực hiện các kịch bản nghiên cứu hoặc khám phá phức tạp
- Bản nâng cấp mới của engine Ollama bao gồm quản lý bộ nhớ chính xác, tối ưu hóa GPU/đa GPU, cải thiện hiệu năng và hỗ trợ đầy đủ cho các mô hình vision (đa phương thức)
Hướng dẫn về mô hình khuyến nghị và hiệu năng
- Khuyến nghị các mô hình cloud có khả năng dùng công cụ mạnh mẽ (ví dụ:
qwen3:480b-cloud, gpt-oss:120b-cloud, deepseek-v3.1-cloud)
- Vì các công cụ tìm kiếm/fetch có thể trả về dữ liệu tới hàng nghìn token, nên khuyến nghị tăng độ dài ngữ cảnh của mô hình lên khoảng 32000 token
Tính năng fetch từng trang web riêng lẻ
- Ngoài tìm kiếm web, còn có API/hàm cho phép trực tiếp fetch văn bản và cấu trúc liên kết của từng trang web được chỉ định
- Có thể dễ dàng truyền url làm đối số trong Python, JavaScript hoặc cURL để trích xuất
title, content, các liên kết liên quan của trang
- Có thể xem mã ví dụ chi tiết hơn trong kho GitHub chính thức
Tích hợp công cụ và agent
web_search, web_fetch trả về dữ liệu ở mức hàng nghìn token, và khuyến nghị tăng ngữ cảnh mô hình lên từ 32K trở lên
- Hỗ trợ máy chủ MCP cho phép tích hợp trực tiếp với các môi trường phát triển AI như Cline, Codex, Goose
- Mã ví dụ Python và JavaScript được cung cấp trong kho GitHub chính thức
Bắt đầu
- Tìm kiếm web được cung cấp mặc định cho tài khoản Ollama miễn phí, và mức sử dụng cao hơn có thể dùng qua gói trả phí
- Có thể tạo tài khoản trên website Ollama, nhận khóa API và bắt đầu sử dụng dịch vụ ngay
3 bình luận
Có vẻ bản
ollamamiễn phí sẽ khó đạt đến mức có thể dùng thực tế..Ngay cả trên trang giá cũng không có giải thích nào về hạn mức, nên tôi khó mà đánh giá được liệu nó có đáng tiền hay không.
Ý kiến trên Hacker News