Flamehaven FileSearch — công cụ tìm kiếm tài liệu RAG mã nguồn mở có thể tự lưu trữ
(github.com/flamehaven01)🔥Flamehaven FileSearch
- Flamehaven FileSearch là công cụ tìm kiếm ngữ nghĩa mã nguồn mở có thể tự lưu trữ, giúp bất kỳ ai cũng có thể xây dựng hệ thống RAG (Retrieval-Augmented Generation) dựa trên tài liệu chỉ trong 5 phút.
- Hoạt động trên nền tảng Python, FastAPI và SQLite, đồng thời sử dụng Google Gemini Embedding để thực hiện hỏi đáp bằng ngôn ngữ tự nhiên trên nhiều loại tài liệu như PDF/DOCX/TXT/MD.
Tại sao lại tạo ra nó?
- Phần lớn các bản triển khai RAG mã nguồn mở chạy tốt trong môi trường Colab hoặc Jupyter, nhưng khi đưa lên máy chủ thực tế để vận hành thì thường có cấu trúc phức tạp hoặc thiếu tính ổn định.
- Flamehaven FileSearch được thiết kế với mục tiêu “một stack RAG gọn nhẹ thực sự chạy được”, để nhà nghiên cứu, startup và lập trình viên cá nhân có thể ngay lập tức thử nghiệm tìm kiếm ngữ nghĩa với chính dữ liệu của mình.
Vì sao đáng chú ý?
- Tính tự chủ hoàn toàn: Không phụ thuộc vào máy chủ bên ngoài hay đám mây, toàn bộ dữ liệu được lưu cục bộ.
- Cấu trúc hướng nhà phát triển: Python SDK + REST API, tự động cung cấp tài liệu Swagger dựa trên FastAPI.
- Phát hành gói PyPI: Có thể cài đặt ngay từ PyPI — cài đặt hoàn toàn tự động chỉ với một dòng
pip install flamehaven-filesearch[api]. - Chạy ngay lập tức: Sau khi cài đặt, có thể khởi động máy chủ ngay bằng lệnh
flamehaven-api, và thử nghiệm API tại/docstrên trình duyệt. - Khả năng mở rộng: Hỗ trợ kho lưu trữ SQLite, kiến trúc plugin và triển khai bằng Docker.
- Thân thiện với giáo dục/nghiên cứu: Sử dụng Gemini Embedding, rất phù hợp để thực hành tìm kiếm ngữ nghĩa dựa trên LLM hiện đại.
Có những gì bên trong? (điểm nổi bật)
-
Python SDK:
from flamehaven_filesearch import FlamehavenFileSearch→ Cung cấp đầy đủ chức năng tải tài liệu lên / tìm kiếm / quản lý store.
-
REST API: endpoint
/upload,/search,/stores+ Swagger UI. -
Hỗ trợ Docker:
docker run -e GEMINI_API_KEY=... -p 8000:8000 flamehaven/filesearch:latest -
Cấu trúc:
core(engine)/api(FastAPI)/data(SQLite)/examples/docs
Dùng thử nhanh
1️⃣ Gói PyPI
Flamehaven FileSearch có thể được cài đặt ngay thông qua PyPI.
Xem phiên bản mới nhất: https://pypi.org/project/flamehaven-filesearch
pip install flamehaven-filesearch[api]
2️⃣ Cài đặt
pip install flamehaven-filesearch[api]
export GEMINI_API_KEY="your-google-gemini-key"
flamehaven-api
3️⃣ Tải tài liệu lên & tìm kiếm
curl -X POST "http://localhost:8000/upload" -F "file=@handbook.pdf"
curl "http://localhost:8000/search?q=vacation+policy"
4️⃣ Ví dụ dùng SDK
from flamehaven_filesearch import FlamehavenFileSearch
fs = FlamehavenFileSearch()
fs.upload_file("handbook.pdf")
print(fs.search("vacation policy")["answer"])
Hiệu năng & thông số
- Môi trường: Ubuntu 22.04 / 2vCPU / 4GB RAM / SSD
- Tải lên PDF 10MB → khoảng 5 giây
- Thời gian phản hồi tìm kiếm trung bình → 2 giây (khi trích dẫn 5 nguồn)
- Xóa/tạo store → dưới 1 giây
- Chi phí lưu trữ phát sinh → khoảng 5% kích thước tài liệu
Lộ trình
- v1.1 : bộ nhớ đệm và quản lý quota
- v1.2 : tìm kiếm hàng loạt + streaming qua WebSocket
- v2.0 : hỗ trợ tài liệu đa ngôn ngữ, bảng điều khiển phân tích
- Tương lai : tích hợp vector DB Pinecone/Weaviate, OCR, store cộng tác
Giấy phép
- MIT License (mã nguồn mở hoàn toàn)
🛡️ Thông báo bảo mật GitHub và tài khoản Flamehaven
Gần đây, tài khoản GitHub Flamehaven (tài khoản chính thức này) đã bị tạm khóa sau khi phát hiện các nỗ lực đăng nhập đáng ngờ. Hiện tại, chúng tôi đang phối hợp với đội ngũ bảo mật GitHub để xác minh vấn đề.
Qua sự việc lần này, các tài khoản bao gồm dir2md, flashrecord, crom-efficient, Arr-medic-cyp3a4 và các tài khoản liên quan hiện sẽ tạm thời ngừng sử dụng.
Chúng tôi chân thành xin lỗi vì sự bất tiện này và mong người dùng thông cảm thêm một chút cho đến khi việc kiểm tra bảo mật hoàn tất.
Chưa có bình luận nào.