2 điểm bởi flamehaven01 2025-12-19 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

FLAMEHAVEN FileSearch là một dự án mã nguồn mở bắt đầu từ câu hỏi
👉 “Liệu có thể tạo RAG cho tìm kiếm tài liệu theo cách nhẹ, có thể tái lập và hoàn toàn self-hosted không?”

Hiện dự án có ⭐ 81 Star / 🍴 11 Fork; quy mô còn nhỏ nhưng đã liên tục mang lại những cải tiến rõ ràng qua từng bản phát hành.

Bản phát hành v1.3.1 lần này không chỉ đơn thuần là bổ sung tính năng, mà là một bản cập nhật phá vỡ giả định rằng
👉 “tìm kiếm ngữ nghĩa = stack ML nặng nề”.


🔍 Tóm tắt dự án trong một dòng

  • Công cụ tìm kiếm RAG self-hosted

  • Tải lên tài liệu (PDF/DOCX/MD/TXT) để tìm kiếm theo từ khóa + ngữ nghĩa + lai

  • Chạy cục bộ mà không cần vector DB bên ngoài

  • Có thể chạy trong vòng 3 phút chỉ với một dòng Docker


✨ Cập nhật trọng tâm của v1.3.1 (những điểm lập trình viên sẽ thích)
1️⃣ Loại bỏ hoàn toàn phụ thuộc ML (thay đổi lớn nhất)

  • Loại bỏ hoàn toàn sentence-transformers / torch

  • Giới thiệu DSP v2.0 (Deterministic Semantic Projection) do dự án tự triển khai

  • ✔️ Tạo vector < 1ms

  • ✔️ Không còn độ trễ khởi tạo (trước đây 2 phút → nay tức thì)

  • Vẫn là tìm kiếm ngữ nghĩa nhưng hoạt động theo cách xác định được, không cần framework ML


2️⃣ Tối ưu bộ nhớ & hiệu năng

  • Lượng tử hóa vector int8
    → giảm 75% mức sử dụng bộ nhớ

  • Tăng tốc hơn 30% cho tính toán độ tương đồng cosine

  • Nén hơn 90% metadata (Gravitas-Pack)

  • Có thể vận hành nhẹ nhàng ngay cả trên máy chủ cá nhân / VM nội bộ


3️⃣ Mở rộng chế độ tìm kiếm

  • Hỗ trợ các chế độ tìm kiếm keyword / semantic / hybrid

  • Bao gồm sửa lỗi gõ sai + tinh chỉnh truy vấn

  • Hoàn toàn backward-compatible với API hiện có


4️⃣ Độ ổn định & độ tin cậy

  • Chuyển framework kiểm thử từ pytest → unittest

  • 19/19 bài kiểm thử đã vượt qua (0.33s)

  • Loại bỏ timeout và sự bất ổn của CI


🔐 Các tính năng production vẫn được duy trì

  • Xác thực & quản lý quyền dựa trên API Key

  • Rate limiting / Audit log

  • Batch search (1~100 truy vấn)

  • Redis cache tùy chọn

  • Chỉ số Prometheus


👀 Đặc biệt phù hợp với những ai

  • Các nhóm cần local RAG để tìm kiếm tài liệu nội bộ

  • Môi trường khó đưa dữ liệu lên SaaS bên ngoài (như Pinecone)

  • Lập trình viên đang ở giai đoạn “PoC thì xong rồi, nhưng vận hành thế nào?”

  • Kỹ sư coi trọng khả năng tái lập / chi phí / quyền kiểm soát


🔗 GitHub

👉 https://github.com/flamehaven01/Flamehaven-Filesearch

---Nếu bạn dùng thử và thấy hữu ích, một lượt ⭐ sẽ là nguồn động lực rất lớn.
Mọi ý kiến, phản hồi và PR đều được chào đón.

Chưa có bình luận nào.

Chưa có bình luận nào.