bigset - Nếu có trong tay mọi dữ liệu trên thế giới thì sao?
(github.com/tinyfish-io)- Công cụ mã nguồn mở tạo bộ dữ liệu có cấu trúc từ một câu ngôn ngữ tự nhiên trên web trực tiếp và tự động cập nhật theo chu kỳ đã thiết lập
- Ví dụ: "Danh sách các công ty YC hiện đang tuyển kỹ sư, cùng giai đoạn đầu tư, vị trí và số lượng tin tuyển dụng công khai"
- Tự động suy luận schema từ câu đầu vào — quyết định cả tên cột, kiểu dữ liệu, khóa chính và vị trí cần tìm trên web
- Tác nhân tự trị khảo sát web trực tiếp, đối chiếu và xác minh chéo với nguồn thực tế rồi loại bỏ trùng lặp để trả về dưới dạng bảng
- Khi tác nhân điều phối phát hiện thực thể, các tác nhân con sẽ được phân tán song song để điều tra và xác minh từng thực thể
- Kết quả có thể tải xuống dưới dạng CSV / XLSX, đồng thời có thể duyệt trong UI
- Khi thiết lập chu kỳ cập nhật (30 phút, 6 giờ, 12 giờ, hàng ngày, hàng tuần), tác nhân sẽ chạy lại theo lịch để liên tục cập nhật bộ dữ liệu
- Dù là con người hay tác nhân AI, mọi tương tác với web cuối cùng đều quy về dữ liệu (giá cả, doanh nghiệp, tuyển dụng, nghiên cứu, mức độ sẵn có, tồn kho, v.v.)
- Dữ liệu này nằm rải rác trên nhiều trang, và công cụ này xử lý việc thu thập dữ liệu giao cắt nhiều danh mục mà các công cụ scraping / search API / LeadGen hiện có không làm được
— Không cần mỗi lần tự tay làm hoặc tự tích hợp các bước tìm kiếm / trích xuất / thiết kế schema / loại bỏ trùng lặp / xác minh / cron job
- Dữ liệu này nằm rải rác trên nhiều trang, và công cụ này xử lý việc thu thập dữ liệu giao cắt nhiều danh mục mà các công cụ scraping / search API / LeadGen hiện có không làm được
- Cũng có thể tạo và xuất bộ dữ liệu bằng CLI trên terminal
bigset create "..." --rows 30 --wait --csv
- Tuy vậy, hiện vẫn đang ở giai đoạn thử nghiệm nên suy luận schema chưa phải lúc nào cũng hoàn hảo. Chỉ phù hợp với dữ liệu công khai
- Ngăn xếp công nghệ
- Frontend: Next.js 16, React 19, Tailwind 4
- Backend: Fastify, TypeScript (agent runner)
- Xác thực: xác thực cục bộ (phát triển), Clerk (cloud)
- Cơ sở dữ liệu: Convex (self-hosted)
- Thu thập dữ liệu: TinyFish API (Search, Fetch, Browser)
- Điều phối AI: workflow Mastra + Vercel AI SDK + OpenRouter → Claude Sonnet (suy luận schema + tác nhân populate)
- Chế độ xem bảng: TanStack Table + ảo hóa react-window
- Xuất dữ liệu: CSV (tích hợp sẵn) + XLSX (SheetJS, dynamic import)
- Phân tích: PostHog — sự kiện, phát lại phiên, theo dõi lỗi (tùy chọn)
- Giấy phép AGPL-3.0
Chưa có bình luận nào.