22 điểm bởi xguru 2024-05-26 | 1 bình luận | Chia sẻ qua WhatsApp
  • Engine NL-to-SQL cho phép truy vấn dữ liệu có cấu trúc bằng ngôn ngữ tự nhiên
  • Toàn bộ codebase đã được chuyển sang mã nguồn mở: bao gồm engine lõi, client (xác thực/RBAC) v.v.
  • Giờ đây bất kỳ ai cũng có thể xây dựng giải pháp text-to-SQL bên trong sản phẩm của riêng mình
  • Engine Core NL-to-SQL của Dataherald là một agent dựa trên LLM, sử dụng suy luận CoT (Chain of Thought) và nhiều công cụ khác nhau để tạo ra SQL có độ chính xác cao từ prompt người dùng được cung cấp
  • Bao gồm tổng cộng 4 dịch vụ
    • Engine: agent LLM, vector store và DB connector
    • Bảng điều khiển quản trị: frontend NextJS để cấu hình engine và quản lý Observability
    • Backend doanh nghiệp: bao bọc engine lõi để bổ sung xác thực/cache/API v.v.
    • Bot Slack: thêm Dataherald vào workflow Slack

1 bình luận

 
xguru 2024-05-26

Dataherald - công cụ natural language-to-SQL
Đã từng được chia sẻ cách đây 8 tháng, và giờ họ đã công khai toàn bộ dưới dạng mã nguồn mở.

Ý kiến trên Hacker News

  • Công cụ này trông thực sự rất hay. Các công cụ khác hoạt động tốt với những truy vấn đơn giản, nhưng gặp khó với schema phức tạp và các phép join. Tôi tò mò không biết DataHerald đã giải quyết được vấn đề này chưa.
  • Năm ngoái tôi đã mã nguồn mở một sản phẩm text-to-SQL. Xây dựng kiểu kinh doanh này là điều rất khó. Có lẽ hợp lý hơn nếu làm mã nguồn mở và kết nối với các công cụ triển khai miễn phí như Snowflake/PowerBI.
  • Tôi tò mò vì sao họ lại mã nguồn mở toàn bộ sản phẩm. Không biết họ có đang chuyển sang mô hình open core không. Nếu có thể chia sẻ lý do thì rất cảm kích.
  • Cảm ơn vì đóng góp mang tính lịch sử. Rất nhiều công ty hiện đang “trò chuyện” với dữ liệu. Có lẽ nhiều đội ngũ cũng đang làm những việc tương tự.
  • Đây là một trong những trợ lý phân tích AI giàu tính năng. Xin dành lời khen cho việc mã nguồn mở nó. Đã có những ví dụ thành công như Metabase, Airbyte và dbt.
  • Tôi tò mò đối tượng của công cụ này là ai. Website nói rằng nó có thể trả lời các câu hỏi về dữ liệu mà không cần qua nhà phân tích, nhưng nhà phân tích lại là chuyên gia về mô hình và dữ liệu. Data warehouse có thể gặp đủ loại vấn đề. Tôi băn khoăn liệu LLM có thể xử lý chúng một cách nhất quán hay không.
  • Lý do công cụ này có thể hoạt động tốt hơn một LLM thông thường là vì nó có thể được huấn luyện bằng cấu trúc cơ sở dữ liệu. Nhưng cấu trúc cơ sở dữ liệu có thể thay đổi thường xuyên, nên có thể sẽ cần huấn luyện lại. Tôi tò mò không biết sau khi sửa PR thì nó có tự động được huấn luyện lại hay không.
  • Tôi tò mò không biết công cụ này có thể xử lý các phép join phức tạp hay không. Tôi không tìm thấy ví dụ nào trên website.
  • Tôi không hiểu vì sao dùng hệ thống NLP+ORM lại tốt hơn. Dù phải dùng cú pháp cố định, nhưng có thể đạt độ chính xác 100%.
  • Gần đây tôi đã thử dùng NL-to-SQL ở mức prototype. Vấn đề là làm sao ngăn sai sót hoặc tác nhân xấu ảnh hưởng đến cơ sở dữ liệu. Nếu ai muốn trao đổi thêm về các khía cạnh khác liên quan đến chuyện này thì hãy liên hệ với tôi.