Launch HN: Trellis – quy trình làm việc dùng AI cho dữ liệu phi cấu trúc
(news.ycombinator.com)- Trellis là công cụ ETL (Extract, Transform, Load) dùng AI dành cho dữ liệu phi cấu trúc
- Chuyển đổi nội dung cuộc gọi điện thoại, PDF và trò chuyện thành định dạng SQL có cấu trúc theo schema do người dùng định nghĩa bằng ngôn ngữ tự nhiên
- Giúp các nhóm dữ liệu và vận hành tự động hóa việc nhập dữ liệu thủ công và xử lý dữ liệu phức tạp bằng truy vấn SQL
Bối cảnh phát triển Trellis
- Sau khi gặp nhau tại phòng thí nghiệm AI của Stanford, nhóm đã hợp tác với các đội dữ liệu ở nhiều tập đoàn lớn và phát hiện ra bài toán dữ liệu phi cấu trúc
- 80% dữ liệu doanh nghiệp là dữ liệu phi cấu trúc và rất khó xử lý bằng các nền tảng hiện có
- Ví dụ, một ngân hàng thương mại lớn không thể cải thiện mô hình rủi ro tín dụng vì dữ liệu quan trọng bị mắc kẹt trong PDF và email
- Dựa trên nghiên cứu AI, nhóm đã phát triển giải pháp ETL dùng AI để chuyển đổi dữ liệu phi cấu trúc thành các bảng phù hợp với schema
Thách thức kỹ thuật
- Hỗ trợ tài liệu phức tạp: dùng map-reduce dựa trên LLM để xử lý tài liệu dài, đồng thời dùng mô hình thị giác để trích xuất bảng biểu và bố cục
- Điều phối mô hình: chọn mô hình tối ưu cho từng phép biến đổi để tối ưu chi phí và tốc độ
- Xác thực dữ liệu và đảm bảo schema: bảo đảm độ chính xác thông qua liên kết tham chiếu và phát hiện bất thường
Nhiều trường hợp sử dụng
- Dịch vụ tài chính: xử lý các tài liệu phức tạp (trái phiếu, xếp hạng tín dụng, v.v.) thành định dạng có cấu trúc để tăng tốc underwriting và tự động hóa xử lý khoản vay
- Hỗ trợ khách hàng và vận hành back-office: tăng tốc onboarding và bảo đảm tuân thủ SOP thông qua ánh xạ tài liệu giữa nhiều schema và hệ thống ERP
- Tiền xử lý và thu thập dữ liệu: cần tiền xử lý dữ liệu và thu thập dữ liệu RAG trong pipeline ETL
Tóm tắt của GN⁺
- Trellis là công cụ ETL dùng AI chuyển dữ liệu phi cấu trúc thành định dạng SQL có cấu trúc, giúp tự động hóa công việc thủ công của các nhóm dữ liệu và vận hành
- Giải quyết các thách thức kỹ thuật như xử lý tài liệu phức tạp, điều phối mô hình và xác thực dữ liệu
- Có thể được sử dụng hữu ích trong nhiều ngành như dịch vụ tài chính, hỗ trợ khách hàng và tiền xử lý dữ liệu
- Đặc biệt hữu ích cho các doanh nghiệp đang gặp khó khăn trong việc xử lý dữ liệu phi cấu trúc
- Các dự án khác có tính năng tương tự gồm Alteryx và Talend
1 bình luận
Ý kiến Hacker News
Đang phát triển một gói Python mã nguồn mở và cung cấp tính năng tương tự
Một ngân hàng thương mại lớn đã không thể xử lý dữ liệu bị mắc kẹt trong PDF và email, nên không thể cải thiện mô hình rủi ro tín dụng
Đã thực hiện một dự án liên quan tại SoundTrace
Đã làm việc tại Instabase, và khả năng xử lý PDF cùng bản quét tài liệu là rất quan trọng
Chúc mừng Trellis ra mắt, và các edge case cần phải gần như bằng 0%
Hỏi về cạnh tranh và sự khác biệt so với Roe AI
Thắc mắc họ đã xác minh độ chính xác của dữ liệu như thế nào
Trong dự án cá nhân, đang dùng TypeChat, Zod và Unstructured để làm công việc tương tự
Đã dùng function calling của OpenAI để trích xuất các trường từ hàng nghìn tài liệu quét
Chúc mừng ra mắt dù vẫn chưa giải quyết được vấn đề lớn