- Thư viện data frame Python hiện đại được thiết kế cho AI
- Được tạo ra để tổ chức dữ liệu phi cấu trúc thành các tập dữ liệu và wrangle ở quy mô lớn trên máy cục bộ
- Tích hợp vào postmodern data stack mà không trừu tượng hóa hoặc che giấu các mô hình AI và lệnh gọi API
Tính năng chính
- Kho lưu trữ Source of Truth
- Xử lý dữ liệu phi cấu trúc trên S3, GCP, Azure và hệ thống tệp cục bộ mà không cần bản sao trùng lặp
- Hỗ trợ dữ liệu đa phương thức: hình ảnh, video, văn bản, PDF, JSON, CSV, parquet, v.v.
- Hợp nhất tệp và metadata thành các tập dữ liệu bền vững, có quản lý phiên bản và dạng cột
- Pipeline dữ liệu thân thiện với Python
- Làm việc với các đối tượng Python và các trường của đối tượng
- Tích hợp sẵn khả năng xử lý song song và tính toán out-of-memory, không cần SQL hay Spark
- Tăng cường dữ liệu (Enrichment) và xử lý
- Tạo metadata bằng mô hình AI cục bộ và API LLM
- Lọc, join, group theo metadata. Tìm kiếm bằng vector embedding
- Chuyển tập dữ liệu sang Pytorch hoặc Tensorflow hoặc xuất lại về kho lưu trữ
- Hiệu quả
- Xử lý song song, thao tác out-of-memory, caching dữ liệu
- Phép toán vector hóa trên các trường đối tượng Python: tổng, số lượng, trung bình, v.v.
- Tìm kiếm vector được tối ưu hóa
Chưa có bình luận nào.