11 điểm bởi xguru 2025-12-30 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Định dạng tệp hướng cột mã nguồn mở được thiết kế với giả định phần cứng hiện đại (SIMD·GPU)
  • Hướng tới truy cập dữ liệu thông lượng cao, độ trễ thấp cho workload phân tích và AI
  • Đạt tỷ lệ nén cao hơn khoảng 40% so với Parquet, tốc độ giải mã nhanh hơn tới 40 lần
  • Giới thiệu bố cục dựa trên Lane giúp giảm thiểu phụ thuộc dữ liệu, cho phép giải mã độc lập từng đơn vị
    • Đảm bảo mức độ song song dữ liệu cực cao trên SIMD·CPU đa lõi·GPU
  • Được thiết kế để tự động vector hóa hoạt động hiệu quả ngay cả khi không có mã SIMD tường minh
    • Áp dụng phương thức truy cập theo lô nhỏ có tính đến đặc tính cache của CPU·GPU
  • Hỗ trợ giải nén một phần (partial decompression) để xử lý mà không cần giải nén hoàn toàn, cho phép engine dữ liệu thực thi truy vấn ngay trên trạng thái đã nén
  • Tận dụng tương quan giữa các cột thông qua nén đa cột (Multi-Column Compression, MCC)
    • Cung cấp cơ chế mã hóa dựa trên biểu thức để khắc phục giới hạn đơn cột của các định dạng lưu trữ cột truyền thống
  • Kiến trúc zero-dependency không phụ thuộc thư viện bên ngoài, giúp đơn giản hóa quá trình build
    • Cung cấp binding cho các ngôn ngữ chính như C++, Python, Rust
  • Tích hợp sẵn API chuyển đổi CSV ↔ FastLanes
    • Dễ dàng chuyển đổi bằng read_csv() / to_fls()
    • Hỗ trợ chuyển đổi ngược bằng read_fls() / to_csv()
  • Đang được phát triển với mục tiêu tích hợp cùng ngăn xếp dữ liệu thế hệ mới như giải mã GPU, Apache Arrow và DuckDB

Chưa có bình luận nào.

Chưa có bình luận nào.