Hyperspace - mã nguồn mở hệ thống con lập chỉ mục cho Apache Spark do MS công bố
(microsoft.github.io)Hệ thống con cho phép tăng tốc truy vấn dựa trên chỉ mục trong Apache Spark
→ Tạo và quản lý chỉ mục cho dữ liệu CSV, JSON, Parquet
→ Tự động sử dụng các chỉ mục này để tăng tốc truy vấn/khối lượng công việc mà không cần thay đổi mã
- Theo benchmark TPC, tốc độ truy vấn của từng truy vấn riêng lẻ tăng tối đa 11 lần
→ Nhìn chung, hiệu năng truy vấn được tăng tốc khoảng 2 lần khi dùng phần cứng thông thường
-
API đơn giản như create,refresh,delete,restore,vacuum,cancel
-
Hỗ trợ Scala, Python, .NET
Đang được sử dụng trong Azure Synapse Analytics trên nền tảng đám mây Microsoft Azure
(Dịch vụ phân tích không giới hạn kết hợp kho dữ liệu doanh nghiệp và phân tích dữ liệu lớn)
1 bình luận
Bài giới thiệu: Hyperspace, một hệ thống con lập chỉ mục cho Apache Spark™, hiện đã được mã nguồn mở
https://cloudblogs.microsoft.com/opensource/2020/…