9 điểm bởi xguru 2023-03-25 | 1 bình luận | Chia sẻ qua WhatsApp
  • Nền tảng big data mã nguồn mở về lưu trữ phân tán & xử lý do Yandex công bố
    • Trường hợp sử dụng: xử lý batch, phân tích ad-hoc, OLTP, machine learning, lưu trữ metadata, pipeline ETL
  • Hệ sinh thái đa tenant
  • Độ tin cậy và an toàn: không có SPOF. Tự động hóa sao chép giữa các máy chủ. Cập nhật mà không mất tiến trình đang chạy
  • Khả năng mở rộng
    • Có thể mở rộng tới 1 triệu CPU core và hàng nghìn GPU
    • Hỗ trợ hơn 10.000 node. Tự động scale up & down máy chủ
    • Hỗ trợ nhiều loại phương tiện lưu trữ cho dữ liệu tới cấp exabyte
  • Tính năng phong phú
    • Mô hình MapReduce toàn diện
    • Giao dịch ACID phân tán
    • Cung cấp nhiều SDK (C++, Python, Java, Go) và API
    • Cô lập an toàn cho tài nguyên tính toán và lưu trữ
    • UI thân thiện với người dùng
  • CHYT powered by ClickHouse
    • SQL dialect quen thuộc và các tính năng tương tự
    • Truy vấn phân tích nhanh
    • Tích hợp với các giải pháp BI phổ biến (JDBC/ODBC)
  • SPYT powered by Apache Spark
    • Công cụ để xây dựng quy trình ETL
    • Hỗ trợ nhiều cụm độc lập với các kích thước khác nhau
    • Dễ dàng di chuyển từ các giải pháp hiện có

1 bình luận

 
xguru 2023-03-25

Bài viết giới thiệu về lịch sử của chính dự án mã nguồn mở này và các công nghệ được sử dụng nội bộ: YTsaurus: Exabyte-Scale Storage and Processing System Is Now Open Source

  • Được cho là đã phát triển trong gần 10 năm.
  • Đã sử dụng MapReduce từ năm 2006, nhưng đến năm 2009 thì chạm tới giới hạn, nên từ năm 2010 bắt đầu dự án YT
  • Cypress (Storage) + MapReduce + bảng K-V động + YQL + CHYT + SPYT
  • Mã máy chủ chính là C++