5 điểm bởi GN⁺ 2024-11-19 | 1 bình luận | Chia sẻ qua WhatsApp
  • Giới thiệu về Regatta Storage

    • Regatta Storage là một hệ thống tệp đám mây mới, cung cấp dung lượng không giới hạn, hiệu năng như máy cục bộ và hỗ trợ đồng bộ tự động tới bộ nhớ tương thích S3
    • Cho phép truy cập tức thì vào các tập dữ liệu lớn trên S3 bằng các công cụ như Spark, Pytorch và pandas
    • Có thể dùng thử dịch vụ miễn phí bằng cách tạo tài khoản
  • Bối cảnh phát triển

    • Nhà sáng lập đã phát triển Regatta dựa trên kinh nghiệm xây dựng và vận hành bộ nhớ đám mây tại Amazon EFS và Netflix
    • Họ yêu thích sự đơn giản và khả năng mở rộng của EFS, nhưng tại Netflix thì EFS ít được sử dụng
    • Khi chuyển workload từ đĩa cục bộ sang NFS, đã phát sinh vấn đề hiệu năng
    • Regatta được phát triển để giải quyết những vấn đề mà thị trường bộ nhớ đám mây chưa xử lý được bằng block storage hoặc file storage
  • Đặc điểm của Regatta

    • Hệ thống tệp đám mây tính phí theo mức sử dụng, tự động mở rộng cùng với ứng dụng
    • Tự động đồng bộ với S3 theo định dạng tệp gốc, nên có thể kết nối với các tập dữ liệu hiện có và dùng trực tiếp dữ liệu tệp từ S3
    • Dữ liệu không sử dụng sẽ bị loại khỏi bộ nhớ đệm Regatta, vì vậy chỉ cần trả chi phí cho bộ nhớ S3
    • Đang phát triển một giao thức tệp tùy chỉnh để cung cấp hiệu năng như máy cục bộ cho workload nhiều tệp nhỏ và khả năng mở rộng như Lustre cho xử lý dữ liệu phân tán
  • Triển khai kỹ thuật

    • Khách hàng mount hệ thống tệp Regatta qua NFSv3, và instance caching sẽ kết nối với bucket S3 của khách hàng
    • Cung cấp hiệu năng đọc và ghi đã được cache ở mức dưới mili giây, đồng thời duy trì tính nhất quán mạnh
    • Thực hiện nhanh và ổn định các thao tác phức tạp như đổi tên thư mục, rồi truyền bất đồng bộ tới bucket S3
  • Trường hợp sử dụng và kỳ vọng

    • Được dùng để xây dựng máy chủ Jupyter Notebook serverless cho các nhà nghiên cứu AI
    • Được dùng như một lớp cache phân tán trên S3 để truy cập các tệp dùng chung với độ trễ thấp
    • Thay thế boot volume Ceph để giảm chi phí
    • Hoan nghênh phản hồi từ người dùng và các ý tưởng về định hướng tương lai, đồng thời mong chờ ý kiến từ cộng đồng

1 bình luận

 
GN⁺ 2024-11-19
Ý kiến Hacker News
  • Điểm khác biệt giữa Rclone và Regatta Storage là khi thực hiện các thao tác biến đổi hệ thống tệp, Regatta cung cấp tính nhất quán mạnh nhờ sử dụng lớp bộ nhớ đệm tốc độ cao. Rclone không có lớp đảm bảo tính nhất quán giữa các client chạy song song

    • Regatta Storage cung cấp tính nhất quán mạnh khi thực hiện các thao tác biến đổi hệ thống tệp bằng cách sử dụng lớp bộ nhớ đệm tốc độ cao
    • Rclone không có lớp đảm bảo tính nhất quán giữa các client chạy song song
  • Đây là một trong những sản phẩm thú vị nhất từng ra từ YC, và có nhiều câu hỏi về cách nó hoạt động

    • Muốn biết liệu có bị giảm hiệu năng khi xử lý dữ liệu cỡ 50GB trên đĩa cục bộ 10GB hay không
    • Muốn biết liệu có thể đạt tốc độ cao trên các cloud khác ngoài AWS hay không
    • Có thắc mắc về cách sử dụng mount FUSE và NFS
    • Muốn biết liệu có thể chạy Clickhouse hoặc Postgres trên volume Regatta hay không
    • Muốn biết quan điểm về mã nguồn mở
    • Muốn biết liệu có thể mount trên nhiều server hay không, và các giới hạn của việc đó là gì
  • Đang host DuckDB bằng GCP Filestore và yêu cầu thông tin về giá và hiệu năng của Regatta

    • Yêu cầu thông tin về giá và hiệu năng của instance 10 TiB
  • Quan tâm dùng làm đĩa sao lưu cho SQLite/DuckDB/parquet, đồng thời muốn các lượt đọc được cache trên bộ nhớ NVMe cục bộ của instance

    • Cần các tính năng khóa và bộ nhớ chia sẻ mà NFS không cung cấp được
    • Có thể tự triển khai trực tiếp trong user space, nhưng như vậy thì thà dùng S3 còn hơn
  • Cho rằng việc dùng NFS làm giao thức là một ý tưởng hay

    • Từng có kinh nghiệm viết một hệ thống tệp mã hóa với ý tưởng tương tự tại IBM
    • Cảm giác như ma thuật khi mount hệ thống tệp và mọi dữ liệu "đơn giản là ở đó"
  • Có lo ngại rằng AWS có thể sao chép sản phẩm này và cung cấp với mức giá thấp hơn

  • Từng có trải nghiệm demo thành công trước CEO của Adobe vào năm 2008, trong đó một bức ảnh chụp bằng iPhone tự động xuất hiện thành tệp trên máy Mac

    • Đã triển khai FUSE cục bộ để giao tiếp với kho lưu trữ đối tượng phân tán của Adobe bằng FUSE
    • Bắt đầu nghiên cứu và phát triển hệ thống phân tán cùng thời điểm Dropbox ra mắt
  • Muốn biết liệu có thể xây dựng hệ thống lưu trữ SQL ACID thời gian thực bằng Lambda + SQLite + Regatta hay không

  • Chưa rõ cách xử lý xung đột khi cập nhật tệp

    • Ví dụ, nếu hai người dùng cập nhật cùng một tệp từ các máy tính khác nhau thì tệp cuối cùng sẽ như thế nào
  • Có những lựa chọn thay thế đáng chú ý như s3fs, rclone, goofys, v.v.