Launch HN: Regatta Storage (YC F24) – Công nghệ biến S3 thành hệ thống tệp đám mây POSIX gần như cục bộ
(news.ycombinator.com)-
Giới thiệu về Regatta Storage
- Regatta Storage là một hệ thống tệp đám mây mới, cung cấp dung lượng không giới hạn, hiệu năng như máy cục bộ và hỗ trợ đồng bộ tự động tới bộ nhớ tương thích S3
- Cho phép truy cập tức thì vào các tập dữ liệu lớn trên S3 bằng các công cụ như Spark, Pytorch và pandas
- Có thể dùng thử dịch vụ miễn phí bằng cách tạo tài khoản
-
Bối cảnh phát triển
- Nhà sáng lập đã phát triển Regatta dựa trên kinh nghiệm xây dựng và vận hành bộ nhớ đám mây tại Amazon EFS và Netflix
- Họ yêu thích sự đơn giản và khả năng mở rộng của EFS, nhưng tại Netflix thì EFS ít được sử dụng
- Khi chuyển workload từ đĩa cục bộ sang NFS, đã phát sinh vấn đề hiệu năng
- Regatta được phát triển để giải quyết những vấn đề mà thị trường bộ nhớ đám mây chưa xử lý được bằng block storage hoặc file storage
-
Đặc điểm của Regatta
- Hệ thống tệp đám mây tính phí theo mức sử dụng, tự động mở rộng cùng với ứng dụng
- Tự động đồng bộ với S3 theo định dạng tệp gốc, nên có thể kết nối với các tập dữ liệu hiện có và dùng trực tiếp dữ liệu tệp từ S3
- Dữ liệu không sử dụng sẽ bị loại khỏi bộ nhớ đệm Regatta, vì vậy chỉ cần trả chi phí cho bộ nhớ S3
- Đang phát triển một giao thức tệp tùy chỉnh để cung cấp hiệu năng như máy cục bộ cho workload nhiều tệp nhỏ và khả năng mở rộng như Lustre cho xử lý dữ liệu phân tán
-
Triển khai kỹ thuật
- Khách hàng mount hệ thống tệp Regatta qua NFSv3, và instance caching sẽ kết nối với bucket S3 của khách hàng
- Cung cấp hiệu năng đọc và ghi đã được cache ở mức dưới mili giây, đồng thời duy trì tính nhất quán mạnh
- Thực hiện nhanh và ổn định các thao tác phức tạp như đổi tên thư mục, rồi truyền bất đồng bộ tới bucket S3
-
Trường hợp sử dụng và kỳ vọng
- Được dùng để xây dựng máy chủ Jupyter Notebook serverless cho các nhà nghiên cứu AI
- Được dùng như một lớp cache phân tán trên S3 để truy cập các tệp dùng chung với độ trễ thấp
- Thay thế boot volume Ceph để giảm chi phí
- Hoan nghênh phản hồi từ người dùng và các ý tưởng về định hướng tương lai, đồng thời mong chờ ý kiến từ cộng đồng
1 bình luận
Ý kiến Hacker News
Điểm khác biệt giữa Rclone và Regatta Storage là khi thực hiện các thao tác biến đổi hệ thống tệp, Regatta cung cấp tính nhất quán mạnh nhờ sử dụng lớp bộ nhớ đệm tốc độ cao. Rclone không có lớp đảm bảo tính nhất quán giữa các client chạy song song
Đây là một trong những sản phẩm thú vị nhất từng ra từ YC, và có nhiều câu hỏi về cách nó hoạt động
Đang host DuckDB bằng GCP Filestore và yêu cầu thông tin về giá và hiệu năng của Regatta
Quan tâm dùng làm đĩa sao lưu cho SQLite/DuckDB/parquet, đồng thời muốn các lượt đọc được cache trên bộ nhớ NVMe cục bộ của instance
Cho rằng việc dùng NFS làm giao thức là một ý tưởng hay
Có lo ngại rằng AWS có thể sao chép sản phẩm này và cung cấp với mức giá thấp hơn
Từng có trải nghiệm demo thành công trước CEO của Adobe vào năm 2008, trong đó một bức ảnh chụp bằng iPhone tự động xuất hiện thành tệp trên máy Mac
Muốn biết liệu có thể xây dựng hệ thống lưu trữ SQL ACID thời gian thực bằng Lambda + SQLite + Regatta hay không
Chưa rõ cách xử lý xung đột khi cập nhật tệp
Có những lựa chọn thay thế đáng chú ý như s3fs, rclone, goofys, v.v.