1 điểm bởi GN⁺ 2024-12-22 | 1 bình luận | Chia sẻ qua WhatsApp
  • Giới thiệu về S2

    • S2 là một hệ thống lưu trữ dữ liệu streaming dành cho thời đại đám mây, là một giải pháp nhằm củng cố nền tảng cốt lõi của hệ thống dữ liệu.
    • Mục tiêu là áp dụng trải nghiệm serverless của kho đối tượng hiện có cho dữ liệu streaming.
    • S2 xem luồng dữ liệu (stream) là một thành phần cơ bản của lưu trữ đám mây.
  • Nếu stream được ưu tiên hơn object?

    • Kho đối tượng phù hợp với dữ liệu khi dữ liệu đang ở trạng thái tĩnh, trong khi kho stream được thiết kế để đáp ứng yêu cầu của dữ liệu đang di chuyển.
    • S2 xử lý dữ liệu theo từng bản ghi, và kể cả khi có nhiều tác giả ghi đồng thời thì vẫn xử lý mọi bản ghi theo thứ tự tuần tự.
    • Khác với S3, S2 có thể theo dõi stream theo thời gian thực.
  • Serverless – còn chi phí?

    • S2 được xây dựng dựa trên khả năng mở rộng không giới hạn và độ bền của kho đối tượng.
    • Người dùng có thể cân bằng giữa độ trễ và chi phí theo từng stream.
    • Cung cấp hai lớp lưu trữ là StandardExpress, lần lượt dựa trên AWS S3 Standard và S3 Express One Zone.
    • Lớp Express mang lại độ trễ tương đương các hệ thống streaming đám mây dựa trên ổ đĩa.
  • Những bước tiếp theo của S2

    • S2 dựa trên cơ sở hạ tầng đám mây đã được kiểm chứng và đã được thử nghiệm bằng codebase Rust.
    • Hiện tại đang cung cấp gRPC API, Rust SDK và CLI, đồng thời API REST vẫn đang trong quá trình phát triển.
    • Trong kế hoạch tương lai là tương thích giao thức Kafka, hỗ trợ nhiều vùng địa lý và đặt mục tiêu độ trễ dưới 5 mili giây.
    • S2 là giải pháp phù hợp cho người dùng muốn streaming trên đám mây mà không bị giới hạn về số lượng stream hay thông lượng.

1 bình luận

 
GN⁺ 2024-12-22
Ý kiến từ Hacker News
  • Việc đặt tên sản phẩm là S2 và giới thiệu đây là công nghệ cải tiến AWS S3 có thể gây ra vấn đề về nhãn hiệu với Amazon
  • API rất đẹp và tôi muốn dùng cho dự án, nhưng ở dạng hiện tại thì có vẻ khó tồn tại lâu. Nếu thành công, AWS có nhiều khả năng sẽ làm ra phiên bản tốt hơn
    • Nếu nó được phát hành như một sản phẩm hướng đến người dùng cuối kiểu Papertrail thì sẽ có ý nghĩa hơn
    • Nếu có thể bổ sung backend tương thích S3, nó sẽ là một sản phẩm độc lập đám mây rất tốt
  • Có vẻ giống WarpStream, nhưng thay vì khả năng tương thích Kafka thì cung cấp API mức thấp hơn
    • Nếu được chấp nhận dài hạn, một API streaming cấp S3 sẽ có giá trị rất lớn
  • Tò mò vì sao họ có thể tính $0.05/GB trong khi chi phí truyền internet của AWS là $0.09/GB. Không biết có thể tiếp cận mức giá truyền nội bộ của AWS hay không
  • Công nghệ này rất tuyệt nhưng tiếc là mã nguồn không được công khai. Nếu hỗ trợ self-hosting đầy đủ bằng một giấy phép kiểu FSL thì tôi sẽ cân nhắc sử dụng nó như một dịch vụ thương mại
  • Họ dường như chọn cách dành cả đời để giải thích rằng sản phẩm này không phải là S3
  • Hy vọng có ai đó xây dựng một biểu diễn để truy vấn theo thời điểm cho các 'sự kiện' stream
    • Một mẫu hoặc framework tạo dữ liệu có thể truy vấn được trong bộ nhớ sẽ còn tốt hơn là một cơ sở dữ liệu cụ thể
  • Đề xuất giá trị của mô hình dịch vụ này, nơi mọi lần ghi chỉ được coi là hợp lệ sau khi lưu vào S3, nghe thật khó hiểu
    • AWS có thể xây dựng một dịch vụ tương thích giao thức giống như tái hiện lại Kafka
  • Không có Java SDK là điều đáng tiếc. Vì hầu hết công ty đều dùng Spring hoặc client Kafka nên kể cả POC cũng rất khó triển khai
  • Có vẻ chồng chéo với AWS Kinesis Data Streams quá nhiều. Nhưng có đối thủ cạnh tranh cho AWS là điều tốt