3 điểm bởi GN⁺ 2023-08-09 | 1 bình luận | Chia sẻ qua WhatsApp
  • Bài viết này giới thiệu WarpStream, một nền tảng streaming dữ liệu tương thích với giao thức Kafka được xây dựng trực tiếp trên S3.
  • WarpStream được cung cấp dưới dạng một binary Go stateless duy nhất, loại bỏ nhu cầu quản lý đĩa cục bộ, tái cân bằng broker và vận hành ZooKeeper.
  • Nền tảng này giảm đáng kể chi phí hạ tầng bằng cách stream dữ liệu trực tiếp vào S3, rẻ hơn Kafka trên đám mây từ 5-10 lần.
  • Bài viết phê phán mức độ phù hợp của Kafka với các workload hiện đại, nhấn mạnh chi phí băng thông liên AZ cao và overhead vận hành.
  • Kiến trúc của WarpStream khác với Kafka. Thay vì broker, nó có các "agent" stateless có thể đóng vai trò "leader" cho bất kỳ topic nào, commit offset cho bất kỳ consumer group nào, hoặc hoạt động như coordinator của cluster.
  • Trong WarpStream, toàn bộ storage được offload sang object storage như S3, cho phép mở rộng dễ dàng và khôi phục nhanh khi có sự cố.
  • WarpStream tách biệt data và metadata, lưu metadata của mọi "virtual cluster" trong một cơ sở dữ liệu metadata tùy chỉnh.
  • Nền tảng này giúp giảm tổng chi phí của hầu hết workload Kafka từ 5-10 lần, nhưng có độ trễ cao hơn với P99 cho request produce khoảng 400ms và khoảng 1 giây từ producer đến consumer.
  • WarpStream hiện đang ở giai đoạn developer preview và vẫn chưa sẵn sàng cho sử dụng production.
  • Những người tạo ra WarpStream cho rằng developer UX của Kafka là một vấn đề, đặc biệt là abstraction cấp thấp của partition. Họ dự định giải quyết điều này trong các bản cập nhật tương lai của WarpStream.
  • Bài viết kết thúc bằng lời mời độc giả dùng thử WarpStream và gửi phản hồi.

1 bình luận

 
GN⁺ 2023-08-09
Ý kiến trên Hacker News
  • Bài viết về tính chất hai mặt của Kafka, công nghệ streaming dữ liệu
  • Tranh luận về việc liệu phần lớn các công ty công nghệ có sử dụng Kafka hay không
  • Hiệu quả chi phí của việc đẩy trực tiếp từng message vào S3 và vấn đề vận hành cụm Kafka ở từng AZ
  • Phần giới thiệu của Ryan Worl, đồng sáng lập kiêm CTO của WarpStream, một hệ thống streaming tương thích giao thức Kafka được xây dựng trực tiếp trên S3
  • Nhấn mạnh hiệu quả chi phí của WarpStream, không cần vận hành đĩa/node có trạng thái, không cần cân bằng lại dữ liệu hoặc ZooKeeper, và giảm phí băng thông cross-AZ
  • Chỉ trích chi phí vận hành Kafka trên các VM riêng biệt từ nhà cung cấp đám mây
  • Thảo luận về việc sử dụng storage adapter trong các dịch vụ quản lý Hadoop/Kafka trên đám mây được thiết kế đúng cách để tận dụng tính dư thừa của nhà cung cấp
  • Một số người dùng phàn nàn về nhận định trong bài rằng Kafka cần một đội ngũ chuyên gia và ngân sách lớn
  • Nhấn mạnh rằng có thể thay đổi số lượng partition trong Kafka
  • Tranh luận về nhận định của bài viết rằng vận hành Kafka cần một đội ngũ kỹ sư quy mô lớn
  • Thắc mắc về cách WarpStream quản lý dịch vụ, liệu họ dùng nhà cung cấp đám mây hay bare metal, và liệu họ có dùng foundationdb cho metadata store hay không
  • Thảo luận về tiềm năng của API Kafka và khả năng trừu tượng hóa sự phức tạp của quản lý cluster
  • Tiết kiệm chi phí khi chuyển lưu lượng ML quy mô lớn sang S3, một người dùng cho biết đã giảm được khoảng 90% chi phí
  • Đề xuất đổi tiêu đề bài thành "Kafka đã chết. WarpStream lên ngôi." để phản ánh việc áp dụng công nghệ mới