6 điểm bởi GN⁺ 2024-02-21 | 1 bình luận | Chia sẻ qua WhatsApp
  • Trong vài năm gần đây, SSD dựa trên flash đã thay thế đĩa trong hầu hết các trường hợp dùng để lưu trữ
  • SSD gồm nhiều chip flash độc lập và có thể được truy cập song song
  • Thông lượng của SSD chủ yếu phụ thuộc vào tốc độ giao tiếp với máy chủ
  • Trong 6 năm qua, SSD đã tăng vọt khi nhanh chóng chuyển từ SATA sang PCIe 3.0, PCIe 4.0 rồi PCIe 5.0
  • Không chỉ hiệu năng tăng lên, mà dung lượng trên mỗi đô la cũng tăng
  • Những thay đổi này đến từ các tiêu chuẩn mở như NVMe và PCIe, nhu cầu khổng lồ và cạnh tranh giữa các nhà cung cấp
  • Hiện tại, SSD trung tâm dữ liệu PCIe 5.0 đạt tối đa 13 GB/s thông lượng đọc và hơn 2,7 triệu IOPS đọc ngẫu nhiên
  • Máy chủ hiện đại có khoảng 100 lane PCIe, vì vậy có thể dùng nhiều SSD trong một máy chủ với toàn bộ băng thông

Sự trì trệ hiệu năng SSD trên đám mây

  • AWS EC2 đã ra mắt các instance i3 trang bị NVMe SSD đầu tiên vào đầu năm 2017
  • Vào thời điểm đó, NVMe SSD còn đắt và việc có 8 ổ trên mỗi máy chủ là một điểm đáng chú ý
  • Tuy nhiên, sau 7 năm tốc độ vẫn chỉ dừng lại ở mức 2 GB/s mỗi SSD
  • Các instance i3 và i3en vẫn là lựa chọn tốt nhất của EC2 về IO/$ và SSD/ $
  • Khoảng cách hiệu năng giữa SSD do nhà cung cấp đám mây cung cấp và SSD mới nhất gần như lên tới gần 10 lần ở thông lượng đọc, thông lượng ghi và IOPS
  • Sự trì trệ này trong đám mây trái ngược với những bước tiến lớn ở các lĩnh vực khác
  • Ví dụ, băng thông mạng của EC2 đã tăng từ 10 Gbit/s lên 200 Gbit/s, từ năm 2017 đến 2023
  • Có nhiều giả thuyết về lý do các nhà cung cấp đám mây chưa phát triển ở khía cạnh lưu trữ
    • Lý thuyết cho rằng EC2 cố tình giới hạn tốc độ ghi ở 1 GB/s để tránh hỏng thiết bị
    • Khả năng rằng không có nhu cầu đủ lớn đối với lưu trữ nhanh nên thiếu động lực để tối ưu hóa hệ thống
    • Lý thuyết cho rằng khi EC2 tung ra lưu trữ NVMe cho instance vừa nhanh vừa rẻ có thể làm gián đoạn cấu trúc chi phí của các dịch vụ lưu trữ khác như EBS
  • Tác giả hy vọng sẽ sớm nhìn thấy các instance đám mây đi cùng SSD 10 GB/s

Ý kiến của GN⁺

  • Mặc dù công nghệ SSD phát triển nhanh chóng, việc các nhà cung cấp dịch vụ đám mây chưa theo kịp điều này phản ánh nhiều nhu cầu đa dạng của thị trường và các giới hạn kỹ thuật
  • Sự trì trệ hiệu năng của lưu trữ đám mây có thể đối lập với kỳ vọng của người dùng về hiệu quả chi phí và chất lượng dịch vụ, và có thể ảnh hưởng tới năng lực cạnh tranh trong ngành công nghiệp đám mây
  • Bài viết này đưa ra những góc nhìn quan trọng cho cả người dùng và nhà cung cấp điện toán đám mây, đồng thời nhấn mạnh nhu cầu về giải pháp lưu trữ nhanh hơn và sự cần thiết của tiến bộ kỹ thuật

1 bình luận

 
GN⁺ 2024-02-21
Bình luận Hacker News
  • Thảo luận về các vấn đề kỹ thuật của cloud

    • Google đã từng làm việc với những vấn đề nền tảng của cloud, và đây là yếu tố quan trọng quyết định hướng công nghệ của nhiều người.
    • SSD trên cloud được kết nối qua mạng, điều đó là cần thiết. Nhưng mạng quá lớn và chậm nên không thể cung cấp hiệu năng như SSD cục bộ.
    • Với ổ cứng quay thì không có vấn đề, nhưng với SSD thì có vấn đề vì nó nhanh hơn mạng rất nhiều.
  • Giải thích về kiến trúc AWS Nitro SSD

    • Tài liệu và blog của AWS mô tả kiến trúc AWS Nitro SSD. Nó được kết nối vật lý vào bo mạch chủ hệ thống qua PCIe, nhưng bị cô lập logic khỏi bo mạch chủ chạy workload của khách hàng.
    • Để kéo dài tuổi thọ thiết bị SSD tối đa, firmware xử lý quy trình gọi là 'wear leveling'. Quy trình này bao gồm một dạng 'garbage collection', và SSD thông thường có thể chậm đột ngột vào thời điểm khó dự đoán khi có nhiều thao tác ghi. AWS đã sử dụng chuyên môn cơ sở dữ liệu để xây dựng một cơ sở dữ liệu dựa trên nhật ký rất tinh vi, an toàn khi mất điện, trong firmware SSD.
  • Kinh nghiệm về IOPS của cloud instance

    • Tôi bất ngờ khi thấy chỉ số 'provisioned IOPS' của cloud instance rất thấp. Điều này có nghĩa là nhiều người, đặc biệt là giới trẻ chỉ có kinh nghiệm với cloud instance, không hiểu rõ một hoặc hai RU thực sự chứa được bao nhiêu hiệu năng.
    • Tốc độ nhanh của lưu trữ NVMe là một phần của công nghệ ấn tượng trong thời đại hiện nay.
  • Ý kiến của một nhân viên OCI

    • OCI cung cấp ổ NVMe nhanh hơn trên instance. Mô hình E4 Dense có trang bị Samsung MZWLJ7T6HALA-00AU3, hỗ trợ đọc tuần tự 7000 MB/s và ghi tuần tự 3800 MB/s.
    • Rất có khả năng lý do AWS chưa cung cấp NVMe nhanh hơn hiện tại là do chưa có nhu cầu rõ ràng. Đây chỉ là giả thuyết, nhưng nói chung nếu một nhu cầu cụ thể chưa đủ lớn, nâng cấp có thể bị lùi lại hơn dự kiến.
  • Lập luận về việc ra khỏi cloud

    • NVMe hiện đại và số lượng core ngày nay là lập luận mạnh mẽ để rời khỏi cloud. Các tốc độ gần tương đương RAM như vậy, dữ liệu sẽ vừa vặn trên đĩa, làm giảm nhiều độ phức tạp.
    • Một máy chủ mạnh duy nhất cũng đủ để caching/compute/serving, giúp đơn giản hóa rất nhiều workload.
  • Phê phán tối ưu hóa cho cloud

    • Vấn đề là IOPS chứ không phải băng thông. Khi chạy benchmark IO ngẫu nhiên, hành vi random IOPS giống với mảng RAID quay cỡ lớn hơn là SSD.
    • Một trong những lý do khiến khó chấp nhận tối ưu hóa nghiêm túc cho cloud là workload như database... có thể tốn kém khi chưa được tối ưu tốt.
  • Thảo luận về các loại instance NVMe của AWS

    • Mặc dù đã có nhiều loại instance NVMe như i4i và im4gn, nhưng hiệu năng chưa tăng. Đã 7 năm kể từ khi i3 ra mắt mà vẫn chỉ đứng ở mức 2 GB/s trên mỗi SSD.
    • Marketing của AWS cho rằng:
      • Tối đa 800K IOPS ghi ngẫu nhiên
      • Tối đa 1 triệu IOPS đọc ngẫu nhiên
      • Tối đa 5600 MB/giây ghi tuần tự
      • Tối đa 8000 MB/giây đọc tuần tự
  • Lựa chọn cá nhân cho cấu hình SSD hybrid

    • Kết hợp X-25E 64GB từ năm 2011 với PM897 3.7TB từ năm 2021 để có giải pháp mạnh mẽ nhất và cơ sở dữ liệu lớn nhất với mức điện năng thấp nhất.
  • Suy đoán về giới hạn hiệu năng của dịch vụ cloud

    • Có thể lý do cloud service giữ hiệu năng thấp là vì không có đủ nhu cầu, và điều này cho phép 'mánh khoé' xảy ra trong lớp ảo hóa.
  • Cân nhắc chi phí SSD

    • SSD nhanh nhất thường là loại dùng công nghệ MLC, có tuổi thọ ghi thấp hơn đáng kể so với các công nghệ khác.
    • Việc tăng mật độ dữ liệu có thể giúp tăng hiệu năng, nhưng do ghi theo block/cell bộ nhớ, nên khi một cell hỏng thì tất cả cell có thể lỗi.
    • Việc đưa công nghệ mới vào stack và nâng cấp fleet với chi phí hiệu quả có thể trở thành vấn đề.