6 điểm bởi GN⁺ 2025-03-18 | 1 bình luận | Chia sẻ qua WhatsApp
  • Tóm tắt nội dung bài trình bày của David Rosenthal, một chuyên gia về bảo tồn số (Digital Preservation)

Sự khác biệt giữa sao lưu (Backup) và lưu trữ (Archival)

  • Sao lưu là cần thiết để khôi phục về trạng thái gần nhất khi xảy ra thảm họa
    • Tuổi thọ hiệu lực của dữ liệu sao lưu được quyết định bởi khoảng thời gian từ lần sao lưu cuối cùng đến lúc khôi phục
    • Tuổi thọ của phương tiện lưu trữ dữ liệu sao lưu không quan trọng
  • Sau gần 20 năm làm việc trong lĩnh vực bảo tồn số, đây là 4 phương pháp sao lưu hệ thống quan trọng của tôi
    • Máy chủ mail và web: thực hiện sao lưu toàn bộ hằng tuần và sao lưu gia tăng hằng ngày trên Raspberry Pi → lưu bản sao lưu hằng tuần vào DVD-R
    • PC để bàn: thực hiện sao lưu toàn bộ ban đêm vào ổ cứng gắn ngoài → luân phiên lưu định kỳ trên 3 ổ cứng
    • iPhone: sao lưu hằng ngày vào Mac Air → sao lưu định kỳ vào SSD thông qua Time Machine
    • Lưu trữ ngoài địa điểm: mỗi tuần cất giữ DVD-R, SSD và ổ cứng tại một địa điểm bên ngoài
  • Dữ liệu lưu trữ là gì?
    • Theo thời gian, dữ liệu sẽ dần đi xuống các tầng thấp hơn trong hệ phân cấp lưu trữ
    • Dữ liệu lưu trữ = dữ liệu mà không thể gánh nổi chi phí duy trì trong kho lưu trữ vận hành
    • Mục tiêu chính của hệ thống lưu trữ lưu trữ là giảm chi phí, chấp nhận độ trễ truy cập

Thực tế của phương tiện lưu trữ lưu trữ

  • Truyền thông thường phóng đại về những “kho lưu trữ có thể giữ mãi mãi”
  • Các công nghệ lưu trữ mới từ nghiên cứu ít có khả năng được sử dụng ở quy mô lớn trên thị trường
  • Phương tiện chuyên cho lưu trữ lưu trữ có nhu cầu thị trường thấp nên khó thành công về mặt thương mại
    • Ví dụ: băng LTO chiếm chưa tới 1% toàn bộ thị trường phương tiện lưu trữ
    • Năm 2023, OD-3 (đĩa quang 1TB) bị hủy do thiếu hụt thị trường

Vấn đề thời điểm đưa phương tiện lưu trữ vào sử dụng

  • Phải mất rất nhiều thời gian để một công nghệ lưu trữ mới được đưa ra thị trường
  • Ổ cứng HAMR: được đưa vào sử dụng sau 26 năm kể từ khi bắt đầu nghiên cứu
  • Lưu trữ bằng silica và DNA: đã được nghiên cứu hàng chục năm nhưng vẫn cần ít nhất hơn 5 năm nữa để thương mại hóa

Vấn đề hiệu quả kinh tế của phương tiện lưu trữ

  • Chi phí hạ tầng hệ thống lưu trữ quan trọng hơn nhiều so với bản thân phương tiện lưu trữ
    • Chi phí của phương tiện như băng, đĩa... chỉ chiếm tỷ trọng nhỏ trong tổng chi phí
    • Chỉ khi vận hành ở quy mô trung tâm dữ liệu mới có thể giảm chi phí
    • Lưu trữ lưu trữ vận hành ở quy mô nhỏ có hiệu quả kinh tế kém

Lưu trữ đám mây và vấn đề lock-in

  • Chi phí lưu trữ lưu trữ trên dịch vụ đám mây là rất đắt nếu xét về dài hạn
  • Amazon Glacier: có thể giảm chi phí lưu trữ dài hạn nhưng chi phí khôi phục dữ liệu cao
    • Chi phí lưu trữ: $10,900/năm
    • Chi phí khôi phục: $49,550 (chuẩn 1PB)
    • Tổng chi phí: $60,950
    • Thời gian lock-in: 50.0 tháng
  • Google Archive: chi phí lưu trữ và khôi phục cao → kém hiệu quả cho lưu trữ dài hạn
    • Chi phí lưu trữ: $13,200/năm
    • Chi phí khôi phục: $210,810 (chuẩn 1PB)
    • Tổng chi phí: $224,510
    • Thời gian lock-in: 175.6 tháng
  • Microsoft Archive: chi phí lưu trữ thấp nhưng chi phí khôi phục dữ liệu cao
    • Chi phí lưu trữ: $22,000/năm
    • Chi phí khôi phục: $40,100 (chuẩn 1PB)
    • Tổng chi phí: $62,200
    • Thời gian lock-in: 20.0 tháng
  • Vấn đề lock-in: chi phí khôi phục dữ liệu cao khiến việc di chuyển dữ liệu trở nên khó khăn
  • Amazon Glacier có chi phí lưu trữ rẻ nhất và chi phí khôi phục cũng tương đối thấp

Project Silica (dự án silica của Microsoft)

  • Silica: phương tiện lưu trữ dữ liệu mật độ siêu cao
    • Lưu dữ liệu lên phiến silica bằng laser femtosecond
    • Mật độ lưu trữ cao và độ ổn định vật lý vượt trội
  • Vấn đề chi phí: laser femtosecond đắt đỏ → kỳ vọng giá sẽ giảm nhờ sản xuất hàng loạt
  • Tách biệt đọc/ghi → tăng cường bảo mật và bảo đảm tính toàn vẹn dữ liệu
  • Vấn đề tốc độ đọc: thời gian phản hồi dự kiến 15 giờ → chỉ hiệu quả trong các hệ thống quy mô lớn

Vấn đề khôi phục dữ liệu

  • Điều quan trọng trong lưu trữ lưu trữ là khả năng khôi phục dữ liệu
  • Microsoft lưu mã nguồn mở trên nền phim tại đảo Svalbard
    • Khả năng khôi phục sau thảm họa là thấp
    • Khó tiếp cận do khoảng cách xa và thời tiết xấu

Hệ thống LOCKSS (Lots Of Copies Keep Stuff Safe)

  • Lưu nhiều bản sao trên phương tiện lưu trữ chi phí thấp → tăng độ an toàn cho dữ liệu
  • Sao lưu và khôi phục được bảo đảm nhờ nhiều bản sao hơn là nhờ các hệ thống đắt đỏ
  • Hiệu quả chi phí là yếu tố quan trọng → ưu tiên các hệ thống lưu trữ rẻ thay vì phương tiện lưu trữ đắt tiền

Kết luận

  • Cốt lõi của lưu trữ lưu trữ không phải là công nghệ mà là hiệu quả kinh tế
    • Phương tiện chuyên dụng cho lưu trữ lưu trữ kém hiệu quả về kinh tế
    • Dịch vụ đám mây có chi phí khôi phục cao → phát sinh vấn đề lock-in
  • Chỉ khi vận hành trong trung tâm dữ liệu quy mô lớn mới có thể giảm chi phí lưu trữ dài hạn
  • Project Silica là công nghệ lưu trữ lưu trữ hứa hẹn nhất, nhưng vẫn cần thời gian để thương mại hóa

1 bình luận

 
GN⁺ 2025-03-18
Ý kiến trên Hacker News
  • Có AI, điện toán lượng tử, màn hình 6K, M2 NVME, hàng tỷ thiết bị mạng, nhưng dữ liệu thông thường có thể chỉ tồn tại khoảng 5 năm do hỏng đĩa, SSD thiếu ổn định, bit rot, v.v.
    • Để khắc phục điều này, cần liên tục duy trì JBOD, RAID, NAS hoặc ghi ra đĩa Blu-ray M-Disc, giao cho cloud hoặc làm cả hai
    • Chiến lược sao lưu 3-2-1 đơn giản có thể hoạt động nếu may mắn, nhưng lưu trữ dữ liệu quy mô lớn vẫn rất khó
  • Đã suy nghĩ về vấn đề “hàng trăm năm”, và những phương pháp được kỳ vọng là chắc chắn hoạt động gồm có
    • Khắc hoặc dập lên vật liệu (bia đá, ống trụ Edison, đĩa shellac 78, vinyl, Voyager Golden Record, v.v.)
    • In hoặc đục lỗ bằng mực trên giấy (sách, thẻ, băng)
    • Ảnh; microfiche/microfilm (GitHub Arctic Code Vault), in thạch bản
  • Gần đây đã tìm hiểu cách “in” microfilm cấp lưu trữ, và có một số lựa chọn, nhưng đa số là quét microfilm để tạo bản sao số
    • Theo kinh nghiệm cá nhân, bức vẽ bút chì từ năm hai trung học của tôi có khả năng tồn tại thêm vài trăm năm cao hơn tư liệu số
  • Ở quy mô doanh nghiệp, cách tính chi phí có thể khác với quy mô cá nhân
    • Linear Tape-Open là phương tiện lưu trữ rẻ khi cần lưu tới mức petabyte
    • Chi phí ổ đọc có thể mua được 400TB ổ cứng
    • Tôi nghĩ ổ cứng được sản xuất hàng loạt đáng tin cậy hơn băng LTO
    • Cá nhân tôi có trải nghiệm không tốt với băng từ
  • Ghi chú “đã thực hiện khảo sát địa chất vào mùa hè năm 1969 tại quần đảo Svalbard” khiến tôi muốn biết thêm về tác giả, và sự nghiệp của họ rất thú vị
  • Khi dùng cloud storage cho sao lưu, đừng quên bật Object Lock
    • Không tốt bằng lưu trữ ngoại tuyến, nhưng tốt hơn nhiều so với media đọc/ghi
    • Ở công ty, họ dùng restic để sao lưu lên B2 và thực hiện sao lưu khử trùng lặp mỗi lần
  • Dùng chiến lược sao lưu 3-2-1
    • Giữ ba bản sao dữ liệu trên hai loại media khác nhau, và một bản được lưu ngoài địa điểm
    • Dữ liệu quan trọng được mirror trên SSD, đồng thời giữ nhiều bản sao Blu-ray
    • Lý do dùng Blu-ray là để bảo vệ khỏi bão địa từ như sự kiện Carrington năm 1859
  • Ước gì lưu trữ băng từ dễ tiếp cận hơn
    • Đây là thị trường ngách và chủ yếu dành cho doanh nghiệp, nên ổ đọc bắt đầu từ mức vài nghìn USD, còn nếu giảm dung lượng thì lại ít hơn SSD hiện đại
  • Bài viết đề cập nhiều chủ đề khác nhau nên khó rút ra một kết luận duy nhất
    • Kết thúc bằng câu trích của CTO Backblaze: “hãy chuẩn bị cho thất bại và mua những linh kiện rẻ nhất”
    • Phù hợp với doanh nghiệp lớn nhưng không hợp với cá nhân hay doanh nghiệp nhỏ
    • Cá nhân tôi sao lưu vào ổ cứng gắn ngoài giá rẻ và lưu trữ archive trên Blu-ray M-DISC
  • Đã lưu giữ file từ năm 1991 và di chuyển qua nhiều định dạng khác nhau
    • Dùng chiến lược sao lưu 3-2-1 và xác minh checksum của mọi file hai lần mỗi năm
    • Dùng script thì có thể xử lý đơn giản bằng vài lệnh mỗi tuần
  • Muốn nghe ý kiến về LOCKSS
    • LOCKSS dường như nghiêm túc với quan điểm rằng nếu dữ liệu không được kiểm tra gần đây thì về thực chất nó không tồn tại