- Tóm tắt nội dung bài trình bày của David Rosenthal, một chuyên gia về bảo tồn số (Digital Preservation)
Sự khác biệt giữa sao lưu (Backup) và lưu trữ (Archival)
- Sao lưu là cần thiết để khôi phục về trạng thái gần nhất khi xảy ra thảm họa
- Tuổi thọ hiệu lực của dữ liệu sao lưu được quyết định bởi khoảng thời gian từ lần sao lưu cuối cùng đến lúc khôi phục
- Tuổi thọ của phương tiện lưu trữ dữ liệu sao lưu không quan trọng
- Sau gần 20 năm làm việc trong lĩnh vực bảo tồn số, đây là 4 phương pháp sao lưu hệ thống quan trọng của tôi
- Máy chủ mail và web: thực hiện sao lưu toàn bộ hằng tuần và sao lưu gia tăng hằng ngày trên Raspberry Pi → lưu bản sao lưu hằng tuần vào DVD-R
- PC để bàn: thực hiện sao lưu toàn bộ ban đêm vào ổ cứng gắn ngoài → luân phiên lưu định kỳ trên 3 ổ cứng
- iPhone: sao lưu hằng ngày vào Mac Air → sao lưu định kỳ vào SSD thông qua Time Machine
- Lưu trữ ngoài địa điểm: mỗi tuần cất giữ DVD-R, SSD và ổ cứng tại một địa điểm bên ngoài
- Dữ liệu lưu trữ là gì?
- Theo thời gian, dữ liệu sẽ dần đi xuống các tầng thấp hơn trong hệ phân cấp lưu trữ
- Dữ liệu lưu trữ = dữ liệu mà không thể gánh nổi chi phí duy trì trong kho lưu trữ vận hành
- Mục tiêu chính của hệ thống lưu trữ lưu trữ là giảm chi phí, chấp nhận độ trễ truy cập
Thực tế của phương tiện lưu trữ lưu trữ
- Truyền thông thường phóng đại về những “kho lưu trữ có thể giữ mãi mãi”
- Các công nghệ lưu trữ mới từ nghiên cứu ít có khả năng được sử dụng ở quy mô lớn trên thị trường
- Phương tiện chuyên cho lưu trữ lưu trữ có nhu cầu thị trường thấp nên khó thành công về mặt thương mại
- Ví dụ: băng LTO chiếm chưa tới 1% toàn bộ thị trường phương tiện lưu trữ
- Năm 2023, OD-3 (đĩa quang 1TB) bị hủy do thiếu hụt thị trường
Vấn đề thời điểm đưa phương tiện lưu trữ vào sử dụng
- Phải mất rất nhiều thời gian để một công nghệ lưu trữ mới được đưa ra thị trường
- Ổ cứng HAMR: được đưa vào sử dụng sau 26 năm kể từ khi bắt đầu nghiên cứu
- Lưu trữ bằng silica và DNA: đã được nghiên cứu hàng chục năm nhưng vẫn cần ít nhất hơn 5 năm nữa để thương mại hóa
Vấn đề hiệu quả kinh tế của phương tiện lưu trữ
- Chi phí hạ tầng hệ thống lưu trữ quan trọng hơn nhiều so với bản thân phương tiện lưu trữ
- Chi phí của phương tiện như băng, đĩa... chỉ chiếm tỷ trọng nhỏ trong tổng chi phí
- Chỉ khi vận hành ở quy mô trung tâm dữ liệu mới có thể giảm chi phí
- Lưu trữ lưu trữ vận hành ở quy mô nhỏ có hiệu quả kinh tế kém
Lưu trữ đám mây và vấn đề lock-in
- Chi phí lưu trữ lưu trữ trên dịch vụ đám mây là rất đắt nếu xét về dài hạn
- Amazon Glacier: có thể giảm chi phí lưu trữ dài hạn nhưng chi phí khôi phục dữ liệu cao
- Chi phí lưu trữ: $10,900/năm
- Chi phí khôi phục: $49,550 (chuẩn 1PB)
- Tổng chi phí: $60,950
- Thời gian lock-in: 50.0 tháng
- Google Archive: chi phí lưu trữ và khôi phục cao → kém hiệu quả cho lưu trữ dài hạn
- Chi phí lưu trữ: $13,200/năm
- Chi phí khôi phục: $210,810 (chuẩn 1PB)
- Tổng chi phí: $224,510
- Thời gian lock-in: 175.6 tháng
- Microsoft Archive: chi phí lưu trữ thấp nhưng chi phí khôi phục dữ liệu cao
- Chi phí lưu trữ: $22,000/năm
- Chi phí khôi phục: $40,100 (chuẩn 1PB)
- Tổng chi phí: $62,200
- Thời gian lock-in: 20.0 tháng
- Vấn đề lock-in: chi phí khôi phục dữ liệu cao khiến việc di chuyển dữ liệu trở nên khó khăn
- Amazon Glacier có chi phí lưu trữ rẻ nhất và chi phí khôi phục cũng tương đối thấp
Project Silica (dự án silica của Microsoft)
- Silica: phương tiện lưu trữ dữ liệu mật độ siêu cao
- Lưu dữ liệu lên phiến silica bằng laser femtosecond
- Mật độ lưu trữ cao và độ ổn định vật lý vượt trội
- Vấn đề chi phí: laser femtosecond đắt đỏ → kỳ vọng giá sẽ giảm nhờ sản xuất hàng loạt
- Tách biệt đọc/ghi → tăng cường bảo mật và bảo đảm tính toàn vẹn dữ liệu
- Vấn đề tốc độ đọc: thời gian phản hồi dự kiến 15 giờ → chỉ hiệu quả trong các hệ thống quy mô lớn
Vấn đề khôi phục dữ liệu
- Điều quan trọng trong lưu trữ lưu trữ là khả năng khôi phục dữ liệu
- Microsoft lưu mã nguồn mở trên nền phim tại đảo Svalbard
- Khả năng khôi phục sau thảm họa là thấp
- Khó tiếp cận do khoảng cách xa và thời tiết xấu
Hệ thống LOCKSS (Lots Of Copies Keep Stuff Safe)
- Lưu nhiều bản sao trên phương tiện lưu trữ chi phí thấp → tăng độ an toàn cho dữ liệu
- Sao lưu và khôi phục được bảo đảm nhờ nhiều bản sao hơn là nhờ các hệ thống đắt đỏ
- Hiệu quả chi phí là yếu tố quan trọng → ưu tiên các hệ thống lưu trữ rẻ thay vì phương tiện lưu trữ đắt tiền
Kết luận
- Cốt lõi của lưu trữ lưu trữ không phải là công nghệ mà là hiệu quả kinh tế
- Phương tiện chuyên dụng cho lưu trữ lưu trữ kém hiệu quả về kinh tế
- Dịch vụ đám mây có chi phí khôi phục cao → phát sinh vấn đề lock-in
- Chỉ khi vận hành trong trung tâm dữ liệu quy mô lớn mới có thể giảm chi phí lưu trữ dài hạn
- Project Silica là công nghệ lưu trữ lưu trữ hứa hẹn nhất, nhưng vẫn cần thời gian để thương mại hóa
1 bình luận
Ý kiến trên Hacker News