5 điểm bởi GN⁺ 2023-10-28 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Bài viết về quá trình tiến hóa suốt 20 năm của kỹ thuật độ tin cậy trang web (SRE) tại Google
  • Trong 20 năm qua, năng lực tính toán của Google đã tăng 1.000 lần, còn mạng lưới tăng 10.000 lần
  • Các công cụ SRE đã phát triển từ các script Python thành một hệ sinh thái dịch vụ tích hợp, rồi tiếp tục thành một nền tảng hợp nhất cung cấp độ tin cậy theo mặc định
  • Bài viết nhấn mạnh 11 bài học chính rút ra từ 20 năm làm SRE tại Google
  • Bài học 1: Rủi ro của biện pháp giảm thiểu phải thay đổi theo mức độ nghiêm trọng của sự cố gián đoạn
  • Bài học 2: Cần kiểm thử đầy đủ các cơ chế khôi phục trước khi xảy ra tình huống khẩn cấp
  • Bài học 3: Mọi thay đổi nên được áp dụng dần dần để tránh ảnh hưởng trên diện rộng
  • Bài học 4: Mọi phụ thuộc dịch vụ cần có một "nút đỏ lớn" để hoàn tác trạng thái không mong muốn
  • Bài học 5: Chỉ kiểm thử đơn vị là chưa đủ; cũng cần kiểm thử tích hợp
  • Bài học 6: Trong thời gian gián đoạn, các kênh liên lạc đa dạng, bao gồm cả dự phòng, là điều thiết yếu
  • Bài học 7: Dịch vụ phải có khả năng chủ động và mềm mại hạ mức hiệu năng trong các tình huống ngoại lệ
  • Bài học 8: Khả năng phục hồi sau thảm họa và kiểm thử khôi phục phải là một phần của chiến lược liên tục kinh doanh
  • Bài học 9: Các biện pháp giảm thiểu nên được tự động hóa để rút ngắn thời gian khắc phục trung bình (MTTR)
  • Bài học 10: Triển khai thường xuyên cùng với kiểm thử phù hợp có thể làm giảm khả năng việc rollout gặp sự cố
  • Bài học 11: Một phiên bản phần cứng toàn cầu duy nhất là một điểm lỗi đơn; duy trì hạ tầng đa dạng có thể ngăn chặn sự cố ngừng hoạt động toàn diện
  • Những bài học này dựa trên các sự kiện có thật mà Google đã trải qua và đúc kết trong nhiều năm

Chưa có bình luận nào.

Chưa có bình luận nào.