10 điểm bởi xguru 2020-07-16 | 1 bình luận | Chia sẻ qua WhatsApp
  • Dự kiến sẽ phát hành báo cáo tính sẵn sàng vào thứ Tư đầu tiên của mỗi tháng, tổng hợp giải thích về các sự cố trong thời gian qua, phân tích kỹ thuật và biện pháp khắc phục

  • Mục tiêu là chia sẻ mọi thứ một cách minh bạch, không chỉ như một bản báo lỗi đơn thuần mà để bất kỳ ai cũng có thể học hỏi từ những trải nghiệm này

  • Cách GitHub ứng phó với các lỗi trang web xuất hiện ngày càng nhiều gần đây

  • 5/5 (gián đoạn trong 2 phút 24 giây)

Xảy ra do ID auto-increment của một bảng MySQL cụ thể vượt quá giá trị tối đa của kiểu Integer

Sẽ gửi cảnh báo khi kích thước PK vượt 70%, đồng thời bổ sung linter để framework kiểm thử kiểm tra int/bigint

  • 5/22 (gián đoạn trong 5 phút 09 giây)

Trong quá trình bảo trì định kỳ, máy chủ MySQL Primary mới khởi chạy đã bị sập. Họ vội vàng chuyển hướng lưu lượng về Primary gốc, nhưng do hệ thống đã chết trong 6 giây và nhận write traffic trong khoảng thời gian đó, nên mất 4 giờ để restore từ replica nhằm khôi phục dữ liệu và thêm 1 giờ để cấu hình lại cluster.

Đang tiếp tục thử nghiệm tự động hóa failover để giảm thiểu thời gian khôi phục

  • 6/19 (gián đoạn trong 51 phút)

Sự cố phát sinh khi thay đổi được đưa vào để cải thiện A/B test lại tạo phụ thuộc vào file của một ứng dụng khác được sinh động. Trong lúc triển khai, việc tạo file đó thất bại khiến rate limit bị kích hoạt.

Đã thay đổi để cấu hình A/B và Multivariate test được cache nội bộ

1 bình luận

 
xguru 2020-07-16

Sau khi được MS mua lại, đã có không ít nghi ngờ rằng lỗi xảy ra nhiều hẳn lên.

(Có lẽ cũng hơi chột dạ vì câu chuyện có thể dẫn sang hướng “chẳng lẽ Azure không ổn định?”)

Về việc này, họ đã công bố một biện pháp chính diện là phát hành báo cáo khả dụng một cách minh bạch.

Tôi cho rằng các doanh nghiệp trong nước cũng nên học cách ứng phó như thế này.

Hơi lạc đề một chút, nhưng nếu so sánh “báo cáo minh bạch” của doanh nghiệp nước ngoài và doanh nghiệp trong nước thì có sự khác biệt rất lớn cả về chất lẫn lượng.

Báo cáo minh bạch (Transparency Report): chia sẻ dữ liệu cho thấy chính sách và biện pháp của chính phủ và doanh nghiệp ảnh hưởng thế nào đến việc bảo vệ quyền riêng tư, bảo mật và sử dụng thông tin

Báo cáo minh bạch của Google: https://transparencyreport.google.com/?hl=ko

Báo cáo minh bạch của Facebook: https://transparency.facebook.com/

Báo cáo minh bạch của Naver: https://privacy.naver.com/transparency/transparency_report_statistic/…

Báo cáo minh bạch của Kakao: https://privacy.kakao.com/transparency/statistic

Theo tôi, không nên chỉ dừng lại ở việc liệt kê dữ liệu,

mà cần trình bày sao cho chính bản thân báo cáo cũng thể hiện rõ niềm tin và quan điểm mà doanh nghiệp theo đuổi.