1 điểm bởi GN⁺ 2025-12-15 | 1 bình luận | Chia sẻ qua WhatsApp
  • Trên nền tảng Claude, tỷ lệ lỗi của nhiều mô hình đang tăng cao
  • Người dùng có thể đăng ký nhận thông báo khi xảy ra sự cố và khi sự cố được khắc phục qua email hoặc tin nhắn
  • Thông báo qua tin nhắn cho phép đăng ký số điện thoại của từng quốc gia thông qua danh sách mã vùng quốc tế trên toàn thế giới
  • Người đăng ký có thể nhận cập nhật qua tin nhắn sau khi hoàn tất xác thực OTP (mật khẩu dùng một lần)
  • Đây là một ví dụ cho thấy hệ thống giám sát tình trạng sự cố của dịch vụ Claude do Anthropic vận hành

Thông báo sự cố dịch vụ Claude

  • Trên trang trạng thái của Claude có thông báo rằng nhiều mô hình đang ở trạng thái tỷ lệ lỗi tăng cao
    • Hiển thị bằng cụm từ “Elevated errors across many models”
    • Không có giải thích cụ thể về nguyên nhân hay phạm vi ảnh hưởng

Cách đăng ký nhận thông báo

  • Người dùng có thể nhận thông báo cập nhật sự cố qua email hoặc tin nhắn SMS
    • Email sẽ được gửi mỗi khi sự cố có cập nhật
    • Tin nhắn sẽ được gửi mỗi khi Claude tạo sự cố hoặc giải quyết sự cố

Quy trình đăng ký thông báo qua tin nhắn

  • Để nhận thông báo qua tin nhắn, cần thực hiện các bước chọn mã quốc gia → nhập số điện thoại di động → xác thực OTP
    • Cần nhập OTP (mật khẩu dùng một lần) để xác minh số điện thoại
    • Sau khi xác thực, có thể nhận cập nhật qua tin nhắn

Danh sách quốc gia được hỗ trợ

  • Trang này bao gồm danh sách mã quốc gia của hầu hết các nước trên thế giới
    • Ví dụ: Mỹ (+1), Hàn Quốc (+82), Nhật Bản (+81), Anh (+44), Đức (+49), v.v.
    • Người dùng ở các quốc gia khác nhau đều có thể nhận thông báo qua tin nhắn theo cùng một quy trình

Ý nghĩa của việc giám sát trạng thái dịch vụ

  • Trang trạng thái Claude đóng vai trò là nơi công khai tình trạng sự cố theo thời gian thực của dịch vụ Anthropic
    • Cung cấp cho người dùng chức năng thông báo sự cố minh bạch và chia sẻ tiến độ khôi phục
    • Đây là hệ thống giúp nhà phát triển và khách hàng doanh nghiệp nắm bắt ngay tình trạng khả dụng của dịch vụ

1 bình luận

 
GN⁺ 2025-12-15
Ý kiến trên Hacker News
  • Tôi rất ấn tượng vì họ đã cập nhật trang trạng thái ngay khi sự cố xảy ra
    Tôi đang dùng Claude Code thì gặp lỗi API, kiểm tra trang trạng thái thì đúng là đã có thông báo sự cố
    Tôi nghĩ kiểu phản ứng minh bạch như vậy là điều mọi dịch vụ đều nên làm mặc định

    • Thói quen công khai sự cố ngay khi ảnh hưởng tới người dùng bắt đầu là bản năng tôi hình thành khi làm SRE ở Google và Anthropic
      Đúng lúc tôi cũng đang dùng Claude nên có thể nhận ra ngay mức độ nghiêm trọng của sự cố
    • Tôi cũng gặp lỗi và chỉ sau 2 phút kiểm tra trang trạng thái thì nó đã được cập nhật rồi
    • Tôi đang debug lỗi 529, nên sự cố lần này đã khiến tôi khá bối rối một lúc
    • Tôi cũng ở đúng tình huống đó, thấy trang trạng thái xong liền bấm đăng ký cập nhật ngay
      Có vẻ người dùng Claude làm việc rất chăm chỉ cả tối Chủ nhật
  • Tôi là một trong những kỹ sư ứng phó sự cố lần này
    Tính đến 14:43 PT / 22:43 UTC, chúng tôi đã giảm thiểu được vấn đề. Xin lỗi vì sự bất tiện này

    • Tôi cũng là kỹ sư trong cùng đội, nguyên nhân là lỗi cấu hình định tuyến mạng
      Do quảng bá tuyến trùng lặp, một phần lưu lượng tới một số backend suy luận đã bị blackhole
      Mất khoảng 75 phút để phát hiện, và một số đường giảm thiểu đã không hoạt động như dự kiến
      Tuyến sai đã được gỡ bỏ và dịch vụ đã phục hồi
      Tới đây chúng tôi sẽ tăng cường synthetic monitoring và khả năng quan sát các thay đổi hạ tầng để phát hiện nhanh hơn
    • Không biết có kế hoạch công bố báo cáo phân tích sự cố như Cloudflare không
      Chính sự minh bạch đó khiến tôi tin tưởng Cloudflare hơn
    • Đúng lúc tôi rất cần hỏi Claude thì nó lại không hoạt động, khá khó xử
    • Chúc mọi người kết thúc cuối tuần ổn thỏa
    • Với tư cách là lập trình viên, tôi chỉ tò mò là muốn biết thêm các vấn đề kiểu này xảy ra như thế nào trong môi trường triển khai quy mô lớn
  • Tôi thử tưởng tượng một thế giới phản địa đàng steampunk sau 50 năm
    “LLM hosting dừng hoạt động, sản xuất toàn cầu ngưng trệ và thị trường sụp đổ. Sam, cậu có nghe không?”
    Chỉ nghĩ thôi cũng đã thấy buồn cười

    • Việc tất cả mọi người đều dùng chung ba nhà cung cấp suy luận tập trung giống hệt nhau nghe cũng phi thực tế chẳng khác gì việc bây giờ ai cũng ở sau us-east-1 và Cloudflare
    • Chắc cũng chẳng khác mấy so với tình huống Internet hay Cloudflare bị sập
    • Tôi nhớ Karpathy từng gọi các sự cố như vậy là “intelligence brownout”
      Video liên quan: YouTube Shorts
    • Tôi nghĩ tới những câu như “Chỉ còn lại những coder cô độc giỏi thao tác ký hiệu đứng giữa nhân loại và bóng tối”
    • Có lẽ sẽ có kiểu đùa rằng “Chúng ta tạo ra vấn đề bằng vibe coding, giờ LLM sập nên cũng không thể sửa nó bằng vibe được nữa”
  • Tôi đã nhận được thông báo này trong phần chat của Claude.ai

    "You have reached the messages quota for your account. It will reset in 2 hours, or you can upgrade now"
    

    Hoặc là thời điểm trùng hợp một cách hoàn hảo, hoặc là người phụ trách kiếm tiền xứng đáng được thưởng lớn

    • Có lẽ phần xử lý lỗi chưa được triển khai đúng
      Backend có thể không trả về lỗi 429/402, hoặc gateway xử lý sai và trả về thông báo không đúng
    • Tôi cũng thấy đúng thông báo đó và đã nghĩ chỉ là vấn đề thời điểm thôi
  • Nếu họ ngừng Opus 4.5 chắc tôi sẽ khóc mất

    • Đã có người trông như con nghiện khi đòi thêm API credit rồi
    • Có vẻ mọi người khá hài lòng với mức giá
  • Ngay trước khi xảy ra sự cố, Opus bắt đầu đưa ra các câu trả lời dài một cách kỳ lạ
    Với cả những câu hỏi đơn giản, nó cũng trả lời như thể muốn nhả ra toàn bộ codebase, và với câu hỏi đơn giản về schema cơ sở dữ liệu thì còn bị nén hai lần

  • canivibe.ai — có lẽ bạn sẽ canh được vibe tùy theo dịch vụ mình dùng

    • Trang này nhìn ngầu đấy, nhưng trong các ứng dụng chat như Discord thì embed không hoạt động tốt
    • Độ khả dụng 89% thì đúng là một con số hơi như trò đùa
    • Cái tên “Vibedetector” nghe quá hợp luôn
  • Không biết lần này có phải là sự cố AWS không

  • Theo trang trạng thái thì có vẻ giờ đã phục hồi rồi
    Tôi thấy agent trước đó bị kẹt trong cùng một vòng lặp lỗi, lần này lại cho ra kết quả đúng
    Tôi đoán họ đã thêm quy tắc để tự động phát hiện kiểu sự cố này, và đó là một cách xử lý khá truyền cảm hứng