3 điểm bởi ragingwind 3 giờ trước | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Trong suốt một tháng qua, đã có các báo cáo liên tiếp từ một số người dùng rằng chất lượng phản hồi của Claude bị giảm sút. Sau khi truy vết, Anthropic xác nhận nguyên nhân là ba thay đổi khác nhau ảnh hưởng đến Claude Code, Claude Agent SDK và Claude Cowork. Bản thân API không bị ảnh hưởng, và công ty cho biết mọi vấn đề đã được khắc phục tính đến ngày 20 tháng 4 năm 2025 (v2.1.116). Bài postmortem này trình bày nguyên nhân của sự cố, nội dung sửa lỗi và các biện pháp ngăn tái diễn.

Nguyên nhân và diễn biến của ba sự cố

  • Giảm giá trị mặc định của reasoning effort (ngày 4 tháng 3): Mức reasoning effort mặc định của Claude Code đã được đổi từ high xuống medium. Đây là biện pháp nhằm giảm thời gian chờ quá lâu đến mức UI trông như bị treo, nhưng người dùng cảm nhận rõ chất lượng phản hồi đi xuống, nên cuối cùng thay đổi này đã được hoàn tác vào ngày 7 tháng 4. Hiện tại, mặc định được đặt là xhigh cho Opus 4.7 và high cho các model còn lại.
  • Xóa lịch sử suy luận do lỗi tối ưu hóa caching (ngày 26 tháng 3): Khi nối lại một session đã nhàn rỗi hơn 1 giờ, một chức năng vốn được thiết kế để chỉ dọn dẹp bản ghi suy luận (thinking) trước đó đúng một lần đã bị lỗi và lặp lại việc xóa này ở mọi lượt hội thoại sau đó. Vì vậy Claude không còn nhớ vì sao mình đã thực hiện những thao tác cụ thể, dẫn đến hiện tượng “hay quên”, phản hồi lặp lại và chọn công cụ bất thường mà người dùng gặp phải. Các cache miss (không tìm thấy dữ liệu đã lưu) cũng lặp đi lặp lại, gây tác dụng phụ là hạn mức sử dụng bị tiêu hao nhanh hơn dự kiến. Lỗi này đã được sửa vào ngày 10 tháng 4.
  • Chỉ thị quá mức về sự ngắn gọn trong system prompt (ngày 16 tháng 4): Để giảm đầu ra dài dòng của Opus 4.7, Anthropic đã thêm một system prompt: “văn bản giữa các lần gọi công cụ không quá 25 từ, phản hồi cuối cùng không quá 100 từ”. Không thấy vấn đề trong thử nghiệm nội bộ, nhưng sau đó xác nhận rằng nó ảnh hưởng tiêu cực đến chất lượng code thực tế, nên đã bị gỡ bỏ vào ngày 20 tháng 4.

Vì sao việc phát hiện vấn đề bị chậm

  • Ba thay đổi được áp dụng ở các thời điểm khác nhau và trên các phạm vi traffic khác nhau, nên chúng trông giống như một đợt suy giảm chất lượng tổng thể nhưng thiếu nhất quán, khiến khó xác định từng nguyên nhân riêng lẻ.
  • Có sự khác biệt giữa môi trường thử nghiệm nội bộ và môi trường người dùng thực tế. Với lỗi caching, việc tái hiện cũng không hề dễ do một thử nghiệm riêng đang diễn ra nội bộ cùng với khác biệt trong cách UI hiển thị.
  • Bộ đánh giá hiện có (eval suite) chưa đủ rộng. Chỉ sau khi chạy nhiều đánh giá đa dạng hơn thì mức sụt hiệu năng 3% do thay đổi system prompt mới lộ ra.

Các biện pháp ngăn tái diễn

  • Bắt buộc nhân viên nội bộ sử dụng đúng public build, để giảm chênh lệch với build dùng cho kiểm thử nội bộ.
  • Tăng cường kiểm soát đối với các thay đổi của system prompt. Mọi thay đổi sẽ được đánh giá diện rộng theo từng model, phân tích riêng ảnh hưởng của từng dòng (ablation), đồng thời áp dụng phát hành dần và dành đủ thời gian xác minh (soak period).
  • Cải thiện công cụ Code Review. Từ thực tế rằng Opus 4.7 có thể phát hiện lỗi caching khi được cung cấp toàn bộ code repository liên quan làm ngữ cảnh, Anthropic sẽ mở rộng phạm vi repository có thể được tham chiếu khi review code.
  • Mở kênh giao tiếp với người dùng (@ClaudeDevs) để chia sẻ minh bạch bối cảnh đằng sau các quyết định về sản phẩm.

Về điểm “không có chuyện cố ý làm giảm chất lượng”

  • Anthropic cho biết họ chưa từng cố ý làm model kém đi, đồng thời xác nhận API và inference layer không bị ảnh hưởng. Tuy vậy, việc thay đổi cấu hình và lỗi ở product layer (Claude Code) đã cùng lúc tác động, khiến chất lượng cảm nhận của người dùng thực sự giảm xuống. Công ty cũng thông báo sẽ đặt lại hạn mức sử dụng cho tất cả người đăng ký.

Chưa có bình luận nào.

Chưa có bình luận nào.