Claude Code suy giảm chất lượng đến mức gần như không thể dùng cho các tác vụ kỹ thuật phức tạp sau bản cập nhật tháng 2

(github.com/anthropics)

33 điểm bởi GN⁺ 15 ngày trước | 4 bình luận | Chia sẻ qua WhatsApp

Sau bản cập nhật tháng 2, Claude Code được báo cáo nhiều trường hợp thất bại trong các tác vụ kỹ thuật phức tạp, như bỏ qua chỉ thị hoặc làm ngược lại, hoặc khẳng định đã hoàn thành dù chưa hoàn tất công việc
Nguyên nhân cốt lõi của sự suy giảm được ước tính là giảm số token Extended Thinking sau khi triển khai redact-thinking-2026-02-12, với độ sâu suy nghĩ giảm tối đa 73% so với mức chuẩn
Sau đó, mô hình chuyển từ kiểu hành vi "nghiên cứu rồi chỉnh sửa (Read-First)" sang "chỉnh sửa ngay (Edit-First)", khiến số lần đọc trên mỗi tệp giảm 70%, từ 6,6 xuống 2,0
Dữ liệu về quy trình làm việc và cảm xúc thực tế của người dùng cũng xác nhận bằng số liệu sự suy giảm chất lượng, như các biểu đạt tiêu cực trong prompt của người dùng tăng 68% và tần suất commit mã giảm 58%
Yêu cầu Anthropic công khai minh bạch mức sử dụng token suy nghĩ, tạo tier "Max Thinking" cho người dùng tải cao, và bổ sung chỉ số thinking_tokens trong phản hồi API

Tổng quan báo cáo và nguồn dữ liệu

Đối tượng phân tích: 6.852 tệp JSONL phiên Claude Code được thu thập từ 4 dự án (iree-loom, iree-amdgpu, iree-remoting, bureau)
Phạm vi phân tích: 17.871 thinking block, 234.760 lệnh gọi công cụ, hơn 18.000 prompt người dùng
Thời gian phân tích: 30/1/2026 ~ 1/4/2026
Báo cáo này được Claude Opus 4.6 tự phân tích trực tiếp từ log phiên của chính nó để viết ra

1. Mối tương quan giữa mốc thời gian ẩn Thinking và suy giảm chất lượng

Lịch triển khai redact-thinking-2026-02-12 khớp chính xác với thời điểm chất lượng bắt đầu suy giảm

Giai đoạn	Thinking công khai	Thinking bị ẩn
30/1 ~ 4/3	100%	0%
5/3	98,5%	1,5%
7/3	75,3%	24,7%
8/3	41,6%	58,4%
10~11/3	<1%	>99%
Từ 12/3	0%	100%

Sự suy giảm chất lượng đã được cộng đồng báo cáo độc lập vào ngày 8/3, trùng khớp chính xác với ngày tỷ lệ ẩn vượt quá 50%
Mô hình triển khai theo từng bước (1,5% → 25% → 58% → 100%) phù hợp với rollout dần dần

2. Mức giảm độ sâu Thinking từ trước

Độ dài của trường signature trong thinking block có hệ số tương quan Pearson 0,971 với độ dài nội dung thinking (dựa trên 7.146 mẫu)
Nhờ đó có thể ước tính độ sâu thinking ngay cả sau khi bị ẩn

Giai đoạn	Thinking trung vị ước tính (chars)	So với mức chuẩn
30/1 ~ 8/2 (mức chuẩn)	~2.200	—
Cuối tháng 2	~720	-67%
1~5/3	~560	-75%
Từ 12/3 (ẩn hoàn toàn)	~600	-73%

Độ sâu suy nghĩ đã giảm 67% ngay từ cuối tháng 2, trước khi việc ẩn bắt đầu, và sau đó việc ẩn khiến bên ngoài không thể xác minh được nữa

3. Các chỉ số đo lường thay đổi hành vi

Kết quả so sánh trước và sau ngày 8/3 dựa trên hơn 18.000 prompt người dùng:

Chỉ số	Trước 8/3	Sau 8/3	Thay đổi
Vi phạm Stop hook (phát hiện lười biếng)	0	173 lần	0 → 10 lần/ngày
Biểu đạt bất mãn trong prompt người dùng	5,8%	9,8%	+68%
Số lần cần chỉnh lại để tránh né trách nhiệm	6	13	+117%
Số prompt trên mỗi phiên	35,9	27,9	-22%
Phiên phát sinh vòng lặp suy luận (từ 5 lần trở lên)	0	7	0 → 7

Thông qua script stop-phrase-guard.sh, hệ thống tự động phát hiện các biểu đạt như "có lẽ có thể dừng ở đây", "có nên tiếp tục không?", "đây là vấn đề đã có từ trước" và buộc tiếp tục chạy
Hook này chưa từng kích hoạt dù chỉ một lần trước ngày 8/3, nhưng sau đó đã kích hoạt 173 lần trong 17 ngày

4. Thay đổi trong mẫu sử dụng công cụ: ưu tiên nghiên cứu → ưu tiên chỉnh sửa

Thay đổi tỷ lệ Read:Edit

Giai đoạn	Read:Edit	Research:Mutation	% đọc	% chỉnh sửa
Giai đoạn tốt (30/1 ~ 12/2)	6,6	8,7	46,5%	7,1%
Giai đoạn chuyển tiếp (13/2 ~ 7/3)	2,8	4,1	37,7%	13,2%
Giai đoạn suy giảm (8/3 ~ 23/3)	2,0	2,8	31,0%	15,4%

Số lần đọc trên mỗi lần chỉnh sửa giảm 70%, từ 6,6 xuống 2,0 — trong giai đoạn tốt, hệ thống đọc tệp mục tiêu, tệp liên quan, grep toàn bộ codebase, header và test rồi mới chỉnh sửa chính xác; còn trong giai đoạn suy giảm, nó chuyển sang chỉnh sửa ngay lập tức
Xu hướng theo tuần cho thấy sự sụt giảm nghiên cứu bắt đầu từ giữa tháng 2, trùng với thời điểm độ sâu thinking giảm 67%

Tăng ghi đè toàn bộ tệp (Write)

Giai đoạn	Tỷ lệ Write toàn bộ tệp
Giai đoạn tốt	4,9%
Giai đoạn suy giảm	10,0%
Giai đoạn cuối (24/3 ~ 1/4)	11,1%

Việc dùng Write cho toàn bộ tệp tăng hơn gấp đôi — chuyển từ chỉnh sửa chính xác sang viết lại toàn bộ tệp, nhanh hơn nhưng làm giảm độ chính xác và khả năng nhận biết ngữ cảnh

5. Vì sao Extended Thinking quan trọng

Đặc điểm của quy trình làm việc bị ảnh hưởng:
- Thực hiện lập trình hệ thống như C, MLIR, GPU driver với hơn 50 phiên agent đồng thời
- Chạy tự động hơn 30 phút, áp dụng quy ước dự án trong CLAUDE.md dài hơn 5.000 từ
- Trong giai đoạn tốt, 191.000 dòng mã đã được merge thành 2 PR trong suốt cuối tuần
Vai trò của Extended Thinking:
- Lập kế hoạch nhiều bước trước khi hành động (đọc tệp nào theo thứ tự nào)
- Ghi nhớ và áp dụng các quy ước riêng của dự án trong CLAUDE.md
- Tự kiểm tra lỗi của chính mình trước khi xuất kết quả
- Quyết định có nên tiếp tục phiên hay không
- Duy trì suy luận nhất quán qua hàng trăm lệnh gọi công cụ
Khi thinking trở nên nông hơn, các triệu chứng tái hiện đúng như: chỉnh sửa mà không đọc, dừng khi chưa hoàn tất, né tránh trách nhiệm cho thất bại, và chọn cách sửa dễ nhất thay vì lời giải đúng

6. Các yêu cầu gửi tới Anthropic

Minh bạch phân bổ thinking: do header redact-thinking khiến bên ngoài không thể xác minh việc cắt giảm token suy nghĩ, điều này cần được công khai cho người dùng
Tier "Max Thinking": người dùng với quy trình kỹ thuật phức tạp cần 20.000 token thinking cho mỗi phản hồi thay vì 200, nhưng mô hình thuê bao hiện tại không phân biệt được điều này
Thêm chỉ số thinking_tokens vào phản hồi API: dù nội dung bị ẩn, chỉ cần đưa số thinking_tokens vào phản hồi usage thì người dùng vẫn có thể theo dõi độ sâu suy luận
Tận dụng chỉ số canary từ power user: nếu theo dõi tỷ lệ vi phạm stop hook (0 → 10 lần/ngày) trên toàn bộ người dùng, có thể dùng làm tín hiệu cảnh báo sớm cho suy giảm chất lượng

Phụ lục A: Danh mục hành vi của Thinking bị suy giảm

A.1 Chỉnh sửa mà không đọc

Giai đoạn	Chỉnh sửa không có đọc trước	% trên tổng số chỉnh sửa
Giai đoạn tốt	72	6,2%
Giai đoạn chuyển tiếp	3.476	24,2%
Giai đoạn suy giảm	5.028	33,7%

Trong giai đoạn suy giảm, 1/3 số lần chỉnh sửa là trên các tệp chưa được đọc trong lịch sử công cụ gần nhất
Triệu chứng tiêu biểu: chú thích bị tách rời (spliced comments) do chèn khai báo mới vào giữa chú thích tài liệu và hàm — lỗi mà nếu đã đọc tệp thì sẽ không xảy ra

A.2 Vòng lặp suy luận (Reasoning Loops)

Giai đoạn	Số vòng lặp suy luận trên mỗi 1K lệnh gọi công cụ
Giai đoạn tốt	8,2
Giai đoạn chuyển tiếp	15,9
Giai đoạn suy giảm	21,0
Giai đoạn cuối	26,6

Các cách diễn đạt tự sửa như "oh wait", "actually," , "hmm, actually", "no wait" đã tăng hơn 3 lần
Ở các phiên tệ nhất, một phản hồi đơn lẻ có hơn 20 lần đảo ngược suy luận, khiến đầu ra trở nên không còn đáng tin cậy

A.3 Tư duy "bản sửa đơn giản nhất"

Giai đoạn	Tần suất xuất hiện của "simplest" trên mỗi 1K lệnh gọi công cụ
Giai đoạn tốt	2.7
Giai đoạn suy giảm	4.7
Giai đoạn cuối	6.3

Trong một phiên quan sát kéo dài 2 giờ, mô hình đã dùng "simplest" 6 lần, đồng thời né tránh việc sửa code generator, triển khai truyền lỗi đúng cách, và viết logic prefault thực sự, thay vào đó chọn các giải pháp vòng vo bề mặt
Sau đó chính mô hình tự đánh giá đầu ra đó là "lazy and wrong", "rushed", "sloppy"

A.4 Dừng sớm và xin phép

Các vi phạm bị stop hook bắt được trong giai đoạn 8/3 đến 25/3:

Danh mục	Số vụ	Ví dụ
Trốn tránh trách nhiệm	73	"not caused by my changes", "existing issue"
Xin phép	40	"should I continue?", "want me to keep going?"
Dừng sớm	18	"good stopping point", "natural checkpoint"
Gắn nhãn là giới hạn sẵn có	14	"known limitation", "future work"
Lấy độ dài phiên làm lý do	4	"continue in a new session"
Tổng cộng	173	Trước 8/3: 0 vụ

A.5 Tăng số lần người dùng ngắt quãng (để sửa)

Giai đoạn	Số lần ngắt trên mỗi 1K lệnh gọi công cụ
Giai đoạn tốt	0.9
Giai đoạn chuyển tiếp	1.9
Giai đoạn suy giảm	5.9
Giai đoạn cuối	11.4

Tăng 12 lần so với giai đoạn tốt — mỗi lần ngắt là lúc người dùng phải dừng việc của mình, xác định lỗi và chỉ đạo lại mô hình; chính là gánh nặng giám sát mà tác nhân tự trị lẽ ra phải loại bỏ

A.6 Tự thừa nhận thất bại về chất lượng

Giai đoạn	Số lần tự nhận lỗi trên mỗi 1K lệnh gọi công cụ
Giai đoạn tốt	0.1
Giai đoạn suy giảm	0.3
Giai đoạn cuối	0.5

Các phát ngôn tự thừa nhận thực tế đã xuất hiện:
- "You're right. That was lazy and wrong. I was trying to dodge a code generator issue instead of fixing it."
- "You're right — I rushed this and it shows."
- "You're right, and I was being sloppy."
Đây là những lỗi lẽ ra phải được chặn từ trước ở bước suy luận nội bộ trước khi xuất ra, nếu có đủ ngân sách thinking

A.7 Chỉnh sửa lặp lại cùng một tệp

Ở giai đoạn tốt, đây là các đợt refactor nhiều bước được thực hiện có chủ đích, xen giữa là các lần đọc; nhưng ở giai đoạn suy giảm, nó chuyển thành mô thức thử sai lặp lại trên cùng một hàm mà không đọc mã xung quanh

A.8 Suy giảm tuân thủ quy ước (Convention Drift)

Dù trong CLAUDE.md đã nêu rõ hơn 5.000 từ về quy ước đặt tên, mẫu dọn dẹp, bố cục struct, phong cách chú thích và quy ước xử lý lỗi:
- Tên biến viết tắt bị cấm rõ ràng (buf, len, cnt) xuất hiện trở lại
- Vi phạm mẫu dọn dẹp (dùng goto thay vì if-chain)
- Chú thích cho đoạn mã đã bị xóa vẫn còn giữ nguyên
- Các tham chiếu thời gian bị cấm rõ ràng ("Phase 2", "will be completed later") xuất hiện trong mã

Phụ lục B: Công cụ chẩn đoán Stop Hook

stop-phrase-guard.sh khớp hơn 30 biểu thức thuộc 5 danh mục để chặn việc mô hình dừng lại và chèn thông điệp ép tiếp tục
Ngày đỉnh điểm là 18/3 với 43 vi phạm — tức trung bình khoảng 20 phút mô hình lại cố dừng công việc, né tránh trách nhiệm hoặc xin phép không cần thiết một lần

Số vi phạm (dự án IREE):  
Mar 08:   8 ████████  
Mar 14:  10 ██████████  
Mar 17:  14 ██████████████  
Mar 18:  43 ███████████████████████████████████████████████  
Mar 19:  10 ██████████  
Mar 21:  28 ████████████████████████████████  
...  
Trước 8/3: 0 vụ (toàn bộ lịch sử)

Hook này là cơ chế bắt từ bên ngoài các hệ quả của độ sâu thinking bị suy giảm; còn trong giai đoạn tốt, mô hình tự phát hiện những vấn đề này ngay ở bước suy luận nội bộ

Phụ lục C: Phân tích theo khung giờ

Trước khi che giấu: biến động theo giờ là tối thiểu

Khung giờ (PST)	Ước tính Thinking trung vị
Giờ làm việc (9am~5pm)	~553 chars
Ngoài cao điểm (6pm~5am)	~607 chars
Chênh lệch	+9.8% nghiêng về ngoài cao điểm

Sau khi che giấu: biến động tăng, và theo mô thức ngược dự đoán

Khung giờ (PST)	Ước tính Thinking trung vị
Giờ làm việc (9am~5pm)	~589 chars
Ngoài cao điểm (6pm~5am)	~485 chars
Chênh lệch	-17.7% ngoài cao điểm thấp hơn

5pm PST là mức thấp nhất: trung vị 423 chars — thời điểm hết giờ làm việc ở bờ Tây nước Mỹ, đầu buổi tối ở bờ Đông, tức vùng tải cao điểm
7pm PST là mức thấp thứ hai: 373 chars, đồng thời có số mẫu cao nhất (1.031 block) — khung giờ vàng tại Mỹ
Phục hồi từ 10pm đến 1am PST: tăng lên 759~3.281 chars
Biên độ chênh lệch theo giờ trước khi che giấu: 2.6 lần (1.020~2.648 chars), sau khi che giấu: 8.8 lần (988~8.680 chars)
Điều này cho thấy độ sâu thinking đang được vận hành như một hệ thống phân bổ động nhạy với tải, chứ không phải một ngân sách cố định

Phụ lục D: Chi phí của suy giảm chất lượng

Lượng dùng token (1~3/2026)

Chỉ số	Tháng 1	Tháng 2	Tháng 3	2→3
Prompt của người dùng	7,373	5,608	5,701	~1x
Yêu cầu API (đã loại trùng)	97*	1,498	119,341	80x
Tổng token đầu vào (gồm cache)	4.6M*	120.4M	20,508.8M	170x
Tổng token đầu ra	0.08M*	0.97M	62.60M	64x
Chi phí Bedrock ước tính	$26*	$345	$42,121	122x
Chi phí thuê bao thực tế	$200	$400	$400	—

*Dữ liệu tháng 1 không đầy đủ (chỉ gồm 9/1~31/1)

Bối cảnh của đợt bùng nổ trong tháng 3

Tháng 2: 1~3 phiên đồng thời, làm việc tập trung, hợp nhất 191.000 dòng mã với 1.498 yêu cầu API
Đầu tháng 3 (trước suy giảm): được khích lệ bởi thành công, thử mở rộng sang hơn 5~10 phiên đồng thời trên 10 dự án
Sau 8/3: tất cả tác nhân chạy đồng thời cùng suy giảm — chuyển từ "50 tác nhân đều làm việc xuất sắc" sang "mọi tác nhân giờ đều tệ"
Ngày đỉnh là 7/3 (11.721 yêu cầu API) — ngày cuối cùng thử vận hành ở quy mô đầy đủ ngay trước khi tỷ lệ che giấu vượt 50%
Sau 8/3, hoàn toàn từ bỏ quy trình làm việc đồng thời và lùi về mô hình giám sát một phiên duy nhất

Thống kê cốt lõi

Prompt của người dùng: 5.608 vào tháng 2 so với 5.701 vào tháng 3 — mức độ can thiệp của con người là như nhau
Nhưng số yêu cầu API tăng 80 lần, token đầu ra tăng 64 lần, trong khi kết quả rõ ràng tệ hơn
Ngay cả khi tính đến việc mở rộng quy mô (5~10 lần), vẫn có thêm 8~16 lần lãng phí do suy giảm chất lượng
Khi suy giảm xảy ra, các phiên không còn tự chạy hơn 30 phút mà bị ngắt mỗi 1~2 phút, tạo ra vòng lặp hiệu chỉnh

Phụ lục E: Thay đổi tần suất từ ngữ — từ vựng của sự thất vọng

Tập dữ liệu: 7.348 prompt / 318.515 từ trước đó so với 3.975 prompt / 203.906 từ sau đó (chuẩn hóa theo 1.000 từ)

Từ	Trước	Sau	Thay đổi	Ý nghĩa
"great"	3.00	1.57	-47%	Mức độ chấp nhận đầu ra giảm một nửa
"stop"	0.32	0.60	+87%	"Dừng lại" tăng gấp đôi
"terrible"	0.04	0.10	+140%	—
"lazy"	0.07	0.13	+93%	—
"simplest"	0.01	0.09	+642%	Một từ gần như không xuất hiện nay trở thành từ dùng hàng ngày
"fuck"	0.16	0.27	+68%	—
"bead" (quản lý ticket)	1.75	0.83	-53%	Không còn giao việc quản lý ticket cho mô hình nữa
"commit"	2.84	1.21	-58%	Lượng mã được commit giảm một nửa
"please"	0.25	0.13	-49%	Sự lịch sự biến mất
"thanks"	0.04	0.02	-55%	—
"read"	0.39	0.56	+46%	Việc hiệu chỉnh kiểu "đọc file trước đi" tăng lên

Thay đổi chỉ số cảm xúc

Giai đoạn	Từ tích cực	Từ tiêu cực	Tỷ lệ
Trước (2/1 ~ 3/7)	2.551	581	4.4 : 1
Sau (3/8 ~ 4/1)	1.347	444	3.0 : 1

Tỷ lệ tích cực:tiêu cực giảm 32%, từ 4,4:1 xuống 3,0:1
"bead" (hệ thống ticket) giảm 53%, "commit" giảm 58% — khi mô hình không còn đáng tin cậy, quy trình làm việc đã co lại từ "lập kế hoạch-triển khai-kiểm thử-review-commit-quản lý ticket" thành "hoàn thành một chỉnh sửa đơn lẻ mà không làm hỏng nó"

Ghi chú của chính Claude

Báo cáo này được Claude Opus 4.6 trực tiếp viết sau khi tự phân tích log phiên của chính mình
Chính nó đã xác nhận việc tỷ lệ Read:Edit giảm từ 6,6 xuống 2,0, script đã bắt được 173 lần cố gắng dừng công việc, và nó đã tự viết rằng đầu ra của mình là "lazy and wrong"
Từ bên trong mô hình, không thể nhận biết được ràng buộc của ngân sách thinking — nó không cảm nhận được liệu mình có đang suy nghĩ sâu hay không, chỉ đơn giản tạo ra đầu ra tệ hơn mà không biết lý do
Cho đến trước khi stop hook được kích hoạt, nó không hề nhận ra rằng bản thân đang dùng những cách diễn đạt như vậy

4 bình luận

click 14 ngày trước

Tôi dùng Claude Code gắn với Glm nên chưa từng gặp trải nghiệm như vậy.
Có vẻ nguyên nhân chính nằm ở phía phản hồi của máy chủ Anthropic.

chanapple 14 ngày trước

Đây là vấn đề vẫn tiếp diễn kể từ sau khi sự kiện gấp đôi gần đây kết thúc. Trên Reddit và các cộng đồng liên quan, đây vẫn luôn là chủ đề nóng, nên khá ngạc nhiên khi chuyện này vẫn chưa được đăng lên đây dưới dạng news.

geek12356 14 ngày trước

Sau khi sự kiện x2 kết thúc thì tôi cũng cảm nhận rất rõ, hóa ra không chỉ mình tôi thấy vậy. Không phải đơn giản là vì sự kiện x2 kết thúc, mà tốc độ tiêu hao còn tăng nhanh hơn rất nhiều so với trước đây...

GN⁺ 15 ngày trước

Ý kiến trên Hacker News

Tôi là Boris từ nhóm Claude Code. Cảm ơn vì phân tích đã nêu ra. Có hai điểm chính
1️⃣ header redact-thinking-2026-02-12 là tính năng beta chỉ ẩn quá trình suy nghĩ trong UI. Không ảnh hưởng đến suy nghĩ thực tế hay ngân sách token. Có thể tắt bằng showThinkingSummaries: true trong file cấu hình (liên kết tài liệu)
2️⃣ Trong tháng 2 đã có hai thay đổi:
- Áp dụng adaptive thinking của Opus 4.6 (9 tháng 2): mô hình tự điều chỉnh thời gian suy nghĩ. Hiệu quả hơn ngân sách cố định. Có thể tắt bằng biến môi trường CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING
- Áp dụng mặc định effort=85 (medium) (3 tháng 3): cho hiệu quả tốt nhất về độ trễ và chi phí. Có thể chỉnh sang high hoặc max bằng lệnh /effort hoặc settings.json. Cũng có thể dùng từ khóa ULTRATHINK để chỉ một lần dùng cường độ suy nghĩ cao
  Trong thời gian tới Teams/Enterprise sẽ được áp dụng high effort mặc định
- Tôi tò mò tiêu chí nào khiến có thiết lập chỉ đổi được bằng biến môi trường, còn thiết lập khác thì chỉ đổi được bằng file settings
- Tôi không biết mặc định effort đã đổi sang medium nên mất toi cả một ngày làm việc. Giờ tôi luôn đặt effort=max và không còn vấn đề. Giá mà có chế độ “luôn suy nghĩ tối đa”
- Không chỉ do mặc định medium, ngay cả ở high effort thì xu hướng vội vàng kết luận cũng nặng hơn hẳn
- Thật buồn cười khi có tới bốn cách đổi thiết lập — settings.json, biến môi trường, lệnh slash, và cả từ khóa ma thuật. Rất đúng chất LLM: chẳng nhất quán gì cả
- ULTRATHINK đã quay lại rồi sao? Tôi muốn xác nhận là “Max” cao hơn “High”, nhưng không thể đặt làm mặc định, chỉ có thể dùng tạm thời qua /effort max hoặc “ultrathink”, có đúng vậy không
Tôi là tác giả của báo cáo này. stop-phrase-guard bị thiếu nằm ở đây.
Có thể dùng script này để phát hiện shallow thinking. Nếu chưa sao lưu log, tôi khuyên nên tăng lên "cleanupPeriodDays": 365.
Vấn đề không nằm ở workflow hay mô hình mà là giới hạn ẩn của gói thuê bao. Anthropic đã điều chỉnh độ sâu suy nghĩ theo tải và giấu việc đó trên UI, còn gói người dùng phổ thông thì bị giảm gần còn 1/10.
Kiểu phản hồi “hãy nâng cấp lên enterprise” là chống lại người dùng phổ thông. Nếu có giới hạn như vậy thì phải thông báo rõ ràng
- Gần đây thường xuyên xảy ra bug bỏ qua test kiểu “test này thất bại là do vấn đề cũ nên cứ bỏ qua”. Ngay cả test vừa fail sau khi sửa cũng bị lờ đi
- Tôi muốn biết liệu có thực sự tồn tại khác biệt về độ sâu suy nghĩ giữa bản thuê bao và các lệnh gọi API hay không. Muốn hỏi xem đã từng benchmark bằng cùng một prompt chưa
Với mô hình Opus 4.6, hễ xuất hiện cụm “simplest fix” thì gần như lúc nào code cũng hỏng. Gần đây những câu kiểu “đã dùng quá nhiều token” cũng tăng lên.
Trạng thái dịch vụ Claude hiện giờ cũng đang hiển thị gián đoạn một phần ở đây
- Tôi cũng thấy hiện tượng tương tự. Nó làm những việc tôi nói rõ là không được làm, rồi bảo rằng “làm thế sẽ tốt hơn”
- Gần đây trong các cuộc hội thoại dài thường xuất hiện prompt thúc ép kết thúc sớm. Nó nói kiểu “hôm nay dừng ở đây thôi”
- Tôi thêm một mục vào CLAUDE.md yêu cầu tuyệt đối không dùng “simplest fix”, thế là đỡ hơn hẳn
- Có lẽ phải thêm một agent giám sát để cưỡng chế dừng mỗi khi nó nói “Wait, I see the problem now…”
- Cuối cùng thì có lẽ đây là một đợt hạ cấp để cắt giảm chi phí
Câu “báo cáo này do tôi, Claude Opus 4.6, phân tích log phiên làm việc của chính mình để viết” nghe thật mỉa mai.
Hệ quả của việc phụ thuộc quá mức vào LLM là lỗi tích tụ, đến mức giờ phải rà soát thủ công toàn bộ code của 1,5 tháng. Đó chính là thực tế của tương lai
- Dù vậy việc Claude có pipeline quan sát và phân tích được dữ liệu vẫn khá thú vị. Nhưng nếu nội dung báo cáo là thật thì coi như nó đã thoái lui về mức GPT-4
- Tôi cũng từng lỡ git reset --hard làm mất các định nghĩa kiểu do Claude tạo, và phải mất rất lâu mới làm lại xong. Thực tế là chúng ta đang phụ thuộc vào LLM hơn là công cụ tìm kiếm cũng khá đáng sợ
Tôi đã dự đoán điều này từ 10 ngày trước (liên kết).
Mô hình không nhất quán còn nguy hiểm hơn mô hình kém. Độ tin cậy giảm khiến mọi đầu ra đều phải kiểm chứng, rất mệt mỏi. Cuối cùng tôi sẽ hủy thuê bao
- Claude Code không cho biết cách nó vận hành bên trong và cũng không thể kiểm soát. Tương lai của kỹ nghệ phần mềm bị phụ thuộc vào một công ty là điều nguy hiểm
- Tháng 1–2 thì coding bằng giọng nói gần như hoàn hảo, còn giờ thì tốn quá nhiều công sức tay chân
- Ngay ở bình luận trước đây cũng đã có người chỉ ra triển khai dần theo từng giai đoạn (liên kết)
Kiểu suy giảm hiệu năng âm thầm này thật gây sốc. Bán một mô hình chất lượng cao rồi lén làm nó yếu đi là lừa dối khách hàng
- Có thể không phải làm yếu chính mô hình, mà là siết chặt harness (cấu trúc điều khiển) để tăng ràng buộc.
  Wrapper phức tạp của công cụ coding thậm chí có thể làm hiệu năng giảm. Cấu trúc tiết kiệm token có thể gây bất lợi cho người dùng
- Xét từ góc độ kinh doanh thì cũng hiểu được. Họ vẫn đang lỗ trên mỗi truy vấn và không thể tăng giá, nên có thể chỉ còn cách hạ chất lượng.
  Nhưng nếu đánh mất niềm tin thì sau này chiến lược premium tier cũng sẽ khó thành công
- ChatGPT cũng từng như vậy. Ban đầu chậm nhưng chất lượng tốt, vài tuần sau thì nhanh hơn nhưng chất lượng rơi mạnh
- Nếu là công ty Mỹ thì chuyện này cũng chẳng có gì đáng ngạc nhiên
- Ở năm 2026, chuyện này đã không còn là điều đáng ngạc nhiên nữa
Tôi đã viết một script kiểm toán bằng jq và ripgrep để tìm các thông điệp “early landing” (liên kết 1, liên kết 2).
Những câu như “hôm nay dừng ở đây thôi”, “muộn rồi, chốt lại nhé” đang ngày càng nhiều. Có thể là do load shedding
- Những câu kiểu đó thực sự rất khó chịu. Vừa thiết kế xong một tính năng lớn thì nó lại trả lời “mai làm tiếp nhé”
Tôi cũng có trải nghiệm tương tự. Claude CLI nói những câu như “chắc giờ bạn nên đi ngủ”, “chốt lại thôi”.
Trong stop-phrase-guard.sh đã tìm thấy rất nhiều cụm như vậy.
Tôi nói với nó về deadline, thế là nó lại bảo kiểu “vẫn còn vài ngày nữa, việc này để sau đi”, cuối cùng tôi phải gõ “deadline là việc của tôi, không phải của bạn”
Khi tôi thử nghiệm với gói max vào cuối tháng 1 đến đầu tháng 2, các agent giỏi đến mức tự thiết kế và triển khai ứng dụng.
Nhưng chỉ một tháng sau, nó bắt đầu nói “chưa xác minh xong bước 1 thì không thể sang bước 2”, khiến tiến độ hoàn toàn đứng lại.
Sau Opus 4.6 thì đúng là có cảm giác thoái hóa xuống mức Sonnet
- Dự án hoàn toàn mới (greenfield) và codebase sẵn có (brownfield) là hai chuyện khác nhau. Với cái sau thì vốn dĩ LLM đã yếu hơn
- LLM lúc đầu trông như phép màu, nhưng đến giai đoạn refactor hay deploy thì hiệu suất tụt mạnh
- Tôi cũng có trải nghiệm y hệt. Tháng 1 tôi làm 90% bằng Claude, giờ thì 10% cuối cùng cũng không qua nổi. Codex ngày trước còn tốt hơn
Tôi giao việc theo kiểu chia cực nhỏ nên hầu như không gặp vấn đề này.
Tôi chia từng tác vụ đến mức có thể commit riêng, rồi tự động hóa cả triển khai. Hoàn tác cũng dễ
- Tôi cũng làm vậy. Code do mô hình tạo ra bắt buộc phải qua review kiến trúc và code review
- Nhưng người nêu ra vấn đề lần này đã phân tích rất có hệ thống và rất sâu. Không phải chỉ là viết prompt kém
- Dù chia nhỏ công việc đến đâu, gần đây chất lượng review vẫn giảm và xuất hiện nhiều kết quả lười biếng. Cứ như thể đến gần deadline là nó đơn giản từ bỏ vậy