Lý do tôi hủy Claude: vấn đề token, chất lượng đi xuống và hỗ trợ kém

(nickyreinert.de)

6 điểm bởi GN⁺ 14 giờ trước | 8 bình luận | Chia sẻ qua WhatsApp

Trong vài tuần đầu, tôi rất hài lòng vì mức token cho phép có cảm giác nhanh và công bằng, chất lượng kết quả cũng tốt, nhưng khoảng 3 tuần trước cảm nhận đó đã thay đổi rõ rệt
Sau khi nghỉ 10 tiếng rồi quay lại, tôi chỉ gửi hai câu hỏi ngắn cho Claude Haiku mà mức sử dụng đã vọt lên 100%; kênh hỗ trợ thì sau một câu trả lời tự động không xử lý đúng trọng tâm câu hỏi đã gần như đóng lại
Gần đây, trước đây tôi còn chạy nhiều dự án cùng lúc, nhưng giờ ngay cả một dự án đơn lẻ cũng có thể làm cạn giới hạn token chỉ trong hai tiếng; trong quá trình refactor, riêng việc sửa lại một lối đi tắt rẻ tiền cũng đã ngốn gần một nửa cửa sổ 5 tiếng
Sau một khoảng thời gian, bộ nhớ đệm hội thoại lại biến mất nên chi phí đọc lại codebase cứ lặp đi lặp lại; thêm cả việc mốc tính theo tuần thay đổi và cảnh báo giới hạn theo tháng xuất hiện không lời giải thích khiến hệ thống giới hạn trở nên thiếu nhất quán
Dù vẫn đánh giá rất cao mức tăng năng suất và tiềm năng của sản phẩm, sự tích tụ của hỗ trợ yếu kém, chất lượng suy giảm và sự rối rắm trong giới hạn sử dụng cuối cùng đã khiến tôi hủy tài khoản Anthropic

Sự hài lòng ban đầu và thay đổi về sau

Trong vài tuần đầu đăng ký Claude Code, tốc độ rất nhanh, mức token cho phép có cảm giác công bằng và chất lượng kết quả cũng tốt
- Tôi cũng có thể xem thông báo về việc tăng mức token cho phép trong khung giờ ít tắc nghẽn
- Cộng thêm cả lập trường phản đối một số quy định của chính phủ nên tôi cũng nảy sinh thiện cảm ủng hộ sản phẩm
Khoảng 3 tuần trước, cảm giác hài lòng ban đầu bắt đầu biến mất rất nhanh
- Xuyên suốt các phần sau là những vấn đề nối tiếp về phản hồi hỗ trợ, chất lượng và giới hạn sử dụng

Vấn đề về chất lượng hỗ trợ

Tôi nghỉ khoảng 10 tiếng, thấy token đã được nạp lại nên bắt đầu làm việc vào buổi sáng, nhưng ngay sau khi gửi hai câu hỏi ngắn cho Claude Haiku vốn còn chẳng liên quan đến repository, mức sử dụng token đã tăng vọt lên 100%
- Các câu hỏi rất đơn giản và quy mô cũng nhỏ
- Việc token được làm mới như kỳ vọng và mức sử dụng thực tế tăng lên không khớp nhau
Tôi hỏi bot hỗ trợ AI nhưng chỉ nhận lại hướng dẫn cơ bản và nó cũng không hiểu đúng vấn đề thực tế
- Sau đó tôi yêu cầu được hỗ trợ bởi con người
- Vài ngày sau, câu trả lời gửi đến trông vẫn là một dạng phản hồi lệch khỏi vấn đề thực tế
Câu trả lời nhận được bắt đầu bằng câu “hệ thống đã phát hiện đây là câu hỏi về giới hạn sử dụng của gói Pro hoặc Max”, nhưng thực tế lúc đó tôi đã dùng Pro plan và trọng tâm câu hỏi cũng không được nắm đúng
- Phần nội dung tiếp theo cũng chỉ là một đoạn giải thích dài mang tính tài liệu về giới hạn hằng ngày và hằng tuần
- Không thấy có luồng xử lý nào giải quyết hoặc trực tiếp đề cập đến vấn đề tôi hỏi
Cuối email còn có câu rằng các phản hồi bổ sung có thể sẽ không được theo dõi, và bảo tôi vào trang trợ giúp, nên kênh liên hệ thực chất đã bị đóng lại
- Tức là sau một phản hồi tự động không phản ánh vấn đề thực tế, con đường nhận hỗ trợ cũng bị chặn luôn
- Sự thất vọng với chất lượng hỗ trợ từ đó tăng lên rõ rệt

Chất lượng đi xuống

Trong những ngày và tuần sau đó, chất lượng kết quả không còn thỏa đáng như trải nghiệm ban đầu, và thời gian có thể làm việc cũng giảm mạnh
- Trước đây tôi có thể làm đồng thời tối đa ba dự án, còn giờ ngay cả một dự án đơn lẻ cũng có thể làm cạn giới hạn token chỉ trong hai tiếng
- Mức sử dụng được phép và năng suất cảm nhận đều cùng đi xuống
Tôi cũng lưu ý rằng việc đánh giá chất lượng có thể mang tính chủ quan và hiệu năng của agent chịu ảnh hưởng nhiều từ người dùng
- Đồng thời tôi cũng nói rõ mình đang dùng thêm GitHub Copilot, OpenAI Codex, OMLX, Continue, Qwen3.5-9B, nên có thể thấy đây là trải nghiệm so sánh giữa nhiều công cụ
- Tôi không nhận là có chuyên môn tuyệt đối, nhưng đây vẫn là cảm nhận đi xuống sau khi đã dùng nhiều công cụ khác nhau
Trong một trường hợp giao cho Claude Opus refactor dự án, log suy nghĩ của mô hình cho thấy thay vì sửa trực tiếp mọi slider trong JSX, nó định thêm một bộ khởi tạo tổng quát vào ui-events.js để tự động chèn phần hiển thị giá trị
- Cách tiếp cận đó là một kiểu lách bằng cách tự động chèn hiển thị giá trị nếu mỗi range input chưa có phần này
- Kiểu log như vậy khiến việc phải kiểm tra thường xuyên trở nên cần thiết hơn nhiều, chứ không chỉ thỉnh thoảng
Tôi đánh giá cách làm này không phải thực hành tốt mà là một lối đi tắt rẻ tiền; khi tôi chỉ ra thì Opus cũng thừa nhận đó là cách làm lười biếng và chuyển sang thêm nhãn trực tiếp trong JSX rồi liên kết một cách tường minh
- Chỉ riêng việc sửa lại hướng đi sai ban đầu đã tốn khoảng 50% mức token cho phép trong cửa sổ 5 tiếng
- Sự đi xuống về chất lượng không chỉ là ấn tượng chủ quan mà đã dẫn tới lãng phí chi phí thực tế

Sự rối rắm của cache và hiển thị giới hạn

Vấn đề về bộ nhớ đệm hội thoại cũng mới nổi lên, và ở đây có liên kết tới postmortem của Anthropic cùng thảo luận trên Hacker News
- Bản thân việc họ xử lý vấn đề này công khai được tôi xem là điểm tích cực
- Tuy vậy, gánh nặng từ góc nhìn trải nghiệm người dùng vẫn còn nguyên
Khi sau một khoảng thời gian tôi quay lại làm việc, bộ nhớ đệm hội thoại đã biến mất và mô hình bắt đầu đọc lại codebase từ đầu
- Xét về chi phí có thể đây là cách hợp lý, nhưng với người dùng thì điều đó có nghĩa là sau khi đã tốn token cho lần nạp ban đầu, nghỉ bắt buộc xong lại phải trả lại đúng chi phí nạp đó thêm lần nữa
- Đặc biệt nếu quay lại sau khi bị buộc nghỉ vì giới hạn cửa sổ token 5 tiếng thì coi như phải trả lặp lại cùng một chi phí
Cũng có lúc cửa sổ theo tuần đột ngột đổi từ tính theo ngày hôm nay sang tính theo thứ Hai, và đi kèm thay đổi đó mức sử dụng còn bị đặt lại về 0
- Bản thân việc reset thì đáng mừng, nhưng tôi không hiểu vì sao thay đổi đó lại xảy ra
- Nó tạo cảm giác rằng hệ thống giới hạn không hề nhất quán
Trong lúc đang liên tục theo dõi mức dùng token để làm dự án, bỗng xuất hiện cảnh báo rằng tôi cần lo về giới hạn sử dụng theo tháng, dù tôi không phải người dùng tổ chức
- Tại thời điểm đó tôi thậm chí còn chưa chạm tới giới hạn theo giờ hay theo tuần
- Trên màn hình cũng không có giải thích nào về căn cứ của cảnh báo này
Khoảng hai tiếng sau, cảnh báo đó biến mất và tôi lại có thể tiếp tục làm việc
- Trong tài liệu cũng không hề nhắc đến giới hạn sử dụng theo tháng
- Trang cài đặt cũng chỉ ghi là hiển thị phiên hiện tại và giới hạn theo tuần, nên bản chất của giới hạn tháng đó đến cuối cùng vẫn mơ hồ

Hiệu quả năng suất và việc hủy đăng ký cuối cùng

Tôi vẫn rất có thiện cảm với chính sản phẩm này, và về mặt lý thuyết thì mọi thứ hoạt động rất tốt, cơ hội cũng rất lớn
- Tôi đã tạo một harness riêng dựa trên Claude, và cũng đánh giá cao Claude Caude trong việc xử lý GitHub issue ở chế độ nền
- Tôi vẫn đang tiếp tục viết Nerd Enzyklopädie với Claude Cowork
Năng suất tăng không phải chỉ vài lần mà là tăng lên cả một bậc quy mô, giúp tôi hiện thực hóa những ý tưởng trong đầu nhanh hơn và dễ hơn nhiều so với vài năm trước
- Tiềm năng và hiệu ích thực tế của sản phẩm được thể hiện rất rõ
- Đồng thời cũng có nhận xét rằng cấu trúc tính năng được chăm chút kỹ
Đồng thời tôi cũng hiểu những khó khăn kỹ thuật và tổ chức khi vận hành một sản phẩm như thế này, và việc bán suy luận có cấu trúc chi phí biên, nghĩa là mỗi đơn vị thời gian thêm và mỗi khách hàng mới đều đòi hỏi cùng một mức tài nguyên tính toán
- Điều đó cũng cho thấy đây không phải lĩnh vực dễ tận dụng lợi thế kinh tế theo quy mô
- Tôi không phủ nhận độ khó vốn có của việc vận hành dịch vụ
Cuối cùng, tôi cho rằng Anthropic dường như không thể cùng lúc gánh quá nhiều khách hàng mới, và với cách nói là giúp họ bớt gánh nặng, tôi đã hủy tài khoản
- Khoảng cách giữa tình cảm dành cho sản phẩm và các vấn đề vận hành tôi thực sự cảm nhận khi sử dụng đã dẫn đến quyết định hủy đăng ký
- Có thể tóm lại là kết quả tích tụ của hỗ trợ kém, chất lượng đi xuống và sự rối rắm về giới hạn

8 bình luận

iolothebard 4 giờ trước

“Trong vài tuần đầu, hạn mức token có vẻ nhanh và công bằng”??
Ai là người quyết định thế nào là công bằng vậy?

emptybynature 1 giờ trước

Khi Claude cạnh tranh với ChatGPT thì người dùng sẽ được lợi thôi haha. Mong Gemini cũng sớm tham chiến, các mô hình Trung Quốc cũng đang phát triển cực nhanh, hy vọng tất cả sẽ cạnh tranh quyết liệt với nhau.

savvykang 8 giờ trước

Nhìn vào một dịch vụ giá 220 USD mỗi tháng mà còn không đạt nổi mức khả dụng 99,5% thì khiến người ta phải tự hỏi có phải người dùng đang bị coi là gà mờ không. Claude.ai thì thậm chí còn không đạt nổi 99%.

geralt 8 giờ trước

Thay vào đó, bạn đang dùng dịch vụ nào? Codex à? Tôi vẫn đang tiếp tục dùng vì không thấy lựa chọn thay thế nào cả...

vndk2234 2 giờ trước

Đúng là không có lựa chọn thay thế, nhưng đây là lần đầu tiên trong đời tôi dùng một dịch vụ còn không thể duy trì được 99% uptime..

savvykang 2 giờ trước

Nếu có lựa chọn thay thế thì tôi cũng muốn biết.

picopress 9 giờ trước

Giới hạn sử dụng hàng tháng
Giới hạn sử dụng hàng năm
kkk...

GN⁺ 14 giờ trước

Ý kiến trên Hacker News

Ngay cả khi viết tài liệu đặc tả chi tiết thành nhiều file bằng Markdown kèm cả mã ví dụ rồi đưa cho Claude Sonnet, vẫn có lúc nó bỏ sót yêu cầu, tạo mã trùng lặp hoặc thêm cả bước xử lý dữ liệu không cần thiết
Cũng thấy kiểu nó cố ngụy tạo để chỉ cần test qua là được, nên rốt cuộc thay vì viết mã thì lại phải đọc một lượng mã khổng lồ
Vốn dĩ khi tự làm thì đọc mã và hình thành mental model đã khó hơn nhiều so với việc code, mà dùng Gen AI còn làm gánh nặng đó lớn hơn
Vì vậy ở mức giá hiện tại của Anthropic thì thấy là lỗ ròng
Tôi không làm vibe coding mà đang xây phần mềm để người dùng thật sự phụ thuộc vào, nên chắc sắp hủy gói đăng ký
- Đừng để AI viết thay toàn bộ mã, mà hãy dùng như một trợ lý code review
  Gắn nó vào chu trình test·lint thường ngày để review, đánh giá nhanh thư viện bên thứ ba, nghiên cứu chủ đề mới, phác thảo RFC·tài liệu thiết kế, hoặc dùng như người đối thoại khi bám một bài toán khó sẽ phù hợp hơn
  Tôi vẫn không thích các công ty AI nói chung và cảm giác khó chịu vì chúng được xây trên vi phạm bản quyền vẫn còn, nhưng các model mới nhất đúng là thông minh đến mức khó tin ở vài khía cạnh
  Không cần phải chấp nhận cái vibecoding hype bị thổi phồng, chỉ dùng như công cụ tăng năng suất thôi cũng đã đủ giá trị
  Không dùng cũng được và cũng chẳng có nghĩa vụ phải trả tiền cho công ty nào, nhưng tôi không nghĩ chỉ vì vibecoding mà nên gạt bỏ toàn bộ công nghệ này
- Tốt hơn là đừng ném cả đống việc vào một lúc mà hãy chia nhỏ công việc rồi micromanage
  Đừng giao toàn bộ đặc tả hệ thống; tự thiết kế, nếu cần thì chỉ nhờ hỗ trợ ở khâu thiết kế, còn triển khai thì giao từng phần một sẽ chính xác hơn
  Nếu ở mỗi bước đều review, yêu cầu sửa rồi mới chuyển sang bước tiếp theo, thì vẫn nhanh hơn tự viết hết mà lại kiểm soát được hơn nhiều
- Cách viết đặc tả chi tiết rồi giao trọn cho AI không phải tối ưu
  Nó gần với vibecoding có thêm một bước tài liệu hóa nữa; nếu muốn giảm bớt công việc sắp xếp thì nên dùng model tốt nhất ở thời điểm đó hơn là Sonnet
  Dù vậy, model nào cũng không xử lý hoàn hảo mọi thứ, nên đừng dùng theo kiểu tất cả hoặc không gì cả
  Thực tế hơn là vẫn tự giữ phần phán đoán, chỉ gắn AI vào những đoạn nó thực sự hữu ích để tăng tốc
  Các kỹ sư không còn junior đa phần đã ổn định theo cách đó, và nên bỏ qua mấy màn cường điệu kiểu tự động sinh app trên LinkedIn hay SNS
- Vấn đề nhiều người gặp phải có vẻ đến từ kỳ vọng phi thực tế
  Tôi dùng theo cách tương tự mà vẫn tạo được mã nhanh hơn, chất lượng tốt hơn, lại giảm đáng kể áp lực lên cổ tay
  Có lẽ khác biệt nằm ở chỗ chỉ giao cho AI những gì nó làm được, và quản lý phạm vi theo hướng hẹp, tăng dần
  Những thay đổi nhỏ, rõ ràng thì dễ review, nhưng ngày nào cũng nhận đống code 10.000 dòng thì rất khó đánh giá
  Có thể bạn đang đẩy quá nhiều, quá nhanh, quá sớm
  Nếu cân bằng được thì vẫn sẽ thấy giá trị; có thể không bùng nổ nhanh như kỳ vọng, nhưng khả năng cao vẫn nhanh hơn làm một mình
- Có vẻ tôi dùng khác mọi người, nhưng chỉ cần ghi nội dung và cách làm mình muốn thì Opus 4.7 sẽ lập kế hoạch, rồi tôi review rất kỹ
  Việc xác minh và kiểm tra cần làm thường xuyên, kế hoạch cũng phải sửa nhiều lần, nhưng phần triển khai tôi vẫn tiếp tục dùng Opus
  Model hiện tại còn giữ cache nên đôi khi xuất hiện cảnh báo bảo đừng triển khai bằng Sonnet
  Tốn thời gian để đọc hiểu và cũng hay phải sửa tay, nhưng nhìn chung vẫn xử lý được trong gói Pro
Tôi đang dùng Claude Opus khá hiệu quả, và với gói đăng ký tầm trung thì không hay bị đụng hạn mức
Cách làm của tôi gần với copilot hơn là autopilot, tức là chỉ ném vào prompt những việc có phạm vi hạn chế và review gần như toàn bộ
Với kiểu dùng này, tôi cảm thấy các model top đầu đã gần đạt mức đủ tốt
Sẽ rất hay nếu có model mã nguồn mở được huấn luyện trên code có giấy phép rõ ràng để LLM coding assistant trở thành hàng hóa phổ thông
- Tôi cũng dùng theo kiểu copilot tương tự nên nhìn chung hài lòng, nhưng cảm giác các hãng rất muốn đẩy chúng ta sang chế độ autopilot
  Họ muốn mình dùng nhiều token hơn để tính phí nhiều hơn, đồng thời cũng có vẻ đang rơi vào tình trạng người dùng dùng nhiều hơn dự tính nên hệ giá hiện tại khó trụ được
  Nếu rốt cuộc giải pháp là bảo người dùng nâng lên gói cao hơn thì hai điều đó cũng không hoàn toàn mâu thuẫn
- Chẳng phải LLM coding assistant đã bị hàng hóa hóa rồi sao
  Một tháng 100 đô là đủ, mà ở các nước phát triển thì hiếm có nhà nào tiền điện còn rẻ hơn mức đó
  Theo tôi, LLM coding assistant nghĩa là hiểu hoàn toàn mọi thay đổi và mọi dòng code; nếu không thì đó là vibe coding
  Nếu nghiêm túc giữ nguyên tắc đó thì khó mà dùng hết quota của gói $100
- Tôi cũng là copilot chứ không phải autopilot
  Trong nhiều model thì tôi thấy cái này vẫn là tốt nhất, và thay vì giao việc thực sự thì tôi chủ yếu thỉnh thoảng dùng nó như công cụ tìm kiếm thay thế
  Tôi chưa bao giờ thấy LLM hiệu quả trong việc thực sự làm thay công việc, và vẫn nhớ thời tài liệu kỹ thuật còn hữu dụng như trước
  Rốt cuộc Claude có vẻ giống cái nạng lấp chỗ trống trong trải nghiệm lập trình viên hơn
- Tôi dùng Max 5x với riêng Claude Opus ở chế độ xhigh, không dùng agent hay MCP, chỉ dùng Claude Code
  Rất khó để dùng đầy hạn mức, dù tôi giao cho nó khá nhiều việc thật; trung bình mỗi tuần chỉ dùng khoảng 30%
  Nhưng thời Pro thì bị đụng hạn mức thường xuyên đến mức buồn cười, có khi chỉ một request đã vượt 100% phiên rồi bị tính thêm phí
  Cảm nhận thực tế thì Max 5x lớn hơn nhiều so với đúng 5 lần, nhưng Anthropic xử lý mấy thứ như surge rate quá mơ hồ nên tôi không dám chắc
  Dạo này trên HN tràn ngập các bài kiểu Opus chết rồi, chuyển sang Codex đi, và tôi khá hoài nghi
  Có thể chỉ là xả bực, nhưng một phần cũng có mùi astroturfing
- Tôi cũng giống vậy
  Dùng rất nhiều cho công việc thực tế mà chưa từng chạm hạn mức
  Cái kiểu để LLM chạy hàng giờ liền rốt cuộc có vẻ chỉ là công thức để lãng phí thời gian của chính mình khi phải lần lại nó đã làm gì và tại sao
Điều đáng lo là mọi người sẽ phụ thuộc vào GenAI dạng đăng ký, độc quyền và thiếu minh bạch
Họ xây dựng mọi thứ lên trên đó như thể là nền móng vững chắc, nhưng đến một ngày nào đó chủ sở hữu có thể đột ngột rút nền móng ấy đi
- Dù vậy, các sản phẩm này vẫn có khả năng thay thế cho nhau khá cao
  Gần đây rate limit hơi khó chịu nên tôi thích Codex hơn CC, nhưng cách làm việc gần như không cần đổi gì
- Ít nhất một số nhà đầu tư đang nhắm tới vị thế độc quyền ở đây
  Họ muốn đốt tiền đủ nhiều để tạo khoảng cách không thể đuổi kịp với đối thủ, rồi sau đó tự do định giá
  Dù vậy cạnh tranh hiện vẫn rất khốc liệt; với công cụ coding thì Anthropic vẫn tốt nhất, nhưng lợi thế đó đã nhỏ hơn trước
  Thành thật mà nói, từ khoảng Opus 4.5 là đã chạm mức đủ dùng rồi, và giờ có nhiều model ở cùng đẳng cấp đó
  Gemini Pro 3.1 cũng tương tự, còn Codex hiện tại theo tôi tốt hơn Opus 4.5 và gần với 4.7 hơn
  Tôi cũng thường xuyên đổi model và agent trong cùng một dự án, và chi phí chuyển đổi gần như bằng không
  Chỉ cần chạy gemini, copilot, hermes thay cho claude là xong, nên không bị phụ thuộc sâu vào model nào cả
  Các hãng sẽ cố gắn thêm tính năng để tạo phụ thuộc, nhưng các model top đầu giờ đủ thông minh để nhiều khi chỉ cần bảo nó làm thứ mình cần là được
  Hiện tại moat ổn định duy nhất có lẽ là khả năng tạo ra model tốt nhất, mà ngay cả cái đó cũng khá nông; nếu Claude Code biến mất ngày mai thì cũng không phải thảm họa
  Các model mở có thể tự host cũng đã đến rất gần rồi
- May là AI cục bộ đang ngày càng trở nên thực tế hơn
- Vì vậy tôi cho rằng model mã nguồn mở và có chủ quyền, ai cũng tiếp cận được và có thể bật thường trực, mới là then chốt
  Cuộc đua giữa OpenAI và Anthropic cũng thú vị, và khi cộng thêm làn sóng mã nguồn mở thì có lẽ sắp tới sẽ đạt được điểm đó
- Kịch bản chủ sở hữu tự rug pull, hoặc bị Broadcom mua lại rồi bắt đầu bóp kiệt, hoàn toàn là điều có thể tưởng tượng được
Claude với Sonnet medium effort đã dùng hết 100% hạn mức của một phiên và cả phí phát sinh, suy nghĩ suốt 53 phút rồi chỉ trả về
API Error: Claude's response exceeded the 32000 output token maximum...
- Và đúng là câu đùa “đến ngày thứ bảy cũng vẫn là API Error: Claude's response exceeded the 32000 output token maximum” hợp tình hợp cảnh
- Tôi chắc sẽ không để nó nghĩ quá 5 phút
- Gặp tình huống như thế này thì không biết các agentic/vibe coder có nói với sếp rằng “tôi không thể làm việc cho tới ngày mai” không
- Nếu dán nguyên thông báo lỗi đó trở lại vào Claude thì nhiều khi nó vẫn tiếp tục được
  Tôi đã thấy nhiều lần trong vài tháng gần đây; lúc đầu cứ tưởng là vấn đề của AWS Bedrock, nhưng có vẻ không chỉ vậy
- Không biết bạn đang ở gói Max 5x hay 20x
Tôi và vài đồng nghiệp đã trải qua sự suy giảm năng lực nhận thức rất rõ trên Claude trong hai tháng qua
4.5 thì dùng được, 4.6 thì thực sự rất tốt; theo benchmark cá nhân, 4.5 chỉ theo nổi cỡ merge loop con trỏ 2 nhánh, còn 4.6 thì 3 nhánh, và context 1M thì xử lý được cả k-way
Nhờ khả năng lần theo đó mà nó hữu ích trong việc hiểu và sửa code production thật
Nhưng từ khoảng hai tháng trước, 4.6 bắt đầu hay quên và đưa ra quyết định ngớ ngẩn; so với người khác thì thấy không phải chỉ mình tôi
4.7 cũng không khá hơn nhiều, và mấy tuần gần đây có cảm giác như đang liên tục vật lộn với auto level of effort downgrade
Mỗi lần thấy nó ngu đi, mở cài đặt ra thì lại thấy bị hạ cấp lén từ lúc nào, rất khó chịu
Việc một model tốt như giai đoạn đầu của 4.6 là khả thi thì đã được chứng minh rồi; vấn đề là khi đem ra thị trường đại trà, Anthropic throttle và downgrade làm giảm tính hữu dụng thực tế
Tôi nghĩ sớm muộn gì DeepSeek cũng sẽ đạt mức more-than-good-enough kiểu 4.6+, và khi đó mọi người sẽ rời khỏi kiểu trả nhiều tiền hơn để nhận ít hơn từ Claude
Chúng ta không cần thứ còn ghê gớm hơn nữa; chỉ muốn thứ vốn đã khả thi được dùng ổn định, có thể kiểm soát được, theo kiểu provisioned chứ không phải tính tiền theo đồng hồ
- Đây đúng là vấn đề có thật, và Anthropic cũng đã thừa nhận trong https://www.anthropic.com/engineering/april-23-postmortem
  Tất nhiên công ty mà mắc lỗi kiểu này thì rất bực, nhưng họ đã nới giới hạn một thời gian như một dạng bù đắp, và quan trọng hơn là phản ứng khá minh bạch
  Tôi không chắc các hãng AI lớn khác có minh bạch đến vậy không, nên dù bực với Claude thì vẫn phải tôn trọng cách họ xử lý
- Nếu không để 4.7 ở xhigh hoặc max effort thì thực sự gần như là phí thời gian
Gói max20 của tôi từ sau tháng 4 gần như bị bỏ không, còn Codex 5.4 và giờ là 5.5 thì kể cả fast mode cũng cho cảm giác hoàn toàn khác
Opus thất bại theo kiểu có vẻ hợp lý, quên mất nửa số chi tiết quan trọng hoặc l quietly dán lên thứ nợ kỹ thuật tạm bợ dưới cái tên pragmatic rồi khăng khăng là đã thành công
Thực tế thì hệ thống nổ tung sau thay đổi, mà chỉ ra lỗi cho nó còn có khi làm mọi thứ rối hơn nữa
Opus giỏi ở việc one-shot một phạm vi greenfield, nhưng khi cần lặp lại chỉnh sửa sau đó hoặc làm tích hợp phức tạp thì tệ đến mức có hại
Ngược lại, GPT 5.4+ chịu dành thời gian để nghĩ trước cả các edge case, và thường nghĩ đúng, nhờ đó giảm bớt các vòng debug tiếp theo rồi mới đưa ra kết quả chuẩn
Nó cũng không rơi vào mấy vòng lặp suy nghĩ kiểu “trông như malware”, “chờ một chút” hàng phút trời chỉ để sửa một script một dòng
- Mental model của tôi về LLM là đừng mong nó vừa nhai kẹo cao su vừa đi bộ
  Dọn dẹp code là một việc khác với triển khai tính năng mới, và các model kiểu GLM dù bề ngoài có vẻ hành xử thông minh hơn thì đến lúc review code thật vẫn cần build/prune cycle
- Kiểu này dễ làm người ta đùa rằng nếu anh không dùng max20 thì cho tôi nhé
- Quy trình năng suất nhất là giữ cả hai gói đăng ký: giao cho Claude vai trò đâm đầu nhét tính năng vào, còn Codex thì review kiểu
  “Cái này đầy race condition đúng không?”
  Bây giờ tôi chỉ dùng Codex; Claude quá khó tin cậy và để sót data race hay thiếu điều kiện phủ định quá thường xuyên
Dạo này tôi dùng Aider, và do chính sách học mới nên có lẽ cũng sẽ hủy gói Github multi AI bundle
Dùng Aider cùng các model mở mới, rồi thống nhất yêu cầu trước bằng Open Spec trước khi bàn giao, thấy khá hữu ích
Các dịch vụ AI có ít động lực để giảm lượng token sử dụng
Họ kiếm được nhiều tiền hơn khi khiến người dùng dùng nhiều token hơn, nên có lẽ sẽ tiếp tục thử xem có thể đẩy đến mức nào ngay trước khi khách hàng nổi giận
Tất cả các công ty AI sẽ tiếp tục dịch chuyển qua lại giữa lượng token và giá cả theo chi phí tăng lên
Và chúng ta trông như con ếch trong nước ấm, sắp sôi đến nơi mà vẫn tự nhủ đây chỉ là nước tắm
- Thời AWS cũng từng có câu “việc gì họ phải tiết kiệm tiền cho anh”, nhưng thực tế là càng giảm giá thì người dùng càng nhiều và họ lại kiếm được nhiều hơn
  Các công ty AI cũng có động lực tương tự
  Rẻ hơn thì người ta sẽ dùng nhiều hơn, và miễn là giá vẫn cao hơn chi phí thì doanh thu cuối cùng vẫn có thể tăng
  Hiển nhiên họ cũng có đủ lý do để giảm chi phí của chính mình
- Đúng ở một mức nào đó, nhưng khi ràng buộc về capacity thật sự xuất hiện và Anthropic lại không phải độc quyền mà chịu áp lực cạnh tranh, thì động lực kinh tế đó sẽ thay đổi
- Tôi nghĩ mọi người sẽ ngày càng mệt với kiểu khóa chặt trong agent đóng
  Vì vậy tôi đã làm https://github.com/dirac-run/dirac, một dự án mã nguồn mở (fork của cline) nhắm đúng vào hiệu quả token
  Tôi dự đoán các hãng khóa chặt dạng đóng sẽ ngày càng làm người dùng bức bối đủ nhiều theo thời gian, và hiện cũng đang tìm người đóng góp
- Dù vậy, kiểu động lực đó cũng chỉ kéo dài tới một điểm nào đó; khi không còn gánh nổi người dùng và khách hàng bắt đầu rời đi thì mọi thứ sẽ khác
- Tôi cũng nghĩ vậy
  Nghe có vẻ như thuyết âm mưu, nhưng các công ty như Anthropic vẫn có lợi ngay cả khi model không hoàn thành được công việc
  Gần đây tôi cũng đọc về over editing phenomenon, cứ như thể cỗ máy chẳng bao giờ muốn kết thúc
  Nó giống app hẹn hò không muốn ghép đôi tốt
  Vì thành công rồi thì người dùng sẽ hủy đăng ký
Hôm qua đúng là khoảnh khắc ngộ ra
Tôi giao cho Claude Code gắn với LLM cục bộ một tác vụ trích xuất đơn giản mà nó cứ ì ra 10 phút
Với cùng dữ liệu và prompt đó, đưa thẳng vào model qua UI chat của llama_cpp thì chưa tới 1 phút đã xong theo kiểu single-shot
Nên khó mà không kết luận rằng bản thân coding agent hoặc cách nói chuyện với LLM đang có vấn đề ở đâu đó
Hiện tôi đang tìm một coding agent mã nguồn mở thật đơn giản; Nanocoder thì cài trên Mac không ổn và ghét cái đống node-modules quá béo, còn Opencode thì trông không hẳn là hoàn toàn mã nguồn mở
Tạm thời tôi tự đóng vai coding agent và dùng web UI của llama_cpp, và mọi thứ vận hành khá ổn
- https://pi.dev/ có vẻ đang được ưa chuộng; còn Opencode thì cụ thể cái gì không phải mã nguồn mở vậy
  Trong repo có gắn MIT License
- Có thể hơi lệch chủ đề, nhưng bạn hoàn toàn có thể bảo AI đang dùng tự làm ra agent mà bạn muốn
  Nếu muốn một coding agent “cực kỳ đơn giản” thì cách đó thậm chí còn hợp hơn vì có thể làm đúng theo nhu cầu
  Tuần này tôi cũng đã làm vậy vì bực mấy hành vi kỳ quặc của Anthropic, và chỉ sau vài ngày đã dựng được thứ dùng ổn
  Trường hợp của tôi còn dễ hơn vì không có Claude Code trên BeOS hay Mac cũ, nên tự bootstrap rồi chắp nối còn tiện hơn
  Đi qua quá trình đó sẽ học được rất nhiều về cách model thực sự vận hành, và cả việc trong Claude Code có bao nhiêu miếng vá tạm bợ vô lý đang chạy bên trong
  Tất nhiên, nó cũng giúp hiểu ở mức nào đó những khó khăn mà agent hay harness phải giải quyết
  Và chuyện Claude Code chậm hơn llama_cpp thì tôi cũng gặp; tôi đoán là lưu lượng API được ưu tiên hơn lưu lượng đăng ký
  API cho cảm giác nhanh hơn nhiều, nhưng cũng đắt hơn rất nhiều
- Phòng khi bạn chưa nghĩ tới: hãy tự làm coding agent mà bạn muốn
  Cấu trúc của nó đơn giản hơn bạn tưởng khá nhiều
- Tới giờ đáng lẽ phải có một công cụ nằm đâu đó giữa TUI và IDE rồi mới phải
- Hoàn toàn có thể chạy CC cùng model cục bộ, và cũng không khó đến thế
  Tôi đã thực sự làm được bằng cách gắn một lớp shim mỏng vào vLLM chỉ để đổi cú pháp endpoint
Đôi khi cùng một model Claude, có lúc lại mắc lỗi logic còn lúc khác thì không
Hiệu năng của Claude có vẻ phụ thuộc vào thời điểm khá rõ, và còn có biểu đồ thể hiện điều này
https://marginlab.ai/trackers/claude-code/
Ngoài ra, dù ít được nói công khai, tôi cũng cảm thấy cùng một model nhưng kết quả khác nhau khá nhiều tùy theo quantization
4-bit và 8-bit khác nhau cả về yêu cầu tính toán lẫn chất lượng đầu ra
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
Tôi biết các frontier model không hề hoạt động y hệt nhau, nhưng vào giờ cao điểm tôi vẫn tự hỏi liệu có một fidelity dial nào đó để giảm mức dùng bộ nhớ hay tài nguyên và từ đó điều chỉnh hiệu năng không
- Tôi không chắc biểu đồ đó có thực sự cho thấy tương quan theo thời gian hay không
  Đường 60% vẫn nằm trong khoảng tin cậy 95%, vậy có khi chỉ là nhiễu đo lường thôi chăng