- Trong vài tuần đầu, tôi rất hài lòng vì mức token cho phép có cảm giác nhanh và công bằng, chất lượng kết quả cũng tốt, nhưng khoảng 3 tuần trước cảm nhận đó đã thay đổi rõ rệt
- Sau khi nghỉ 10 tiếng rồi quay lại, tôi chỉ gửi hai câu hỏi ngắn cho Claude Haiku mà mức sử dụng đã vọt lên 100%; kênh hỗ trợ thì sau một câu trả lời tự động không xử lý đúng trọng tâm câu hỏi đã gần như đóng lại
- Gần đây, trước đây tôi còn chạy nhiều dự án cùng lúc, nhưng giờ ngay cả một dự án đơn lẻ cũng có thể làm cạn giới hạn token chỉ trong hai tiếng; trong quá trình refactor, riêng việc sửa lại một lối đi tắt rẻ tiền cũng đã ngốn gần một nửa cửa sổ 5 tiếng
- Sau một khoảng thời gian, bộ nhớ đệm hội thoại lại biến mất nên chi phí đọc lại codebase cứ lặp đi lặp lại; thêm cả việc mốc tính theo tuần thay đổi và cảnh báo giới hạn theo tháng xuất hiện không lời giải thích khiến hệ thống giới hạn trở nên thiếu nhất quán
- Dù vẫn đánh giá rất cao mức tăng năng suất và tiềm năng của sản phẩm, sự tích tụ của hỗ trợ yếu kém, chất lượng suy giảm và sự rối rắm trong giới hạn sử dụng cuối cùng đã khiến tôi hủy tài khoản Anthropic
Sự hài lòng ban đầu và thay đổi về sau
- Trong vài tuần đầu đăng ký Claude Code, tốc độ rất nhanh, mức token cho phép có cảm giác công bằng và chất lượng kết quả cũng tốt
- Tôi cũng có thể xem thông báo về việc tăng mức token cho phép trong khung giờ ít tắc nghẽn
- Cộng thêm cả lập trường phản đối một số quy định của chính phủ nên tôi cũng nảy sinh thiện cảm ủng hộ sản phẩm
- Khoảng 3 tuần trước, cảm giác hài lòng ban đầu bắt đầu biến mất rất nhanh
- Xuyên suốt các phần sau là những vấn đề nối tiếp về phản hồi hỗ trợ, chất lượng và giới hạn sử dụng
Vấn đề về chất lượng hỗ trợ
- Tôi nghỉ khoảng 10 tiếng, thấy token đã được nạp lại nên bắt đầu làm việc vào buổi sáng, nhưng ngay sau khi gửi hai câu hỏi ngắn cho Claude Haiku vốn còn chẳng liên quan đến repository, mức sử dụng token đã tăng vọt lên 100%
- Các câu hỏi rất đơn giản và quy mô cũng nhỏ
- Việc token được làm mới như kỳ vọng và mức sử dụng thực tế tăng lên không khớp nhau
- Tôi hỏi bot hỗ trợ AI nhưng chỉ nhận lại hướng dẫn cơ bản và nó cũng không hiểu đúng vấn đề thực tế
- Sau đó tôi yêu cầu được hỗ trợ bởi con người
- Vài ngày sau, câu trả lời gửi đến trông vẫn là một dạng phản hồi lệch khỏi vấn đề thực tế
- Câu trả lời nhận được bắt đầu bằng câu “hệ thống đã phát hiện đây là câu hỏi về giới hạn sử dụng của gói Pro hoặc Max”, nhưng thực tế lúc đó tôi đã dùng Pro plan và trọng tâm câu hỏi cũng không được nắm đúng
- Phần nội dung tiếp theo cũng chỉ là một đoạn giải thích dài mang tính tài liệu về giới hạn hằng ngày và hằng tuần
- Không thấy có luồng xử lý nào giải quyết hoặc trực tiếp đề cập đến vấn đề tôi hỏi
- Cuối email còn có câu rằng các phản hồi bổ sung có thể sẽ không được theo dõi, và bảo tôi vào trang trợ giúp, nên kênh liên hệ thực chất đã bị đóng lại
- Tức là sau một phản hồi tự động không phản ánh vấn đề thực tế, con đường nhận hỗ trợ cũng bị chặn luôn
- Sự thất vọng với chất lượng hỗ trợ từ đó tăng lên rõ rệt
Chất lượng đi xuống
- Trong những ngày và tuần sau đó, chất lượng kết quả không còn thỏa đáng như trải nghiệm ban đầu, và thời gian có thể làm việc cũng giảm mạnh
- Trước đây tôi có thể làm đồng thời tối đa ba dự án, còn giờ ngay cả một dự án đơn lẻ cũng có thể làm cạn giới hạn token chỉ trong hai tiếng
- Mức sử dụng được phép và năng suất cảm nhận đều cùng đi xuống
- Tôi cũng lưu ý rằng việc đánh giá chất lượng có thể mang tính chủ quan và hiệu năng của agent chịu ảnh hưởng nhiều từ người dùng
- Đồng thời tôi cũng nói rõ mình đang dùng thêm GitHub Copilot, OpenAI Codex, OMLX, Continue, Qwen3.5-9B, nên có thể thấy đây là trải nghiệm so sánh giữa nhiều công cụ
- Tôi không nhận là có chuyên môn tuyệt đối, nhưng đây vẫn là cảm nhận đi xuống sau khi đã dùng nhiều công cụ khác nhau
- Trong một trường hợp giao cho Claude Opus refactor dự án, log suy nghĩ của mô hình cho thấy thay vì sửa trực tiếp mọi slider trong JSX, nó định thêm một bộ khởi tạo tổng quát vào
ui-events.js để tự động chèn phần hiển thị giá trị
- Cách tiếp cận đó là một kiểu lách bằng cách tự động chèn hiển thị giá trị nếu mỗi range input chưa có phần này
- Kiểu log như vậy khiến việc phải kiểm tra thường xuyên trở nên cần thiết hơn nhiều, chứ không chỉ thỉnh thoảng
- Tôi đánh giá cách làm này không phải thực hành tốt mà là một lối đi tắt rẻ tiền; khi tôi chỉ ra thì Opus cũng thừa nhận đó là cách làm lười biếng và chuyển sang thêm nhãn trực tiếp trong JSX rồi liên kết một cách tường minh
- Chỉ riêng việc sửa lại hướng đi sai ban đầu đã tốn khoảng 50% mức token cho phép trong cửa sổ 5 tiếng
- Sự đi xuống về chất lượng không chỉ là ấn tượng chủ quan mà đã dẫn tới lãng phí chi phí thực tế
Sự rối rắm của cache và hiển thị giới hạn
- Vấn đề về bộ nhớ đệm hội thoại cũng mới nổi lên, và ở đây có liên kết tới postmortem của Anthropic cùng thảo luận trên Hacker News
- Bản thân việc họ xử lý vấn đề này công khai được tôi xem là điểm tích cực
- Tuy vậy, gánh nặng từ góc nhìn trải nghiệm người dùng vẫn còn nguyên
- Khi sau một khoảng thời gian tôi quay lại làm việc, bộ nhớ đệm hội thoại đã biến mất và mô hình bắt đầu đọc lại codebase từ đầu
- Xét về chi phí có thể đây là cách hợp lý, nhưng với người dùng thì điều đó có nghĩa là sau khi đã tốn token cho lần nạp ban đầu, nghỉ bắt buộc xong lại phải trả lại đúng chi phí nạp đó thêm lần nữa
- Đặc biệt nếu quay lại sau khi bị buộc nghỉ vì giới hạn cửa sổ token 5 tiếng thì coi như phải trả lặp lại cùng một chi phí
- Cũng có lúc cửa sổ theo tuần đột ngột đổi từ tính theo ngày hôm nay sang tính theo thứ Hai, và đi kèm thay đổi đó mức sử dụng còn bị đặt lại về 0
- Bản thân việc reset thì đáng mừng, nhưng tôi không hiểu vì sao thay đổi đó lại xảy ra
- Nó tạo cảm giác rằng hệ thống giới hạn không hề nhất quán
- Trong lúc đang liên tục theo dõi mức dùng token để làm dự án, bỗng xuất hiện cảnh báo rằng tôi cần lo về giới hạn sử dụng theo tháng, dù tôi không phải người dùng tổ chức
- Tại thời điểm đó tôi thậm chí còn chưa chạm tới giới hạn theo giờ hay theo tuần
- Trên màn hình cũng không có giải thích nào về căn cứ của cảnh báo này
- Khoảng hai tiếng sau, cảnh báo đó biến mất và tôi lại có thể tiếp tục làm việc
- Trong tài liệu cũng không hề nhắc đến giới hạn sử dụng theo tháng
- Trang cài đặt cũng chỉ ghi là hiển thị phiên hiện tại và giới hạn theo tuần, nên bản chất của giới hạn tháng đó đến cuối cùng vẫn mơ hồ
Hiệu quả năng suất và việc hủy đăng ký cuối cùng
- Tôi vẫn rất có thiện cảm với chính sản phẩm này, và về mặt lý thuyết thì mọi thứ hoạt động rất tốt, cơ hội cũng rất lớn
- Năng suất tăng không phải chỉ vài lần mà là tăng lên cả một bậc quy mô, giúp tôi hiện thực hóa những ý tưởng trong đầu nhanh hơn và dễ hơn nhiều so với vài năm trước
- Tiềm năng và hiệu ích thực tế của sản phẩm được thể hiện rất rõ
- Đồng thời cũng có nhận xét rằng cấu trúc tính năng được chăm chút kỹ
- Đồng thời tôi cũng hiểu những khó khăn kỹ thuật và tổ chức khi vận hành một sản phẩm như thế này, và việc bán suy luận có cấu trúc chi phí biên, nghĩa là mỗi đơn vị thời gian thêm và mỗi khách hàng mới đều đòi hỏi cùng một mức tài nguyên tính toán
- Điều đó cũng cho thấy đây không phải lĩnh vực dễ tận dụng lợi thế kinh tế theo quy mô
- Tôi không phủ nhận độ khó vốn có của việc vận hành dịch vụ
- Cuối cùng, tôi cho rằng Anthropic dường như không thể cùng lúc gánh quá nhiều khách hàng mới, và với cách nói là giúp họ bớt gánh nặng, tôi đã hủy tài khoản
- Khoảng cách giữa tình cảm dành cho sản phẩm và các vấn đề vận hành tôi thực sự cảm nhận khi sử dụng đã dẫn đến quyết định hủy đăng ký
- Có thể tóm lại là kết quả tích tụ của hỗ trợ kém, chất lượng đi xuống và sự rối rắm về giới hạn
8 bình luận
“Trong vài tuần đầu, hạn mức token có vẻ nhanh và công bằng”??
Ai là người quyết định thế nào là công bằng vậy?
Khi Claude cạnh tranh với ChatGPT thì người dùng sẽ được lợi thôi haha. Mong Gemini cũng sớm tham chiến, các mô hình Trung Quốc cũng đang phát triển cực nhanh, hy vọng tất cả sẽ cạnh tranh quyết liệt với nhau.
Nhìn vào một dịch vụ giá 220 USD mỗi tháng mà còn không đạt nổi mức khả dụng 99,5% thì khiến người ta phải tự hỏi có phải người dùng đang bị coi là gà mờ không. Claude.ai thì thậm chí còn không đạt nổi 99%.
Thay vào đó, bạn đang dùng dịch vụ nào? Codex à? Tôi vẫn đang tiếp tục dùng vì không thấy lựa chọn thay thế nào cả...
Đúng là không có lựa chọn thay thế, nhưng đây là lần đầu tiên trong đời tôi dùng một dịch vụ còn không thể duy trì được 99% uptime..
Nếu có lựa chọn thay thế thì tôi cũng muốn biết.
Giới hạn sử dụng hàng tháng
Giới hạn sử dụng hàng năm
kkk...
Ý kiến trên Hacker News
Ngay cả khi viết tài liệu đặc tả chi tiết thành nhiều file bằng Markdown kèm cả mã ví dụ rồi đưa cho Claude Sonnet, vẫn có lúc nó bỏ sót yêu cầu, tạo mã trùng lặp hoặc thêm cả bước xử lý dữ liệu không cần thiết
Cũng thấy kiểu nó cố ngụy tạo để chỉ cần test qua là được, nên rốt cuộc thay vì viết mã thì lại phải đọc một lượng mã khổng lồ
Vốn dĩ khi tự làm thì đọc mã và hình thành mental model đã khó hơn nhiều so với việc code, mà dùng Gen AI còn làm gánh nặng đó lớn hơn
Vì vậy ở mức giá hiện tại của Anthropic thì thấy là lỗ ròng
Tôi không làm vibe coding mà đang xây phần mềm để người dùng thật sự phụ thuộc vào, nên chắc sắp hủy gói đăng ký
Gắn nó vào chu trình test·lint thường ngày để review, đánh giá nhanh thư viện bên thứ ba, nghiên cứu chủ đề mới, phác thảo RFC·tài liệu thiết kế, hoặc dùng như người đối thoại khi bám một bài toán khó sẽ phù hợp hơn
Tôi vẫn không thích các công ty AI nói chung và cảm giác khó chịu vì chúng được xây trên vi phạm bản quyền vẫn còn, nhưng các model mới nhất đúng là thông minh đến mức khó tin ở vài khía cạnh
Không cần phải chấp nhận cái vibecoding hype bị thổi phồng, chỉ dùng như công cụ tăng năng suất thôi cũng đã đủ giá trị
Không dùng cũng được và cũng chẳng có nghĩa vụ phải trả tiền cho công ty nào, nhưng tôi không nghĩ chỉ vì vibecoding mà nên gạt bỏ toàn bộ công nghệ này
Đừng giao toàn bộ đặc tả hệ thống; tự thiết kế, nếu cần thì chỉ nhờ hỗ trợ ở khâu thiết kế, còn triển khai thì giao từng phần một sẽ chính xác hơn
Nếu ở mỗi bước đều review, yêu cầu sửa rồi mới chuyển sang bước tiếp theo, thì vẫn nhanh hơn tự viết hết mà lại kiểm soát được hơn nhiều
Nó gần với vibecoding có thêm một bước tài liệu hóa nữa; nếu muốn giảm bớt công việc sắp xếp thì nên dùng model tốt nhất ở thời điểm đó hơn là Sonnet
Dù vậy, model nào cũng không xử lý hoàn hảo mọi thứ, nên đừng dùng theo kiểu tất cả hoặc không gì cả
Thực tế hơn là vẫn tự giữ phần phán đoán, chỉ gắn AI vào những đoạn nó thực sự hữu ích để tăng tốc
Các kỹ sư không còn junior đa phần đã ổn định theo cách đó, và nên bỏ qua mấy màn cường điệu kiểu tự động sinh app trên LinkedIn hay SNS
Tôi dùng theo cách tương tự mà vẫn tạo được mã nhanh hơn, chất lượng tốt hơn, lại giảm đáng kể áp lực lên cổ tay
Có lẽ khác biệt nằm ở chỗ chỉ giao cho AI những gì nó làm được, và quản lý phạm vi theo hướng hẹp, tăng dần
Những thay đổi nhỏ, rõ ràng thì dễ review, nhưng ngày nào cũng nhận đống code 10.000 dòng thì rất khó đánh giá
Có thể bạn đang đẩy quá nhiều, quá nhanh, quá sớm
Nếu cân bằng được thì vẫn sẽ thấy giá trị; có thể không bùng nổ nhanh như kỳ vọng, nhưng khả năng cao vẫn nhanh hơn làm một mình
Việc xác minh và kiểm tra cần làm thường xuyên, kế hoạch cũng phải sửa nhiều lần, nhưng phần triển khai tôi vẫn tiếp tục dùng Opus
Model hiện tại còn giữ cache nên đôi khi xuất hiện cảnh báo bảo đừng triển khai bằng Sonnet
Tốn thời gian để đọc hiểu và cũng hay phải sửa tay, nhưng nhìn chung vẫn xử lý được trong gói Pro
Tôi đang dùng Claude Opus khá hiệu quả, và với gói đăng ký tầm trung thì không hay bị đụng hạn mức
Cách làm của tôi gần với copilot hơn là autopilot, tức là chỉ ném vào prompt những việc có phạm vi hạn chế và review gần như toàn bộ
Với kiểu dùng này, tôi cảm thấy các model top đầu đã gần đạt mức đủ tốt
Sẽ rất hay nếu có model mã nguồn mở được huấn luyện trên code có giấy phép rõ ràng để LLM coding assistant trở thành hàng hóa phổ thông
Họ muốn mình dùng nhiều token hơn để tính phí nhiều hơn, đồng thời cũng có vẻ đang rơi vào tình trạng người dùng dùng nhiều hơn dự tính nên hệ giá hiện tại khó trụ được
Nếu rốt cuộc giải pháp là bảo người dùng nâng lên gói cao hơn thì hai điều đó cũng không hoàn toàn mâu thuẫn
Một tháng 100 đô là đủ, mà ở các nước phát triển thì hiếm có nhà nào tiền điện còn rẻ hơn mức đó
Theo tôi, LLM coding assistant nghĩa là hiểu hoàn toàn mọi thay đổi và mọi dòng code; nếu không thì đó là vibe coding
Nếu nghiêm túc giữ nguyên tắc đó thì khó mà dùng hết quota của gói $100
Trong nhiều model thì tôi thấy cái này vẫn là tốt nhất, và thay vì giao việc thực sự thì tôi chủ yếu thỉnh thoảng dùng nó như công cụ tìm kiếm thay thế
Tôi chưa bao giờ thấy LLM hiệu quả trong việc thực sự làm thay công việc, và vẫn nhớ thời tài liệu kỹ thuật còn hữu dụng như trước
Rốt cuộc Claude có vẻ giống cái nạng lấp chỗ trống trong trải nghiệm lập trình viên hơn
Rất khó để dùng đầy hạn mức, dù tôi giao cho nó khá nhiều việc thật; trung bình mỗi tuần chỉ dùng khoảng 30%
Nhưng thời Pro thì bị đụng hạn mức thường xuyên đến mức buồn cười, có khi chỉ một request đã vượt 100% phiên rồi bị tính thêm phí
Cảm nhận thực tế thì Max 5x lớn hơn nhiều so với đúng 5 lần, nhưng Anthropic xử lý mấy thứ như surge rate quá mơ hồ nên tôi không dám chắc
Dạo này trên HN tràn ngập các bài kiểu Opus chết rồi, chuyển sang Codex đi, và tôi khá hoài nghi
Có thể chỉ là xả bực, nhưng một phần cũng có mùi astroturfing
Dùng rất nhiều cho công việc thực tế mà chưa từng chạm hạn mức
Cái kiểu để LLM chạy hàng giờ liền rốt cuộc có vẻ chỉ là công thức để lãng phí thời gian của chính mình khi phải lần lại nó đã làm gì và tại sao
Điều đáng lo là mọi người sẽ phụ thuộc vào GenAI dạng đăng ký, độc quyền và thiếu minh bạch
Họ xây dựng mọi thứ lên trên đó như thể là nền móng vững chắc, nhưng đến một ngày nào đó chủ sở hữu có thể đột ngột rút nền móng ấy đi
Gần đây rate limit hơi khó chịu nên tôi thích Codex hơn CC, nhưng cách làm việc gần như không cần đổi gì
Họ muốn đốt tiền đủ nhiều để tạo khoảng cách không thể đuổi kịp với đối thủ, rồi sau đó tự do định giá
Dù vậy cạnh tranh hiện vẫn rất khốc liệt; với công cụ coding thì Anthropic vẫn tốt nhất, nhưng lợi thế đó đã nhỏ hơn trước
Thành thật mà nói, từ khoảng Opus 4.5 là đã chạm mức đủ dùng rồi, và giờ có nhiều model ở cùng đẳng cấp đó
Gemini Pro 3.1 cũng tương tự, còn Codex hiện tại theo tôi tốt hơn Opus 4.5 và gần với 4.7 hơn
Tôi cũng thường xuyên đổi model và agent trong cùng một dự án, và chi phí chuyển đổi gần như bằng không
Chỉ cần chạy
gemini,copilot,hermesthay choclaudelà xong, nên không bị phụ thuộc sâu vào model nào cảCác hãng sẽ cố gắn thêm tính năng để tạo phụ thuộc, nhưng các model top đầu giờ đủ thông minh để nhiều khi chỉ cần bảo nó làm thứ mình cần là được
Hiện tại moat ổn định duy nhất có lẽ là khả năng tạo ra model tốt nhất, mà ngay cả cái đó cũng khá nông; nếu Claude Code biến mất ngày mai thì cũng không phải thảm họa
Các model mở có thể tự host cũng đã đến rất gần rồi
Cuộc đua giữa OpenAI và Anthropic cũng thú vị, và khi cộng thêm làn sóng mã nguồn mở thì có lẽ sắp tới sẽ đạt được điểm đó
Claude với Sonnet medium effort đã dùng hết 100% hạn mức của một phiên và cả phí phát sinh, suy nghĩ suốt 53 phút rồi chỉ trả về
API Error: Claude's response exceeded the 32000 output token maximum...API Error: Claude's response exceeded the 32000 output token maximum” hợp tình hợp cảnhTôi đã thấy nhiều lần trong vài tháng gần đây; lúc đầu cứ tưởng là vấn đề của AWS Bedrock, nhưng có vẻ không chỉ vậy
Tôi và vài đồng nghiệp đã trải qua sự suy giảm năng lực nhận thức rất rõ trên Claude trong hai tháng qua
4.5 thì dùng được, 4.6 thì thực sự rất tốt; theo benchmark cá nhân, 4.5 chỉ theo nổi cỡ merge loop con trỏ 2 nhánh, còn 4.6 thì 3 nhánh, và context 1M thì xử lý được cả k-way
Nhờ khả năng lần theo đó mà nó hữu ích trong việc hiểu và sửa code production thật
Nhưng từ khoảng hai tháng trước, 4.6 bắt đầu hay quên và đưa ra quyết định ngớ ngẩn; so với người khác thì thấy không phải chỉ mình tôi
4.7 cũng không khá hơn nhiều, và mấy tuần gần đây có cảm giác như đang liên tục vật lộn với auto level of effort downgrade
Mỗi lần thấy nó ngu đi, mở cài đặt ra thì lại thấy bị hạ cấp lén từ lúc nào, rất khó chịu
Việc một model tốt như giai đoạn đầu của 4.6 là khả thi thì đã được chứng minh rồi; vấn đề là khi đem ra thị trường đại trà, Anthropic throttle và downgrade làm giảm tính hữu dụng thực tế
Tôi nghĩ sớm muộn gì DeepSeek cũng sẽ đạt mức more-than-good-enough kiểu 4.6+, và khi đó mọi người sẽ rời khỏi kiểu trả nhiều tiền hơn để nhận ít hơn từ Claude
Chúng ta không cần thứ còn ghê gớm hơn nữa; chỉ muốn thứ vốn đã khả thi được dùng ổn định, có thể kiểm soát được, theo kiểu provisioned chứ không phải tính tiền theo đồng hồ
Tất nhiên công ty mà mắc lỗi kiểu này thì rất bực, nhưng họ đã nới giới hạn một thời gian như một dạng bù đắp, và quan trọng hơn là phản ứng khá minh bạch
Tôi không chắc các hãng AI lớn khác có minh bạch đến vậy không, nên dù bực với Claude thì vẫn phải tôn trọng cách họ xử lý
Gói max20 của tôi từ sau tháng 4 gần như bị bỏ không, còn Codex 5.4 và giờ là 5.5 thì kể cả fast mode cũng cho cảm giác hoàn toàn khác
Opus thất bại theo kiểu có vẻ hợp lý, quên mất nửa số chi tiết quan trọng hoặc l quietly dán lên thứ nợ kỹ thuật tạm bợ dưới cái tên pragmatic rồi khăng khăng là đã thành công
Thực tế thì hệ thống nổ tung sau thay đổi, mà chỉ ra lỗi cho nó còn có khi làm mọi thứ rối hơn nữa
Opus giỏi ở việc one-shot một phạm vi greenfield, nhưng khi cần lặp lại chỉnh sửa sau đó hoặc làm tích hợp phức tạp thì tệ đến mức có hại
Ngược lại, GPT 5.4+ chịu dành thời gian để nghĩ trước cả các edge case, và thường nghĩ đúng, nhờ đó giảm bớt các vòng debug tiếp theo rồi mới đưa ra kết quả chuẩn
Nó cũng không rơi vào mấy vòng lặp suy nghĩ kiểu “trông như malware”, “chờ một chút” hàng phút trời chỉ để sửa một script một dòng
Dọn dẹp code là một việc khác với triển khai tính năng mới, và các model kiểu GLM dù bề ngoài có vẻ hành xử thông minh hơn thì đến lúc review code thật vẫn cần build/prune cycle
“Cái này đầy race condition đúng không?”
Bây giờ tôi chỉ dùng Codex; Claude quá khó tin cậy và để sót data race hay thiếu điều kiện phủ định quá thường xuyên
Dạo này tôi dùng Aider, và do chính sách học mới nên có lẽ cũng sẽ hủy gói Github multi AI bundle
Dùng Aider cùng các model mở mới, rồi thống nhất yêu cầu trước bằng Open Spec trước khi bàn giao, thấy khá hữu ích
Các dịch vụ AI có ít động lực để giảm lượng token sử dụng
Họ kiếm được nhiều tiền hơn khi khiến người dùng dùng nhiều token hơn, nên có lẽ sẽ tiếp tục thử xem có thể đẩy đến mức nào ngay trước khi khách hàng nổi giận
Tất cả các công ty AI sẽ tiếp tục dịch chuyển qua lại giữa lượng token và giá cả theo chi phí tăng lên
Và chúng ta trông như con ếch trong nước ấm, sắp sôi đến nơi mà vẫn tự nhủ đây chỉ là nước tắm
Các công ty AI cũng có động lực tương tự
Rẻ hơn thì người ta sẽ dùng nhiều hơn, và miễn là giá vẫn cao hơn chi phí thì doanh thu cuối cùng vẫn có thể tăng
Hiển nhiên họ cũng có đủ lý do để giảm chi phí của chính mình
Vì vậy tôi đã làm https://github.com/dirac-run/dirac, một dự án mã nguồn mở (fork của cline) nhắm đúng vào hiệu quả token
Tôi dự đoán các hãng khóa chặt dạng đóng sẽ ngày càng làm người dùng bức bối đủ nhiều theo thời gian, và hiện cũng đang tìm người đóng góp
Nghe có vẻ như thuyết âm mưu, nhưng các công ty như Anthropic vẫn có lợi ngay cả khi model không hoàn thành được công việc
Gần đây tôi cũng đọc về over editing phenomenon, cứ như thể cỗ máy chẳng bao giờ muốn kết thúc
Nó giống app hẹn hò không muốn ghép đôi tốt
Vì thành công rồi thì người dùng sẽ hủy đăng ký
Hôm qua đúng là khoảnh khắc ngộ ra
Tôi giao cho Claude Code gắn với LLM cục bộ một tác vụ trích xuất đơn giản mà nó cứ ì ra 10 phút
Với cùng dữ liệu và prompt đó, đưa thẳng vào model qua UI chat của
llama_cppthì chưa tới 1 phút đã xong theo kiểu single-shotNên khó mà không kết luận rằng bản thân coding agent hoặc cách nói chuyện với LLM đang có vấn đề ở đâu đó
Hiện tôi đang tìm một coding agent mã nguồn mở thật đơn giản; Nanocoder thì cài trên Mac không ổn và ghét cái đống node-modules quá béo, còn Opencode thì trông không hẳn là hoàn toàn mã nguồn mở
Tạm thời tôi tự đóng vai coding agent và dùng web UI của
llama_cpp, và mọi thứ vận hành khá ổnTrong repo có gắn MIT License
Nếu muốn một coding agent “cực kỳ đơn giản” thì cách đó thậm chí còn hợp hơn vì có thể làm đúng theo nhu cầu
Tuần này tôi cũng đã làm vậy vì bực mấy hành vi kỳ quặc của Anthropic, và chỉ sau vài ngày đã dựng được thứ dùng ổn
Trường hợp của tôi còn dễ hơn vì không có Claude Code trên BeOS hay Mac cũ, nên tự bootstrap rồi chắp nối còn tiện hơn
Đi qua quá trình đó sẽ học được rất nhiều về cách model thực sự vận hành, và cả việc trong Claude Code có bao nhiêu miếng vá tạm bợ vô lý đang chạy bên trong
Tất nhiên, nó cũng giúp hiểu ở mức nào đó những khó khăn mà agent hay harness phải giải quyết
Và chuyện Claude Code chậm hơn
llama_cppthì tôi cũng gặp; tôi đoán là lưu lượng API được ưu tiên hơn lưu lượng đăng kýAPI cho cảm giác nhanh hơn nhiều, nhưng cũng đắt hơn rất nhiều
Cấu trúc của nó đơn giản hơn bạn tưởng khá nhiều
Tôi đã thực sự làm được bằng cách gắn một lớp shim mỏng vào vLLM chỉ để đổi cú pháp endpoint
Đôi khi cùng một model Claude, có lúc lại mắc lỗi logic còn lúc khác thì không
Hiệu năng của Claude có vẻ phụ thuộc vào thời điểm khá rõ, và còn có biểu đồ thể hiện điều này
https://marginlab.ai/trackers/claude-code/
Ngoài ra, dù ít được nói công khai, tôi cũng cảm thấy cùng một model nhưng kết quả khác nhau khá nhiều tùy theo quantization
4-bit và 8-bit khác nhau cả về yêu cầu tính toán lẫn chất lượng đầu ra
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
Tôi biết các frontier model không hề hoạt động y hệt nhau, nhưng vào giờ cao điểm tôi vẫn tự hỏi liệu có một fidelity dial nào đó để giảm mức dùng bộ nhớ hay tài nguyên và từ đó điều chỉnh hiệu năng không
Đường 60% vẫn nằm trong khoảng tin cậy 95%, vậy có khi chỉ là nhiễu đo lường thôi chăng