- Phân tích vấn đề cùng một prompt bị tính thành nhiều token hơn do tokenizer mới của Opus 4.7, kèm công cụ tính toán
- Cùng một đầu vào được ánh xạ thành lượng token gấp 1.0~1.35 lần tùy theo loại nội dung, khiến chi phí mỗi request tăng ngay cả khi không đổi từ ngữ
- Kết quả thống kê thực tế cho thấy Opus 4.7 tăng trung bình token mỗi request và chi phí mỗi request lần lượt +37.4% so với Opus 4.6
- Mức tăng phân bố từ thấp nhất +19.0% đến cao nhất +86.2% theo 50 trường hợp gần nhất, với nhiều trường hợp nằm trong khoảng +30% và +40%
- Trên trang này, bạn có thể dán hội thoại, system prompt và văn bản để nhận so sánh cụ thể về chênh lệch số token giữa Opus 4.7 và 4.6 và chi phí theo mức giá hiện tại
Bối cảnh ra đời của công cụ này
- Trong thông báo phát hành Opus 4.7, nó được giới thiệu là bản nâng cấp trực tiếp từ Opus 4.6, nhưng có hai thay đổi ảnh hưởng đến mức sử dụng token
- Do tokenizer được cập nhật, cùng một đầu vào sẽ được ánh xạ thành lượng token gấp 1.0~1.35 lần tùy theo loại nội dung
- Ở mức effort cao, đặc biệt tại các lượt về sau trong môi trường agentic, mô hình suy nghĩ nhiều hơn nên số token đầu ra tăng
- Độ tin cậy với các bài toán khó được cải thiện, nhưng cũng tác động trực tiếp đến cấu trúc chi phí dựa trên token
Tác động với người dùng
- Ngay cả với cùng một văn bản prompt, Opus 4.7 vẫn đếm nhiều token hơn, nên chi phí mỗi request tăng dù không thay đổi câu chữ
- Tokenomics cho phép dán hội thoại, system prompt hoặc văn bản bất kỳ để trực tiếp kiểm tra chênh lệch số token giữa Opus 4.7 và 4.6
- Tính ra mức chênh lệch chi phí cụ thể theo giá hiện tại
Trang trung bình cộng đồng
- Trang
/leaderboard tổng hợp dữ liệu so sánh ẩn danh từ người dùng của công cụ
- Có thể xem mức tăng token trung bình thực tế theo từng loại prompt dựa trên sử dụng thực tế
Những điều cần biết
- Không lưu văn bản prompt: đầu vào được phân tích trong trình duyệt rồi gửi lên máy chủ để chuyển tiếp đến API đếm token của Anthropic; văn bản prompt không được lưu vào DB, chỉ lưu các chỉ số đếm token ẩn danh
- Không phải sản phẩm chính thức của Anthropic: do Bill Chambers tạo ra và không có quan hệ liên kết, bảo chứng hay tài trợ từ Anthropic
- Mã nguồn mở: toàn bộ mã nguồn được công khai trên GitHub (
bllchmbrs/tokensmatter), hoan nghênh đóng góp và phản hồi
Trung bình cộng đồng
- Tổng hợp chênh lệch token mỗi request và chi phí mỗi request của Opus 4.7 so với Opus 4.6 dựa trên so sánh request sử dụng thực tế được gửi ẩn danh
- Thống kê dựa trên tổng cộng 425 lượt gửi
- Danh sách so sánh gần đây gồm 50 trường hợp mới nhất, sắp xếp theo thứ tự mới trước
- Tỷ lệ thay đổi trung bình của token mỗi request: +37.4%
- Tỷ lệ thay đổi trung bình của chi phí mỗi request: +37.4%
- Kích thước request trung bình: 369 / 495
- Bản gốc không có giải thích thêm cho hai con số này
Các trường hợp so sánh ẩn danh gần đây
- Trong bảng 50 trường hợp gần nhất, đa số đều ghi nhận token request của Opus 4.7 tăng và chi phí tăng theo cùng một tỷ lệ
- Ví dụ 1: lượt gửi
6b5d3ebf, request 23 → 31, chi phí $0.000345 → $0.000465, tỷ lệ thay đổi +34.8%
- Ví dụ 2: lượt gửi
1363973a, request 99 → 130, chi phí $0.001485 → $0.001950, tỷ lệ thay đổi +31.3%
- Ví dụ 3: lượt gửi
17a9645e, request 16 → 20, chi phí $0.000240 → $0.000300, tỷ lệ thay đổi +25.0%
- Ngay cả request nhỏ cũng ghi nhận mức tăng rõ rệt
- Lượt gửi
10c3149a, request 8 → 14, chi phí $0.000120 → $0.000210, tỷ lệ thay đổi +75.0%
- Lượt gửi
8f58e536, request 8 → 13, chi phí $0.000120 → $0.000195, tỷ lệ thay đổi +62.5%
- Lượt gửi
942f5d38, request 12 → 19, chi phí $0.000180 → $0.000285, tỷ lệ thay đổi +58.3%
- Với request quy mô trung bình, các trường hợp tăng tương tự cũng lặp lại
- Lượt gửi
67f5f437, request 188 → 275, chi phí $0.002820 → $0.004125, tỷ lệ thay đổi +46.3%
- Lượt gửi
04249c86, request 176 → 256, chi phí $0.002640 → $0.003840, tỷ lệ thay đổi +45.5%
- Lượt gửi
af25da70, request 269 → 501, chi phí $0.004035 → $0.007515, tỷ lệ thay đổi +86.2%
- Cả ở request lớn cũng thấy cùng một mẫu tăng
- Lượt gửi
c5d75d71, request 2,263 → 3,282, chi phí $0.0339 → $0.0492, tỷ lệ thay đổi +45.0%
- Lượt gửi
4db385b5, request 1,592 → 2,205, chi phí $0.0239 → $0.0331, tỷ lệ thay đổi +38.5%
- Lượt gửi
68375705, request 4,449 → 6,434, chi phí $0.0667 → $0.0965, tỷ lệ thay đổi +44.6%
- Có nhiều mục gửi lặp lại cùng một bộ số liệu
- Trường hợp request 175 → 221, chi phí $0.002625 → $0.003315, tỷ lệ thay đổi +26.3% lặp lại ở nhiều ID gửi khác nhau
- Trường hợp request 996 → 1,392, chi phí $0.0149 → $0.0209, tỷ lệ thay đổi +39.8% lặp lại ở nhiều ID gửi khác nhau
- Trường hợp request 43 → 61, chi phí $0.000645 → $0.000915, tỷ lệ thay đổi +41.9% lặp lại ở nhiều ID gửi khác nhau
1 bình luận
Ý kiến trên Hacker News
Tôi nghĩ để so sánh công bằng thì phải nhìn vào tổng chi phí. 4.7 cho ra ít token đầu ra hơn 4.6 khá nhiều, và chi phí suy luận dường như cũng đã giảm đáng kể. Nhìn vào so sánh của Artificial Analysis thì 4.7 có vẻ rẻ hơn 4.6 một chút, còn 4.5 thì gần như chỉ bằng một nửa. Đặc biệt, chi phí reasoning từ 4.6 sang 4.7 gần như giảm một nửa là điểm khá dễ thấy. Tuy vậy, với các workload thực tế như Claude Code thì có vẻ cả phần input lẫn reasoning đều chiếm tỷ trọng lớn, nên vẫn khó hình dung việc giá input tăng và giá reasoning giảm sẽ bù trừ nhau thế nào. Những tác vụ có nhiều suy luận có thể sẽ rẻ hơn, nhưng các tác vụ ít suy luận thì ngược lại có thể còn đắt hơn. Với loại việc đó thì tôi có lẽ sẽ dùng Codex hơn
Theo cảm nhận của tôi thì gần như không thấy cải thiện hiệu năng nào từ 4.6 lên 4.7, nhưng tốc độ tiêu hao limit thì thấy cực kỳ rõ. Hôm qua tôi dùng hết hạn mức 5 giờ chỉ trong 2 giờ, và khi bật batched mode để refactor thì chỉ 5 phút đã tốn 30% hạn mức nên phải hủy. Sau đó tôi chuyển sang chạy kiểu serial thì đỡ hơn, nhưng vẫn rõ ràng là hao nhanh hơn 4.6 rất nhiều. Giờ cảm giác mỗi lượt hội thoại ngốn khoảng 5% hạn mức 5 giờ, trong khi trước đây chỉ cỡ 1~2%. Tôi dùng gói Max 5x nên hiện tại vẫn còn dư hạn mức tuần để chịu được, nhưng ít nhất tôi muốn họ giải thích minh bạch hơn hoặc cải thiện phần này. Thiết lập effort cũng vẫn quá thiếu minh bạch nên không giúp được nhiều trên thực tế
Nếu kết quả đủ tốt thì tôi sẵn sàng trả thêm, nhưng lúc này tôi có cảm giác Anthropic đang đi theo hướng khiến người ta tiếp tục tiêu token kiểu phần thưởng ngắt quãng. Dòng Claude rõ ràng thú vị hơn GPT hay Codex, có cá tính hơn, và có cảm quan thiết kế lẫn thẩm mỹ nữa. Cảm giác vibe-coding cùng nó vui như chơi game. Nhưng đầu ra thì gần như luôn quay về những vấn đề cũ: xóa test để cho qua, tăng mã trùng lặp, trừu tượng hóa sai, tắt tính an toàn kiểu, bỏ qua các yêu cầu cứng. Những vấn đề này đến 4.7 vẫn chưa được giải quyết, và dù benchmark nói gì thì trong dùng thực tế tôi vẫn thấy y nguyên. Tôi cũng không chắc công ty có thật sự muốn sửa chuyện này hay không
So sánh này trông giống như chỉ dùng API đếm token để đo độ dài prompt theo hai cách, tức là chỉ tách riêng tác động của tokenizer. Cũng có trường hợp model thông minh hơn trả lời ngắn hơn nên số token đầu ra giảm, nên nếu tính cả những điểm đó thì chỉ dựa vào so sánh này vẫn khó kết luận 4.7 có thực sự rẻ hơn trong thực tế hay không. Dĩ nhiên kết quả cuối cùng có thể đắt hơn hoặc rẻ hơn, nhưng chỉ với dữ liệu này thì tôi thấy không giúp nhiều cho việc đánh giá dùng thực tế
Trước mắt tôi vẫn định tiếp tục dùng Opus 4.5 làm chính trong VSCode Copilot. Workflow của tôi là đưa chỉ dẫn khá chi tiết cho agent, nhưng đa số agent lại cứ cố làm nhiều hơn mức cần thiết. Trong số những gì tôi từng dùng, điểm Opus 4.5 làm tốt nhất là ngay cả với prompt chưa hoàn chỉnh, nó vẫn đọc được phạm vi tôi muốn và có xu hướng chỉ làm đúng mức cần thiết. 4.6 thì mất lâu hơn, suy nghĩ quá đà hơn, và phạm vi thay đổi cũng lớn hơn; các GPT cao cấp cũng gặp vấn đề tương tự. Những model khác như Sonnet thì kém Opus ở khả năng đọc ra ý định của tôi từ các chỉ dẫn chưa thật chặt chẽ. Vì vậy tôi dừng thử nghiệm và cứ dùng 4.5, dù đắt nhưng vẫn thấy đáng tiền. Nhưng giờ nghe nói 4.7 trong VSCode Copilot sẽ thay cả 4.5 lẫn 4.6, lại còn đi kèm modifier 7.5x, nên từ góc nhìn của tôi nó giống như đi theo hướng chậm hơn và đắt hơn, thành ra còn như một bước lùi
Tôi ngày càng thấy giả định rằng chỉ cần scaling LLM là có thể thay thế toàn diện lao động trí óc văn phòng là một giả định ngây thơ. Cơ chế attention hay Hopfield network dường như chỉ mô hình hóa được một phần của não người, và làn sóng tăng cường agentic memory gần đây lại càng giống bằng chứng cho thấy chỉ riêng transformer SOTA hiện tại là chưa đủ. Ngay cả khi chỉ bó hẹp trong miền văn bản tôi vẫn cảm thấy giới hạn đang lộ ra, dù cũng có thể là tôi chỉ đang lặp lại kiểu lập luận của Yann LeCun
Hôm qua tôi dùng Opus 4.7 để tổng hợp best practice cho một website một trang, mà chỉ khoảng 4 prompt là đã vượt hạn mức ngày. Làm thêm khoảng 7 lượt nữa thì cả hạn mức tuần cũng vượt luôn. Toàn bộ HTML/CSS/JS còn chưa tới 300 dòng, nên việc hạn mức sử dụng cạn nhanh như vậy làm tôi khá sốc
Tôi thấy tiêu đề nên là 4.6 to 4.7, chứ không phải từ 4.7 về 4.6
Theo mô tả của Artificial Analysis, Opus 4.7 với Adaptive Reasoning và Max Effort tốn khoảng 4.406 USD để chạy Intelligence Index, tức là rẻ hơn khoảng 11% so với mức khoảng 4.970 USD của 4.6. Điểm số cũng cao hơn 4 điểm, và họ nói khác biệt này là nhờ mức dùng token đầu ra giảm, ngay cả khi đã tính đến tokenizer mới. Tuy vậy, chiết khấu cho cached input vẫn chưa được phản ánh trong phép tính này và họ cho biết sẽ sớm đưa vào cách tính chi phí
Ấn tượng của tôi là chất lượng hội thoại thực sự đã tốt hơn nhiều hơn tôi tưởng. Nó tự phê bình hơn, cũng luôn xem xét đề xuất một cách phản biện hơn, và các lựa chọn mặc định nhìn chung cũng tốt hơn. Có thể vì tôi không dùng nhiều loại harness như một số người khác ở đây nên khác biệt ít nổi bật hơn, nhưng tôi lại nghĩ những người dùng chưa chuẩn bị kỹ có khi còn nhận được nhiều giá trị hơn. Chỉ cần làm những tác vụ cơ bản như rà lại luồng review gần đây hoặc theo dõi thảo luận sản phẩm thì 4.6 tuy hữu ích nhưng dễ thành foot-gun, còn 4.7 có vẻ dễ hành xử như một thành viên senior trong nhóm hơn