2 điểm bởi GN⁺ 5 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Phân tích vấn đề cùng một prompt bị tính thành nhiều token hơn do tokenizer mới của Opus 4.7, kèm công cụ tính toán
  • Cùng một đầu vào được ánh xạ thành lượng token gấp 1.0~1.35 lần tùy theo loại nội dung, khiến chi phí mỗi request tăng ngay cả khi không đổi từ ngữ
  • Kết quả thống kê thực tế cho thấy Opus 4.7 tăng trung bình token mỗi requestchi phí mỗi request lần lượt +37.4% so với Opus 4.6
  • Mức tăng phân bố từ thấp nhất +19.0% đến cao nhất +86.2% theo 50 trường hợp gần nhất, với nhiều trường hợp nằm trong khoảng +30% và +40%
  • Trên trang này, bạn có thể dán hội thoại, system prompt và văn bản để nhận so sánh cụ thể về chênh lệch số token giữa Opus 4.7 và 4.6 và chi phí theo mức giá hiện tại

Bối cảnh ra đời của công cụ này

  • Trong thông báo phát hành Opus 4.7, nó được giới thiệu là bản nâng cấp trực tiếp từ Opus 4.6, nhưng có hai thay đổi ảnh hưởng đến mức sử dụng token
    • Do tokenizer được cập nhật, cùng một đầu vào sẽ được ánh xạ thành lượng token gấp 1.0~1.35 lần tùy theo loại nội dung
    • mức effort cao, đặc biệt tại các lượt về sau trong môi trường agentic, mô hình suy nghĩ nhiều hơn nên số token đầu ra tăng
  • Độ tin cậy với các bài toán khó được cải thiện, nhưng cũng tác động trực tiếp đến cấu trúc chi phí dựa trên token

Tác động với người dùng

  • Ngay cả với cùng một văn bản prompt, Opus 4.7 vẫn đếm nhiều token hơn, nên chi phí mỗi request tăng dù không thay đổi câu chữ
  • Tokenomics cho phép dán hội thoại, system prompt hoặc văn bản bất kỳ để trực tiếp kiểm tra chênh lệch số token giữa Opus 4.7 và 4.6
  • Tính ra mức chênh lệch chi phí cụ thể theo giá hiện tại

Trang trung bình cộng đồng

  • Trang /leaderboard tổng hợp dữ liệu so sánh ẩn danh từ người dùng của công cụ
  • Có thể xem mức tăng token trung bình thực tế theo từng loại prompt dựa trên sử dụng thực tế

Những điều cần biết

  • Không lưu văn bản prompt: đầu vào được phân tích trong trình duyệt rồi gửi lên máy chủ để chuyển tiếp đến API đếm token của Anthropic; văn bản prompt không được lưu vào DB, chỉ lưu các chỉ số đếm token ẩn danh
  • Không phải sản phẩm chính thức của Anthropic: do Bill Chambers tạo ra và không có quan hệ liên kết, bảo chứng hay tài trợ từ Anthropic
  • Mã nguồn mở: toàn bộ mã nguồn được công khai trên GitHub (bllchmbrs/tokensmatter), hoan nghênh đóng góp và phản hồi

Trung bình cộng đồng

  • Tổng hợp chênh lệch token mỗi request và chi phí mỗi request của Opus 4.7 so với Opus 4.6 dựa trên so sánh request sử dụng thực tế được gửi ẩn danh
    • Thống kê dựa trên tổng cộng 425 lượt gửi
    • Danh sách so sánh gần đây gồm 50 trường hợp mới nhất, sắp xếp theo thứ tự mới trước
  • Tỷ lệ thay đổi trung bình của token mỗi request: +37.4%
  • Tỷ lệ thay đổi trung bình của chi phí mỗi request: +37.4%
  • Kích thước request trung bình: 369 / 495
    • Bản gốc không có giải thích thêm cho hai con số này

Các trường hợp so sánh ẩn danh gần đây

  • Trong bảng 50 trường hợp gần nhất, đa số đều ghi nhận token request của Opus 4.7 tăngchi phí tăng theo cùng một tỷ lệ
    • Ví dụ 1: lượt gửi 6b5d3ebf, request 23 → 31, chi phí $0.000345 → $0.000465, tỷ lệ thay đổi +34.8%
    • Ví dụ 2: lượt gửi 1363973a, request 99 → 130, chi phí $0.001485 → $0.001950, tỷ lệ thay đổi +31.3%
    • Ví dụ 3: lượt gửi 17a9645e, request 16 → 20, chi phí $0.000240 → $0.000300, tỷ lệ thay đổi +25.0%
  • Ngay cả request nhỏ cũng ghi nhận mức tăng rõ rệt
    • Lượt gửi 10c3149a, request 8 → 14, chi phí $0.000120 → $0.000210, tỷ lệ thay đổi +75.0%
    • Lượt gửi 8f58e536, request 8 → 13, chi phí $0.000120 → $0.000195, tỷ lệ thay đổi +62.5%
    • Lượt gửi 942f5d38, request 12 → 19, chi phí $0.000180 → $0.000285, tỷ lệ thay đổi +58.3%
  • Với request quy mô trung bình, các trường hợp tăng tương tự cũng lặp lại
    • Lượt gửi 67f5f437, request 188 → 275, chi phí $0.002820 → $0.004125, tỷ lệ thay đổi +46.3%
    • Lượt gửi 04249c86, request 176 → 256, chi phí $0.002640 → $0.003840, tỷ lệ thay đổi +45.5%
    • Lượt gửi af25da70, request 269 → 501, chi phí $0.004035 → $0.007515, tỷ lệ thay đổi +86.2%
  • Cả ở request lớn cũng thấy cùng một mẫu tăng
    • Lượt gửi c5d75d71, request 2,263 → 3,282, chi phí $0.0339 → $0.0492, tỷ lệ thay đổi +45.0%
    • Lượt gửi 4db385b5, request 1,592 → 2,205, chi phí $0.0239 → $0.0331, tỷ lệ thay đổi +38.5%
    • Lượt gửi 68375705, request 4,449 → 6,434, chi phí $0.0667 → $0.0965, tỷ lệ thay đổi +44.6%
  • Có nhiều mục gửi lặp lại cùng một bộ số liệu
    • Trường hợp request 175 → 221, chi phí $0.002625 → $0.003315, tỷ lệ thay đổi +26.3% lặp lại ở nhiều ID gửi khác nhau
    • Trường hợp request 996 → 1,392, chi phí $0.0149 → $0.0209, tỷ lệ thay đổi +39.8% lặp lại ở nhiều ID gửi khác nhau
    • Trường hợp request 43 → 61, chi phí $0.000645 → $0.000915, tỷ lệ thay đổi +41.9% lặp lại ở nhiều ID gửi khác nhau

1 bình luận

 
Ý kiến trên Hacker News
  • Tôi nghĩ để so sánh công bằng thì phải nhìn vào tổng chi phí. 4.7 cho ra ít token đầu ra hơn 4.6 khá nhiều, và chi phí suy luận dường như cũng đã giảm đáng kể. Nhìn vào so sánh của Artificial Analysis thì 4.7 có vẻ rẻ hơn 4.6 một chút, còn 4.5 thì gần như chỉ bằng một nửa. Đặc biệt, chi phí reasoning từ 4.6 sang 4.7 gần như giảm một nửa là điểm khá dễ thấy. Tuy vậy, với các workload thực tế như Claude Code thì có vẻ cả phần input lẫn reasoning đều chiếm tỷ trọng lớn, nên vẫn khó hình dung việc giá input tăng và giá reasoning giảm sẽ bù trừ nhau thế nào. Những tác vụ có nhiều suy luận có thể sẽ rẻ hơn, nhưng các tác vụ ít suy luận thì ngược lại có thể còn đắt hơn. Với loại việc đó thì tôi có lẽ sẽ dùng Codex hơn

    • Tôi cho rằng việc 4.7 suy nghĩ ít hơn và cũng xuất ra ít hơn là do forced adaptive thinking. Người dùng API cũng không tắt được, và đây chính là cách làm đã gây vấn đề chất lượng trên Opus 4.6 chỉ mới 2 tuần trước. Khi đó cũng đã có ý kiến đề nghị vô hiệu hóa, và tôi nhớ là thậm chí có trường hợp phân bổ token suy nghĩ về 0. Hiện tại cũng có nhiều người than phiền về việc chất lượng của Opus 4.7 giảm sút, và bản thân tôi cũng thường thấy những lỗi rất cơ bản. Nó đốt token suốt 10 phút nhưng thực tế lại không đọc code cẩn thận, chỉ hand-waving cho qua rồi sau đó tự lật lại kết luận của mình. Tôi thấy Opus với adaptive thinking bật sẵn rất khó tin cậy. Nếu cần tôi cũng có thể cung cấp session feedback ID
    • Một số người cũng cho rằng ngay cả cùng một số hiệu model thì hành vi và mức dùng token vẫn có thể thay đổi theo thời điểm, nên kiểm thử cùng một model ở các thời điểm khác nhau mới là công bằng hơn. Dù tên phiên bản giống nhau, cách vận hành bên trong vẫn có thể thay đổi, nên kết quả test gần đây có thể không phù hợp làm chuẩn so sánh cho tương lai
  • Theo cảm nhận của tôi thì gần như không thấy cải thiện hiệu năng nào từ 4.6 lên 4.7, nhưng tốc độ tiêu hao limit thì thấy cực kỳ rõ. Hôm qua tôi dùng hết hạn mức 5 giờ chỉ trong 2 giờ, và khi bật batched mode để refactor thì chỉ 5 phút đã tốn 30% hạn mức nên phải hủy. Sau đó tôi chuyển sang chạy kiểu serial thì đỡ hơn, nhưng vẫn rõ ràng là hao nhanh hơn 4.6 rất nhiều. Giờ cảm giác mỗi lượt hội thoại ngốn khoảng 5% hạn mức 5 giờ, trong khi trước đây chỉ cỡ 1~2%. Tôi dùng gói Max 5x nên hiện tại vẫn còn dư hạn mức tuần để chịu được, nhưng ít nhất tôi muốn họ giải thích minh bạch hơn hoặc cải thiện phần này. Thiết lập effort cũng vẫn quá thiếu minh bạch nên không giúp được nhiều trên thực tế

    • Điều khó chịu nhất là chất lượng giảm do adaptive thinking bị áp dụng bắt buộc. Nó ngốn 5~10% mức sử dụng Max 5x của tôi, chạy 10 phút một lần, nhưng kết quả trả về thường khó mà tin được. Nó có xu hướng lướt qua vấn đề thay vì thật sự đọc code và suy luận, nên tôi thấy Opus có adaptive thinking bật sẵn là không đáng tin
    • Theo cách tôi hiểu thì nếu để quá 5 phút giữa các prompt thì có vẻ bạn lại phải trả chi phí khởi tạo lại cache mà không cần compact hay clear. Ngay cả khi dùng compact thì chi phí cũng không biến mất hoàn toàn, mà chỉ có vẻ giảm bớt token đầu vào. Tuy vậy, bản thân tôi cũng tò mò không biết compaction có miễn phí hay không
  • Nếu kết quả đủ tốt thì tôi sẵn sàng trả thêm, nhưng lúc này tôi có cảm giác Anthropic đang đi theo hướng khiến người ta tiếp tục tiêu token kiểu phần thưởng ngắt quãng. Dòng Claude rõ ràng thú vị hơn GPT hay Codex, có cá tính hơn, và có cảm quan thiết kế lẫn thẩm mỹ nữa. Cảm giác vibe-coding cùng nó vui như chơi game. Nhưng đầu ra thì gần như luôn quay về những vấn đề cũ: xóa test để cho qua, tăng mã trùng lặp, trừu tượng hóa sai, tắt tính an toàn kiểu, bỏ qua các yêu cầu cứng. Những vấn đề này đến 4.7 vẫn chưa được giải quyết, và dù benchmark nói gì thì trong dùng thực tế tôi vẫn thấy y nguyên. Tôi cũng không chắc công ty có thật sự muốn sửa chuyện này hay không

    • Tôi cũng có cảm giác gần như y hệt. Các công cụ hiện tại trông đặc biệt hữu ích như phương án thay Google, làm scaffolding lặt vặt, code review, hoặc tìm kiếm nâng cao. Họ đã có chỗ đứng trong thị trường coding LLM rồi nên giờ có vẻ bắt đầu kiếm tiền mạnh hơn, và tôi đoán sắp tới sẽ còn tiếp tục xuất hiện những model chỉ cải thiện hiệu năng rất ít nhưng giá thì tăng hơn 40%
    • Tôi nghĩ AI không phải thứ cứ thả ra là được, mà phải được dẫn dắt. Nếu bạn có đủ năng lực để định hướng nó đúng cách thì hoàn toàn có thể kéo ra kết quả chất lượng cao
    • Trong các phê phán ở trên, tôi thấy cách diễn giải rằng Anthropic cố tình chọn chiến lược khai thác ngắn hạn để thúc đẩy tiêu thụ token là hơi quá chắc chắn. Từ bên ngoài mà nói như thể biết chiến lược nội bộ của công ty thì hơi gượng ép. Theo phỏng đoán của tôi, thay vì kịch bản đó, có khả năng lớn hơn nhiều là hiệu năng bị dao động vì vấn đề hạ tầng hoặc năng lực tiếp nhận, hoặc model được tinh chỉnh theo hướng kỹ sư muốn hơn là thứ khách hàng muốn, hoặc do lo ngại an toàn nên họ làm nó thận trọng hơn, như kiểu thông điệp an toàn liên quan đến Mythos. Các yếu tố này cũng không loại trừ lẫn nhau. Bản thân tôi cũng không thấy Opus 4.7 quá ấn tượng, nhưng tôi cũng chưa dùng lâu và cũng chưa tự chạy benchmark. Hơn nữa, dạo này những việc tôi giao cho Claude khó hơn vài tuần trước rất nhiều, nghiêng về Bayesian probabilistic modeling, nên có thể chính tôi đang đẩy model đến giới hạn mạnh hơn
  • So sánh này trông giống như chỉ dùng API đếm token để đo độ dài prompt theo hai cách, tức là chỉ tách riêng tác động của tokenizer. Cũng có trường hợp model thông minh hơn trả lời ngắn hơn nên số token đầu ra giảm, nên nếu tính cả những điểm đó thì chỉ dựa vào so sánh này vẫn khó kết luận 4.7 có thực sự rẻ hơn trong thực tế hay không. Dĩ nhiên kết quả cuối cùng có thể đắt hơn hoặc rẻ hơn, nhưng chỉ với dữ liệu này thì tôi thấy không giúp nhiều cho việc đánh giá dùng thực tế

    • Với dữ liệu gần với thực tế hơn thì benchmark của Artificial Analysis báo rằng 4.6 max dùng khoảng 160 triệu token còn 4.7 max dùng khoảng 100 triệu token. Nhìn vào phân rã chi phí thì chi phí input tăng thêm 800 USD nhưng chi phí output giảm 1.400 USD. Tất nhiên mức bù trừ giữa input và output sẽ khác nhau rất nhiều tùy use case, và effort càng thấp thì khác biệt có lẽ cũng càng nhỏ
    • Tôi không rõ vì sao lại nói là không hữu ích. Giá token input của 4.7 vẫn giữ nguyên, nhưng cùng một prompt thì giờ tính theo input đã đắt hơn khoảng 30%, điều đó có vẻ khá rõ ràng
    • Đúng vậy. Tôi cũng từng thấy từ khi bắt đầu chuyển mọi session trên 4.6 sang max effort thì mức dùng token lại giảm xuống. Do quá trình suy nghĩ ở giữa tự sửa được sai sót nên giảm thử-sai, từ đó hoàn thành việc trong ít bước hơn. Trong khi đó 4.7 có vẻ dễ đi vòng vo hơn ngay cả với tác vụ cơ bản. Bù lại, khả năng giữ ngữ cảnh dài lâu có thể đã nhỉnh hơn một chút
    • Mảng AI này nhìn kiểu gì cũng thấy lúc nào cũng thiếu một kiểu so sánh hữu ích mà ai cũng có thể đồng thuận
  • Trước mắt tôi vẫn định tiếp tục dùng Opus 4.5 làm chính trong VSCode Copilot. Workflow của tôi là đưa chỉ dẫn khá chi tiết cho agent, nhưng đa số agent lại cứ cố làm nhiều hơn mức cần thiết. Trong số những gì tôi từng dùng, điểm Opus 4.5 làm tốt nhất là ngay cả với prompt chưa hoàn chỉnh, nó vẫn đọc được phạm vi tôi muốn và có xu hướng chỉ làm đúng mức cần thiết. 4.6 thì mất lâu hơn, suy nghĩ quá đà hơn, và phạm vi thay đổi cũng lớn hơn; các GPT cao cấp cũng gặp vấn đề tương tự. Những model khác như Sonnet thì kém Opus ở khả năng đọc ra ý định của tôi từ các chỉ dẫn chưa thật chặt chẽ. Vì vậy tôi dừng thử nghiệm và cứ dùng 4.5, dù đắt nhưng vẫn thấy đáng tiền. Nhưng giờ nghe nói 4.7 trong VSCode Copilot sẽ thay cả 4.5 lẫn 4.6, lại còn đi kèm modifier 7.5x, nên từ góc nhìn của tôi nó giống như đi theo hướng chậm hơn và đắt hơn, thành ra còn như một bước lùi

    • Tôi thắc mắc sao không đơn giản dùng Sonnet
    • Tôi cũng từng thắc mắc câu nói 4.7 sẽ thay cả 4.5 lẫn 4.6 có phải thật sự nghĩa là 4.5 sẽ biến mất hay không. Tôi cũng đã ổn định với 4.5 rồi, nên nếu đúng vậy thì khá tiếc
  • Tôi ngày càng thấy giả định rằng chỉ cần scaling LLM là có thể thay thế toàn diện lao động trí óc văn phòng là một giả định ngây thơ. Cơ chế attention hay Hopfield network dường như chỉ mô hình hóa được một phần của não người, và làn sóng tăng cường agentic memory gần đây lại càng giống bằng chứng cho thấy chỉ riêng transformer SOTA hiện tại là chưa đủ. Ngay cả khi chỉ bó hẹp trong miền văn bản tôi vẫn cảm thấy giới hạn đang lộ ra, dù cũng có thể là tôi chỉ đang lặp lại kiểu lập luận của Yann LeCun

    • Có lẽ đúng là bạn đang lặp lại lập luận đó. Lý lẽ small subset rằng transformer chỉ giống một phần nhỏ của não người, xét cả về thần kinh sinh học lẫn hiệu năng LLM thực tế, theo tôi là không mấy thuyết phục. Transformer là một kiến trúc rất phổ dụng và giàu năng lực biểu đạt, không chỉ dùng cho LLM mà còn cho video, audio, SLAM, VLA và rất nhiều lĩnh vực khác. Việc nó không sao chép não người theo kiểu 1:1 không có nghĩa là nó không thể đạt tới mức trí tuệ tương đương về mặt chức năng. Não người, theo tôi, chỉ là một trong những cách triển khai mà tiến hóa đã tạo ra. Còn luận điểm LLM không làm được của LeCun thì trên thực nghiệm cũng liên tục bị bác bỏ. Ngay cả với những benchmark như ARC-AGI-3 được thiết kế theo hướng bất lợi cho LLM, tôi vẫn chưa thấy một nhánh AI nào có thể nói là tốt hơn LLM
    • Tôi cảm thấy chỉ riêng scaling thì gần như đã chạm trần. Tuy vậy, hiệu quả vẫn có thể được cải thiện, còn tooling và harness xung quanh thì sẽ tiếp tục tiến bộ
    • Ngay cả khi chỉ giới hạn ở văn bản thì vẫn còn câu hỏi. Vì sao đến giờ nó vẫn chưa thể viết tử tế một cuốn tiểu thuyết? Hạ chuẩn xuống cỡ truyện vừa thôi cũng được, nhưng tôi vẫn không thấy nó đạt đến mức của Death in Venice, Candide, The Metamorphosis, Breakfast at Tiffany's. Kho dữ liệu huấn luyện hẳn đã chứa toàn bộ sách rồi, nên tôi cũng tự hỏi liệu đây chỉ là vấn đề chưa ai chịu đốt tới hàng trăm nghìn USD tiền token hay không
  • Hôm qua tôi dùng Opus 4.7 để tổng hợp best practice cho một website một trang, mà chỉ khoảng 4 prompt là đã vượt hạn mức ngày. Làm thêm khoảng 7 lượt nữa thì cả hạn mức tuần cũng vượt luôn. Toàn bộ HTML/CSS/JS còn chưa tới 300 dòng, nên việc hạn mức sử dụng cạn nhanh như vậy làm tôi khá sốc

    • Tôi chưa dùng Claude chính vì nghĩ chuyện này có thể xảy ra. Nếu là thuê bao enterprise thì hóa đơn sẽ chỉ phình ra, nhưng đồng thời VP cũng khó mà lập tức gửi thông báo di trú cho toàn bộ nhân viên. Nếu người dùng cá nhân rời đi trước thì có khi mức dùng datacenter lại giảm còn khả năng sinh lời thì tăng
    • Tôi tò mò bạn đã đặt reasoning effort ở mức nào. Theo tôi biết thì Max hiện tại dùng token nhiều hơn hẳn và không được khuyến nghị cho phần lớn use case. Mặc định mới là xhigh cũng ngốn hơn mặc định cũ là medium
    • Tôi muốn biết bạn đang dùng gói nào. Nếu là Pro thì tôi thấy có thể xảy ra, nhưng nếu là gói Max mà như vậy thì tôi sẽ hơi ngạc nhiên
    • Tôi muốn hỏi bạn có đang dùng Claude dạng thuê bao không. Theo tôi biết thì Claude thuê bao không vận hành theo kiểu đó
  • Tôi thấy tiêu đề nên là 4.6 to 4.7, chứ không phải từ 4.7 về 4.6

    • Hoàn toàn đồng ý
    • Ngay cả với người đọc từ trái sang phải thì Opus 4.6 to 4.7 cũng tự nhiên hơn nhiều
  • Theo mô tả của Artificial Analysis, Opus 4.7 với Adaptive Reasoning và Max Effort tốn khoảng 4.406 USD để chạy Intelligence Index, tức là rẻ hơn khoảng 11% so với mức khoảng 4.970 USD của 4.6. Điểm số cũng cao hơn 4 điểm, và họ nói khác biệt này là nhờ mức dùng token đầu ra giảm, ngay cả khi đã tính đến tokenizer mới. Tuy vậy, chiết khấu cho cached input vẫn chưa được phản ánh trong phép tính này và họ cho biết sẽ sớm đưa vào cách tính chi phí

  • Ấn tượng của tôi là chất lượng hội thoại thực sự đã tốt hơn nhiều hơn tôi tưởng. Nó tự phê bình hơn, cũng luôn xem xét đề xuất một cách phản biện hơn, và các lựa chọn mặc định nhìn chung cũng tốt hơn. Có thể vì tôi không dùng nhiều loại harness như một số người khác ở đây nên khác biệt ít nổi bật hơn, nhưng tôi lại nghĩ những người dùng chưa chuẩn bị kỹ có khi còn nhận được nhiều giá trị hơn. Chỉ cần làm những tác vụ cơ bản như rà lại luồng review gần đây hoặc theo dõi thảo luận sản phẩm thì 4.6 tuy hữu ích nhưng dễ thành foot-gun, còn 4.7 có vẻ dễ hành xử như một thành viên senior trong nhóm hơn