8 điểm bởi laeyoung 2025-11-26 | 2 bình luận | Chia sẻ qua WhatsApp

Claude Opus 4.5, và vì sao việc đánh giá các LLM mới ngày càng khó hơn

Mức giá rất ấn tượng

  • 5 USD cho mỗi một triệu token đầu vào, 25 USD cho mỗi một triệu token đầu ra
  • Rẻ hơn rất nhiều so với Opus trước đó là 15 USD/75 USD
  • Đồng thời cũng có tính cạnh tranh khi so với dòng GPT-5.1 (1,25 USD/10 USD) và Gemini 3 Pro (2 USD/12 USD, hoặc 4 USD/18 USD khi mua trên 200.000 token)

Những cải tiến thú vị trong Opus 4.5

  • Opus 4.5 bổ sung tham số effort mới, mặc định được đặt ở mức cao
  • Hỗ trợ Computer use được cải thiện, đặc biệt cung cấp zoom, một công cụ cho phép yêu cầu kiểm tra vùng phóng to trên màn hình
  • Các khối suy nghĩ từ các lượt hỗ trợ trước đó nay được giữ lại trong ngữ cảnh của mô hình theo mặc định, khác với trước đây

Độ khó của việc đánh giá

  • Ngày càng khó phân biệt hiệu năng giữa các LLM hàng đầu
  • Trên các benchmark như SWE-bench Verified, các mô hình chỉ cho thấy chênh lệch ở mức vài điểm phần trăm một chữ số
  • Nhưng điều đó không giải thích được rằng khi thực sự cố gắng giải quyết vấn đề thực tế, kết quả sẽ ra sao và khác biệt sẽ như thế nào
  • Dù sao thì việc vẽ bồ nông đi xe đạp vẫn tiếp tục.

2 bình luận

 
laeyoung 2025-11-26

Trên biểu đồ benchmark Opus 4.5 của Anthropic

  • nếu vẽ bình thường thì chiều cao gần như tương đương nhau, nên đoạn 0-70 trên trục Y của biểu đồ đã được rút gọn.