Đánh giá của Simon Willison về Claude 4.5 Opus
(simonwillison.net)Claude Opus 4.5, và vì sao việc đánh giá các LLM mới ngày càng khó hơn
Mức giá rất ấn tượng
- 5 USD cho mỗi một triệu token đầu vào, 25 USD cho mỗi một triệu token đầu ra
- Rẻ hơn rất nhiều so với Opus trước đó là 15 USD/75 USD
- Đồng thời cũng có tính cạnh tranh khi so với dòng GPT-5.1 (1,25 USD/10 USD) và Gemini 3 Pro (2 USD/12 USD, hoặc 4 USD/18 USD khi mua trên 200.000 token)
Những cải tiến thú vị trong Opus 4.5
- Opus 4.5 bổ sung tham số
effortmới, mặc định được đặt ở mức cao - Hỗ trợ
Computer useđược cải thiện, đặc biệt cung cấpzoom, một công cụ cho phép yêu cầu kiểm tra vùng phóng to trên màn hình - Các khối suy nghĩ từ các lượt hỗ trợ trước đó nay được giữ lại trong ngữ cảnh của mô hình theo mặc định, khác với trước đây
Độ khó của việc đánh giá
- Ngày càng khó phân biệt hiệu năng giữa các LLM hàng đầu
- Trên các benchmark như SWE-bench Verified, các mô hình chỉ cho thấy chênh lệch ở mức vài điểm phần trăm một chữ số
- Nhưng điều đó không giải thích được rằng khi thực sự cố gắng giải quyết vấn đề thực tế, kết quả sẽ ra sao và khác biệt sẽ như thế nào
- Dù sao thì việc vẽ bồ nông đi xe đạp vẫn tiếp tục.
2 bình luận
Bản dịch: https://rosettalens.com/s/ko/claude-opus
Trên biểu đồ benchmark Opus 4.5 của Anthropic