Đánh giá của Simon Willison về Claude 4.5 Opus

(simonwillison.net)

8 điểm bởi laeyoung 2025-11-26 | 2 bình luận | Chia sẻ qua WhatsApp

Claude Opus 4.5, và vì sao việc đánh giá các LLM mới ngày càng khó hơn

Mức giá rất ấn tượng

5 USD cho mỗi một triệu token đầu vào, 25 USD cho mỗi một triệu token đầu ra
Rẻ hơn rất nhiều so với Opus trước đó là 15 USD/75 USD
Đồng thời cũng có tính cạnh tranh khi so với dòng GPT-5.1 (1,25 USD/10 USD) và Gemini 3 Pro (2 USD/12 USD, hoặc 4 USD/18 USD khi mua trên 200.000 token)

Những cải tiến thú vị trong Opus 4.5

Opus 4.5 bổ sung tham số effort mới, mặc định được đặt ở mức cao
Hỗ trợ Computer use được cải thiện, đặc biệt cung cấp zoom, một công cụ cho phép yêu cầu kiểm tra vùng phóng to trên màn hình
Các khối suy nghĩ từ các lượt hỗ trợ trước đó nay được giữ lại trong ngữ cảnh của mô hình theo mặc định, khác với trước đây

Độ khó của việc đánh giá

Ngày càng khó phân biệt hiệu năng giữa các LLM hàng đầu
Trên các benchmark như SWE-bench Verified, các mô hình chỉ cho thấy chênh lệch ở mức vài điểm phần trăm một chữ số
Nhưng điều đó không giải thích được rằng khi thực sự cố gắng giải quyết vấn đề thực tế, kết quả sẽ ra sao và khác biệt sẽ như thế nào
Dù sao thì việc vẽ bồ nông đi xe đạp vẫn tiếp tục.

2 bình luận

youknowone 2025-11-26

Bản dịch: https://rosettalens.com/s/ko/claude-opus

laeyoung 2025-11-26

Trên biểu đồ benchmark Opus 4.5 của Anthropic

nếu vẽ bình thường thì chiều cao gần như tương đương nhau, nên đoạn 0-70 trên trục Y của biểu đồ đã được rút gọn.