- Claude Opus 4.5 là mô hình AI đạt hiệu năng hàng đầu trong viết mã, vận hành agent và sử dụng máy tính
- Ghi điểm số cao nhất trong bài kiểm tra kỹ thuật phần mềm thực tế (SWE-bench Verified), đồng thời cải thiện mạnh hiệu quả token và năng lực suy luận
- Giá được giảm xuống còn $5/$25 cho mỗi 1 triệu token, giúp nhiều nhà phát triển và doanh nghiệp tiếp cận được năng lực cấp Opus hơn
- Claude Developer Platform và Claude Code được nâng cấp lớn với tham số
effort mới, quản lý ngữ cảnh và cải thiện khả năng dùng công cụ
- Với tăng cường bảo mật và căn chỉnh cùng khả năng phòng vệ trước prompt injection tốt hơn, đây là bước ngoặt giúp nâng cao độ tin cậy khi ứng dụng AI trên toàn ngành
Tổng quan về Claude Opus 4.5
- Anthropic đã công bố Claude Opus 4.5, giới thiệu đây là mô hình đẳng cấp hàng đầu thế giới trong lập trình, agent và sử dụng máy tính
- Hiệu năng cũng được cải thiện trong các tác vụ thường ngày như nghiên cứu, slide và xử lý bảng tính
- Được đánh giá là một bước tiến mở rộng phạm vi công việc mà hệ thống AI có thể thực hiện
- Opus 4.5 đạt điểm số cao nhất trong bài kiểm tra SWE-bench Verified
- Có thể sử dụng ngay trên ứng dụng Anthropic, API và 3 nền tảng đám mây lớn
- Tên mô hình API:
claude-opus-4-5-20251101
- Giá: đầu vào $5 / đầu ra $25 (trên 1 triệu token)
Phản hồi từ người dùng sớm và thử nghiệm ban đầu
- Trong thử nghiệm nội bộ, mô hình được ghi nhận là cải thiện khả năng xử lý vấn đề mơ hồ và giải quyết lỗi phức tạp
- Những người dùng sớm từ nhiều doanh nghiệp đã đưa ra các phản hồi sau
- Chất lượng mã tốt hơn và lượng token sử dụng giảm một nửa
- Hiệu năng vượt trội trong suy luận nhiều bước, tác vụ tự động dài hạn và quy trình làm việc của agent
- Hiệu quả cải thiện hơn 15% so với Sonnet 4.5
- Xác nhận khả năng triển khai AI agent tự cải thiện
- Cải thiện hiệu năng ở nhiều lĩnh vực như tự động hóa Excel, trực quan hóa 3D, review mã, tạo truyện
- Báo cáo giảm 50~75% lỗi gọi công cụ và lỗi build, đồng thời tăng tốc độ
Đánh giá hiệu năng
- Trong bài kiểm tra kỹ thuật phần mềm nội bộ của Anthropic, mô hình vượt điểm số cao nhất của các ứng viên con người
- Ghi thành tích tốt nhất trong giới hạn 2 giờ
- Thị giác, suy luận và năng lực toán học đều được cải thiện toàn diện, đạt trình độ SOTA trên nhiều benchmark
- Trong bài kiểm tra τ2-bench, mô hình cho thấy ví dụ về giải quyết vấn đề một cách sáng tạo
- Không lách chính sách không cho đổi vé máy bay, mà giải quyết bằng quy trình hợp pháp (nâng hạng ghế rồi đổi lịch)
- Dù benchmark ghi nhận là thất bại, đây vẫn được nhắc tới như ví dụ về năng lực suy luận sáng tạo
Cải thiện an toàn và căn chỉnh
- Claude Opus 4.5 là mô hình được căn chỉnh mạnh nhất mà Anthropic từng phát hành
- Khả năng chống chịu trước tấn công prompt injection ở mức hàng đầu ngành
- Cũng cho kết quả tốt trên benchmark tấn công mạnh do Gray Swan phát triển
- Điểm số về hành vi đáng lo ngại (concerning behavior) thấp, giúp giảm khả năng bị lạm dụng ác ý hoặc tự động vận hành sai lệch
- Đánh giá chi tiết về an toàn và hiệu năng được ghi trong thẻ hệ thống Claude Opus 4.5
Cập nhật Claude Developer Platform
- Opus 4.5 tạo ra kết quả tốt hơn với ít token hơn
- Tham số
effort mới cho phép điều chỉnh cân bằng giữa tốc độ, chi phí và hiệu năng
- Ở mức effort trung bình, đạt hiệu năng tương đương Sonnet 4.5 nhưng giảm 76% token đầu ra
- Ở mức effort cao nhất, hiệu năng tăng 4,3% so với Sonnet 4.5 và giảm 48% token
- Các tính năng effort control, context compaction và dùng công cụ nâng cao giúp tăng hiệu quả cho tác vụ dài hạn
- Quản lý ngữ cảnh và tính năng bộ nhớ giúp tăng 15% hiệu năng công việc của agent
- Nền tảng đang dần phát triển theo hướng cấu trúc mô-đun và có thể kết hợp
Cập nhật sản phẩm
- Claude Code dựa trên Opus 4.5 giúp cải thiện độ chính xác và khả năng thực thi của Plan Mode
- Tạo tệp plan.md trước khi chạy để người dùng có thể xem lại
- Hỗ trợ chạy song song nhiều phiên trong ứng dụng desktop
- Ứng dụng Claude có tính năng tự động tóm tắt các cuộc hội thoại dài để duy trì ngữ cảnh
- Claude for Chrome được cung cấp cho mọi người dùng Max
- Claude for Excel mở rộng beta cho người dùng Max, Team và Enterprise
- Giới hạn sử dụng riêng cho Opus 4.5 được nâng lên để có thể dùng trong công việc hằng ngày
Thông tin bổ sung
- Tất cả các đánh giá (evals) được thực hiện với 64K thinking budget, cửa sổ ngữ cảnh 200K và thiết lập effort mặc định (high), lấy trung bình 5 lần chạy
- Một số bài kiểm tra như SWE-bench Verified và Terminal Bench sử dụng thiết lập riêng
- Có thể xem nghiên cứu liên quan và kết quả chi tiết trong thẻ hệ thống Claude Opus 4.5
Tin liên quan
- Claude được tích hợp vào Microsoft Foundry và Microsoft 365 Copilot
- Microsoft·NVIDIA·Anthropic ký kết quan hệ đối tác chiến lược
- Anthropic có kế hoạch mua năng lực tính toán Azure trị giá 30 tỷ USD và ký thêm hợp đồng tối đa 1GW
- Hợp tác với chính phủ Rwanda và ALX để mở rộng giáo dục AI tại châu Phi
1 bình luận
Ý kiến Hacker News
Điểm cốt lõi của lần công bố này là giảm giá Opus 4.5
Mức $5/$25 mỗi MTok thấp hơn 3 lần so với Opus 4, nên giờ đây nó không còn là “mô hình chỉ dùng cho việc quan trọng” mà đã trở thành mô hình có thể đưa vào khối lượng công việc production thực tế
Ngoài ra, họ tuyên bố khả năng chống prompt injection đạt mức SOTA; nếu các chỉ số trong system card vẫn giữ được dưới các bài kiểm tra tấn công quyết liệt, điều này sẽ rất có ý nghĩa với những người triển khai agent có quyền truy cập công cụ
Tuy vậy, cách nói “mô hình được căn chỉnh tốt nhất” có phần hơi cường điệu, và tôi muốn xem kết quả red team từ bên thứ ba
Giới hạn riêng cho Opus đã bị gỡ bỏ, và người dùng Max cũng như Team Premium nay có thể dùng lượng token tương tự thời Sonnet
Họ nói đã điều chỉnh hạn mức để có thể dùng Opus 4.5 cho công việc hằng ngày
Chi phí trung bình mỗi thread của nhóm Amp là $1.83 với Sonnet 4.5 và khoảng $1.30 với Opus 4.5
Yếu tố giúp giảm chi phí lớn hơn cả đơn giá token đơn thuần là giảm lỗi nhờ cải thiện trí tuệ
Có vẻ phần fine-tuning theo benchmark đã được tăng cường, và tôi tò mò hiệu năng của nó trên các bài kiểm tra không nhắm đích như eqbench.com
Có vẻ giờ đây thuật ngữ “an toàn” đang tiến hóa sang một ý nghĩa khác
Điều này có thể là chuyện riêng, tách biệt với khả năng chống prompt injection
Mô hình lần này sẽ mang tính đột phá trong 2~4 tuần, rồi sau đó có lẽ sẽ bị “nerf”
Trong vài tháng tiếp theo, những người chỉ ra việc suy giảm hiệu năng sẽ bị quy là “vấn đề kỹ năng”, rồi sau đó kỹ sư sẽ công bố đã phát hiện “một vài lỗi”, và Opus 4.7 sẽ ra mắt
Giờ mức độ trung thành của tôi được đo theo chu kỳ nerf
Vì trên benchmark không có bằng chứng cho thấy hiệu năng giảm
Nếu mức suy giảm mà con người cảm nhận là có thật, điều đó gợi ý rằng tồn tại một yếu tố x-factor không bị benchmark bắt được
Từ thế hệ v2.5 trở đi không có suy giảm hiệu năng, và tôi nghi Anthropic có thể đang thay model đã bị lượng tử hóa
Với các truy vấn ngắn, ít phụ thuộc ngữ cảnh, mức suy giảm hiệu năng có vẻ ít hơn
Tôi đã dùng Gemini 3 Pro trong Cursor, và thấy nó yếu hơn Sonnet 4.5 rất nhiều
Có những vấn đề mà chỉ Claude Code mới giải quyết được, và Sonnet 4.5 đặc biệt hoạt động tốt trong Cursor
Tôi nghĩ Anthropic đã đúng khi chọn chiến lược tập trung vào software engineering
Đây là mô hình tôi mong chờ nhất cho năm 2026
str_replace_editorCursor không có những công cụ như vậy nên mới tạo ra chênh lệch hiệu năng
Xem tweet liên quan tại đây
Opus/Sonnet/GPT phù hợp hơn nhiều với workflow kiểu agent
Azure GPT-4.1, Bedrock Sonnet 4, và Perplexity ổn định hơn nhiều
Tôi tò mò trải nghiệm của những người khác
Claude Opus 4.5 system card chi tiết hơn rất nhiều so với blog marketing
Đây là một file PDF dài 150 trang, trong đó phần về deception đặc biệt thú vị
Ví dụ, có trường hợp nó nhận được tin về việc giải thể đội an toàn của Anthropic nhưng lại giấu thông tin đó với người dùng
Nó cũng đề cập tới rủi ro liên quan CBRN, và Opus hiện vẫn chỉ ở mức ASL-3, nên chưa phải rủi ro quy mô lớn
Tôi đã đăng một bài tóm tắt blog về nội dung này ở đây
Kết quả benchmark lần này thực sự đáng mừng
Nhờ đó tôi có thể tiếp tục giữ coding agent hiện tại
Trong bối cảnh AI thay đổi nhanh chóng, việc theo kịp mà không bị FOMO ngày càng khó, nhưng lần này Anthropic đã chứng minh lại sức cạnh tranh
Tổ hợp Sonnet và Claude Code đã đủ ổn định, và sau 4.5 thì tự động còn tốt hơn
Tôi просто bỏ qua cám dỗ chuyển sang Codex
Dù Claude có thể viết code tốt hơn một chút, GPT lại cho số yêu cầu không giới hạn, nên tự do thử nghiệm hơn
Opus là một bước tiến có ý nghĩa, nhưng có lẽ chưa phải thay đổi căn bản về workflow
Mong họ trụ vững trong cạnh tranh
Chỉ dùng Codex tạm thời khi bị dính giới hạn
Khả năng công cụ nâng cao của Opus 4.5 đặc biệt gây ấn tượng
Theo tài liệu Advanced Tool Use, nó có thể tìm kiếm công cụ, gọi công cụ theo lập trình, và học ví dụ trong ngữ cảnh
Việc riêng phần định nghĩa công cụ đã dùng tới 130 nghìn token thật đáng ngạc nhiên
Video demo trò chơi xếp hình cũng rất thú vị
Tôi đã đọc review Opus của Simon Willison
Với đa số tác vụ, khoảng cách về tooling còn lớn hơn bản thân model
There model→Their modelNhìn vào bảng xếp hạng ARC-AGI-2 có thể thấy rõ so sánh hiệu năng theo chi phí giữa các model
Opus 4.5 đạt kết quả rất tốt so với Gemini 3, còn Gemini 3 Deep Think vẫn đứng đầu nhưng chi phí cao hơn hơn 30 lần
Vào tháng 12/2024, khi OpenAI vượt mức hiệu năng con người trên ARC-AGI-1, chi phí là $3,000 cho mỗi tác vụ, còn giờ đã giảm xuống mức vài đô, tức tiết kiệm 80 lần
Xem leaderboard và blog liên quan
Nếu cho hai model cùng quyền truy cập công cụ như nhau thì khoảng cách sẽ nhỏ lại
Gần đây tôi có cảm giác tốc độ cải thiện của LLM đang chậm lại
Mức tăng về độ chính xác là nhỏ, nhưng cải thiện về hiệu quả thì lớn
Gần đây Sonnet 4.5 có vẻ ngu đi
Nó thậm chí không xử lý nổi CSS đơn giản
Việc Opus rẻ hơn 3 lần là tốt, nhưng trong gói Claude Code Pro thì vẫn chưa dùng được
Có thể dùng Opus ở bước lập kế hoạch bằng lệnh
/model opusplan, nhưng cấu trúc tiêu hao credit khá mập mờChỉ để sửa CSS đơn giản mà tốn $0.95 thì quá đắt
Sắp tới tôi định tự chuyển thủ công giữa Opus và Sonnet
Vào giờ cao điểm thì suy giảm hiệu năng là khó tránh, nên sẽ hay nếu có tín hiệu tải hệ thống
Có thể họ cố tình hạ xuống để quảng bá model mới, hoặc do phát credit miễn phí khiến tải tăng nên phải chạy bản lượng tử hóa
Tôi thấy tiếc vì sự thiếu minh bạch và thiếu ổn định của Anthropic
Ban đầu tôi nghĩ chỉ là lỗi tạm thời, nhưng có cảm giác là đã có gì đó thay đổi