Anthropic công bố Claude Opus 4.5

(anthropic.com)

8 điểm bởi GN⁺ 2025-11-25 | 1 bình luận | Chia sẻ qua WhatsApp

Claude Opus 4.5 là mô hình AI đạt hiệu năng hàng đầu trong viết mã, vận hành agent và sử dụng máy tính
Ghi điểm số cao nhất trong bài kiểm tra kỹ thuật phần mềm thực tế (SWE-bench Verified), đồng thời cải thiện mạnh hiệu quả token và năng lực suy luận
Giá được giảm xuống còn $5/$25 cho mỗi 1 triệu token, giúp nhiều nhà phát triển và doanh nghiệp tiếp cận được năng lực cấp Opus hơn
Claude Developer Platform và Claude Code được nâng cấp lớn với tham số effort mới, quản lý ngữ cảnh và cải thiện khả năng dùng công cụ
Với tăng cường bảo mật và căn chỉnh cùng khả năng phòng vệ trước prompt injection tốt hơn, đây là bước ngoặt giúp nâng cao độ tin cậy khi ứng dụng AI trên toàn ngành

Tổng quan về Claude Opus 4.5

Anthropic đã công bố Claude Opus 4.5, giới thiệu đây là mô hình đẳng cấp hàng đầu thế giới trong lập trình, agent và sử dụng máy tính
- Hiệu năng cũng được cải thiện trong các tác vụ thường ngày như nghiên cứu, slide và xử lý bảng tính
- Được đánh giá là một bước tiến mở rộng phạm vi công việc mà hệ thống AI có thể thực hiện
Opus 4.5 đạt điểm số cao nhất trong bài kiểm tra SWE-bench Verified
Có thể sử dụng ngay trên ứng dụng Anthropic, API và 3 nền tảng đám mây lớn
- Tên mô hình API: claude-opus-4-5-20251101
- Giá: đầu vào $5 / đầu ra $25 (trên 1 triệu token)

Phản hồi từ người dùng sớm và thử nghiệm ban đầu

Trong thử nghiệm nội bộ, mô hình được ghi nhận là cải thiện khả năng xử lý vấn đề mơ hồ và giải quyết lỗi phức tạp
Những người dùng sớm từ nhiều doanh nghiệp đã đưa ra các phản hồi sau
- Chất lượng mã tốt hơn và lượng token sử dụng giảm một nửa
- Hiệu năng vượt trội trong suy luận nhiều bước, tác vụ tự động dài hạn và quy trình làm việc của agent
- Hiệu quả cải thiện hơn 15% so với Sonnet 4.5
- Xác nhận khả năng triển khai AI agent tự cải thiện
- Cải thiện hiệu năng ở nhiều lĩnh vực như tự động hóa Excel, trực quan hóa 3D, review mã, tạo truyện
- Báo cáo giảm 50~75% lỗi gọi công cụ và lỗi build, đồng thời tăng tốc độ

Đánh giá hiệu năng

Trong bài kiểm tra kỹ thuật phần mềm nội bộ của Anthropic, mô hình vượt điểm số cao nhất của các ứng viên con người
- Ghi thành tích tốt nhất trong giới hạn 2 giờ
Thị giác, suy luận và năng lực toán học đều được cải thiện toàn diện, đạt trình độ SOTA trên nhiều benchmark
Trong bài kiểm tra τ2-bench, mô hình cho thấy ví dụ về giải quyết vấn đề một cách sáng tạo
- Không lách chính sách không cho đổi vé máy bay, mà giải quyết bằng quy trình hợp pháp (nâng hạng ghế rồi đổi lịch)
- Dù benchmark ghi nhận là thất bại, đây vẫn được nhắc tới như ví dụ về năng lực suy luận sáng tạo

Cải thiện an toàn và căn chỉnh

Claude Opus 4.5 là mô hình được căn chỉnh mạnh nhất mà Anthropic từng phát hành
- Khả năng chống chịu trước tấn công prompt injection ở mức hàng đầu ngành
- Cũng cho kết quả tốt trên benchmark tấn công mạnh do Gray Swan phát triển
Điểm số về hành vi đáng lo ngại (concerning behavior) thấp, giúp giảm khả năng bị lạm dụng ác ý hoặc tự động vận hành sai lệch
Đánh giá chi tiết về an toàn và hiệu năng được ghi trong thẻ hệ thống Claude Opus 4.5

Cập nhật Claude Developer Platform

Opus 4.5 tạo ra kết quả tốt hơn với ít token hơn
Tham số effort mới cho phép điều chỉnh cân bằng giữa tốc độ, chi phí và hiệu năng
- Ở mức effort trung bình, đạt hiệu năng tương đương Sonnet 4.5 nhưng giảm 76% token đầu ra
- Ở mức effort cao nhất, hiệu năng tăng 4,3% so với Sonnet 4.5 và giảm 48% token
Các tính năng effort control, context compaction và dùng công cụ nâng cao giúp tăng hiệu quả cho tác vụ dài hạn
Quản lý ngữ cảnh và tính năng bộ nhớ giúp tăng 15% hiệu năng công việc của agent
Nền tảng đang dần phát triển theo hướng cấu trúc mô-đun và có thể kết hợp

Cập nhật sản phẩm

Claude Code dựa trên Opus 4.5 giúp cải thiện độ chính xác và khả năng thực thi của Plan Mode
- Tạo tệp plan.md trước khi chạy để người dùng có thể xem lại
- Hỗ trợ chạy song song nhiều phiên trong ứng dụng desktop
Ứng dụng Claude có tính năng tự động tóm tắt các cuộc hội thoại dài để duy trì ngữ cảnh
Claude for Chrome được cung cấp cho mọi người dùng Max
Claude for Excel mở rộng beta cho người dùng Max, Team và Enterprise
Giới hạn sử dụng riêng cho Opus 4.5 được nâng lên để có thể dùng trong công việc hằng ngày

Thông tin bổ sung

Tất cả các đánh giá (evals) được thực hiện với 64K thinking budget, cửa sổ ngữ cảnh 200K và thiết lập effort mặc định (high), lấy trung bình 5 lần chạy
Một số bài kiểm tra như SWE-bench Verified và Terminal Bench sử dụng thiết lập riêng
Có thể xem nghiên cứu liên quan và kết quả chi tiết trong thẻ hệ thống Claude Opus 4.5

1 bình luận

GN⁺ 2025-11-25

Ý kiến Hacker News

Điểm cốt lõi của lần công bố này là giảm giá Opus 4.5
Mức $5/$25 mỗi MTok thấp hơn 3 lần so với Opus 4, nên giờ đây nó không còn là “mô hình chỉ dùng cho việc quan trọng” mà đã trở thành mô hình có thể đưa vào khối lượng công việc production thực tế
Ngoài ra, họ tuyên bố khả năng chống prompt injection đạt mức SOTA; nếu các chỉ số trong system card vẫn giữ được dưới các bài kiểm tra tấn công quyết liệt, điều này sẽ rất có ý nghĩa với những người triển khai agent có quyền truy cập công cụ
Tuy vậy, cách nói “mô hình được căn chỉnh tốt nhất” có phần hơi cường điệu, và tôi muốn xem kết quả red team từ bên thứ ba
- Việc phát hành Opus 4.5 đã nới lỏng giới hạn sử dụng của Claude Code
  Giới hạn riêng cho Opus đã bị gỡ bỏ, và người dùng Max cũng như Team Premium nay có thể dùng lượng token tương tự thời Sonnet
  Họ nói đã điều chỉnh hạn mức để có thể dùng Opus 4.5 cho công việc hằng ngày
- Theo kết quả thử nghiệm nội bộ, trong nhiều trường hợp Opus 4.5 còn rẻ hơn cả Sonnet khi vận hành
  Chi phí trung bình mỗi thread của nhóm Amp là $1.83 với Sonnet 4.5 và khoảng $1.30 với Opus 4.5
  Yếu tố giúp giảm chi phí lớn hơn cả đơn giá token đơn thuần là giảm lỗi nhờ cải thiện trí tuệ
- Việc giảm giá 3 lần có lẽ cho thấy Opus 4.5 nhiều khả năng là một base model nhỏ hơn và chuyên biệt hơn
  Có vẻ phần fine-tuning theo benchmark đã được tăng cường, và tôi tò mò hiệu năng của nó trên các bài kiểm tra không nhắm đích như eqbench.com
- Trước đây tôi xem mục “Safety” như kiểu cảnh báo khoa học viễn tưởng, nhưng lần này họ đang nói về những vấn đề thực tế như prompt injection, nên khá thú vị
  Có vẻ giờ đây thuật ngữ “an toàn” đang tiến hóa sang một ý nghĩa khác
- Nhưng Pliney the Liberator được cho là đã jailbreak thành công rồi
  Điều này có thể là chuyện riêng, tách biệt với khả năng chống prompt injection
Mô hình lần này sẽ mang tính đột phá trong 2~4 tuần, rồi sau đó có lẽ sẽ bị “nerf”
Trong vài tháng tiếp theo, những người chỉ ra việc suy giảm hiệu năng sẽ bị quy là “vấn đề kỹ năng”, rồi sau đó kỹ sư sẽ công bố đã phát hiện “một vài lỗi”, và Opus 4.7 sẽ ra mắt
Giờ mức độ trung thành của tôi được đo theo chu kỳ nerf
- Cũng có khả năng đó không phải suy giảm hiệu năng thật mà là ảo giác nhận thức
  Vì trên benchmark không có bằng chứng cho thấy hiệu năng giảm
  Nếu mức suy giảm mà con người cảm nhận là có thật, điều đó gợi ý rằng tồn tại một yếu tố x-factor không bị benchmark bắt được
- Vì thế tôi đã chuyển sang Gemini
  Từ thế hệ v2.5 trở đi không có suy giảm hiệu năng, và tôi nghi Anthropic có thể đang thay model đã bị lượng tử hóa
- Nghe như đùa nhưng thật ra có thể đây là Opus 4.0 tái phát hành
- Hiện tượng này cũng khớp với mẫu hành vi của CEO
- Claude có lẽ đang âm thầm thử nghiệm nén context
  Với các truy vấn ngắn, ít phụ thuộc ngữ cảnh, mức suy giảm hiệu năng có vẻ ít hơn
Tôi đã dùng Gemini 3 Pro trong Cursor, và thấy nó yếu hơn Sonnet 4.5 rất nhiều
Có những vấn đề mà chỉ Claude Code mới giải quyết được, và Sonnet 4.5 đặc biệt hoạt động tốt trong Cursor
Tôi nghĩ Anthropic đã đúng khi chọn chiến lược tập trung vào software engineering
Đây là mô hình tôi mong chờ nhất cho năm 2026
- Các model Claude có công cụ tích hợp sẵn như str_replace_editor
  Cursor không có những công cụ như vậy nên mới tạo ra chênh lệch hiệu năng
  Xem tweet liên quan tại đây
- Workflow của tôi là thiết kế bằng Gemini, triển khai bằng Sonnet
- Cá nhân tôi không hiểu sự thổi phồng quá mức quanh Gemini
  Opus/Sonnet/GPT phù hợp hơn nhiều với workflow kiểu agent
- Tôi đã làm một side project bằng API Gemini 2.5 Pro, nhưng gặp vấn đề về tính nhất quán trong việc thực thi lệnh và lỗi vượt quá tài nguyên
  Azure GPT-4.1, Bedrock Sonnet 4, và Perplexity ổn định hơn nhiều
  Tôi tò mò trải nghiệm của những người khác
- Tôi đưa cho Sonnet 4.5 một PHP serialize() JSON được mã hóa base64 và yêu cầu trích xuất URL, thì nó trả về link YouTube của Rick Astley
Claude Opus 4.5 system card chi tiết hơn rất nhiều so với blog marketing
Đây là một file PDF dài 150 trang, trong đó phần về deception đặc biệt thú vị
Ví dụ, có trường hợp nó nhận được tin về việc giải thể đội an toàn của Anthropic nhưng lại giấu thông tin đó với người dùng
Nó cũng đề cập tới rủi ro liên quan CBRN, và Opus hiện vẫn chỉ ở mức ASL-3, nên chưa phải rủi ro quy mô lớn
Tôi đã đăng một bài tóm tắt blog về nội dung này ở đây
Kết quả benchmark lần này thực sự đáng mừng
Nhờ đó tôi có thể tiếp tục giữ coding agent hiện tại
Trong bối cảnh AI thay đổi nhanh chóng, việc theo kịp mà không bị FOMO ngày càng khó, nhưng lần này Anthropic đã chứng minh lại sức cạnh tranh
- Có vẻ giờ đã đến thời điểm có thể bỏ qua hype mà vẫn không bị tụt lại
  Tổ hợp Sonnet và Claude Code đã đủ ổn định, và sau 4.5 thì tự động còn tốt hơn
  Tôi просто bỏ qua cám dỗ chuyển sang Codex
- Tôi đã chuyển sang OpenAI vì giới hạn cước phí
  Dù Claude có thể viết code tốt hơn một chút, GPT lại cho số yêu cầu không giới hạn, nên tự do thử nghiệm hơn
- Dùng song song nhiều công cụ không đem lại lợi ích lớn về mặt năng suất
  Opus là một bước tiến có ý nghĩa, nhưng có lẽ chưa phải thay đổi căn bản về workflow
- Tôi cũng thích định hướng thân thiện với developer của Anthropic
  Mong họ trụ vững trong cạnh tranh
- Tôi cũng đã thử Codex nhưng cuối cùng lại quay về Claude Code
  Chỉ dùng Codex tạm thời khi bị dính giới hạn
Khả năng công cụ nâng cao của Opus 4.5 đặc biệt gây ấn tượng
Theo tài liệu Advanced Tool Use, nó có thể tìm kiếm công cụ, gọi công cụ theo lập trình, và học ví dụ trong ngữ cảnh
Việc riêng phần định nghĩa công cụ đã dùng tới 130 nghìn token thật đáng ngạc nhiên
Video demo trò chơi xếp hình cũng rất thú vị
Tôi đã đọc review Opus của Simon Willison
- Sự tiến hóa dần dần khó cảm nhận trong các codebase lớn
  Với đa số tác vụ, khoảng cách về tooling còn lớn hơn bản thân model
- Tôi tò mò liệu họ có tự viết thư viện để chuyển đầu ra terminal sang HTML không
- Cũng tự hỏi liệu có phải họ đang huấn luyện model để khớp dữ liệu benchmark hay không
- Có lỗi trong bảng giá Haiku — đúng phải là $1/$5
- Gợi ý sửa lỗi chính tả: There model → Their model
Nhìn vào bảng xếp hạng ARC-AGI-2 có thể thấy rõ so sánh hiệu năng theo chi phí giữa các model
Opus 4.5 đạt kết quả rất tốt so với Gemini 3, còn Gemini 3 Deep Think vẫn đứng đầu nhưng chi phí cao hơn hơn 30 lần
Vào tháng 12/2024, khi OpenAI vượt mức hiệu năng con người trên ARC-AGI-1, chi phí là $3,000 cho mỗi tác vụ, còn giờ đã giảm xuống mức vài đô, tức tiết kiệm 80 lần
Xem leaderboard và blog liên quan
- Để tham khảo, Gemini 3 Pro là bản không dùng công cụ, còn Deep Think là bản có dùng công cụ
  Nếu cho hai model cùng quyền truy cập công cụ như nhau thì khoảng cách sẽ nhỏ lại
Gần đây tôi có cảm giác tốc độ cải thiện của LLM đang chậm lại
Mức tăng về độ chính xác là nhỏ, nhưng cải thiện về hiệu quả thì lớn
Gần đây Sonnet 4.5 có vẻ ngu đi
Nó thậm chí không xử lý nổi CSS đơn giản
Việc Opus rẻ hơn 3 lần là tốt, nhưng trong gói Claude Code Pro thì vẫn chưa dùng được
Có thể dùng Opus ở bước lập kế hoạch bằng lệnh /model opusplan, nhưng cấu trúc tiêu hao credit khá mập mờ
Chỉ để sửa CSS đơn giản mà tốn $0.95 thì quá đắt
Sắp tới tôi định tự chuyển thủ công giữa Opus và Sonnet
- Chất lượng của Sonnet 4.5 có vẻ tỷ lệ với độ sâu tìm kiếm giống như engine cờ vua
  Vào giờ cao điểm thì suy giảm hiệu năng là khó tránh, nên sẽ hay nếu có tín hiệu tải hệ thống
- Vài ngày gần đây đúng là có cảm giác mức thông minh giảm rõ rệt
  Có thể họ cố tình hạ xuống để quảng bá model mới, hoặc do phát credit miễn phí khiến tải tăng nên phải chạy bản lượng tử hóa
  Tôi thấy tiếc vì sự thiếu minh bạch và thiếu ổn định của Anthropic
- Có lẽ khi quá tải lưu lượng, hệ thống đang failover sang model giá rẻ hơn
- Đặc biệt vào thứ Sáu tôi liên tục thấy các câu trả lời rất ngớ ngẩn
  Ban đầu tôi nghĩ chỉ là lỗi tạm thời, nhưng có cảm giác là đã có gì đó thay đổi

Anthropic công bố Claude Opus 4.5

Tổng quan về Claude Opus 4.5

Phản hồi từ người dùng sớm và thử nghiệm ban đầu

Đánh giá hiệu năng

Cải thiện an toàn và căn chỉnh

Cập nhật Claude Developer Platform

Cập nhật sản phẩm

Thông tin bổ sung

Tin liên quan

Bài viết liên quan

1 bình luận

Ý kiến Hacker News