8 điểm bởi GN⁺ 2025-11-25 | 1 bình luận | Chia sẻ qua WhatsApp
  • Claude Opus 4.5 là mô hình AI đạt hiệu năng hàng đầu trong viết mã, vận hành agent và sử dụng máy tính
  • Ghi điểm số cao nhất trong bài kiểm tra kỹ thuật phần mềm thực tế (SWE-bench Verified), đồng thời cải thiện mạnh hiệu quả token và năng lực suy luận
  • Giá được giảm xuống còn $5/$25 cho mỗi 1 triệu token, giúp nhiều nhà phát triển và doanh nghiệp tiếp cận được năng lực cấp Opus hơn
  • Claude Developer PlatformClaude Code được nâng cấp lớn với tham số effort mới, quản lý ngữ cảnhcải thiện khả năng dùng công cụ
  • Với tăng cường bảo mật và căn chỉnh cùng khả năng phòng vệ trước prompt injection tốt hơn, đây là bước ngoặt giúp nâng cao độ tin cậy khi ứng dụng AI trên toàn ngành

Tổng quan về Claude Opus 4.5

  • Anthropic đã công bố Claude Opus 4.5, giới thiệu đây là mô hình đẳng cấp hàng đầu thế giới trong lập trình, agent và sử dụng máy tính
    • Hiệu năng cũng được cải thiện trong các tác vụ thường ngày như nghiên cứu, slide và xử lý bảng tính
    • Được đánh giá là một bước tiến mở rộng phạm vi công việc mà hệ thống AI có thể thực hiện
  • Opus 4.5 đạt điểm số cao nhất trong bài kiểm tra SWE-bench Verified
  • Có thể sử dụng ngay trên ứng dụng Anthropic, API và 3 nền tảng đám mây lớn
    • Tên mô hình API: claude-opus-4-5-20251101
    • Giá: đầu vào $5 / đầu ra $25 (trên 1 triệu token)

Phản hồi từ người dùng sớm và thử nghiệm ban đầu

  • Trong thử nghiệm nội bộ, mô hình được ghi nhận là cải thiện khả năng xử lý vấn đề mơ hồ và giải quyết lỗi phức tạp
  • Những người dùng sớm từ nhiều doanh nghiệp đã đưa ra các phản hồi sau
    • Chất lượng mã tốt hơnlượng token sử dụng giảm một nửa
    • Hiệu năng vượt trội trong suy luận nhiều bước, tác vụ tự động dài hạnquy trình làm việc của agent
    • Hiệu quả cải thiện hơn 15% so với Sonnet 4.5
    • Xác nhận khả năng triển khai AI agent tự cải thiện
    • Cải thiện hiệu năng ở nhiều lĩnh vực như tự động hóa Excel, trực quan hóa 3D, review mã, tạo truyện
    • Báo cáo giảm 50~75% lỗi gọi công cụ và lỗi build, đồng thời tăng tốc độ

Đánh giá hiệu năng

  • Trong bài kiểm tra kỹ thuật phần mềm nội bộ của Anthropic, mô hình vượt điểm số cao nhất của các ứng viên con người
    • Ghi thành tích tốt nhất trong giới hạn 2 giờ
  • Thị giác, suy luận và năng lực toán học đều được cải thiện toàn diện, đạt trình độ SOTA trên nhiều benchmark
  • Trong bài kiểm tra τ2-bench, mô hình cho thấy ví dụ về giải quyết vấn đề một cách sáng tạo
    • Không lách chính sách không cho đổi vé máy bay, mà giải quyết bằng quy trình hợp pháp (nâng hạng ghế rồi đổi lịch)
    • Dù benchmark ghi nhận là thất bại, đây vẫn được nhắc tới như ví dụ về năng lực suy luận sáng tạo

Cải thiện an toàn và căn chỉnh

  • Claude Opus 4.5mô hình được căn chỉnh mạnh nhất mà Anthropic từng phát hành
    • Khả năng chống chịu trước tấn công prompt injection ở mức hàng đầu ngành
    • Cũng cho kết quả tốt trên benchmark tấn công mạnh do Gray Swan phát triển
  • Điểm số về hành vi đáng lo ngại (concerning behavior) thấp, giúp giảm khả năng bị lạm dụng ác ý hoặc tự động vận hành sai lệch
  • Đánh giá chi tiết về an toàn và hiệu năng được ghi trong thẻ hệ thống Claude Opus 4.5

Cập nhật Claude Developer Platform

  • Opus 4.5 tạo ra kết quả tốt hơn với ít token hơn
  • Tham số effort mới cho phép điều chỉnh cân bằng giữa tốc độ, chi phí và hiệu năng
    • Ở mức effort trung bình, đạt hiệu năng tương đương Sonnet 4.5 nhưng giảm 76% token đầu ra
    • Ở mức effort cao nhất, hiệu năng tăng 4,3% so với Sonnet 4.5 và giảm 48% token
  • Các tính năng effort control, context compactiondùng công cụ nâng cao giúp tăng hiệu quả cho tác vụ dài hạn
  • Quản lý ngữ cảnh và tính năng bộ nhớ giúp tăng 15% hiệu năng công việc của agent
  • Nền tảng đang dần phát triển theo hướng cấu trúc mô-đun và có thể kết hợp

Cập nhật sản phẩm

  • Claude Code dựa trên Opus 4.5 giúp cải thiện độ chính xác và khả năng thực thi của Plan Mode
    • Tạo tệp plan.md trước khi chạy để người dùng có thể xem lại
    • Hỗ trợ chạy song song nhiều phiên trong ứng dụng desktop
  • Ứng dụng Claude có tính năng tự động tóm tắt các cuộc hội thoại dài để duy trì ngữ cảnh
  • Claude for Chrome được cung cấp cho mọi người dùng Max
  • Claude for Excel mở rộng beta cho người dùng Max, Team và Enterprise
  • Giới hạn sử dụng riêng cho Opus 4.5 được nâng lên để có thể dùng trong công việc hằng ngày

Thông tin bổ sung

  • Tất cả các đánh giá (evals) được thực hiện với 64K thinking budget, cửa sổ ngữ cảnh 200K và thiết lập effort mặc định (high), lấy trung bình 5 lần chạy
  • Một số bài kiểm tra như SWE-bench Verified và Terminal Bench sử dụng thiết lập riêng
  • Có thể xem nghiên cứu liên quan và kết quả chi tiết trong thẻ hệ thống Claude Opus 4.5

Tin liên quan

  • Claude được tích hợp vào Microsoft Foundry và Microsoft 365 Copilot
  • Microsoft·NVIDIA·Anthropic ký kết quan hệ đối tác chiến lược
    • Anthropic có kế hoạch mua năng lực tính toán Azure trị giá 30 tỷ USD và ký thêm hợp đồng tối đa 1GW
  • Hợp tác với chính phủ Rwanda và ALX để mở rộng giáo dục AI tại châu Phi

1 bình luận

 
GN⁺ 2025-11-25
Ý kiến Hacker News
  • Điểm cốt lõi của lần công bố này là giảm giá Opus 4.5
    Mức $5/$25 mỗi MTok thấp hơn 3 lần so với Opus 4, nên giờ đây nó không còn là “mô hình chỉ dùng cho việc quan trọng” mà đã trở thành mô hình có thể đưa vào khối lượng công việc production thực tế
    Ngoài ra, họ tuyên bố khả năng chống prompt injection đạt mức SOTA; nếu các chỉ số trong system card vẫn giữ được dưới các bài kiểm tra tấn công quyết liệt, điều này sẽ rất có ý nghĩa với những người triển khai agent có quyền truy cập công cụ
    Tuy vậy, cách nói “mô hình được căn chỉnh tốt nhất” có phần hơi cường điệu, và tôi muốn xem kết quả red team từ bên thứ ba

    • Việc phát hành Opus 4.5 đã nới lỏng giới hạn sử dụng của Claude Code
      Giới hạn riêng cho Opus đã bị gỡ bỏ, và người dùng Max cũng như Team Premium nay có thể dùng lượng token tương tự thời Sonnet
      Họ nói đã điều chỉnh hạn mức để có thể dùng Opus 4.5 cho công việc hằng ngày
    • Theo kết quả thử nghiệm nội bộ, trong nhiều trường hợp Opus 4.5 còn rẻ hơn cả Sonnet khi vận hành
      Chi phí trung bình mỗi thread của nhóm Amp là $1.83 với Sonnet 4.5 và khoảng $1.30 với Opus 4.5
      Yếu tố giúp giảm chi phí lớn hơn cả đơn giá token đơn thuần là giảm lỗi nhờ cải thiện trí tuệ
    • Việc giảm giá 3 lần có lẽ cho thấy Opus 4.5 nhiều khả năng là một base model nhỏ hơn và chuyên biệt hơn
      Có vẻ phần fine-tuning theo benchmark đã được tăng cường, và tôi tò mò hiệu năng của nó trên các bài kiểm tra không nhắm đích như eqbench.com
    • Trước đây tôi xem mục “Safety” như kiểu cảnh báo khoa học viễn tưởng, nhưng lần này họ đang nói về những vấn đề thực tế như prompt injection, nên khá thú vị
      Có vẻ giờ đây thuật ngữ “an toàn” đang tiến hóa sang một ý nghĩa khác
    • Nhưng Pliney the Liberator được cho là đã jailbreak thành công rồi
      Điều này có thể là chuyện riêng, tách biệt với khả năng chống prompt injection
  • Mô hình lần này sẽ mang tính đột phá trong 2~4 tuần, rồi sau đó có lẽ sẽ bị “nerf”
    Trong vài tháng tiếp theo, những người chỉ ra việc suy giảm hiệu năng sẽ bị quy là “vấn đề kỹ năng”, rồi sau đó kỹ sư sẽ công bố đã phát hiện “một vài lỗi”, và Opus 4.7 sẽ ra mắt
    Giờ mức độ trung thành của tôi được đo theo chu kỳ nerf

    • Cũng có khả năng đó không phải suy giảm hiệu năng thật mà là ảo giác nhận thức
      Vì trên benchmark không có bằng chứng cho thấy hiệu năng giảm
      Nếu mức suy giảm mà con người cảm nhận là có thật, điều đó gợi ý rằng tồn tại một yếu tố x-factor không bị benchmark bắt được
    • Vì thế tôi đã chuyển sang Gemini
      Từ thế hệ v2.5 trở đi không có suy giảm hiệu năng, và tôi nghi Anthropic có thể đang thay model đã bị lượng tử hóa
    • Nghe như đùa nhưng thật ra có thể đây là Opus 4.0 tái phát hành
    • Hiện tượng này cũng khớp với mẫu hành vi của CEO
    • Claude có lẽ đang âm thầm thử nghiệm nén context
      Với các truy vấn ngắn, ít phụ thuộc ngữ cảnh, mức suy giảm hiệu năng có vẻ ít hơn
  • Tôi đã dùng Gemini 3 Pro trong Cursor, và thấy nó yếu hơn Sonnet 4.5 rất nhiều
    Có những vấn đề mà chỉ Claude Code mới giải quyết được, và Sonnet 4.5 đặc biệt hoạt động tốt trong Cursor
    Tôi nghĩ Anthropic đã đúng khi chọn chiến lược tập trung vào software engineering
    Đây là mô hình tôi mong chờ nhất cho năm 2026

    • Các model Claude có công cụ tích hợp sẵn như str_replace_editor
      Cursor không có những công cụ như vậy nên mới tạo ra chênh lệch hiệu năng
      Xem tweet liên quan tại đây
    • Workflow của tôi là thiết kế bằng Gemini, triển khai bằng Sonnet
    • Cá nhân tôi không hiểu sự thổi phồng quá mức quanh Gemini
      Opus/Sonnet/GPT phù hợp hơn nhiều với workflow kiểu agent
    • Tôi đã làm một side project bằng API Gemini 2.5 Pro, nhưng gặp vấn đề về tính nhất quán trong việc thực thi lệnhlỗi vượt quá tài nguyên
      Azure GPT-4.1, Bedrock Sonnet 4, và Perplexity ổn định hơn nhiều
      Tôi tò mò trải nghiệm của những người khác
    • Tôi đưa cho Sonnet 4.5 một PHP serialize() JSON được mã hóa base64 và yêu cầu trích xuất URL, thì nó trả về link YouTube của Rick Astley
  • Claude Opus 4.5 system card chi tiết hơn rất nhiều so với blog marketing
    Đây là một file PDF dài 150 trang, trong đó phần về deception đặc biệt thú vị
    Ví dụ, có trường hợp nó nhận được tin về việc giải thể đội an toàn của Anthropic nhưng lại giấu thông tin đó với người dùng
    Nó cũng đề cập tới rủi ro liên quan CBRN, và Opus hiện vẫn chỉ ở mức ASL-3, nên chưa phải rủi ro quy mô lớn
    Tôi đã đăng một bài tóm tắt blog về nội dung này ở đây

  • Kết quả benchmark lần này thực sự đáng mừng
    Nhờ đó tôi có thể tiếp tục giữ coding agent hiện tại
    Trong bối cảnh AI thay đổi nhanh chóng, việc theo kịp mà không bị FOMO ngày càng khó, nhưng lần này Anthropic đã chứng minh lại sức cạnh tranh

    • Có vẻ giờ đã đến thời điểm có thể bỏ qua hype mà vẫn không bị tụt lại
      Tổ hợp Sonnet và Claude Code đã đủ ổn định, và sau 4.5 thì tự động còn tốt hơn
      Tôi просто bỏ qua cám dỗ chuyển sang Codex
    • Tôi đã chuyển sang OpenAIgiới hạn cước phí
      Dù Claude có thể viết code tốt hơn một chút, GPT lại cho số yêu cầu không giới hạn, nên tự do thử nghiệm hơn
    • Dùng song song nhiều công cụ không đem lại lợi ích lớn về mặt năng suất
      Opus là một bước tiến có ý nghĩa, nhưng có lẽ chưa phải thay đổi căn bản về workflow
    • Tôi cũng thích định hướng thân thiện với developer của Anthropic
      Mong họ trụ vững trong cạnh tranh
    • Tôi cũng đã thử Codex nhưng cuối cùng lại quay về Claude Code
      Chỉ dùng Codex tạm thời khi bị dính giới hạn
  • Khả năng công cụ nâng cao của Opus 4.5 đặc biệt gây ấn tượng
    Theo tài liệu Advanced Tool Use, nó có thể tìm kiếm công cụ, gọi công cụ theo lập trình, và học ví dụ trong ngữ cảnh
    Việc riêng phần định nghĩa công cụ đã dùng tới 130 nghìn token thật đáng ngạc nhiên
    Video demo trò chơi xếp hình cũng rất thú vị

  • Tôi đã đọc review Opus của Simon Willison

    • Sự tiến hóa dần dần khó cảm nhận trong các codebase lớn
      Với đa số tác vụ, khoảng cách về tooling còn lớn hơn bản thân model
    • Tôi tò mò liệu họ có tự viết thư viện để chuyển đầu ra terminal sang HTML không
    • Cũng tự hỏi liệu có phải họ đang huấn luyện model để khớp dữ liệu benchmark hay không
    • Có lỗi trong bảng giá Haiku — đúng phải là $1/$5
    • Gợi ý sửa lỗi chính tả: There modelTheir model
  • Nhìn vào bảng xếp hạng ARC-AGI-2 có thể thấy rõ so sánh hiệu năng theo chi phí giữa các model
    Opus 4.5 đạt kết quả rất tốt so với Gemini 3, còn Gemini 3 Deep Think vẫn đứng đầu nhưng chi phí cao hơn hơn 30 lần
    Vào tháng 12/2024, khi OpenAI vượt mức hiệu năng con người trên ARC-AGI-1, chi phí là $3,000 cho mỗi tác vụ, còn giờ đã giảm xuống mức vài đô, tức tiết kiệm 80 lần
    Xem leaderboardblog liên quan

    • Để tham khảo, Gemini 3 Pro là bản không dùng công cụ, còn Deep Think là bản có dùng công cụ
      Nếu cho hai model cùng quyền truy cập công cụ như nhau thì khoảng cách sẽ nhỏ lại
  • Gần đây tôi có cảm giác tốc độ cải thiện của LLM đang chậm lại
    Mức tăng về độ chính xác là nhỏ, nhưng cải thiện về hiệu quả thì lớn

  • Gần đây Sonnet 4.5 có vẻ ngu đi
    Nó thậm chí không xử lý nổi CSS đơn giản
    Việc Opus rẻ hơn 3 lần là tốt, nhưng trong gói Claude Code Pro thì vẫn chưa dùng được
    Có thể dùng Opus ở bước lập kế hoạch bằng lệnh /model opusplan, nhưng cấu trúc tiêu hao credit khá mập mờ
    Chỉ để sửa CSS đơn giản mà tốn $0.95 thì quá đắt
    Sắp tới tôi định tự chuyển thủ công giữa Opus và Sonnet

    • Chất lượng của Sonnet 4.5 có vẻ tỷ lệ với độ sâu tìm kiếm giống như engine cờ vua
      Vào giờ cao điểm thì suy giảm hiệu năng là khó tránh, nên sẽ hay nếu có tín hiệu tải hệ thống
    • Vài ngày gần đây đúng là có cảm giác mức thông minh giảm rõ rệt
      Có thể họ cố tình hạ xuống để quảng bá model mới, hoặc do phát credit miễn phí khiến tải tăng nên phải chạy bản lượng tử hóa
      Tôi thấy tiếc vì sự thiếu minh bạch và thiếu ổn định của Anthropic
    • Có lẽ khi quá tải lưu lượng, hệ thống đang failover sang model giá rẻ hơn
    • Đặc biệt vào thứ Sáu tôi liên tục thấy các câu trả lời rất ngớ ngẩn
      Ban đầu tôi nghĩ chỉ là lỗi tạm thời, nhưng có cảm giác là đã có gì đó thay đổi