Claude Opus 4.6 ra mắt

(anthropic.com)

20 điểm bởi GN⁺ 2026-02-06 | 7 bình luận | Chia sẻ qua WhatsApp

Mẫu AI mới nhất của Anthropic với năng lực lập trình và khả năng duy trì tác vụ dài hạn được cải thiện, hỗ trợ cửa sổ ngữ cảnh 1M token ở bản beta
Ghi nhận điểm số hàng đầu ngành trên các benchmark chính, vượt GPT-5.2 khoảng 144 điểm Elo
Hiệu năng được tăng cường cho các tác vụ thực tiễn như review code·debugging, xử lý codebase quy mô lớn, phân tích tài chính·soạn thảo tài liệu
Bổ sung các tính năng kiểm soát cho nhà phát triển như Adaptive thinking, context compaction, điều chỉnh effort, giúp vận hành agent chạy dài hạn dễ dàng hơn
Trong các đánh giá an toàn, mô hình cũng cho kết quả ít lỗi·ít lạm dụng·tỷ lệ từ chối quá mức thấp, được xem là đạt đồng thời cả hiệu năng cao lẫn an toàn

Các cải tiến chính của Claude Opus 4.6

Opus 4.6 là mô hình đã được cải thiện khả năng lập kế hoạch, độ bền của agent, quản lý chất lượng code so với phiên bản trước
- Hoạt động ổn định hơn trên các codebase lớn, đồng thời tăng cường khả năng tự phát hiện và sửa lỗi
- Có thể xử lý các tác vụ dài và phức hợp nhờ cửa sổ ngữ cảnh 1M token (beta)
Tính hữu dụng trong công việc hằng ngày cũng được mở rộng, hỗ trợ nhiều tác vụ như phân tích tài chính, nghiên cứu, tài liệu, bảng tính, tạo bài thuyết trình
Trong môi trường Cowork, mô hình có thể tự chủ xử lý đa nhiệm, thay người dùng thực hiện các công việc phức hợp

Benchmark và đánh giá hiệu năng

Đạt điểm cao nhất trên Terminal-Bench 2.0, đồng thời dẫn đầu trong số các mô hình frontier ở Humanity’s Last Exam
Trong đánh giá GDPval-AA, hiệu năng cao hơn GPT-5.2 khoảng 144 điểm Elo và cao hơn Opus 4.5 là 190 điểm
Cũng ghi nhận hiệu năng tốt nhất trong bài test BrowseComp, cho thấy khả năng tìm kiếm thông tin trực tuyến được cải thiện
Trên MRCR v2 (1M variant) đạt 76%, cải thiện lớn so với mức 18.5% của Sonnet 4.5
Khả năng duy trì ngữ cảnh dài và theo dõi thông tin được cải thiện, giúp giảm hiện tượng context rot

Trải nghiệm sử dụng ban đầu và phản hồi từ đối tác

Trong các bài kiểm thử kỹ thuật nội bộ, mô hình cho thấy năng lực giải quyết vấn đề phức tạp và khả năng phán đoán được cải thiện
- Với bài toán khó, mô hình lặp lại quá trình suy nghĩ chuyên sâu để đưa ra kết quả tốt hơn
- Với tác vụ đơn giản, việc suy nghĩ quá mức có thể gây chậm, nên có thể điều chỉnh bằng tham số /effort
Các đối tác ban đầu đánh giá Opus 4.6 nổi bật ở khả năng thực thi tự chủ, xử lý yêu cầu phức tạp, hỗ trợ cộng tác nhóm
- Hiệu năng chính xác trong việc khám phá codebase lớn, thực hiện tác vụ con song song và xác định blocker
- Độ chính xác cao trong phân tích nội dung pháp lý, tài chính và kỹ thuật (ví dụ: BigLaw Bench 90.2%)
- Trong thử nghiệm thực tế, Opus 4.6 cho kết quả tốt hơn Opus 4.5 ở 38 trên 40 cuộc điều tra an ninh mạng
- Có báo cáo về trường hợp hoàn tất việc migrate hàng triệu dòng code chỉ trong một nửa thời gian

Tăng cường an toàn và bảo mật

Trong kiểm toán hành vi tự động, tỷ lệ các hành vi lệch chuẩn như lừa dối, xu nịnh hay hỗ trợ lạm dụng ở mức thấp
Là mẫu Claude có tỷ lệ từ chối quá mức (over-refusal) thấp nhất
Tiến hành các đánh giá an toàn mới về phúc lợi người dùng, từ chối yêu cầu rủi ro, và phát hiện hành vi gây hại ngầm
Thông qua nghiên cứu khả năng diễn giải, Anthropic phân tích nguyên nhân vận hành bên trong mô hình và phát hiện các vấn đề tiềm ẩn
Do năng lực an ninh mạng được tăng cường, hãng đã đưa vào 6 loại security probe mới để tăng phát hiện lạm dụng
Ở hướng ứng dụng phòng thủ, mô hình hỗ trợ phát hiện và vá lỗ hổng mã nguồn mở, đồng thời có kế hoạch chặn lạm dụng theo thời gian thực trong tương lai

Cập nhật sản phẩm và API

Trên Claude Developer Platform, các tính năng sau đã được bổ sung
- Adaptive thinking: mô hình tự động quyết định có cần suy nghĩ chuyên sâu hay không tùy tình huống
- Mức effort: cung cấp bốn cấp độ low, medium, high (mặc định), max
- Context compaction (beta): khi cuộc trò chuyện kéo dài, hệ thống sẽ tóm tắt và thay thế ngữ cảnh cũ
- Hỗ trợ ngữ cảnh 1M token (beta) và 128k output token
- Cung cấp tùy chọn US-only inference (phí 1.1x)
Claude Code bổ sung tính năng agent teams, cho phép nhiều agent cộng tác song song
Claude in Excel được cải thiện khả năng cấu trúc hóa dữ liệu phi cấu trúc và xử lý thay đổi nhiều bước
Claude in PowerPoint (research preview) có thể nhận biết template slide, font và layout để duy trì tính nhất quán thương hiệu

Truy cập và giá

Opus 4.6 hiện có thể sử dụng ngay trên claude.ai, API và các nền tảng đám mây lớn
Tên model trong API là claude-opus-4-6, giá giữ nguyên ở mức $5/$25 per million tokens
Với prompt vượt quá 200k token, áp dụng mức phí premium ($10/$37.50 per million tokens)

Kết luận

Claude Opus 4.6 tạo ra bước nhảy lớn ở xử lý ngữ cảnh dài hạn, tác vụ agent tự chủ, năng lực suy luận nâng cao
Đây là mô hình đồng thời tăng cường hiệu năng·an toàn·khả năng kiểm soát cho nhà phát triển, qua đó đặt ra tiêu chuẩn mới cho công cụ AI phục vụ công việc thực tiễn

7 bình luận

heim2 2026-02-06

Dùng Max nên cứ có cảm giác dùng càng nhiều token càng thấy mãn nguyện... không dùng thì lại thấy phí...

wegaia 2026-02-06

Có vẻ trên Reddit đang tràn ngập các bài viết nói rằng người dùng gói thuê bao chạm giới hạn với tốc độ chóng mặt. Vì cũng đang bận việc nên tôi cứ tiếp tục dùng 4.5 thôi

xguru 2026-02-06

Nghe nói họ còn tặng thêm 50 đô tín dụng sử dụng trong thời gian giới hạn. Haha

princox 2026-02-06

Hic, đắt quá.. Anthropic hãy tung token ra đi..!!

hmmhmmhm 2026-02-06

Ồ ồ cuối cùng cũng ra rồi~~~~