- Mẫu AI mới nhất của Anthropic với năng lực lập trình và khả năng duy trì tác vụ dài hạn được cải thiện, hỗ trợ cửa sổ ngữ cảnh 1M token ở bản beta
- Ghi nhận điểm số hàng đầu ngành trên các benchmark chính, vượt GPT-5.2 khoảng 144 điểm Elo
- Hiệu năng được tăng cường cho các tác vụ thực tiễn như review code·debugging, xử lý codebase quy mô lớn, phân tích tài chính·soạn thảo tài liệu
- Bổ sung các tính năng kiểm soát cho nhà phát triển như Adaptive thinking, context compaction, điều chỉnh effort, giúp vận hành agent chạy dài hạn dễ dàng hơn
- Trong các đánh giá an toàn, mô hình cũng cho kết quả ít lỗi·ít lạm dụng·tỷ lệ từ chối quá mức thấp, được xem là đạt đồng thời cả hiệu năng cao lẫn an toàn
Các cải tiến chính của Claude Opus 4.6
- Opus 4.6 là mô hình đã được cải thiện khả năng lập kế hoạch, độ bền của agent, quản lý chất lượng code so với phiên bản trước
- Hoạt động ổn định hơn trên các codebase lớn, đồng thời tăng cường khả năng tự phát hiện và sửa lỗi
- Có thể xử lý các tác vụ dài và phức hợp nhờ cửa sổ ngữ cảnh 1M token (beta)
- Tính hữu dụng trong công việc hằng ngày cũng được mở rộng, hỗ trợ nhiều tác vụ như phân tích tài chính, nghiên cứu, tài liệu, bảng tính, tạo bài thuyết trình
- Trong môi trường Cowork, mô hình có thể tự chủ xử lý đa nhiệm, thay người dùng thực hiện các công việc phức hợp
Benchmark và đánh giá hiệu năng
- Đạt điểm cao nhất trên Terminal-Bench 2.0, đồng thời dẫn đầu trong số các mô hình frontier ở Humanity’s Last Exam
- Trong đánh giá GDPval-AA, hiệu năng cao hơn GPT-5.2 khoảng 144 điểm Elo và cao hơn Opus 4.5 là 190 điểm
- Cũng ghi nhận hiệu năng tốt nhất trong bài test BrowseComp, cho thấy khả năng tìm kiếm thông tin trực tuyến được cải thiện
- Trên MRCR v2 (1M variant) đạt 76%, cải thiện lớn so với mức 18.5% của Sonnet 4.5
- Khả năng duy trì ngữ cảnh dài và theo dõi thông tin được cải thiện, giúp giảm hiện tượng context rot
Trải nghiệm sử dụng ban đầu và phản hồi từ đối tác
- Trong các bài kiểm thử kỹ thuật nội bộ, mô hình cho thấy năng lực giải quyết vấn đề phức tạp và khả năng phán đoán được cải thiện
- Với bài toán khó, mô hình lặp lại quá trình suy nghĩ chuyên sâu để đưa ra kết quả tốt hơn
- Với tác vụ đơn giản, việc suy nghĩ quá mức có thể gây chậm, nên có thể điều chỉnh bằng tham số
/effort
- Các đối tác ban đầu đánh giá Opus 4.6 nổi bật ở khả năng thực thi tự chủ, xử lý yêu cầu phức tạp, hỗ trợ cộng tác nhóm
- Hiệu năng chính xác trong việc khám phá codebase lớn, thực hiện tác vụ con song song và xác định blocker
- Độ chính xác cao trong phân tích nội dung pháp lý, tài chính và kỹ thuật (ví dụ: BigLaw Bench 90.2%)
- Trong thử nghiệm thực tế, Opus 4.6 cho kết quả tốt hơn Opus 4.5 ở 38 trên 40 cuộc điều tra an ninh mạng
- Có báo cáo về trường hợp hoàn tất việc migrate hàng triệu dòng code chỉ trong một nửa thời gian
Tăng cường an toàn và bảo mật
- Trong kiểm toán hành vi tự động, tỷ lệ các hành vi lệch chuẩn như lừa dối, xu nịnh hay hỗ trợ lạm dụng ở mức thấp
- Là mẫu Claude có tỷ lệ từ chối quá mức (over-refusal) thấp nhất
- Tiến hành các đánh giá an toàn mới về phúc lợi người dùng, từ chối yêu cầu rủi ro, và phát hiện hành vi gây hại ngầm
- Thông qua nghiên cứu khả năng diễn giải, Anthropic phân tích nguyên nhân vận hành bên trong mô hình và phát hiện các vấn đề tiềm ẩn
- Do năng lực an ninh mạng được tăng cường, hãng đã đưa vào 6 loại security probe mới để tăng phát hiện lạm dụng
- Ở hướng ứng dụng phòng thủ, mô hình hỗ trợ phát hiện và vá lỗ hổng mã nguồn mở, đồng thời có kế hoạch chặn lạm dụng theo thời gian thực trong tương lai
Cập nhật sản phẩm và API
- Trên Claude Developer Platform, các tính năng sau đã được bổ sung
- Adaptive thinking: mô hình tự động quyết định có cần suy nghĩ chuyên sâu hay không tùy tình huống
- Mức effort: cung cấp bốn cấp độ low, medium, high (mặc định), max
- Context compaction (beta): khi cuộc trò chuyện kéo dài, hệ thống sẽ tóm tắt và thay thế ngữ cảnh cũ
- Hỗ trợ ngữ cảnh 1M token (beta) và 128k output token
- Cung cấp tùy chọn US-only inference (phí 1.1x)
- Claude Code bổ sung tính năng agent teams, cho phép nhiều agent cộng tác song song
- Claude in Excel được cải thiện khả năng cấu trúc hóa dữ liệu phi cấu trúc và xử lý thay đổi nhiều bước
- Claude in PowerPoint (research preview) có thể nhận biết template slide, font và layout để duy trì tính nhất quán thương hiệu
Truy cập và giá
- Opus 4.6 hiện có thể sử dụng ngay trên claude.ai, API và các nền tảng đám mây lớn
- Tên model trong API là
claude-opus-4-6, giá giữ nguyên ở mức $5/$25 per million tokens
- Với prompt vượt quá 200k token, áp dụng mức phí premium ($10/$37.50 per million tokens)
Kết luận
- Claude Opus 4.6 tạo ra bước nhảy lớn ở xử lý ngữ cảnh dài hạn, tác vụ agent tự chủ, năng lực suy luận nâng cao
- Đây là mô hình đồng thời tăng cường hiệu năng·an toàn·khả năng kiểm soát cho nhà phát triển, qua đó đặt ra tiêu chuẩn mới cho công cụ AI phục vụ công việc thực tiễn
7 bình luận
Dùng Max nên cứ có cảm giác dùng càng nhiều token càng thấy mãn nguyện... không dùng thì lại thấy phí...
Có vẻ trên Reddit đang tràn ngập các bài viết nói rằng người dùng gói thuê bao chạm giới hạn với tốc độ chóng mặt. Vì cũng đang bận việc nên tôi cứ tiếp tục dùng 4.5 thôi
Nghe nói họ còn tặng thêm 50 đô tín dụng sử dụng trong thời gian giới hạn. Haha
Hic, đắt quá.. Anthropic hãy tung token ra đi..!!
Ồ ồ cuối cùng cũng ra rồi~~~~
Tôi đã mong đợi Sonnet 5, nhưng hóa ra lại là Opus 4.6 nhỉ haha
Ý kiến trên Hacker News
Khung xe đạp có hơi lệch, nhưng con bồ nông thì bản thân nó rất xuất sắc
Có thể xem hình tại đây
Tôi nhận ra ngay là hai chân của con bồ nông nằm cùng một phía, rồi xác nhận trên Wikipedia rằng ngoài đời không phải vậy
Cũng muốn biết họ có thử chỉnh prompt lặp đi lặp lại để đạt kết quả chân thực hơn hay không
Họ thường vẽ sai cấu trúc khung hoặc tỷ lệ hình học
Liên kết
GPT‑5.3 Codex đã thể hiện hiệu năng áp đảo với 77.3% trên Terminal Bench
Điều đáng ngạc nhiên là kỷ lục đã bị phá chỉ trong vòng 35 phút
Không biết có phải ngay sau lúc phát hành thì họ chạy ở hiệu năng cao nhất, rồi về sau hạ xuống để tiết kiệm chi phí hay không
Tôi muốn tự dùng thử rồi chia sẻ cảm nhận
Cũng nghĩ có khi benchmark giờ đã chạm trạng thái bão hòa rồi
Đây là bản tóm tắt ghi chú phát hành của Claude Code
Bao gồm nhiều cập nhật như bổ sung Opus 4.6, tính năng cộng tác multi-agent, tự động ghi nhớ vào bộ nhớ, tóm tắt hội thoại từng phần, cải thiện VSCode, v.v.
Xem tài liệu tính năng memory thì có vẻ là khái niệm tương tự Knowledge artifact của Google Antigravity
Tôi nghĩ trong cuộc thảo luận đang có sự lẫn lộn giữa hai thứ
Thứ nhất là khả năng sinh lời dựa trên đơn giá token, thứ hai là kinh tế học vòng đời của mô hình
Chi phí suy luận có thể có lãi, nhưng toàn bộ chương trình mô hình vẫn có thể đang lỗ
Câu hỏi thật sự là “mô hình phải duy trì năng lực cạnh tranh trong bao lâu thì mới hợp lý về mặt kinh tế?”
Không cần là tốt nhất, chỉ cần đủ tốt, và nếu chi phí chuyển đổi cao thì vẫn có thể thống trị thị trường
Ngay từ đầu, chấp nhận lỗ để giành thị phần ở một domain cụ thể (ví dụ: coding) có thể là chiến lược hợp lý
Nhưng những gói cho phép tăng mức sử dụng lên 20 lần thì tôi nghi ngờ tính bền vững
Không biết thời kỳ “vibe-coding renaissance” hiện nay có thể duy trì với cấu trúc chi phí như thế này hay không
Nhìn lãi lỗ theo từng năm là không phù hợp với đặc thù của doanh nghiệp AI
Chính nó đang nâng đỡ cơn sốt coding dạng agent hiện tại
Có lẽ là đang được trợ giá một phần, nhưng về dài hạn có khả năng tăng khoảng gấp đôi
Việc có cửa sổ ngữ cảnh 1M là một nâng cấp khổng lồ, tôi cực kỳ hài lòng
Tôi vẫn chưa thật sự hiểu chiến lược của Anthropic
Họ làm marketing hướng tới thị trường đại chúng nhưng điểm mạnh thực tế lại là tập trung vào coding
Trong nghiên cứu tổng quát hay tìm kiếm thông tin, ChatGPT hoặc Gemini sâu hơn nhiều và cách diễn đạt cũng tốt hơn
Họ quảng bá tính “hiến pháp” hay “nhân quyền”, nhưng lại khiến tôi cảm thấy mang tính giao dịch nhất
Dù vậy, dùng cho coding thì rất tuyệt nên tôi vẫn tiếp tục trả tiền
Những người bạn không chuyên kỹ thuật của tôi đã chuyển từ ChatGPT sang Claude và chưa thấy ai quay lại
8 tháng trước nó chỉ thực sự dùng được qua API, còn giờ đã tốt hơn rất nhiều
Tôi dùng tiếng Séc, Claude thì bịa ra từ mới, còn Grok đôi khi lại trả lời bằng tiếng Nga
Dùng để coding thì tốt, nhưng cho hội thoại thông thường thì không thể chấp nhận được
Nó tốt cho các tác vụ dạng agent hay dùng công cụ, nhưng tôi không dùng cho các câu hỏi thường ngày
Opus 4.6 không hiện trong cài đặt, nhưng sau khi chạy lại lệnh cài đặt thì nó đã xuất hiện (v2.1.32)
Hướng dẫn cài đặt
Tôi tò mò liệu chi phí vận hành của AI/LLM có thực sự đang giảm hay không
Khái niệm “đội agent” nghe rất hay, nhưng nếu chạy nhiều mô hình cùng lúc thì chi phí đội lên lớn nên tôi cảm thấy ngoài thực tế sẽ khó khả thi
OpenAI đã hạ giá o3 xuống còn 1/5 nhờ tối ưu kỹ thuật, và các công ty khác cũng đạt được mức tiết kiệm tương tự
Câu chuyện ngày xưa rằng “họ lỗ trên mọi request” là không đúng sự thật
Cả công ty thì lỗ vì R&D và chi phí huấn luyện, nhưng bản thân việc dùng API là có lãi
Ngay cả các mô hình mở như DeepSeek cũng vẫn có lãi ở mức giá thấp hơn rất nhiều
Ví dụ Claude 4 (khoảng 400B tham số) đắt hơn rất nhiều so với DeepSeek V3 (680B)
Claude input $1/M, output $5/M so với DeepSeek input $0.4/M, output $1.2/M
Sự chênh lệch này là vì Anthropic cần thu hồi chi phí huấn luyện
Giá DeepSeek, giá Claude
Chỉ nhìn doanh thu suy luận thì có lãi, nhưng tính toàn bộ chi phí thì có thể không phải vậy
Tôi dùng nó như trợ lý coding nhưng thường xuyên phải chỉnh lại hướng đi
Dù vậy, nó vẫn rẻ hơn rất nhiều so với việc thuê nhân sự có tay nghề
Câu “We build Claude with Claude” khá thú vị
Dù tự động dọn khi không hoạt động trong 60 ngày, con số này vẫn tiếp tục tăng
Ngoài việc câu khẩu hiệu đó bộc lộ thành kiến ra thì nó không có nhiều ý nghĩa
Tự dùng sản phẩm của chính mình là cách tốt nhất để cải thiện chất lượng
Đó là lý do các wrapper đang bùng nổ như hiện nay, và tôi nghĩ sớm muộn cũng sẽ có sự cố bảo mật
Họ đang cung cấp thêm $50 credit để trải nghiệm Opus 4.6
Có thể nhận ngay tại trang usage
Có lẽ họ đang kỳ vọng mức sử dụng token tăng lên hoặc đơn giản là muốn quảng bá mô hình