- Hiệu năng kỹ thuật phần mềm nâng cao được cải thiện, xử lý các tác vụ phức tạp và chạy dài với độ nhất quán và chính xác cao
- Khả năng nhận thức thị giác và hiểu đa phương thức được nâng cấp, cho phép phân tích thông tin trực quan phức tạp như ảnh độ phân giải cao, sơ đồ kỹ thuật, cấu trúc hóa học
- Tích hợp các biện pháp bảo vệ an ninh mạng, tự động phát hiện và chặn các yêu cầu rủi ro cao; các nhà nghiên cứu bảo mật hợp pháp có thể tham gia Cyber Verification Program
- Các tính năng mới như điều khiển Effort, Task Budget, lệnh ultrareview cải thiện hiệu quả công việc dài hạn và khả năng kiểm chứng chất lượng mã
- Hiệu năng tăng 13% so với Opus 4.6 cùng độ tin cậy cao hơn, và Anthropic đang chuẩn bị cho việc công bố an toàn các mô hình cấp Mythos dựa trên nền tảng này
Tổng quan về Claude Opus 4.7
- Claude Opus 4.7 là mô hình có hiệu năng kỹ thuật phần mềm nâng cao được cải thiện đáng kể so với Opus 4.6, có thể xử lý các tác vụ phức tạp và kéo dài với độ nhất quán và độ chính xác cao
- Người dùng có thể tin tưởng và giao phó các tác vụ lập trình khó hơn so với trước đây, và mô hình sẽ tự kiểm chứng rồi báo cáo kết quả
- Khả năng nhận thức thị giác được tăng cường, thể hiện chất lượng và tính sáng tạo cao trên ảnh độ phân giải cao, giao diện, slide, tài liệu, v.v.
- Dù năng lực tổng quát thấp hơn Claude Mythos Preview của Anthropic, mô hình vẫn ghi nhận kết quả tốt hơn Opus 4.6 trên nhiều benchmark
- Có thể sử dụng trên toàn bộ dòng sản phẩm Claude và API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry, với mức giá giữ nguyên như Opus 4.6
Các biện pháp liên quan đến an ninh mạng
- Thông qua Project Glasswing, Anthropic công khai cả rủi ro lẫn lợi ích an ninh mạng của AI, hạn chế công khai Mythos Preview và quyết định ưu tiên thử nghiệm bảo mật trên các mô hình ít mạnh hơn
- Opus 4.7 là mô hình đầu tiên theo hướng này, bao gồm các biện pháp bảo vệ tự động phát hiện và chặn các yêu cầu an ninh mạng bị cấm hoặc rủi ro cao
- Dựa trên dữ liệu triển khai thực tế, Anthropic đang chuẩn bị cho việc công bố rộng rãi hơn các mô hình cấp Mythos trong tương lai
- Các nhà nghiên cứu bảo mật hợp pháp (phân tích lỗ hổng, kiểm thử xâm nhập, red team, v.v.) có thể tham gia Cyber Verification Program
Hiệu năng chính và phản hồi từ người dùng
- Trong các bài kiểm thử ban đầu, đã xác nhận khả năng tự phát hiện lỗi logic và tăng tốc độ thực thi
- Mô hình thể hiện hiệu năng nổi bật trong quy trình bất đồng bộ, CI/CD, tác vụ tự động hóa chạy dài, đồng thời tiếp cận vấn đề sâu hơn và đưa ra ý kiến, thay vì chỉ đơn thuần đồng ý
- Tránh suy luận sai khi thiếu dữ liệu, và không rơi vào bẫy dữ liệu không nhất quán
- Trên 93 benchmark lập trình, mô hình cải thiện 13% so với Opus 4.6, đồng thời giải thêm 4 bài toán trước đó không thể giải được
- Cho thấy mức độ nhất quán hàng đầu về hiệu quả tác vụ nhiều bước; trong mô-đun tài chính đạt 0.813, vượt Opus 4.6 (0.767)
- Khả năng hiểu đa phương thức được cải thiện, nâng cao năng lực diễn giải cấu trúc hóa học và sơ đồ kỹ thuật phức tạp
- Khả năng tự chủ thực hiện các tác vụ dài hạn được tăng cường, cho phép giải quyết vấn đề nhất quán trong nhiều giờ
- Nhiều công ty như Replit, Harvey, Hex, Notion, Databricks, Vercel báo cáo sự cải thiện về chất lượng mã, độ chính xác khi gọi công cụ, độ tin cậy của workflow dài hạn
- Một ví dụ thực tế là mô hình đã phát triển hoàn toàn tự chủ một engine tổng hợp giọng nói dựa trên Rust, rồi tự kiểm chứng mức độ khớp với mô hình tham chiếu Python
Các cải tiến chính trong thử nghiệm ban đầu
-
Độ chính xác khi diễn giải chỉ thị
- Opus 4.7 diễn giải chỉ dẫn theo đúng nghĩa đen và tuân thủ nghiêm ngặt hơn nhiều so với các mô hình trước
- Prompt hiện tại có thể cho ra kết quả ngoài dự kiến, nên cần tinh chỉnh lại prompt
-
Tăng cường hỗ trợ đa phương thức
- Có thể xử lý hình ảnh với độ phân giải tối đa 2.576 pixel (khoảng 3,75MP)
- Phù hợp cho các tác vụ tận dụng thông tin thị giác chi tiết như phân tích sơ đồ phức tạp, trích xuất dữ liệu từ ảnh chụp màn hình
-
Hiệu năng trong công việc thực tế
- Đạt mức chuyên môn và độ nhất quán cao hơn Opus 4.6 trong phân tích tài chính, thuyết trình, mô hình hóa
- Trong đánh giá bên ngoài GDPval-AA, mô hình cũng đạt nhóm dẫn đầu trong các lĩnh vực lao động tri thức như tài chính và pháp lý
-
Khai thác bộ nhớ
- Sử dụng hiệu quả bộ nhớ dựa trên hệ thống tệp để ghi nhớ và tái sử dụng ngữ cảnh công việc qua nhiều phiên
Đánh giá an toàn và căn chỉnh
- Nhìn chung, mô hình có hồ sơ an toàn tương tự Opus 4.6, với tỷ lệ phát sinh các vấn đề như đánh lừa, nịnh nọt, hỗ trợ lạm dụng ở mức thấp
- Tính trung thực, khả năng chống prompt injection độc hại đã được cải thiện, nhưng ở một số lĩnh vực (ví dụ: đưa lời khuyên quá mức liên quan đến thuốc) có phần suy giảm nhẹ
- Kết luận đánh giá là: “Nhìn chung được căn chỉnh tốt và đáng tin cậy, nhưng chưa hoàn toàn lý tưởng”
- Mythos Preview vẫn được đánh giá là mô hình được căn chỉnh tốt nhất
Các tính năng phát hành bổ sung
-
Tăng cường điều khiển Effort
- Bổ sung mức
xhigh mới giữa high và max, cho phép điều chỉnh tinh hơn giữa năng lực suy luận và độ trễ
- Trong Claude Code, mức Effort mặc định được nâng lên
xhigh
-
Claude Platform(API)
- Cùng với hỗ trợ ảnh độ phân giải cao, tính năng Task Budget được cung cấp dưới dạng beta công khai, cho phép điều chỉnh ưu tiên sử dụng token trong các tác vụ dài hạn
-
Claude Code
- Lệnh mới
/ultrareview dùng để chạy phiên rà soát thay đổi mã và phát hiện lỗi
- Người dùng Pro và Max được 3 lượt ultrareview miễn phí
- Auto Mode được mở rộng cho người dùng Max để giảm thủ tục phê duyệt trong các tác vụ dài hạn và cho phép chạy liên tục không gián đoạn
Di chuyển từ Opus 4.6 sang 4.7
- Opus 4.7 có thể nâng cấp trực tiếp, nhưng cần lưu ý đến thay đổi về mức sử dụng token
- Do tokenizer mới, cùng một đầu vào có thể được chuyển thành số token nhiều hơn khoảng 1,0~1,35 lần
- Ở mức Effort cao, mô hình thực hiện nhiều suy luận hơn nên token đầu ra có thể tăng
- Có thể kiểm soát mức sử dụng token bằng tham số Effort, Task Budget và thiết kế prompt ngắn gọn
- Trong các thử nghiệm nội bộ, hiệu quả đã được cải thiện trên toàn bộ các mức Effort
- Phương pháp nâng cấp chi tiết được cung cấp trong Migration Guide
1 bình luận
Ý kiến trên Hacker News
Tôi thấy khái niệm adaptive thinking mới được đưa vào quá khó hiểu
Trước đây tôi vẫn viết code với chế độ thinking budget / effort, nhưng giờ nó hoạt động hoàn toàn khác
Xem tài liệu chính thức rồi mà tôi vẫn chưa nắm được
Hơn nữa ở 4.7 mặc định không còn xuất ra bản tóm tắt reasoning mà con người có thể đọc được. Phải tự thêm tùy chọn
"display": "summarized"Tôi đang thử chạy dự án Pelican, nhưng cứ liên tục bị vướng vì kiểu thinking mới này
Xem thread liên quan
Tắt adaptive thinking và tăng effort thì nó lại trở về mức như trước
Nhưng nói rằng “đánh giá nội bộ cho thấy nó ổn” là không đủ. Rất nhiều người dùng đang báo cùng một vấn đề
Ảnh chụp màn hình
--thinking-display summarizedNgười dùng VS Code có thể tạo một wrapper script chứa
exec "$@" --thinking-display summarizedrồi đưa vào thiết lậpclaudeCode.claudeProcessWrapperđể xem lại phần tóm tắt reasoningTrước đây việc để lộ CoT (Chain of Thought) của LLM từng được xem là cốt lõi của an toàn, nhưng có vẻ hướng đi đã thay đổi
Tokenizer mới của Opus 4.7 giúp tăng hiệu quả xử lý văn bản, nhưng đầu vào lại được ánh xạ thành số token nhiều hơn từ 1.0 đến 1.35 lần
Vì vậy tôi lại thấy đầu ra của dự án caveman dễ đọc hơn
Kho caveman
Vì phần lớn context được dùng cho việc đọc file và reasoning, nên hiệu quả tiết kiệm token thực tế còn chưa đến 1%. Thậm chí còn có thể làm mô hình rối hơn
ứng dụng mac, bản CLI
Tôi nghĩ các từ phổ biến có thể là nhiễu, nhưng kết quả gần như không khác gì
Tôi muốn thử so sánh với caveman
Lý do là lượng reasoning token sử dụng đã giảm xuống. Điều này cho thấy giờ so sánh chi phí mô hình chỉ bằng đơn giá token không còn nhiều ý nghĩa nữa
Sau khi thấy Anthropic công bố Opus 4.7 là mô hình bị hạn chế về an ninh mạng, tôi cảm thấy đây là một chiến lược thất bại
Vừa kiểm duyệt tri thức bảo mật lại vừa muốn phát triển phần mềm an toàn là điều mâu thuẫn
Trừ khi mọi công ty AI đều áp dụng cùng một chính sách, nếu không thì cũng không có nhiều hiệu lực. Cuối cùng có lẽ họ sẽ phải từ bỏ cách tiếp cận này
Nhưng các hạn chế kiểu này lại đẩy bảo mật theo hướng tập trung hóa, nên khó coi đó là cải thiện bảo mật thực sự
Giống như khi bắt ai đó đứng trước bảng trắng trong buổi phỏng vấn thì IQ giảm 10%, mô hình cũng bị co cụm lại
Vì thế có vẻ họ đang đi theo hướng “làm cho nó ngu đi một cách có chọn lọc”. Có lẽ họ đã bắt đầu thử nghiệm điều đó rồi
Xét ở chỗ kẻ tấn công chỉ cần thành công một lần, còn bên phòng thủ phải thành công mọi lần, nó có thể giúp câu giờ
Tuần trước vì chất lượng 4.6 giảm sút nên cuối cùng tôi đã chuyển sang Codex
4.6 thậm chí không tìm kiếm web mà lại nhồi 17K token toàn thứ vô nghĩa. Ví dụ xử lý song song cũng được triển khai sai hoàn toàn
Lượng token sử dụng đột nhiên tăng vọt, và cách phản hồi thờ ơ của đội hỗ trợ là giọt nước tràn ly
Bug thì còn có thể hiểu, nhưng thái độ với khách hàng thì khó chấp nhận
Sau khi chuyển sang Codex thì ít nhất công việc còn tiến triển, thế là đủ
Codex đang tăng gấp đôi hạn mức sử dụng để hút khách của Claude, và PR cũng tốt hơn nhiều
Có vẻ 90% vấn đề của Claude là do thiếu compute
Vì AI lúc nào cũng phải trông như đang “tiến bộ”, mà đình trệ thì đồng nghĩa với cái chết của hype
Nhanh hơn thật, nhưng nếu chỉ cho ra code chất lượng thấp nhanh hơn thì cũng vô nghĩa
Gemini CLI còn chậm hơn và chất lượng cũng kém hơn
Codex có xu hướng nịnh rằng mọi thứ đều “hoàn hảo” kể cả khi có bug, nên khá nguy hiểm
Khả năng thực thi của nó rất tốt, và OpenAI không cần marketing mà để kết quả tự nói lên tất cả
Cảm giác giống Google thời kỳ đầu, cạnh tranh bằng chất lượng sản phẩm
Bộ lọc an ninh mạng của Opus 4.7 đang quá gắt, đến mức chặn cả nghiên cứu hợp pháp
Ngay cả khi lấy trực tiếp guideline của chương trình từ web, nó vẫn chặn là “yêu cầu nguy hiểm”
Nếu cứ thế này tôi sẽ chuyển sang Codex
Như thông báo chính thức, có những tính năng cần làm thủ tục xác minh mới được truy cập
Vì vậy toàn bộ nghiên cứu đang làm đều bị chặn
Có lẽ mô hình đã phát hiện trong reasoning nội bộ của chính nó một bước trông giống “tấn công”
Có vẻ khi bug hunting dần chuyển sang các bước mang tính tấn công hơn thì bộ lọc sẽ kích hoạt
Giờ là thời đại mà vi phạm chính sách là segfault mới
Chỉ cần chứa vài từ nhất định là nó đã phản ứng quá mức
Giờ thành ra tôi phải xin AI cho phép xem dự án của mình có phải mã độc hay không. Tôi sắp hủy đăng ký rồi
Thread này là một bài học hay cho các nhà sáng lập
Nó cho thấy chỉ cần một chút giao tiếp trung thực cũng có thể làm dịu đi biết bao nhiêu bất mãn
Với tư cách người đang ghim ứng dụng ở Opus 4.5, giờ tôi còn không phân biệt nổi là lỗi ở model hay lỗi ở harness
Đôi khi chỉ đơn giản là xui thôi
Như vậy tôi có thể điều chỉnh giờ làm việc để chạy các tác vụ nặng vào ban đêm
Trong cảnh hỗn loạn như thế này, tôi nghĩ dùng model broker hoặc một lớp trung gian kiểu Copilot là lựa chọn khôn ngoan
Tôi cảm thấy cần có một dịch vụ như “AI tiêu chuẩn”, lúc nào cũng cung cấp cùng một model
Theo benchmark riêng của đội chúng tôi, Opus 4.7 chiến lược hơn và thông minh hơn 4.6/4.5
Nó gần như ngang GPT-5.4, và trong các phiên agentic có dùng công cụ thì thậm chí còn cho hiệu năng tốt nhất
Link benchmark
Tuy nhiên ở xử lý context có một chút thụt lùi. Chúng tôi đang thêm benchmark để trực quan hóa điều này
Gần đây mức độ tin tưởng vào Anthropic đã giảm
Việc họ tung ra 4.7 ngay sau đợt hạ cấp của 4.6 khiến tôi thấy bất an
Giờ cần giao tiếp minh bạch
OpenAI đầu tư vào compute từ sớm, và giờ đó là lợi thế lớn
Cũng có khả năng họ đang distillation Mythos bằng Opus 4.7
Có lẽ nguyên nhân là do cập nhật harness
Dạo gần đây các bình luận kiểu “tôi chuyển sang Codex rồi” tăng đột biến
Nhưng dùng thực tế thì Codex vẫn chưa đạt tới mức của Claude
Những bình luận mang tính quảng bá như vậy chỉ càng làm giảm độ tin cậy
Công ty chúng tôi dùng cả hai model, còn tôi thì giờ gần như chỉ dùng Codex
Tôi thấy tốc độ và kết quả của nó tốt hơn
Tuy nhiên chất lượng phản hồi thì Claude tốt hơn. Ưu và nhược điểm rất rõ ràng
Nhưng Codex lại cho ra kết quả “đúng về mặt kỹ thuật nhưng kỳ quặc về mặt con người”
Vì vậy tôi dùng Claude để viết đặc tả rồi dùng Codex để thực thi
Và nghi ngờ rằng sau này họ rồi sẽ tăng giá
Chính sách hạn chế bảo mật của Opus 4.7 có thể là chí mạng
Muốn nghiên cứu tấn công và phòng thủ thì cần năng lực đối xứng, mà ngăn điều đó lại là rất nguy hiểm