- Claude Opus 4.1 là phiên bản nâng cấp tăng cường lập trình thực tế, tác vụ theo hướng agentic và năng lực suy luận
- Trên SWE-bench Verified, model đạt 74,5% hiệu năng lập trình cao nhất, thể hiện kết quả nổi bật trong gỡ lỗi chính xác trên cơ sở mã quy mô lớn và tái cấu trúc đa tệp
- Từ các người dùng thực tế như Rakuten, GitHub, Windsurf, Opus 4.1 nhận được đánh giá tích cực về độ chính xác sửa mã, hiệu quả gỡ lỗi hằng ngày, và sự cải thiện rõ rệt ở benchmark của lập trình viên cấp junior
- Với tái cấu trúc nhiều tệp và sửa mã chi tiết, hiệu năng của Opus 4.1 trong môi trường phát triển thực tế trở nên tinh vi hơn
- Nếu đã là người dùng Opus 4 trước đó, có thể dùng ngay không tốn chi phí bổ sung trên API, Claude Code, Amazon Bedrock, Google Vertex AI
Tính năng nổi bật của Claude Opus 4.1
- So với Claude Opus 4 trước đó, hiệu năng được cải thiện ở công việc agentic, viết mã thực tế và các tác vụ suy luận phức tạp
- Trong vài tuần tới, model dự kiến sẽ có đợt cải tiến lớn hơn
Cải tiến chính
- SWE-bench Verified đạt 74,5% hiệu năng mã
- Nghiên cứu chuyên sâu và phân tích dữ liệu cải thiện rõ rệt, đặc biệt trong theo dõi chi tiết nội dung và tìm kiếm agentic
- Ghi điểm cao trong benchmark dựa trên mã thực tế để giải quyết bug trong kho mã nguồn mở quy mô lớn
- Tái cấu trúc đa tệp, gỡ lỗi chính xác trong codebase quy mô lớn được tối ưu cho công việc lập trình viên thực tế
- GitHub cho thấy Opus 4.1 cải thiện hiệu năng so với Opus 4 ở hầu hết các chức năng, đặc biệt thể hiện kết quả nổi bật ở bài toán tái cấu trúc mã nhiều tệp
- Rakuten Group đánh giá cao Opus 4.1 vì nó chỉ sửa đúng phần cần thiết trong codebase khổng lồ, duy trì style mà không tạo sửa đổi không cần thiết hay đưa lỗi mới
- Windsurf cho thấy trong benchmark lập trình viên mới của riêng họ, Opus 4.1 có điểm cao hơn Opus 4 khoảng một độ lệch chuẩn; điều này được đánh giá như bước nhảy hiệu năng tương đương khi nâng cấp từ Sonnet 3.7 lên Sonnet 4
So sánh hiệu năng theo các hạng mục chính
- Agentic coding (SWE-bench Verified)
- Claude Opus 4.1: 74.5%
- Claude trước đó (Opus 4): 72.5%, Claude Sonnet 4: 72.7%
- OpenAI o3: 69.1%
- Gemini 2.5 Pro: 67.2%
- → Ghi nhận độ chính xác cao nhất trong tác vụ sửa mã nguồn mở thực tế
- Agentic terminal coding (Terminal-Bench)
- Claude Opus 4.1: 43.3% (cao nhất)
- Opus 4: 39.2%
- Sonnet 4: 35.5%
- OpenAI o3: 30.2%
- Gemini 2.5 Pro: 25.3%
- Graduate-level reasoning (GPQA Diamond)
- Claude Opus 4.1: 80.9%
- Opus 4: 79.6%
- Sonnet 4: 75.4%
- OpenAI o3: 83.3% (cao nhất)
- Gemini 2.5 Pro: 86.4% (cao nhất)
- Agentic tool use (TAU-bench)
- Kịch bản bán lẻ: Claude Opus 4.1 82.4% (cao nhất), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
- Kịch bản hàng không: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
- Gemini 2.5 Pro không cung cấp điểm số cho hạng mục này
- Multilingual Q&A (MMMLU)
- Claude Opus 4.1: 89.5% (cao nhất)
- Opus 4: 88.8%
- Sonnet 4: 86.5%
- OpenAI o3: 88.8%
- Gemini 2.5 Pro: chưa công bố
- Visual reasoning (MMMU)
- Claude Opus 4.1: 77.1%
- Opus 4: 76.5%
- Sonnet 4: 74.4%
- OpenAI o3: 82.9% (cao nhất)
- Gemini 2.5 Pro: 82% (cao nhất)
- High school math competition (AIME 2025)
- Claude Opus 4.1: 78.0%
- Opus 4: 75.5%
- Sonnet 4: 70.5%
- OpenAI o3: 88.9% (cao nhất)
- Gemini 2.5 Pro: 88% (cao nhất)
-
Tóm tắt bảng benchmark
- Claude Opus 4.1 cho thấy xu hướng tăng đều đặn ở tất cả lĩnh vực so với bản trước, đồng thời ghi điểm cao nhất trong các benchmark tập trung vào thực tế như tự động hóa mã, tái cấu trúc đa tệp, QA đa ngôn ngữ và sử dụng công cụ
- Trong các lĩnh vực toán, suy luận trực quan và suy luận nâng cao (GPQA), OpenAI o3, Gemini 2.5 Pro vượt lên ở một phần, nhưng trong năng suất code thực tế và QA đa ngôn ngữ thì Claude Opus 4.1 nổi trội nhất
- Kịch bản hàng không (Agentic tool use) giảm nhẹ, Visual reasoning và toán chỉ nhỉnh hơn một chút ở mô hình khác
Môi trường sử dụng và triển khai thực tế
- Người dùng Opus 4 hiện tại được khuyến nghị nâng cấp trực tiếp trên API sang
claude-opus-4-1-20250805
- Có thể triển khai và sử dụng qua nhiều kênh khác nhau như API, Claude Code, Amazon Bedrock, Google Vertex AI
- Áp dụng cùng chính sách giá với Opus 4, và người dùng hiện tại nên nâng cấp ngay
- Bên cạnh hệ thống card, mô tả model, giá và tài liệu chính thức, Anthropic cũng công bố chi tiết benchmark và phương pháp đánh giá
Kế hoạch tiếp theo
- Opus 4.1 là bản nâng cấp vừa phải, phản ánh bước tiến mới nhất trong lĩnh vực mã hóa và suy luận, đồng thời dự báo sẽ có bước nhảy lớn hơn trong vài tuần tới
- Dựa trên phản hồi người dùng, sẽ có kế hoạch cải tiến hiệu năng và mở rộng tính năng liên tục
Tham khảo
- Các dữ liệu so sánh với các model mới nhất của bên thứ ba như OpenAI o3, Gemini 2.5 Pro, kết quả benchmark và việc mô hình nào có sử dụng tính năng suy luận mở rộng đều được ghi rõ và công khai
1 bình luận
Ý kiến trên Hacker News