7 điểm bởi GN⁺ 2025-08-06 | 1 bình luận | Chia sẻ qua WhatsApp
  • Claude Opus 4.1 là phiên bản nâng cấp tăng cường lập trình thực tế, tác vụ theo hướng agentic và năng lực suy luận
  • Trên SWE-bench Verified, model đạt 74,5% hiệu năng lập trình cao nhất, thể hiện kết quả nổi bật trong gỡ lỗi chính xác trên cơ sở mã quy mô lớn và tái cấu trúc đa tệp
  • Từ các người dùng thực tế như Rakuten, GitHub, Windsurf, Opus 4.1 nhận được đánh giá tích cực về độ chính xác sửa mã, hiệu quả gỡ lỗi hằng ngày, và sự cải thiện rõ rệt ở benchmark của lập trình viên cấp junior
  • Với tái cấu trúc nhiều tệp và sửa mã chi tiết, hiệu năng của Opus 4.1 trong môi trường phát triển thực tế trở nên tinh vi hơn
  • Nếu đã là người dùng Opus 4 trước đó, có thể dùng ngay không tốn chi phí bổ sung trên API, Claude Code, Amazon Bedrock, Google Vertex AI

Tính năng nổi bật của Claude Opus 4.1

  • So với Claude Opus 4 trước đó, hiệu năng được cải thiện ở công việc agentic, viết mã thực tế và các tác vụ suy luận phức tạp
  • Trong vài tuần tới, model dự kiến sẽ có đợt cải tiến lớn hơn

Cải tiến chính

  • SWE-bench Verified đạt 74,5% hiệu năng mã
    • Nghiên cứu chuyên sâu và phân tích dữ liệu cải thiện rõ rệt, đặc biệt trong theo dõi chi tiết nội dung và tìm kiếm agentic
    • Ghi điểm cao trong benchmark dựa trên mã thực tế để giải quyết bug trong kho mã nguồn mở quy mô lớn
  • Tái cấu trúc đa tệp, gỡ lỗi chính xác trong codebase quy mô lớn được tối ưu cho công việc lập trình viên thực tế
    • GitHub cho thấy Opus 4.1 cải thiện hiệu năng so với Opus 4 ở hầu hết các chức năng, đặc biệt thể hiện kết quả nổi bật ở bài toán tái cấu trúc mã nhiều tệp
    • Rakuten Group đánh giá cao Opus 4.1 vì nó chỉ sửa đúng phần cần thiết trong codebase khổng lồ, duy trì style mà không tạo sửa đổi không cần thiết hay đưa lỗi mới
    • Windsurf cho thấy trong benchmark lập trình viên mới của riêng họ, Opus 4.1 có điểm cao hơn Opus 4 khoảng một độ lệch chuẩn; điều này được đánh giá như bước nhảy hiệu năng tương đương khi nâng cấp từ Sonnet 3.7 lên Sonnet 4

So sánh hiệu năng theo các hạng mục chính

  • Agentic coding (SWE-bench Verified)
    • Claude Opus 4.1: 74.5%
    • Claude trước đó (Opus 4): 72.5%, Claude Sonnet 4: 72.7%
    • OpenAI o3: 69.1%
    • Gemini 2.5 Pro: 67.2%
    • Ghi nhận độ chính xác cao nhất trong tác vụ sửa mã nguồn mở thực tế
  • Agentic terminal coding (Terminal-Bench)
    • Claude Opus 4.1: 43.3% (cao nhất)
    • Opus 4: 39.2%
    • Sonnet 4: 35.5%
    • OpenAI o3: 30.2%
    • Gemini 2.5 Pro: 25.3%
  • Graduate-level reasoning (GPQA Diamond)
    • Claude Opus 4.1: 80.9%
    • Opus 4: 79.6%
    • Sonnet 4: 75.4%
    • OpenAI o3: 83.3% (cao nhất)
    • Gemini 2.5 Pro: 86.4% (cao nhất)
  • Agentic tool use (TAU-bench)
    • Kịch bản bán lẻ: Claude Opus 4.1 82.4% (cao nhất), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
    • Kịch bản hàng không: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
    • Gemini 2.5 Pro không cung cấp điểm số cho hạng mục này
  • Multilingual Q&A (MMMLU)
    • Claude Opus 4.1: 89.5% (cao nhất)
    • Opus 4: 88.8%
    • Sonnet 4: 86.5%
    • OpenAI o3: 88.8%
    • Gemini 2.5 Pro: chưa công bố
  • Visual reasoning (MMMU)
    • Claude Opus 4.1: 77.1%
    • Opus 4: 76.5%
    • Sonnet 4: 74.4%
    • OpenAI o3: 82.9% (cao nhất)
    • Gemini 2.5 Pro: 82% (cao nhất)
  • High school math competition (AIME 2025)
    • Claude Opus 4.1: 78.0%
    • Opus 4: 75.5%
    • Sonnet 4: 70.5%
    • OpenAI o3: 88.9% (cao nhất)
    • Gemini 2.5 Pro: 88% (cao nhất)
  • Tóm tắt bảng benchmark

    • Claude Opus 4.1 cho thấy xu hướng tăng đều đặn ở tất cả lĩnh vực so với bản trước, đồng thời ghi điểm cao nhất trong các benchmark tập trung vào thực tế như tự động hóa mã, tái cấu trúc đa tệp, QA đa ngôn ngữ và sử dụng công cụ
    • Trong các lĩnh vực toán, suy luận trực quan và suy luận nâng cao (GPQA), OpenAI o3, Gemini 2.5 Pro vượt lên ở một phần, nhưng trong năng suất code thực tế và QA đa ngôn ngữ thì Claude Opus 4.1 nổi trội nhất
    • Kịch bản hàng không (Agentic tool use) giảm nhẹ, Visual reasoning và toán chỉ nhỉnh hơn một chút ở mô hình khác

Môi trường sử dụng và triển khai thực tế

  • Người dùng Opus 4 hiện tại được khuyến nghị nâng cấp trực tiếp trên API sang claude-opus-4-1-20250805
  • Có thể triển khai và sử dụng qua nhiều kênh khác nhau như API, Claude Code, Amazon Bedrock, Google Vertex AI
  • Áp dụng cùng chính sách giá với Opus 4, và người dùng hiện tại nên nâng cấp ngay
  • Bên cạnh hệ thống card, mô tả model, giá và tài liệu chính thức, Anthropic cũng công bố chi tiết benchmark và phương pháp đánh giá

Kế hoạch tiếp theo

  • Opus 4.1 là bản nâng cấp vừa phải, phản ánh bước tiến mới nhất trong lĩnh vực mã hóa và suy luận, đồng thời dự báo sẽ có bước nhảy lớn hơn trong vài tuần tới
  • Dựa trên phản hồi người dùng, sẽ có kế hoạch cải tiến hiệu năng và mở rộng tính năng liên tục

Tham khảo

  • Các dữ liệu so sánh với các model mới nhất của bên thứ ba như OpenAI o3, Gemini 2.5 Pro, kết quả benchmark và việc mô hình nào có sử dụng tính năng suy luận mở rộng đều được ghi rõ và công khai

1 bình luận

 
GN⁺ 2025-08-06
Ý kiến trên Hacker News
  • Ba phòng lab lớn đã đồng loạt phát hành một thứ gì đó trong cách nhau vài giờ, giống như cảnh chuyển đề trong anime kiểu điên cuồng.
    • Đây là lý do có đội PR tồn tại: việc được chú ý trên trang chủ HN hay site tin tức cực kỳ quan trọng; dù không thể giành số 1, mình nghĩ vẫn cần làm loãng mức độ quan tâm của thị trường đối thủ.
    • Khi xét tin đồn về GPT-5, mình nghĩ bọn họ mới chỉ mới đầu tháng 8.
    • Thật khó tin là vẫn đang sống trong thời đại này.
    • Cảm giác như chờ đối thủ công bố trước rồi mới ra mắt cùng lúc để thị trường tự quyết định cái nào tốt nhất.
    • Mình cho rằng đây chắc chắn không phải ngẫu nhiên.
  • Opus 4(.1) đắt thật liên kết. Nếu dùng Sonnet trên OpenRouter + Codename Gooseliên kết, chi phí cũng vào khoảng 5 USD/giờ. Điều đáng kinh ngạc là Sonnet 3.5liên kết cũng cùng mức giá. Gemini Flashliên kết tương đối hợp lý hơn, nhưng cuối cùng vẫn hay vòng vèo mà chưa ra quyết định dứt khoát. OpenAI không tệ, nhưng chưa chạm tới hiệu năng của Claude; riêng Claude thì khi bấm CTRL-C giữa chừng sẽ nhận lỗi 400 từ API nên khó chịu. Mình ưu tiên hiệu quả chi phí nên thấy OpenAI ChatGPT 4.1 miniliên kết có chi phí-hiệu quả tốt nhất; không có chuyện phun token linh tinh, API luôn chạy ổn, có lúc lẫn lộn nhưng rồi cũng xử lý được.
    • Mình nghĩ mô hình lớn dành cho truy vấn kiểu “mô hình”, mô hình nhỏ cho câu hỏi ngữ cảnh. Opus cũng có thể rẻ nếu dùng đúng ngách.
    • Dùng Claude Code theo subscription thì rẻ hơn đáng kể; với gói Max của mình, dùng cả ngày cả ngày với Claude Code trong 2 tuần qua mà chỉ chạm giới hạn 2 lần.
    • Mỗi lần mình so sánh giá, Claude API luôn là rẻ nhất. Nếu chạy cache ngữ cảnh tốt, phí đầu vào giảm gần 90%, đây là con số cực lớn.
    • Mình cũng muốn nhắc thêm các lựa chọn khác như GLM 4.5, Kimi K2, Qwen Coder 3, Gemini Pro 2.5.
  • Dù quảng cáo rằng Opus vượt trội gần như ở mọi mặt coding, mình lại thấy Sonnet tốt hơn; có ai đã chuyển hẳn sang Opus chưa, hay chỉ dùng Opus cho một số tác vụ nhất định?
    • Có thể Opus về kỹ thuật mạnh hơn, nhưng thực tế chênh lệch không rõ ràng. Việc để LLM xử lý một lần đúng một bài triển khai phức tạp gần như không thể: quá nhiều thứ phải giải thích, cuối cùng phải tự đắp vào code mới mới phát hiện ra.
    • Dù Opus đưa ra câu trả lời nghe có vẻ “đỉnh”, vẫn cần hiểu vì sao ra kết quả đó, vì sao nó phù hợp với ngữ cảnh của mình. Công việc mình phần lớn là các mảnh việc lặp đi lặp lại nên Sonnet đã đủ.
    • Khi Sonnet “điên” bất ngờ (một hai lần mỗi ngày), chuyển sang Opus dường như giải bài nhanh hơn; dù đây là kinh nghiệm phi khoa học, và có khả năng đổi model nào khác cũng cho cảm giác dễ hơn thôi.
    • Lời “Sonnet tốt hơn” không có căn cứ khoa học. Với model càng to thì càng tốt là điều hiển nhiên nên người ta không nhắc nhiều, trái lại “mô hình nhỏ tốt hơn” nghe như lời khuyên nên có vẻ được nhắc đến nhiều hơn. Mình dò qua chuyện này tối qua, mỗi người nói một kiểu; kết luận đáng nắm nhất là khi có gói Max, việc hạ tạm từ Opus sang Sonnet không đáng để quá lo sợ về việc chất lượng giảm.
    • Opus dường như tốt hơn cho bài toán giải quyết phức tạp nhiều bước hoặc cần theo dõi ngữ cảnh dài. Nên mình dùng Opus cho việc khó, còn lại là Sonnet; như vậy nhìn chung đủ và chạm giới hạn token ít hơn.
    • Trường hợp của mình: Max plan thì Opus cho output tốt hơn Sonnet một chút, nhưng chỉ khi có thể dùng Opus. Vui tai là dù đang Max mà giới hạn vẫn nhanh vướng, tối qua tới nơi làm việc chỉ vài phút đã chạm rồi.
  • Opus 4.1 trông giống Opus 4, thậm chí còn làm tốn token nhanh hơn; giá như có hiển thị mức dùng ra bao nhiêu thì tốt hơn. Ít nhất Sonnet 4 vẫn còn dùng được, nhưng output ngày càng mơ hồ hơn. Hôm nay mình “đốt” buổi sáng vào Claude Code, và nghĩ lại có lẽ tự làm tay đã đỡ hơn.
    • Mình cũng thấy Sonnet đang dần tụt chất lượng: giải thích dài hơn, nhiều chi tiết rườm rà hơn, cứ thành danh sách, thậm chí còn tán thành quá mức khiến mình có thói quen chán ngấy vì nó hay chiều.
    • Mình đoán vì dự án của mình lớn ra. Claude Code từ 2 ngàn dòng lên hơn 100 ngàn dòng; khi cố theo dõi nó thì thật sự khó chịu là chuyện đương nhiên.
    • Opus 4.1 mới đầu đã muốn tạo cả web app luôn, nhưng khác với robot tắc nghẽn trước đó, nó nắm ngữ cảnh nhanh hơn và đặt câu hỏi đúng về hệ thống để làm xong tài liệu cập nhật. Trước kia mỗi chat phải lặp lại một giải thích giống nhau rất bực bội, giờ thì không phải. Đổi lại tốc độ tiêu token chắc chắn nhanh hơn nên giờ khó nói chuyện hàng giờ như trước được nữa; miễn là nó xử lý xong tác vụ cuối trước khi token cạn, mình cũng chấp nhận.
    • Với cụm “Mình đã đốt cả sáng cho Claude Code”, mình nghĩ tới “Welcome to the machine”liên kết.
  • Model mới làm lại stream Claude Plays Pokemonliên kết, trước đây Team Rocket bị kẹt trong chỗ ẩn suốt vài tuần.
  • Bài viết nói “một số tuần nữa sẽ cải thiện đáng kể”. Dù Sonnet 4 hợp nhất cho sản phẩm của tụi mình, mình vẫn muốn thử Haiku 4 (hay 4.1) vì rẻ. Điều khiến mình ngạc nhiên là Anthropic lần này không nhắc gì đến Haiku 4.
  • Hôm nay là ngày tệ nhất kể từ khi dùng Claude, thực sự mọi thứ hư hỏng hết. Không rõ có phải vì deploy hôm nay không, mà tài liệu còn hiện cả lời chửi và lỗi vẫn không sửa được dù loay hoay mấy tiếng.
  • Mình quan tâm nhất trong bài là chỗ “mô hình sẽ cải thiện đáng kể trong vài tuần tới”.
    • Mình nghĩ đó là lời để mọi người đừng bỏ sang GPT-5 ngay.
  • Cập nhật này theo chuẩn của họ cũng gần như không có tiến bộ; không tệ, nhưng có lẽ khó ai cảm nhận được khác biệt.
    • Có thể chủ yếu là khác biệt về vibe, nhưng mình nghĩ đó cũng là yếu tố quan trọng. Không có trong benchmark chuẩn, nhưng Opus 4.1 cho thấy cải thiện khoảng 1 độ lệch chuẩn trên benchmark lập trình viên junior so với Opus 4, tương đương mức nhảy từ Sonnet 3.7 lên Sonnet 4.
    • Mình chưa test kỹ, không thấy chênh lệch rõ về output; thay vào đó thấy nó làm theo tài liệu/hướng dẫn được cung cấp tốt hơn. Nhưng mình chưa thể định lượng hoặc xác nhận khách quan. Opus 4.1 không chỉ giỏi hơn trong phần tìm thông tin “Needles-in-the-Haystack” mà còn đi theo các yếu tố đó tốt hơn ngay cả khi không phải ra lệnh rõ.
    • Nên mình nghĩ vì thế họ gắn phiên bản 4.1, chắc chắn không phải 4.5.
    • Có vẻ như họ giữ chỗ cho thêm 10 model nữa; nếu benchmark đạt 100% thì chẳng cần model mới nên có cảm giác họ cố chỉnh chỉ số theo kiểu marketing. Dù sao thì vì cùng bộ dữ liệu huấn luyện mà giải chung một loại câu hỏi thôi, nên bài mới hoàn toàn thì vẫn yếu.
    • Trên ảnh bảng điểm, chỉ Opus 4.1 được highlight khá thú vị. Opus 4.1 chỉ cao nhất khoảng nửa benchmark; các phần còn lại không phải hoặc thậm chí thấp hơn Opus 4.0, trong khi điểm của đối thủ thì không hề có.
  • Khi giá Opus và Sonnet đều đắt ngang nhau, mình nghĩ mức dùng Opus chắc chắn không thể vượt Sonnet. Theo bảng xếp hạng OpenRouterliên kết, Sonnet 3.7 và 4 cộng lại đang xử lý hơn 17 lần token so với Opus 4.