- Mẫu Sonnet mới nhất của Anthropic được cải thiện hiệu năng trên mọi lĩnh vực như viết mã, sử dụng máy tính, suy luận dài hạn, lập kế hoạch tác tử, công việc tri thức và thiết kế
- Hỗ trợ cửa sổ ngữ cảnh 1M token, với các cải tiến lớn về tính nhất quán, khả năng làm theo chỉ thị và chất lượng mã so với Sonnet 4.5
- Cung cấp trí tuệ ở mức Opus 4.5 với chi phí thấp hơn, đồng thời cho thấy kết quả ở mức con người trong công việc thực tế, hiểu tài liệu và thiết kế frontend
- Trong benchmark OSWorld, năng lực sử dụng máy tính tiếp tục được cải thiện, đồng thời khả năng phòng vệ trước prompt injection cũng được tăng cường
- Điểm cốt lõi là giúp nhà phát triển và doanh nghiệp có thể tận dụng suy luận cấp frontier và chất lượng mã cao mà không cần dùng mô hình chi phí cao
Tổng quan về Claude Sonnet 4.6
- Sonnet 4.6 là mô hình mạnh nhất trong dòng Sonnet của Anthropic, được nâng cấp toàn diện về mã hóa, sử dụng máy tính, suy luận dài hạn, công việc tri thức và thiết kế
- Hỗ trợ cửa sổ ngữ cảnh 1M token (beta), cho phép xử lý codebase lớn hoặc tài liệu dài trong một lần
- Được áp dụng làm mô hình mặc định cho người dùng gói Free và Pro, giá giữ nguyên như Sonnet 4.5 ở mức $3/$15 cho mỗi 1 triệu token
- Những người dùng đầu tiên áp đảo về mức độ ưa thích Sonnet 4.6 hơn Sonnet 4.5, và một số còn ưa thích hơn cả Opus 4.5
- Kết quả đánh giá an toàn cho thấy mô hình an toàn hơn hoặc tương đương các bản trước, và được đánh giá có “tính cách ấm áp, trung thực và thiên về xã hội”
Năng lực sử dụng máy tính
- Sonnet 4.6 đã phát triển thành một mô hình có thể thao tác máy tính như con người
- Được đánh giá bằng benchmark OSWorld khi thao tác phần mềm thực như Chrome, LibreOffice, VS Code trong môi trường ảo
- Sau 16 tháng cải thiện liên tục, mô hình cho thấy năng lực ở mức con người trong các tác vụ như điều hướng bảng tính phức tạp hoặc điền biểu mẫu web nhiều bước
- Dù vẫn chưa bằng con người có tay nghề cao nhất, tốc độ cải thiện hiệu quả công việc là rất nhanh
- Khả năng phòng vệ trước các cuộc tấn công prompt injection được cải thiện đáng kể so với Sonnet 4.5, đạt mức an toàn tương tự Opus 4.6
Đánh giá hiệu năng và benchmark
- Sonnet 4.6 mang lại trí tuệ cấp Opus với chi phí thấp hơn, và cải thiện toàn diện trên nhiều benchmark
- Trong bài kiểm tra Claude Code, 70% người dùng chọn Sonnet 4.6, với khả năng hiểu ngữ cảnh tốt hơn và giảm trùng lặp khi chỉnh sửa mã
- Được ưa thích hơn Opus 4.5 ở mức 59%, giảm hiện tượng thiết kế quá mức hoặc lười biếng, đồng thời nâng độ chính xác khi thực hiện chỉ thị
- Trong Vending-Bench Arena, mô hình vượt các đối thủ bằng chiến lược tập trung lợi nhuận giai đoạn cuối sau đầu tư ban đầu khi thực hiện mô phỏng vận hành dài hạn
- Trên OfficeQA, mô hình đạt năng lực hiểu tài liệu ngang với Opus 4.6; trong Financial Services Benchmark, tỷ lệ khớp đáp án tăng lên
- Ghi nhận độ chính xác 94% ở benchmark bảo hiểm và hiệu năng suy luận sâu tăng 15% trong bài test Box
- Trong bài test của Rakuten AI, mô hình đạt mức tạo mã iOS hàng đầu, với việc sử dụng toolchain hiện đại và chất lượng kiến trúc được cải thiện
Cập nhật sản phẩm và nền tảng
- Trên Claude Developer Platform, hỗ trợ adaptive thinking, extended thinking, context compaction (beta)
- Tự động tóm tắt ngữ cảnh cũ để tăng độ dài ngữ cảnh hiệu quả
- Cập nhật công cụ API:
- web search và fetch tự động viết và chạy mã để lọc kết quả tìm kiếm
- Các tính năng như code execution, memory, programmatic tool calling, tool search đã được cung cấp rộng rãi
- Add-in Claude in Excel hỗ trợ MCP connector, cho phép kết nối với dữ liệu bên ngoài như S&P Global, LSEG, PitchBook
- Sonnet 4.6 vẫn duy trì hiệu năng cao ngay cả không dùng extended thinking, và người dùng Sonnet 4.5 được khuyến nghị chuyển sang
- Opus 4.6 vẫn phù hợp hơn cho các tác vụ đòi hỏi suy luận sâu nhất như refactor mã hoặc điều phối đa tác tử
Các cách sử dụng
- Sonnet 4.6 hiện có trên mọi gói Claude, Claude Cowork, Claude Code, API và các nền tảng cloud lớn
- Gói miễn phí cũng được nâng cấp lên Sonnet 4.6, bao gồm tính năng tạo tệp, connector, skill và compaction
- Nhà phát triển có thể dùng ngay trong Claude API thông qua tên mô hình
claude-sonnet-4-6
Các con số và chỉ số đánh giá chính (tóm tắt chú thích)
- OSWorld: đánh giá tác vụ máy tính dựa trên phần mềm thực, Sonnet 4.6 được đo ở trạng thái ‘thinking off’
- SWE-bench Verified: điểm trung bình 80.2% qua 10 lần chạy
- ARC-AGI-2: đạt 60.4% ở chế độ nỗ lực tối đa
- MMMU-Pro: điểm số được điều chỉnh sau khi cải thiện phương pháp đánh giá
- Humanity’s Last Exam, BrowseComp và nhiều thử nghiệm khác được chạy khi bật sử dụng công cụ, tìm kiếm web và nén ngữ cảnh
1 bình luận
Ý kiến trên Hacker News
Khá ấn tượng khi họ tập trung vào việc sử dụng máy tính. Có vẻ họ đánh giá giá trị của hướng này là rất lớn. Nhưng phần an toàn vẫn còn đáng nghi ngờ. Theo đánh giá nội bộ của họ, hệ thống tấn công tự động có 8% xác suất xâm nhập thành công chỉ trong một lần thử, và nếu được thử không giới hạn thì tỷ lệ thành công lên tới 50%. Những con số này rất khó chấp nhận. Nếu không phải tôi đang hiểu sai điều gì, thì mức này là không thể đưa vào sử dụng thực tế
PDF đánh giá an toàn
Tôi đã đưa khoảng 900 bài trong tập thơ cá nhân vào Sonnet 4.6 để thử nghiệm, và thấy khác biệt lớn so với Opus 4.6. Opus 4.6 cho ra phân tích đáng kinh ngạc, còn Sonnet 4.6 thì vẫn hay bị hallucination và lỗi. Trong bài test coding cũng cho cảm giác tương tự. So với Opus thì còn kém khá xa
Sonnet 4.6 vẫn trả lời sai “bài toán tiệm rửa xe”. Tôi nhập nguyên văn câu hỏi gốc thì nó trả lời “hãy đi bộ”. Tôi thử nhiều biến thể khác nhau nhưng vẫn thất bại tương tự
Tôi cảm nhận rõ câu “cạnh tranh là tốt cho người tiêu dùng”. Càng cạnh tranh mạnh thì kết quả đầu ra càng tốt hơn
Bài test “tiệm rửa xe bằng trực thăng” là hay nhất. Sonnet 4.6 trả lời “hãy đi bộ”, và câu trả lời này buồn cười vì giống như đang châm biếm thói quen lái xe cho những quãng đường cực ngắn của người Mỹ
Thật bất ngờ khi Sonnet 4.6 có hiệu năng ngang Opus 4.5. Tốc độ tiến bộ này gợi nhớ tới tốc độ tăng hiệu năng máy tính trong thập niên 1990
Giá của Sonnet 4.5 là $3/$15 per million tokens, và tôi tự hỏi liệu có nhiều người sẵn sàng chấp nhận mức giá này không. Các mô hình open-weight đang bắt kịp rất nhanh và rẻ hơn nhiều
Tôi đã thêm hỗ trợ Opus/Sonnet 4.6 vào plugin llm.datasette.io, nên việc tạo ảnh bồ nông bị chậm lại. Kết quả đầu ra ở mức Opus 4.5, và là phiên bản đội một chiếc mũ chóp lụa rất đẹp
Blog liên quan
Mấy ngày gần đây tôi thử Sonnet 4.5 và thấy cuộc trò chuyện hấp dẫn và nhất quán một cách lạ thường.
Tôi đặt cài đặt cá nhân là “ưu tiên sự thật khách quan và phân tích phản biện, cấm đồng cảm cảm tính”, và nó làm theo rất tốt. ChatGPT cũng phản ứng tương tự
Nhiều người dùng báo rằng Opus 4.6 tiêu thụ token nhiều hơn 5~10 lần so với 4.5. Liên kết issue. Vẫn chưa có phản hồi chính thức. Vì vậy tôi định tiếp tục dùng 4.5
/models. Nếu đặt high thì lượng token tăng vọt