9 điểm bởi GN⁺ 2026-02-18 | 1 bình luận | Chia sẻ qua WhatsApp
  • Mẫu Sonnet mới nhất của Anthropic được cải thiện hiệu năng trên mọi lĩnh vực như viết mã, sử dụng máy tính, suy luận dài hạn, lập kế hoạch tác tử, công việc tri thức và thiết kế
  • Hỗ trợ cửa sổ ngữ cảnh 1M token, với các cải tiến lớn về tính nhất quán, khả năng làm theo chỉ thị và chất lượng mã so với Sonnet 4.5
  • Cung cấp trí tuệ ở mức Opus 4.5 với chi phí thấp hơn, đồng thời cho thấy kết quả ở mức con người trong công việc thực tế, hiểu tài liệu và thiết kế frontend
  • Trong benchmark OSWorld, năng lực sử dụng máy tính tiếp tục được cải thiện, đồng thời khả năng phòng vệ trước prompt injection cũng được tăng cường
  • Điểm cốt lõi là giúp nhà phát triển và doanh nghiệp có thể tận dụng suy luận cấp frontier và chất lượng mã cao mà không cần dùng mô hình chi phí cao

Tổng quan về Claude Sonnet 4.6

  • Sonnet 4.6 là mô hình mạnh nhất trong dòng Sonnet của Anthropic, được nâng cấp toàn diện về mã hóa, sử dụng máy tính, suy luận dài hạn, công việc tri thức và thiết kế
    • Hỗ trợ cửa sổ ngữ cảnh 1M token (beta), cho phép xử lý codebase lớn hoặc tài liệu dài trong một lần
  • Được áp dụng làm mô hình mặc định cho người dùng gói Free và Pro, giá giữ nguyên như Sonnet 4.5 ở mức $3/$15 cho mỗi 1 triệu token
  • Những người dùng đầu tiên áp đảo về mức độ ưa thích Sonnet 4.6 hơn Sonnet 4.5, và một số còn ưa thích hơn cả Opus 4.5
  • Kết quả đánh giá an toàn cho thấy mô hình an toàn hơn hoặc tương đương các bản trước, và được đánh giá có “tính cách ấm áp, trung thực và thiên về xã hội”

Năng lực sử dụng máy tính

  • Sonnet 4.6 đã phát triển thành một mô hình có thể thao tác máy tính như con người
    • Được đánh giá bằng benchmark OSWorld khi thao tác phần mềm thực như Chrome, LibreOffice, VS Code trong môi trường ảo
  • Sau 16 tháng cải thiện liên tục, mô hình cho thấy năng lực ở mức con người trong các tác vụ như điều hướng bảng tính phức tạp hoặc điền biểu mẫu web nhiều bước
  • Dù vẫn chưa bằng con người có tay nghề cao nhất, tốc độ cải thiện hiệu quả công việc là rất nhanh
  • Khả năng phòng vệ trước các cuộc tấn công prompt injection được cải thiện đáng kể so với Sonnet 4.5, đạt mức an toàn tương tự Opus 4.6

Đánh giá hiệu năng và benchmark

  • Sonnet 4.6 mang lại trí tuệ cấp Opus với chi phí thấp hơn, và cải thiện toàn diện trên nhiều benchmark
    • Trong bài kiểm tra Claude Code, 70% người dùng chọn Sonnet 4.6, với khả năng hiểu ngữ cảnh tốt hơn và giảm trùng lặp khi chỉnh sửa mã
    • Được ưa thích hơn Opus 4.5 ở mức 59%, giảm hiện tượng thiết kế quá mức hoặc lười biếng, đồng thời nâng độ chính xác khi thực hiện chỉ thị
  • Trong Vending-Bench Arena, mô hình vượt các đối thủ bằng chiến lược tập trung lợi nhuận giai đoạn cuối sau đầu tư ban đầu khi thực hiện mô phỏng vận hành dài hạn
  • Trên OfficeQA, mô hình đạt năng lực hiểu tài liệu ngang với Opus 4.6; trong Financial Services Benchmark, tỷ lệ khớp đáp án tăng lên
  • Ghi nhận độ chính xác 94% ở benchmark bảo hiểmhiệu năng suy luận sâu tăng 15% trong bài test Box
  • Trong bài test của Rakuten AI, mô hình đạt mức tạo mã iOS hàng đầu, với việc sử dụng toolchain hiện đại và chất lượng kiến trúc được cải thiện

Cập nhật sản phẩm và nền tảng

  • Trên Claude Developer Platform, hỗ trợ adaptive thinking, extended thinking, context compaction (beta)
    • Tự động tóm tắt ngữ cảnh cũ để tăng độ dài ngữ cảnh hiệu quả
  • Cập nhật công cụ API:
    • web searchfetch tự động viết và chạy mã để lọc kết quả tìm kiếm
    • Các tính năng như code execution, memory, programmatic tool calling, tool search đã được cung cấp rộng rãi
  • Add-in Claude in Excel hỗ trợ MCP connector, cho phép kết nối với dữ liệu bên ngoài như S&P Global, LSEG, PitchBook
  • Sonnet 4.6 vẫn duy trì hiệu năng cao ngay cả không dùng extended thinking, và người dùng Sonnet 4.5 được khuyến nghị chuyển sang
  • Opus 4.6 vẫn phù hợp hơn cho các tác vụ đòi hỏi suy luận sâu nhất như refactor mã hoặc điều phối đa tác tử

Các cách sử dụng

  • Sonnet 4.6 hiện có trên mọi gói Claude, Claude Cowork, Claude Code, API và các nền tảng cloud lớn
  • Gói miễn phí cũng được nâng cấp lên Sonnet 4.6, bao gồm tính năng tạo tệp, connector, skill và compaction
  • Nhà phát triển có thể dùng ngay trong Claude API thông qua tên mô hình claude-sonnet-4-6

Các con số và chỉ số đánh giá chính (tóm tắt chú thích)

  • OSWorld: đánh giá tác vụ máy tính dựa trên phần mềm thực, Sonnet 4.6 được đo ở trạng thái ‘thinking off’
  • SWE-bench Verified: điểm trung bình 80.2% qua 10 lần chạy
  • ARC-AGI-2: đạt 60.4% ở chế độ nỗ lực tối đa
  • MMMU-Pro: điểm số được điều chỉnh sau khi cải thiện phương pháp đánh giá
  • Humanity’s Last Exam, BrowseComp và nhiều thử nghiệm khác được chạy khi bật sử dụng công cụ, tìm kiếm web và nén ngữ cảnh

1 bình luận

 
GN⁺ 2026-02-18
Ý kiến trên Hacker News
  • Khá ấn tượng khi họ tập trung vào việc sử dụng máy tính. Có vẻ họ đánh giá giá trị của hướng này là rất lớn. Nhưng phần an toàn vẫn còn đáng nghi ngờ. Theo đánh giá nội bộ của họ, hệ thống tấn công tự động có 8% xác suất xâm nhập thành công chỉ trong một lần thử, và nếu được thử không giới hạn thì tỷ lệ thành công lên tới 50%. Những con số này rất khó chấp nhận. Nếu không phải tôi đang hiểu sai điều gì, thì mức này là không thể đưa vào sử dụng thực tế
    PDF đánh giá an toàn

    • Mục tiêu của công nghệ này về thực chất là độc chiếm lao động liên quan đến I/O máy tính. Không chỉ SWE mà phần lớn công việc văn phòng cũng là đối tượng. Nó khiến một người làm việc của ba người, từ đó thúc đẩy cắt giảm nhân sự. Từ góc nhìn doanh nghiệp thì chẳng có lý do gì để từ chối khi vẫn kiếm được từng ấy tiền mà giảm chi phí nhân công xuống còn 1/3. Nhưng trong cấu trúc như vậy, ai cũng có thể xây dựng kinh doanh bằng LLM, và cuối cùng cạnh tranh trở nên dư thừa đến mức lợi nhuận tiến về 0. Nếu mọi người đều dùng cùng một mô hình thì sự khác biệt sẽ biến mất. Thậm chí các mô hình mã nguồn mở mạnh cũng có thể làm suy yếu khả năng dịch chuyển xã hội
    • Tôi lại thấy con số 8% đáng ngạc nhiên ở chỗ nó còn khá tốt. Điều quan trọng không phải bản thân mô hình mà là các cơ chế kiểm soát của môi trường vận hành. Trong dịch vụ thực tế thì giám sát và kill switch là bắt buộc. Mô hình “đủ an toàn” chỉ là điều kiện cần, không phải điều kiện đủ
    • Đây là vấn đề cốt lõi mà không ai muốn nói đến. Nếu không giải quyết được an toàn thì không thể thay thế lao động ở quy mô lớn. Dùng ở mức tóm tắt hay hỗ trợ thì ổn, nhưng nếu giao cho nó ra quyết định tự chủ thì rủi ro pháp lý sẽ bùng nổ. Cuối cùng nếu các công ty AI không giải được bài toán này thì họ sẽ cạn vốn. Với xu hướng hiện tại, AI có lẽ sẽ vẫn là công cụ hữu ích như tìm kiếm hay kiểm tra chính tả, nhưng việc thay thế việc làm trên diện rộng có vẻ sẽ không thành hiện thực
    • Trên thực tế, nó có thể hữu ích ở những chỗ như tự động hóa app nội bộ lặp đi lặp lại. Ví dụ mỗi ngày đăng nhập vào cùng một web app, đọc lịch rồi nhấn nút. Trong môi trường như vậy không có kẻ tấn công nên vấn đề an toàn gần như biến mất
    • Các con số 8% và 50% đáng lo thật, nhưng đây là kết quả trong “môi trường sử dụng máy tính”. Trong môi trường coding thì khi bật extended thinking, tỷ lệ là 0.0%. Nói cách khác, đây vẫn là một lĩnh vực còn mang tính thử nghiệm
  • Tôi đã đưa khoảng 900 bài trong tập thơ cá nhân vào Sonnet 4.6 để thử nghiệm, và thấy khác biệt lớn so với Opus 4.6. Opus 4.6 cho ra phân tích đáng kinh ngạc, còn Sonnet 4.6 thì vẫn hay bị hallucination và lỗi. Trong bài test coding cũng cho cảm giác tương tự. So với Opus thì còn kém khá xa

    • Có người nói thật vui khi lại thấy bài test thơ sau một thời gian dài. Sẽ rất hay nếu các phân tích kiểu này được gom lại và sắp xếp gọn gàng
    • Opus 4.6 giúp năng suất viết code tăng hơn 3 lần. Nó xử lý toàn bộ dự án một cách có trách nhiệm và hiểu rất rõ ý định của người dùng. Không còn kiểu lén chọn đường tắt hay làm hỏng kết quả như các phiên bản trước
  • Sonnet 4.6 vẫn trả lời sai “bài toán tiệm rửa xe”. Tôi nhập nguyên văn câu hỏi gốc thì nó trả lời “hãy đi bộ”. Tôi thử nhiều biến thể khác nhau nhưng vẫn thất bại tương tự

    • Trong bài test của tôi thì ngược lại, nó trả lời ngay “hãy lái xe đi”. Nó còn quả quyết kiểu “đi rửa xe thì phải có xe chứ”. Có lẽ họ đã cung cấp các phiên bản khác nhau cho mỗi người
    • Sự phân cực của những câu trả lời kiểu này khá thú vị. Sai nhưng rất tự tin, đúng kiểu mẫu hallucination điển hình
    • Có câu trả lời còn đề xuất “hãy đẩy xe đi”. Liên kết chia sẻ
    • Một câu trả lời khác thì nói “hãy đi bộ, chỉ cách 30 giây thôi”, lấy lý do môi trường và sức khỏe. Extended thinking đang tắt
    • Có vẻ câu hỏi này từ nay sẽ thường được dùng làm bài test benchmark
  • Tôi cảm nhận rõ câu “cạnh tranh là tốt cho người tiêu dùng”. Càng cạnh tranh mạnh thì kết quả đầu ra càng tốt hơn

    • Nhưng cuộc cạnh tranh AI hiện nay trông giống “một cuộc chạy đua vũ trang không phòng bị”. Vì cấu trúc người thắng ăn cả nên ai cũng đổ tiền vào và cùng chịu thiệt. Do đầu tư quá mức, xét trên toàn xã hội thì có thể là không hiệu quả
    • Nghĩ lại chuyện GPT-2 năm 2019 từng bị coi là “quá nguy hiểm để công bố”, có thể xem việc ChatGPT ra mắt là cú hích làm bùng nổ cuộc cạnh tranh này
    • Tin rằng mọi thị trường đều vận hành như cạnh tranh hoàn hảo là điều nguy hiểm. Trên thực tế có rất nhiều độc quyền và bất cân xứng thông tin
    • Thị trường AI hiện giờ là một trong những cục diện cạnh tranh khốc liệt nhất trong lịch sử loài người. Các thuyết âm mưu kiểu cố tình làm mô hình kém đi nghe không thuyết phục
    • Cuối cùng nếu chỉ còn lại hai công ty thì sẽ đến giai đoạn thu hồi lợi nhuận
  • Bài test “tiệm rửa xe bằng trực thăng” là hay nhất. Sonnet 4.6 trả lời “hãy đi bộ”, và câu trả lời này buồn cười vì giống như đang châm biếm thói quen lái xe cho những quãng đường cực ngắn của người Mỹ

    • Có người nói đây là bài test họ thích nhất. Họ cảm nhận được mô hình đã được huấn luyện bằng dữ liệu hài hước kiểu Reddit
  • Thật bất ngờ khi Sonnet 4.6 có hiệu năng ngang Opus 4.5. Tốc độ tiến bộ này gợi nhớ tới tốc độ tăng hiệu năng máy tính trong thập niên 1990

    • Điều thật sự thú vị không phải mức trần tăng lên mà là mức sàn được nâng cao. Có được suy luận cấp Opus với giá và độ trễ của Sonnet là một bước đột phá. Cứ mỗi 6~9 tháng lại có thể đạt cùng một đơn vị trí tuệ với chi phí tính toán chỉ còn một nửa
    • Sau câu “tốc độ kiểu thập niên 1990”, có người đùa rằng “giá RAM cũng đang như thời đó”
    • Thay vì simonw, có người tạo và chia sẻ “SVG bồ nông đi xe đạp”. Liên kết ảnh
    • Cũng có trường hợp Opus mô tả sai một bức ảnh phong cảnh đêm ở NYC. Mistral lại chính xác hơn. OpenAI chặn upload URL, còn Gemini thì chuyển sang VertexAI. Bài test được thực hiện trong môi trường Langchain
    • Theo system card, Sonnet 4.6 được ghi rõ là tốt hơn Opus 4.6 trong công việc văn phòng và phân tích tài chính
  • Giá của Sonnet 4.5 là $3/$15 per million tokens, và tôi tự hỏi liệu có nhiều người sẵn sàng chấp nhận mức giá này không. Các mô hình open-weight đang bắt kịp rất nhanh và rẻ hơn nhiều

    • Tôi đang thử cách tiếp cận hybrid. Dùng GLM5 để xử lý phần lớn công việc, rồi ở bước cuối dùng Opus/Sonnet để rà lỗi
    • Trong benchmark đơn giản của tôi, Claude 4.6 còn thua cả Stepfun 3.5 miễn phí. Xem aibenchy.com. Nó vẫn kém về độ chính xác khi làm theo chỉ thị
    • Cuối cùng, đây là vấn đề bạn đánh giá sự khác biệt giữa “khá ổn” và “SOTA” đáng giá đến đâu. Dùng một mô hình mắc nhiều lỗi rốt cuộc cũng là chi phí
    • Có người lại thích những mô hình mạnh về suy luận ngữ cảnh như Claude. GLM đòi hỏi phải chỉ định chi tiết hơn
  • Tôi đã thêm hỗ trợ Opus/Sonnet 4.6 vào plugin llm.datasette.io, nên việc tạo ảnh bồ nông bị chậm lại. Kết quả đầu ra ở mức Opus 4.5, và là phiên bản đội một chiếc mũ chóp lụa rất đẹp
    Blog liên quan

    • Có bình luận nói rằng họ cũng đã thấy con bồ nông đội mũ chóp lụa đó trong những lần thử khác
  • Mấy ngày gần đây tôi thử Sonnet 4.5 và thấy cuộc trò chuyện hấp dẫn và nhất quán một cách lạ thường.
    Tôi đặt cài đặt cá nhân là “ưu tiên sự thật khách quan và phân tích phản biện, cấm đồng cảm cảm tính”, và nó làm theo rất tốt. ChatGPT cũng phản ứng tương tự

  • Nhiều người dùng báo rằng Opus 4.6 tiêu thụ token nhiều hơn 5~10 lần so với 4.5. Liên kết issue. Vẫn chưa có phản hồi chính thức. Vì vậy tôi định tiếp tục dùng 4.5

    • Thường chỉ những người gặp vấn đề mới lên tiếng to. Còn tôi thì hài lòng vì 4.6 nhanh hơn và gọi công cụ tích cực hơn. Nếu hạ reasoning level xuống medium thì có thể giảm suy nghĩ quá mức
    • Theo trải nghiệm của tôi, Opus 4.5 là kiểu bám kế hoạch, còn 4.6 là kiểu thích nghi và khám phá. Với bài toán dễ thì nó kém hiệu quả, nhưng với bài toán khó thì nhanh hơn hẳn
    • Có thể kiểm tra reasoning level trong /models. Nếu đặt high thì lượng token tăng vọt
    • Tôi cũng đã đốt sạch ngân sách tháng chỉ sau vài ngày
    • Trong thử nghiệm của tôi, 4.6 dùng nhiều token hơn khoảng 15~45% so với 4.5. Nhưng đó là khi yêu cầu suy luận từ prompt chưa hoàn chỉnh. Với tác vụ được viết tốt thì chênh lệch không lớn. Reasoning token của Sonnet 4.6 hiện có cấu trúc hơn trước nhưng cũng có xu hướng ngày càng dài dòng. Phong cách này khá giống các model của Google