20 điểm bởi GN⁺ 2026-02-06 | 7 bình luận | Chia sẻ qua WhatsApp
  • Mẫu AI mới nhất của Anthropic với năng lực lập trình và khả năng duy trì tác vụ dài hạn được cải thiện, hỗ trợ cửa sổ ngữ cảnh 1M token ở bản beta
  • Ghi nhận điểm số hàng đầu ngành trên các benchmark chính, vượt GPT-5.2 khoảng 144 điểm Elo
  • Hiệu năng được tăng cường cho các tác vụ thực tiễn như review code·debugging, xử lý codebase quy mô lớn, phân tích tài chính·soạn thảo tài liệu
  • Bổ sung các tính năng kiểm soát cho nhà phát triển như Adaptive thinking, context compaction, điều chỉnh effort, giúp vận hành agent chạy dài hạn dễ dàng hơn
  • Trong các đánh giá an toàn, mô hình cũng cho kết quả ít lỗi·ít lạm dụng·tỷ lệ từ chối quá mức thấp, được xem là đạt đồng thời cả hiệu năng cao lẫn an toàn

Các cải tiến chính của Claude Opus 4.6

  • Opus 4.6 là mô hình đã được cải thiện khả năng lập kế hoạch, độ bền của agent, quản lý chất lượng code so với phiên bản trước
    • Hoạt động ổn định hơn trên các codebase lớn, đồng thời tăng cường khả năng tự phát hiện và sửa lỗi
    • Có thể xử lý các tác vụ dài và phức hợp nhờ cửa sổ ngữ cảnh 1M token (beta)
  • Tính hữu dụng trong công việc hằng ngày cũng được mở rộng, hỗ trợ nhiều tác vụ như phân tích tài chính, nghiên cứu, tài liệu, bảng tính, tạo bài thuyết trình
  • Trong môi trường Cowork, mô hình có thể tự chủ xử lý đa nhiệm, thay người dùng thực hiện các công việc phức hợp

Benchmark và đánh giá hiệu năng

  • Đạt điểm cao nhất trên Terminal-Bench 2.0, đồng thời dẫn đầu trong số các mô hình frontier ở Humanity’s Last Exam
  • Trong đánh giá GDPval-AA, hiệu năng cao hơn GPT-5.2 khoảng 144 điểm Elo và cao hơn Opus 4.5 là 190 điểm
  • Cũng ghi nhận hiệu năng tốt nhất trong bài test BrowseComp, cho thấy khả năng tìm kiếm thông tin trực tuyến được cải thiện
  • Trên MRCR v2 (1M variant) đạt 76%, cải thiện lớn so với mức 18.5% của Sonnet 4.5
  • Khả năng duy trì ngữ cảnh dài và theo dõi thông tin được cải thiện, giúp giảm hiện tượng context rot

Trải nghiệm sử dụng ban đầu và phản hồi từ đối tác

  • Trong các bài kiểm thử kỹ thuật nội bộ, mô hình cho thấy năng lực giải quyết vấn đề phức tạp và khả năng phán đoán được cải thiện
    • Với bài toán khó, mô hình lặp lại quá trình suy nghĩ chuyên sâu để đưa ra kết quả tốt hơn
    • Với tác vụ đơn giản, việc suy nghĩ quá mức có thể gây chậm, nên có thể điều chỉnh bằng tham số /effort
  • Các đối tác ban đầu đánh giá Opus 4.6 nổi bật ở khả năng thực thi tự chủ, xử lý yêu cầu phức tạp, hỗ trợ cộng tác nhóm
    • Hiệu năng chính xác trong việc khám phá codebase lớn, thực hiện tác vụ con song song và xác định blocker
    • Độ chính xác cao trong phân tích nội dung pháp lý, tài chính và kỹ thuật (ví dụ: BigLaw Bench 90.2%)
    • Trong thử nghiệm thực tế, Opus 4.6 cho kết quả tốt hơn Opus 4.5 ở 38 trên 40 cuộc điều tra an ninh mạng
    • Có báo cáo về trường hợp hoàn tất việc migrate hàng triệu dòng code chỉ trong một nửa thời gian

Tăng cường an toàn và bảo mật

  • Trong kiểm toán hành vi tự động, tỷ lệ các hành vi lệch chuẩn như lừa dối, xu nịnh hay hỗ trợ lạm dụng ở mức thấp
  • Là mẫu Claude có tỷ lệ từ chối quá mức (over-refusal) thấp nhất
  • Tiến hành các đánh giá an toàn mới về phúc lợi người dùng, từ chối yêu cầu rủi ro, và phát hiện hành vi gây hại ngầm
  • Thông qua nghiên cứu khả năng diễn giải, Anthropic phân tích nguyên nhân vận hành bên trong mô hình và phát hiện các vấn đề tiềm ẩn
  • Do năng lực an ninh mạng được tăng cường, hãng đã đưa vào 6 loại security probe mới để tăng phát hiện lạm dụng
  • Ở hướng ứng dụng phòng thủ, mô hình hỗ trợ phát hiện và vá lỗ hổng mã nguồn mở, đồng thời có kế hoạch chặn lạm dụng theo thời gian thực trong tương lai

Cập nhật sản phẩm và API

  • Trên Claude Developer Platform, các tính năng sau đã được bổ sung
    • Adaptive thinking: mô hình tự động quyết định có cần suy nghĩ chuyên sâu hay không tùy tình huống
    • Mức effort: cung cấp bốn cấp độ low, medium, high (mặc định), max
    • Context compaction (beta): khi cuộc trò chuyện kéo dài, hệ thống sẽ tóm tắt và thay thế ngữ cảnh cũ
    • Hỗ trợ ngữ cảnh 1M token (beta)128k output token
    • Cung cấp tùy chọn US-only inference (phí 1.1x)
  • Claude Code bổ sung tính năng agent teams, cho phép nhiều agent cộng tác song song
  • Claude in Excel được cải thiện khả năng cấu trúc hóa dữ liệu phi cấu trúc và xử lý thay đổi nhiều bước
  • Claude in PowerPoint (research preview) có thể nhận biết template slide, font và layout để duy trì tính nhất quán thương hiệu

Truy cập và giá

  • Opus 4.6 hiện có thể sử dụng ngay trên claude.ai, API và các nền tảng đám mây lớn
  • Tên model trong API là claude-opus-4-6, giá giữ nguyên ở mức $5/$25 per million tokens
  • Với prompt vượt quá 200k token, áp dụng mức phí premium ($10/$37.50 per million tokens)

Kết luận

  • Claude Opus 4.6 tạo ra bước nhảy lớn ở xử lý ngữ cảnh dài hạn, tác vụ agent tự chủ, năng lực suy luận nâng cao
  • Đây là mô hình đồng thời tăng cường hiệu năng·an toàn·khả năng kiểm soát cho nhà phát triển, qua đó đặt ra tiêu chuẩn mới cho công cụ AI phục vụ công việc thực tiễn

7 bình luận

 
heim2 2026-02-06

Dùng Max nên cứ có cảm giác dùng càng nhiều token càng thấy mãn nguyện... không dùng thì lại thấy phí...

 
wegaia 2026-02-06

Có vẻ trên Reddit đang tràn ngập các bài viết nói rằng người dùng gói thuê bao chạm giới hạn với tốc độ chóng mặt. Vì cũng đang bận việc nên tôi cứ tiếp tục dùng 4.5 thôi

 
xguru 2026-02-06
 
princox 2026-02-06

Hic, đắt quá.. Anthropic hãy tung token ra đi..!!

 
hmmhmmhm 2026-02-06

Ồ ồ cuối cùng cũng ra rồi~~~~

 
princox 2026-02-06

Tôi đã mong đợi Sonnet 5, nhưng hóa ra lại là Opus 4.6 nhỉ haha

 
GN⁺ 2026-02-06
Ý kiến trên Hacker News
  • Khung xe đạp có hơi lệch, nhưng con bồ nông thì bản thân nó rất xuất sắc
    Có thể xem hình tại đây

    • Tò mò không biết có phải nó đã bị overfit vào hình bồ nông hay không
    • Tò mò không biết lựa chọn từ như “generate” có ảnh hưởng đến kết quả của mô hình hay không
      Tôi nhận ra ngay là hai chân của con bồ nông nằm cùng một phía, rồi xác nhận trên Wikipedia rằng ngoài đời không phải vậy
      Cũng muốn biết họ có thử chỉnh prompt lặp đi lặp lại để đạt kết quả chân thực hơn hay không
    • Thực ra đa số mọi người cũng không vẽ xe đạp cho đúng
      Họ thường vẽ sai cấu trúc khung hoặc tỷ lệ hình học
    • Cũng có bản hoạt hình
      Liên kết
    • Tôi nghĩ rồi sẽ đến lúc những đầu ra kiểu này lại được đưa trở lại vào dữ liệu huấn luyện của mô hình và nhờ thế vượt benchmark
  • GPT‑5.3 Codex đã thể hiện hiệu năng áp đảo với 77.3% trên Terminal Bench
    Điều đáng ngạc nhiên là kỷ lục đã bị phá chỉ trong vòng 35 phút

    • Hiệu năng mô hình thay đổi theo thời điểm trong ngày hay tải máy chủ, nên tôi nghi ngờ có nên tin vào độ tin cậy của benchmark kiểu này không
      Không biết có phải ngay sau lúc phát hành thì họ chạy ở hiệu năng cao nhất, rồi về sau hạ xuống để tiết kiệm chi phí hay không
    • Vì không có báo cáo benchmark diện rộng nên tôi tự hỏi liệu chuyện này có phải chỉ là benchmaxxing hay không
      Tôi muốn tự dùng thử rồi chia sẻ cảm nhận
    • Điểm số tăng tới 10 điểm là thay đổi lớn, nên tôi tò mò không biết trong trải nghiệm thực tế có cảm nhận được khác biệt về chất hay không
      Cũng nghĩ có khi benchmark giờ đã chạm trạng thái bão hòa rồi
    • Claude swe-bench là 80.8, còn Codex là 56.8, nên nhìn chung Claude 4.6 vẫn có vẻ nhỉnh hơn tổng thể
  • Đây là bản tóm tắt ghi chú phát hành của Claude Code
    Bao gồm nhiều cập nhật như bổ sung Opus 4.6, tính năng cộng tác multi-agent, tự động ghi nhớ vào bộ nhớ, tóm tắt hội thoại từng phần, cải thiện VSCode, v.v.

    • Phần “Claude tự động ghi và gọi lại ký ức trong lúc làm việc” khá thú vị
      Xem tài liệu tính năng memory thì có vẻ là khái niệm tương tự Knowledge artifact của Google Antigravity
  • Tôi nghĩ trong cuộc thảo luận đang có sự lẫn lộn giữa hai thứ
    Thứ nhất là khả năng sinh lời dựa trên đơn giá token, thứ hai là kinh tế học vòng đời của mô hình
    Chi phí suy luận có thể có lãi, nhưng toàn bộ chương trình mô hình vẫn có thể đang lỗ
    Câu hỏi thật sự là “mô hình phải duy trì năng lực cạnh tranh trong bao lâu thì mới hợp lý về mặt kinh tế?”

    • Cần nhớ câu “worse is better
      Không cần là tốt nhất, chỉ cần đủ tốt, và nếu chi phí chuyển đổi cao thì vẫn có thể thống trị thị trường
      Ngay từ đầu, chấp nhận lỗ để giành thị phần ở một domain cụ thể (ví dụ: coding) có thể là chiến lược hợp lý
    • Theo biểu phí API thì có vẻ sẽ có một chút lợi nhuận
      Nhưng những gói cho phép tăng mức sử dụng lên 20 lần thì tôi nghi ngờ tính bền vững
      Không biết thời kỳ “vibe-coding renaissance” hiện nay có thể duy trì với cấu trúc chi phí như thế này hay không
    • Như Dario đã nói trên podcast, nếu xét trên toàn bộ vòng đời, mô hình là có lợi nhuận
      Nhìn lãi lỗ theo từng năm là không phù hợp với đặc thù của doanh nghiệp AI
    • Điều thật sự thú vị là liệu “gói $200/tháng có đang được trợ giá hay không”
      Chính nó đang nâng đỡ cơn sốt coding dạng agent hiện tại
      Có lẽ là đang được trợ giá một phần, nhưng về dài hạn có khả năng tăng khoảng gấp đôi
  • Việc có cửa sổ ngữ cảnh 1M là một nâng cấp khổng lồ, tôi cực kỳ hài lòng

  • Tôi vẫn chưa thật sự hiểu chiến lược của Anthropic
    Họ làm marketing hướng tới thị trường đại chúng nhưng điểm mạnh thực tế lại là tập trung vào coding
    Trong nghiên cứu tổng quát hay tìm kiếm thông tin, ChatGPT hoặc Gemini sâu hơn nhiều và cách diễn đạt cũng tốt hơn
    Họ quảng bá tính “hiến pháp” hay “nhân quyền”, nhưng lại khiến tôi cảm thấy mang tính giao dịch nhất
    Dù vậy, dùng cho coding thì rất tuyệt nên tôi vẫn tiếp tục trả tiền

    • Ngay cả trong các cuộc trò chuyện thông thường ngoài code, Claude cũng hoạt động khá tốt
      Những người bạn không chuyên kỹ thuật của tôi đã chuyển từ ChatGPT sang Claude và chưa thấy ai quay lại
      8 tháng trước nó chỉ thực sự dùng được qua API, còn giờ đã tốt hơn rất nhiều
    • Với các ngôn ngữ ngoài tiếng Anh thì chất lượng giảm nghiêm trọng
      Tôi dùng tiếng Séc, Claude thì bịa ra từ mới, còn Grok đôi khi lại trả lời bằng tiếng Nga
      Dùng để coding thì tốt, nhưng cho hội thoại thông thường thì không thể chấp nhận được
    • Mô hình này không mang tính đời thường
      Nó tốt cho các tác vụ dạng agent hay dùng công cụ, nhưng tôi không dùng cho các câu hỏi thường ngày
  • Opus 4.6 không hiện trong cài đặt, nhưng sau khi chạy lại lệnh cài đặt thì nó đã xuất hiện (v2.1.32)
    Hướng dẫn cài đặt

    • Tôi đã dùng rồi
  • Tôi tò mò liệu chi phí vận hành của AI/LLM có thực sự đang giảm hay không
    Khái niệm “đội agent” nghe rất hay, nhưng nếu chạy nhiều mô hình cùng lúc thì chi phí đội lên lớn nên tôi cảm thấy ngoài thực tế sẽ khó khả thi

    • Chi phí trên mỗi token đang giảm đều
      OpenAI đã hạ giá o3 xuống còn 1/5 nhờ tối ưu kỹ thuật, và các công ty khác cũng đạt được mức tiết kiệm tương tự
      Câu chuyện ngày xưa rằng “họ lỗ trên mọi request” là không đúng sự thật
    • Tin đồn đó cứ lặp lại, nhưng thực tế tôi không nghĩ đơn giá suy luận có thể thấp hơn giá vốn
      Cả công ty thì lỗ vì R&D và chi phí huấn luyện, nhưng bản thân việc dùng API là có lãi
      Ngay cả các mô hình mở như DeepSeek cũng vẫn có lãi ở mức giá thấp hơn rất nhiều
    • Nhìn vào dữ liệu thực tế thì không thể là đang lỗ được
      Ví dụ Claude 4 (khoảng 400B tham số) đắt hơn rất nhiều so với DeepSeek V3 (680B)
      Claude input $1/M, output $5/M so với DeepSeek input $0.4/M, output $1.2/M
      Sự chênh lệch này là vì Anthropic cần thu hồi chi phí huấn luyện
      Giá DeepSeek, giá Claude
    • Thực tế rất khó tính toán lãi lỗ, vì có nhiều bất định như khấu hao và vòng đời mô hình
      Chỉ nhìn doanh thu suy luận thì có lãi, nhưng tính toàn bộ chi phí thì có thể không phải vậy
    • Mức độ tận dụng AI agent hiện vẫn còn thấp
      Tôi dùng nó như trợ lý coding nhưng thường xuyên phải chỉnh lại hướng đi
      Dù vậy, nó vẫn rẻ hơn rất nhiều so với việc thuê nhân sự có tay nghề
  • Câu “We build Claude with Claude” khá thú vị

    • Claude Code có hơn 6000 issue mở
      Dù tự động dọn khi không hoạt động trong 60 ngày, con số này vẫn tiếp tục tăng
    • Tôi nghĩ đây là một sản phẩm rất thành công
      Ngoài việc câu khẩu hiệu đó bộc lộ thành kiến ra thì nó không có nhiều ý nghĩa
    • Tôi xem đây là ví dụ cho thấy tầm quan trọng của dogfooding
      Tự dùng sản phẩm của chính mình là cách tốt nhất để cải thiện chất lượng
    • Sandboxing của CC gần như ở mức trò đùa
      Đó là lý do các wrapper đang bùng nổ như hiện nay, và tôi nghĩ sớm muộn cũng sẽ có sự cố bảo mật
    • Vậy nên mới giải thích được vì sao Claude Code có cấu trúc kiểu một ứng dụng React được in ra trong terminal
  • Họ đang cung cấp thêm $50 credit để trải nghiệm Opus 4.6
    Có thể nhận ngay tại trang usage
    Có lẽ họ đang kỳ vọng mức sử dụng token tăng lên hoặc đơn giản là muốn quảng bá mô hình