1 điểm bởi GN⁺ 2026-03-14 | 1 bình luận | Chia sẻ qua WhatsApp
  • Claude Opus 4.6 và Sonnet 4.6 nay hỗ trợ cửa sổ ngữ cảnh 1 triệu token (1M) với mức giá tiêu chuẩn, có thể dùng toàn bộ phạm vi mà không cần trả thêm phí premium
  • Giá giữ nguyên theo đơn giá hiện tại: Opus 4.6 là $5/$25, Sonnet 4.6 là $3/$15 (theo đầu vào/đầu ra), nên yêu cầu 9K hay 900K đều được tính theo cùng một tỷ lệ
  • Giới hạn đầu vào media tăng gấp 6 lần, cho phép xử lý tối đa 600 hình ảnh hoặc trang PDF trong một lần, đồng thời có thể dùng ngay trên Azure Foundry, Google Vertex AI và các nền tảng khác
  • Người dùng Claude Code gói Max, Team và Enterprise có thể tự động tận dụng ngữ cảnh 1M, giúp giảm nén phiên và cải thiện khả năng duy trì hội thoại
  • Được đánh giá là tính năng nâng cao độ chính xác và hiệu quả trong khi vẫn giữ được ngữ cảnh dài, phức tạp như codebase lớn, hợp đồng hay log vận hành

Tổng quan về việc phổ cập ngữ cảnh 1M

  • Opus 4.6 và Sonnet 4.6 cung cấp cửa sổ ngữ cảnh 1M trên Claude Platform với mức giá tiêu chuẩn
    • Opus 4.6 là $5 (đầu vào)/$25 (đầu ra) cho mỗi triệu token, Sonnet 4.6 là $3/$15
    • Không có chênh lệch giá theo kích thước yêu cầu
  • Loại bỏ phụ phí cho ngữ cảnh dài, duy trì cùng mức thông lượng ở mọi độ dài ngữ cảnh
  • Giới hạn đầu vào media tăng 6 lần: hỗ trợ tối đa 600 hình ảnh hoặc trang PDF
  • Không cần beta header, các yêu cầu vượt quá 200K token cũng được xử lý tự động

Tích hợp với Claude Code

  • Ngữ cảnh 1M được tự động kích hoạt khi dùng Opus 4.6 trong các gói Max, Team, Enterprise của Claude Code
    • Giảm hiện tượng nén hội thoại (compaction) trong phiên
    • Trước đây cần thêm mức sử dụng bổ sung, nay đã được bao gồm mặc định

Hiệu năng và độ chính xác của mô hình

  • Opus 4.6 đạt 78,3% theo MRCR v2, là mức hiệu năng cao nhất trong các mô hình cùng độ dài ngữ cảnh
  • Ngay cả ở ngữ cảnh 1M, mô hình vẫn giữ được độ chính xác và cải thiện khả năng truy xuất trong văn bản dài
  • Có thể xử lý mà giữ nguyên toàn bộ ngữ cảnh của codebase lớn, hợp đồng và log agent dài hạn
    • Duy trì toàn bộ hội thoại mà không cần tóm tắt hay đặt lại ngữ cảnh

Các trường hợp sử dụng thực tế

  • Nghiên cứu khoa học: có thể phân tích tích hợp hàng trăm bài báo, framework toán học và mã mô phỏng trong một lần (Alex Wissner-Gross)
  • Công việc pháp lý: có thể so sánh nhiều phiên bản của hợp đồng 100 trang trong một phiên (Bardia Pourvakil)
  • Phân tích hệ thống vận hành: giữ toàn bộ tín hiệu và giả thuyết trong tầm nhìn khi xử lý sự cố (Mayank Agarwal)
  • Nghiên cứu AI và review code: xử lý các file diff lớn trong một lần để nâng cao chất lượng (Adhyyan Sekhsaria)
  • Phân tích dữ liệu và gỡ lỗi: giữ nguyên chi tiết khi tìm kiếm trong Datadog, cơ sở dữ liệu và mã nguồn (Anton Biryukov)
  • Cải thiện hiệu quả agent: giảm 15% các sự kiện nén ngữ cảnh, vẫn giữ được thông tin ban đầu trong các phiên kéo dài (Jon Bell)

Nền tảng hỗ trợ và cách bắt đầu

  • Ngữ cảnh 1M hiện có thể dùng ngay trên Claude Platform, Amazon Bedrock, Google Cloud Vertex AIMicrosoft Foundry
  • Người dùng Claude Code Max, Team, Enterprise dùng Opus 4.6 sẽ được áp dụng ngữ cảnh 1M theo mặc định
  • Có thể xem chi tiết trong trang documentationpricing chính thức

1 bình luận

 
GN⁺ 2026-03-14
Ý kiến trên Hacker News
  • Opus 4.6 thực sự ở mức đáng kinh ngạc
    Dù ném cho nó việc frontend, backend hay thuật toán thì nó cũng xử lý tốt
    Bắt đầu từ PRD, lập kế hoạch từng bước rồi thực hiện lần lượt thì chỉ trong vài giờ là đã ra được sản phẩm thực sự chạy được
    Đây là AI đầu tiên khiến tôi nghĩ rằng “cái này có vẻ còn thông minh hơn mình”
    Hơn nữa với công nghệ hiện tại, thậm chí còn có thể chạy đồng thời nhiều agent ở tốc độ 1k token mỗi giây

    • Tôi cũng từng muốn có trải nghiệm như vậy
      Tôi giao cho Claude Code dựa trên Opus 4.6 việc refactor mã React, cụ thể là đổi useState/useEffect → useMemo
      Kế hoạch thì rất tuyệt, nhưng ở một số đoạn mã nó đặt khai báo biến sai chỗ nên phát sinh tham chiếu undefined
      Khi tôi định sửa thì nó lại cố thay đổi lớn toàn bộ cấu trúc, cuối cùng tôi phải sửa thủ công
      Dù vậy xét tổng thể thì vẫn tiết kiệm được thời gian, nhưng là một trải nghiệm khá bực bội
    • Tôi tò mò bạn đang làm cái gì
      Tôi đã thử dùng Opus 4.6 để tạo test harness cho công cụ diff cơ sở dữ liệu, nhưng nó lại sinh test cho một công cụ cũ không liên quan
      Mã test không gọi các hàm thực tế mà tự triển khai luôn logic bên trong
      Sau 4 giờ và tốn $75 tôi mới có được thứ tạm chạy được, nhưng chất lượng thì không ra sao
      Ở công ty cũng có chỉ đạo tăng ngân sách dùng Claude, nhưng ai cũng vật lộn tương tự
      Hiện giờ dùng nó để chỉnh sửa từng phần hoặc debug trong VS Studio hiệu quả hơn nhiều
    • Tôi từng rơi vào một vòng lặp AI
      Đó là một bài toán tính bồi tích trong bể địa hình, và Opus cứ lặp đi lặp lại ba cách giải thích mâu thuẫn nhau
      Thử ba lần vẫn rơi vào cùng một vòng lặp nên cuối cùng tôi phải ép nó dùng cách brute force để giải quyết
      Nếu là con người thì chắc đến lần thứ hai đã không rơi vào vòng lặp kiểu này nữa
    • Theo tiêu chuẩn của tôi thì Opus 4.6 đã ở mức AGI rồi
      Nó không chỉ làm theo chỉ thị, mà còn tự đề xuất ý tưởng cải tiến ngay cả khi tôi không yêu cầu
  • Điểm cốt lõi của bản cập nhật lần này là áp dụng giá tiêu chuẩn cho toàn bộ cửa sổ 1M tokenhỗ trợ 600 ảnh/trang PDF
    Với người dùng Claude Code thì đây là thay đổi lớn

    • Tôi nghi ngờ việc thực sự dùng đầy kín cửa sổ 1M có hữu ích hay không
      Với tôi, giống như nghiên cứu của Dex Horthy, giữ dưới 40% (khoảng 80k token) vẫn ổn định hơn
      Nhân tiện, video “No vibes allowed” ở đây
    • Công ty tôi đang dùng cửa sổ 1M cho công việc thực tế
      Tới khoảng 700k token thì vẫn ổn, nhưng từ mức đó trở lên bắt đầu có cảm giác chậm và đần dần
      Dùng theo kiểu pair programming mode ổn định hơn là tự động hóa hoàn toàn
    • Context càng lớn thì chi phí token đầu vào càng tăng
      800k đầu vào tốn gấp 8 lần 100k, nên nếu cache không khớp thì có thể thành quả bom phí API
    • Có người đùa rằng “vậy một tấm ảnh tương đương 1.666 từ à?”
    • Trường hợp của tôi thì ở cửa sổ 1M, chất lượng code giảm mạnh
      Nó thường xuyên quên ngữ cảnh trong cuộc hội thoại
  • Có ý kiến rằng tự viết code còn tốt hơn

  • Sự nghiệp của tôi đã chuyển từ Python sang C/C++
    Với Python, đôi khi Opus làm còn tốt hơn tôi, nhưng ở mảng embedded thì nó vẫn chỉ ở mức junior
    Cuối cùng tôi nghĩ đây là vấn đề của chất lượng dữ liệu huấn luyện
    Vì vậy có lẽ LLM sẽ chưa thể thay thế kỹ sư phần cứng trong một thời gian

  • Tôi đã tạo các kiểm tra CI để ngăn vấn đề thrashing trong mã do AI tạo ra
    Agent thường liên tục sửa lỗi test thất bại rồi lại chèn vào import ma hoặc API đã deprecated
    Vì vậy ở mỗi PR tôi chạy một lượt quét nhẹ để bắt gói npm không tồn tại hoặc lệch khỏi ngữ cảnh
    Phân tích tĩnh truyền thống chỉ nhìn cú pháp, nhưng mã AI thường sai về mặt ngữ nghĩa
    Tôi nghĩ sau này kiểu kiểm chứng dựa trên tri thức miền như vậy sẽ là bắt buộc

  • Có bài viết hỏi vì sao hiệu năng giảm gần mốc 100k token
    Nhiều ý kiến cho rằng context thực sự dùng được còn nhỏ hơn nữa

    • Với Opus 4.6, tôi gần như không cảm thấy hiện tượng giảm hiệu năng đó
      Có thể chỉ là do ấn tượng còn sót lại từ trải nghiệm trước đây
    • Theo trải nghiệm của tôi, context rot vẫn còn nguyên
      Dùng 90k token thì dù là 100k hay 1M cũng tệ đi tương tự
      Với codebase lớn, chất lượng prompt mới là yếu tố then chốt
    • Tôi nghĩ biểu đồ benchmark đã chính là câu trả lời rồi
    • Độ phức tạp attention của Transformer tăng theo bình phương của kích thước context
      Nên để xử lý 1M token phải dùng nhiều kỹ thuật xấp xỉ, và đó có thể là nguyên nhân làm giảm hiệu năng
  • Trong Claude Code 2.1.75, không còn phân biệt giữa Opus mặc định và Opus 1M
    Trên gói Pro cũng trông như vậy, nhưng thực tế vẫn còn giới hạn
    Có lẽ đây là chiến lược của Anthropic để đáp trả cuộc cạnh tranh cửa sổ 1M từ GPT 5.4

    • Trên Max 20x, nó vẫn tồn tại như một model riêng
    • Trên Pro, context 1M vẫn bị tính thêm phí
  • Chính sách giá của Claude khá kỳ lạ
    Gói 5X có giá đúng bằng 5 lần gói trước đó
    Bình thường mua số lượng lớn thì phải được giảm giá, nhưng ở đây thì không

    • Anthropic vốn đã ở trạng thái cầu vượt cung, nên không cần khuyến khích người dùng dùng nhiều hơn
      Có vẻ họ cho rằng một người dùng gấp 5 lần không tốt bằng 5 người chia nhau dùng
    • Gói 5X chỉ là mồi, còn chiến lược thực sự là bán gói 20x
    • Có người đùa rằng “chắc sẽ bù bằng sản lượng thôi”
    • Cũng có ý kiến cho rằng cả hai gói đều là deal tốt có trợ giá
  • Hôm nay dùng thử thấy đây thật sự là một thay đổi thú vị
    Giờ có thể nhét nhiều phiên song song của các sub-agent vào trong một phiên master duy nhất
    Opus 1M được nói là tương đương mức 256k của GPT 5.4, nhưng gần như không bị suy giảm chất lượng
    Tuy vậy nó không tụt mạnh như model q4 ’25

    • Tôi hay dùng Sonnet 4.5 1M, hiệu năng tương tự nhưng tốc độ nhanh hơn nhiều
      Có lẽ vì nó dùng token rất mạnh tay, không tiết kiệm
    • Cũng có bình luận hỏi là thanh toán cá nhân hay công ty
      Công ty họ nói chỉ hỗ trợ GitHub Copilot
  • Có câu hỏi liệu các phiên dài có đốt ngân sách token rất nhanh hay không
    Vì hội thoại càng dài thì ngữ cảnh trước đó càng phải được gửi lại liên tục

    • Đúng vậy. Dù có dùng cache thì với 800k token cũng nhanh chóng tích lũy tới khoảng $0.40 mỗi request
      Nếu gọi tool thường xuyên thì có thể bị tính phí nhiều lần mỗi phút
    • Nếu tận dụng tốt context caching thì có thể giảm chi phí đáng kể
      Có thể cache tối đa tới 900k token