Bắt đầu cung cấp rộng rãi ngữ cảnh 1M trên Opus 4.6 và Sonnet 4.6

(claude.com)

1 điểm bởi GN⁺ 2026-03-14 | 1 bình luận | Chia sẻ qua WhatsApp

Claude Opus 4.6 và Sonnet 4.6 nay hỗ trợ cửa sổ ngữ cảnh 1 triệu token (1M) với mức giá tiêu chuẩn, có thể dùng toàn bộ phạm vi mà không cần trả thêm phí premium
Giá giữ nguyên theo đơn giá hiện tại: Opus 4.6 là $5/$25, Sonnet 4.6 là $3/$15 (theo đầu vào/đầu ra), nên yêu cầu 9K hay 900K đều được tính theo cùng một tỷ lệ
Giới hạn đầu vào media tăng gấp 6 lần, cho phép xử lý tối đa 600 hình ảnh hoặc trang PDF trong một lần, đồng thời có thể dùng ngay trên Azure Foundry, Google Vertex AI và các nền tảng khác
Người dùng Claude Code gói Max, Team và Enterprise có thể tự động tận dụng ngữ cảnh 1M, giúp giảm nén phiên và cải thiện khả năng duy trì hội thoại
Được đánh giá là tính năng nâng cao độ chính xác và hiệu quả trong khi vẫn giữ được ngữ cảnh dài, phức tạp như codebase lớn, hợp đồng hay log vận hành

Tổng quan về việc phổ cập ngữ cảnh 1M

Opus 4.6 và Sonnet 4.6 cung cấp cửa sổ ngữ cảnh 1M trên Claude Platform với mức giá tiêu chuẩn
- Opus 4.6 là $5 (đầu vào)/$25 (đầu ra) cho mỗi triệu token, Sonnet 4.6 là $3/$15
- Không có chênh lệch giá theo kích thước yêu cầu
Loại bỏ phụ phí cho ngữ cảnh dài, duy trì cùng mức thông lượng ở mọi độ dài ngữ cảnh
Giới hạn đầu vào media tăng 6 lần: hỗ trợ tối đa 600 hình ảnh hoặc trang PDF
Không cần beta header, các yêu cầu vượt quá 200K token cũng được xử lý tự động

Tích hợp với Claude Code

Ngữ cảnh 1M được tự động kích hoạt khi dùng Opus 4.6 trong các gói Max, Team, Enterprise của Claude Code
- Giảm hiện tượng nén hội thoại (compaction) trong phiên
- Trước đây cần thêm mức sử dụng bổ sung, nay đã được bao gồm mặc định

Hiệu năng và độ chính xác của mô hình

Opus 4.6 đạt 78,3% theo MRCR v2, là mức hiệu năng cao nhất trong các mô hình cùng độ dài ngữ cảnh
Ngay cả ở ngữ cảnh 1M, mô hình vẫn giữ được độ chính xác và cải thiện khả năng truy xuất trong văn bản dài
Có thể xử lý mà giữ nguyên toàn bộ ngữ cảnh của codebase lớn, hợp đồng và log agent dài hạn
- Duy trì toàn bộ hội thoại mà không cần tóm tắt hay đặt lại ngữ cảnh

Các trường hợp sử dụng thực tế

Nghiên cứu khoa học: có thể phân tích tích hợp hàng trăm bài báo, framework toán học và mã mô phỏng trong một lần (Alex Wissner-Gross)
Công việc pháp lý: có thể so sánh nhiều phiên bản của hợp đồng 100 trang trong một phiên (Bardia Pourvakil)
Phân tích hệ thống vận hành: giữ toàn bộ tín hiệu và giả thuyết trong tầm nhìn khi xử lý sự cố (Mayank Agarwal)
Nghiên cứu AI và review code: xử lý các file diff lớn trong một lần để nâng cao chất lượng (Adhyyan Sekhsaria)
Phân tích dữ liệu và gỡ lỗi: giữ nguyên chi tiết khi tìm kiếm trong Datadog, cơ sở dữ liệu và mã nguồn (Anton Biryukov)
Cải thiện hiệu quả agent: giảm 15% các sự kiện nén ngữ cảnh, vẫn giữ được thông tin ban đầu trong các phiên kéo dài (Jon Bell)

Nền tảng hỗ trợ và cách bắt đầu

Ngữ cảnh 1M hiện có thể dùng ngay trên Claude Platform, Amazon Bedrock, Google Cloud Vertex AI và Microsoft Foundry
Người dùng Claude Code Max, Team, Enterprise dùng Opus 4.6 sẽ được áp dụng ngữ cảnh 1M theo mặc định
Có thể xem chi tiết trong trang documentation và pricing chính thức

1 bình luận

GN⁺ 2026-03-14

Ý kiến trên Hacker News

Opus 4.6 thực sự ở mức đáng kinh ngạc
Dù ném cho nó việc frontend, backend hay thuật toán thì nó cũng xử lý tốt
Bắt đầu từ PRD, lập kế hoạch từng bước rồi thực hiện lần lượt thì chỉ trong vài giờ là đã ra được sản phẩm thực sự chạy được
Đây là AI đầu tiên khiến tôi nghĩ rằng “cái này có vẻ còn thông minh hơn mình”
Hơn nữa với công nghệ hiện tại, thậm chí còn có thể chạy đồng thời nhiều agent ở tốc độ 1k token mỗi giây
- Tôi cũng từng muốn có trải nghiệm như vậy
  Tôi giao cho Claude Code dựa trên Opus 4.6 việc refactor mã React, cụ thể là đổi useState/useEffect → useMemo
  Kế hoạch thì rất tuyệt, nhưng ở một số đoạn mã nó đặt khai báo biến sai chỗ nên phát sinh tham chiếu undefined
  Khi tôi định sửa thì nó lại cố thay đổi lớn toàn bộ cấu trúc, cuối cùng tôi phải sửa thủ công
  Dù vậy xét tổng thể thì vẫn tiết kiệm được thời gian, nhưng là một trải nghiệm khá bực bội
- Tôi tò mò bạn đang làm cái gì
  Tôi đã thử dùng Opus 4.6 để tạo test harness cho công cụ diff cơ sở dữ liệu, nhưng nó lại sinh test cho một công cụ cũ không liên quan
  Mã test không gọi các hàm thực tế mà tự triển khai luôn logic bên trong
  Sau 4 giờ và tốn $75 tôi mới có được thứ tạm chạy được, nhưng chất lượng thì không ra sao
  Ở công ty cũng có chỉ đạo tăng ngân sách dùng Claude, nhưng ai cũng vật lộn tương tự
  Hiện giờ dùng nó để chỉnh sửa từng phần hoặc debug trong VS Studio hiệu quả hơn nhiều
- Tôi từng rơi vào một vòng lặp AI
  Đó là một bài toán tính bồi tích trong bể địa hình, và Opus cứ lặp đi lặp lại ba cách giải thích mâu thuẫn nhau
  Thử ba lần vẫn rơi vào cùng một vòng lặp nên cuối cùng tôi phải ép nó dùng cách brute force để giải quyết
  Nếu là con người thì chắc đến lần thứ hai đã không rơi vào vòng lặp kiểu này nữa
- Theo tiêu chuẩn của tôi thì Opus 4.6 đã ở mức AGI rồi
  Nó không chỉ làm theo chỉ thị, mà còn tự đề xuất ý tưởng cải tiến ngay cả khi tôi không yêu cầu
Điểm cốt lõi của bản cập nhật lần này là áp dụng giá tiêu chuẩn cho toàn bộ cửa sổ 1M token và hỗ trợ 600 ảnh/trang PDF
Với người dùng Claude Code thì đây là thay đổi lớn
- Tôi nghi ngờ việc thực sự dùng đầy kín cửa sổ 1M có hữu ích hay không
  Với tôi, giống như nghiên cứu của Dex Horthy, giữ dưới 40% (khoảng 80k token) vẫn ổn định hơn
  Nhân tiện, video “No vibes allowed” ở đây
- Công ty tôi đang dùng cửa sổ 1M cho công việc thực tế
  Tới khoảng 700k token thì vẫn ổn, nhưng từ mức đó trở lên bắt đầu có cảm giác chậm và đần dần
  Dùng theo kiểu pair programming mode ổn định hơn là tự động hóa hoàn toàn
- Context càng lớn thì chi phí token đầu vào càng tăng
  800k đầu vào tốn gấp 8 lần 100k, nên nếu cache không khớp thì có thể thành quả bom phí API
- Có người đùa rằng “vậy một tấm ảnh tương đương 1.666 từ à?”
- Trường hợp của tôi thì ở cửa sổ 1M, chất lượng code giảm mạnh
  Nó thường xuyên quên ngữ cảnh trong cuộc hội thoại
Có ý kiến rằng tự viết code còn tốt hơn
Sự nghiệp của tôi đã chuyển từ Python sang C/C++
Với Python, đôi khi Opus làm còn tốt hơn tôi, nhưng ở mảng embedded thì nó vẫn chỉ ở mức junior
Cuối cùng tôi nghĩ đây là vấn đề của chất lượng dữ liệu huấn luyện
Vì vậy có lẽ LLM sẽ chưa thể thay thế kỹ sư phần cứng trong một thời gian
Tôi đã tạo các kiểm tra CI để ngăn vấn đề thrashing trong mã do AI tạo ra
Agent thường liên tục sửa lỗi test thất bại rồi lại chèn vào import ma hoặc API đã deprecated
Vì vậy ở mỗi PR tôi chạy một lượt quét nhẹ để bắt gói npm không tồn tại hoặc lệch khỏi ngữ cảnh
Phân tích tĩnh truyền thống chỉ nhìn cú pháp, nhưng mã AI thường sai về mặt ngữ nghĩa
Tôi nghĩ sau này kiểu kiểm chứng dựa trên tri thức miền như vậy sẽ là bắt buộc
Có bài viết hỏi vì sao hiệu năng giảm gần mốc 100k token
Nhiều ý kiến cho rằng context thực sự dùng được còn nhỏ hơn nữa
- Với Opus 4.6, tôi gần như không cảm thấy hiện tượng giảm hiệu năng đó
  Có thể chỉ là do ấn tượng còn sót lại từ trải nghiệm trước đây
- Theo trải nghiệm của tôi, context rot vẫn còn nguyên
  Dùng 90k token thì dù là 100k hay 1M cũng tệ đi tương tự
  Với codebase lớn, chất lượng prompt mới là yếu tố then chốt
- Tôi nghĩ biểu đồ benchmark đã chính là câu trả lời rồi
- Độ phức tạp attention của Transformer tăng theo bình phương của kích thước context
  Nên để xử lý 1M token phải dùng nhiều kỹ thuật xấp xỉ, và đó có thể là nguyên nhân làm giảm hiệu năng
Trong Claude Code 2.1.75, không còn phân biệt giữa Opus mặc định và Opus 1M
Trên gói Pro cũng trông như vậy, nhưng thực tế vẫn còn giới hạn
Có lẽ đây là chiến lược của Anthropic để đáp trả cuộc cạnh tranh cửa sổ 1M từ GPT 5.4
- Trên Max 20x, nó vẫn tồn tại như một model riêng
- Trên Pro, context 1M vẫn bị tính thêm phí
Chính sách giá của Claude khá kỳ lạ
Gói 5X có giá đúng bằng 5 lần gói trước đó
Bình thường mua số lượng lớn thì phải được giảm giá, nhưng ở đây thì không
- Anthropic vốn đã ở trạng thái cầu vượt cung, nên không cần khuyến khích người dùng dùng nhiều hơn
  Có vẻ họ cho rằng một người dùng gấp 5 lần không tốt bằng 5 người chia nhau dùng
- Gói 5X chỉ là mồi, còn chiến lược thực sự là bán gói 20x
- Có người đùa rằng “chắc sẽ bù bằng sản lượng thôi”
- Cũng có ý kiến cho rằng cả hai gói đều là deal tốt có trợ giá
Hôm nay dùng thử thấy đây thật sự là một thay đổi thú vị
Giờ có thể nhét nhiều phiên song song của các sub-agent vào trong một phiên master duy nhất
Opus 1M được nói là tương đương mức 256k của GPT 5.4, nhưng gần như không bị suy giảm chất lượng
Tuy vậy nó không tụt mạnh như model q4 ’25
- Tôi hay dùng Sonnet 4.5 1M, hiệu năng tương tự nhưng tốc độ nhanh hơn nhiều
  Có lẽ vì nó dùng token rất mạnh tay, không tiết kiệm
- Cũng có bình luận hỏi là thanh toán cá nhân hay công ty
  Công ty họ nói chỉ hỗ trợ GitHub Copilot
Có câu hỏi liệu các phiên dài có đốt ngân sách token rất nhanh hay không
Vì hội thoại càng dài thì ngữ cảnh trước đó càng phải được gửi lại liên tục
- Đúng vậy. Dù có dùng cache thì với 800k token cũng nhanh chóng tích lũy tới khoảng $0.40 mỗi request
  Nếu gọi tool thường xuyên thì có thể bị tính phí nhiều lần mỗi phút
- Nếu tận dụng tốt context caching thì có thể giảm chi phí đáng kể
  Có thể cache tối đa tới 900k token

Bắt đầu cung cấp rộng rãi ngữ cảnh 1M trên Opus 4.6 và Sonnet 4.6

Tổng quan về việc phổ cập ngữ cảnh 1M

Tích hợp với Claude Code

Hiệu năng và độ chính xác của mô hình

Các trường hợp sử dụng thực tế

Nền tảng hỗ trợ và cách bắt đầu

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News