- Claude Opus 4.6 và Sonnet 4.6 nay hỗ trợ cửa sổ ngữ cảnh 1 triệu token (1M) với mức giá tiêu chuẩn, có thể dùng toàn bộ phạm vi mà không cần trả thêm phí premium
- Giá giữ nguyên theo đơn giá hiện tại: Opus 4.6 là $5/$25, Sonnet 4.6 là $3/$15 (theo đầu vào/đầu ra), nên yêu cầu 9K hay 900K đều được tính theo cùng một tỷ lệ
- Giới hạn đầu vào media tăng gấp 6 lần, cho phép xử lý tối đa 600 hình ảnh hoặc trang PDF trong một lần, đồng thời có thể dùng ngay trên Azure Foundry, Google Vertex AI và các nền tảng khác
- Người dùng Claude Code gói Max, Team và Enterprise có thể tự động tận dụng ngữ cảnh 1M, giúp giảm nén phiên và cải thiện khả năng duy trì hội thoại
- Được đánh giá là tính năng nâng cao độ chính xác và hiệu quả trong khi vẫn giữ được ngữ cảnh dài, phức tạp như codebase lớn, hợp đồng hay log vận hành
Tổng quan về việc phổ cập ngữ cảnh 1M
- Opus 4.6 và Sonnet 4.6 cung cấp cửa sổ ngữ cảnh 1M trên Claude Platform với mức giá tiêu chuẩn
- Opus 4.6 là $5 (đầu vào)/$25 (đầu ra) cho mỗi triệu token, Sonnet 4.6 là $3/$15
- Không có chênh lệch giá theo kích thước yêu cầu
- Loại bỏ phụ phí cho ngữ cảnh dài, duy trì cùng mức thông lượng ở mọi độ dài ngữ cảnh
- Giới hạn đầu vào media tăng 6 lần: hỗ trợ tối đa 600 hình ảnh hoặc trang PDF
- Không cần beta header, các yêu cầu vượt quá 200K token cũng được xử lý tự động
Tích hợp với Claude Code
- Ngữ cảnh 1M được tự động kích hoạt khi dùng Opus 4.6 trong các gói Max, Team, Enterprise của Claude Code
- Giảm hiện tượng nén hội thoại (compaction) trong phiên
- Trước đây cần thêm mức sử dụng bổ sung, nay đã được bao gồm mặc định
Hiệu năng và độ chính xác của mô hình
- Opus 4.6 đạt 78,3% theo MRCR v2, là mức hiệu năng cao nhất trong các mô hình cùng độ dài ngữ cảnh
- Ngay cả ở ngữ cảnh 1M, mô hình vẫn giữ được độ chính xác và cải thiện khả năng truy xuất trong văn bản dài
- Có thể xử lý mà giữ nguyên toàn bộ ngữ cảnh của codebase lớn, hợp đồng và log agent dài hạn
- Duy trì toàn bộ hội thoại mà không cần tóm tắt hay đặt lại ngữ cảnh
Các trường hợp sử dụng thực tế
- Nghiên cứu khoa học: có thể phân tích tích hợp hàng trăm bài báo, framework toán học và mã mô phỏng trong một lần (Alex Wissner-Gross)
- Công việc pháp lý: có thể so sánh nhiều phiên bản của hợp đồng 100 trang trong một phiên (Bardia Pourvakil)
- Phân tích hệ thống vận hành: giữ toàn bộ tín hiệu và giả thuyết trong tầm nhìn khi xử lý sự cố (Mayank Agarwal)
- Nghiên cứu AI và review code: xử lý các file diff lớn trong một lần để nâng cao chất lượng (Adhyyan Sekhsaria)
- Phân tích dữ liệu và gỡ lỗi: giữ nguyên chi tiết khi tìm kiếm trong Datadog, cơ sở dữ liệu và mã nguồn (Anton Biryukov)
- Cải thiện hiệu quả agent: giảm 15% các sự kiện nén ngữ cảnh, vẫn giữ được thông tin ban đầu trong các phiên kéo dài (Jon Bell)
Nền tảng hỗ trợ và cách bắt đầu
- Ngữ cảnh 1M hiện có thể dùng ngay trên Claude Platform, Amazon Bedrock, Google Cloud Vertex AI và Microsoft Foundry
- Người dùng Claude Code Max, Team, Enterprise dùng Opus 4.6 sẽ được áp dụng ngữ cảnh 1M theo mặc định
- Có thể xem chi tiết trong trang documentation và pricing chính thức
1 bình luận
Ý kiến trên Hacker News
Opus 4.6 thực sự ở mức đáng kinh ngạc
Dù ném cho nó việc frontend, backend hay thuật toán thì nó cũng xử lý tốt
Bắt đầu từ PRD, lập kế hoạch từng bước rồi thực hiện lần lượt thì chỉ trong vài giờ là đã ra được sản phẩm thực sự chạy được
Đây là AI đầu tiên khiến tôi nghĩ rằng “cái này có vẻ còn thông minh hơn mình”
Hơn nữa với công nghệ hiện tại, thậm chí còn có thể chạy đồng thời nhiều agent ở tốc độ 1k token mỗi giây
Tôi giao cho Claude Code dựa trên Opus 4.6 việc refactor mã React, cụ thể là đổi useState/useEffect → useMemo
Kế hoạch thì rất tuyệt, nhưng ở một số đoạn mã nó đặt khai báo biến sai chỗ nên phát sinh tham chiếu undefined
Khi tôi định sửa thì nó lại cố thay đổi lớn toàn bộ cấu trúc, cuối cùng tôi phải sửa thủ công
Dù vậy xét tổng thể thì vẫn tiết kiệm được thời gian, nhưng là một trải nghiệm khá bực bội
Tôi đã thử dùng Opus 4.6 để tạo test harness cho công cụ diff cơ sở dữ liệu, nhưng nó lại sinh test cho một công cụ cũ không liên quan
Mã test không gọi các hàm thực tế mà tự triển khai luôn logic bên trong
Sau 4 giờ và tốn $75 tôi mới có được thứ tạm chạy được, nhưng chất lượng thì không ra sao
Ở công ty cũng có chỉ đạo tăng ngân sách dùng Claude, nhưng ai cũng vật lộn tương tự
Hiện giờ dùng nó để chỉnh sửa từng phần hoặc debug trong VS Studio hiệu quả hơn nhiều
Đó là một bài toán tính bồi tích trong bể địa hình, và Opus cứ lặp đi lặp lại ba cách giải thích mâu thuẫn nhau
Thử ba lần vẫn rơi vào cùng một vòng lặp nên cuối cùng tôi phải ép nó dùng cách brute force để giải quyết
Nếu là con người thì chắc đến lần thứ hai đã không rơi vào vòng lặp kiểu này nữa
Nó không chỉ làm theo chỉ thị, mà còn tự đề xuất ý tưởng cải tiến ngay cả khi tôi không yêu cầu
Điểm cốt lõi của bản cập nhật lần này là áp dụng giá tiêu chuẩn cho toàn bộ cửa sổ 1M token và hỗ trợ 600 ảnh/trang PDF
Với người dùng Claude Code thì đây là thay đổi lớn
Với tôi, giống như nghiên cứu của Dex Horthy, giữ dưới 40% (khoảng 80k token) vẫn ổn định hơn
Nhân tiện, video “No vibes allowed” ở đây
Tới khoảng 700k token thì vẫn ổn, nhưng từ mức đó trở lên bắt đầu có cảm giác chậm và đần dần
Dùng theo kiểu pair programming mode ổn định hơn là tự động hóa hoàn toàn
800k đầu vào tốn gấp 8 lần 100k, nên nếu cache không khớp thì có thể thành quả bom phí API
Nó thường xuyên quên ngữ cảnh trong cuộc hội thoại
Có ý kiến rằng tự viết code còn tốt hơn
Sự nghiệp của tôi đã chuyển từ Python sang C/C++
Với Python, đôi khi Opus làm còn tốt hơn tôi, nhưng ở mảng embedded thì nó vẫn chỉ ở mức junior
Cuối cùng tôi nghĩ đây là vấn đề của chất lượng dữ liệu huấn luyện
Vì vậy có lẽ LLM sẽ chưa thể thay thế kỹ sư phần cứng trong một thời gian
Tôi đã tạo các kiểm tra CI để ngăn vấn đề thrashing trong mã do AI tạo ra
Agent thường liên tục sửa lỗi test thất bại rồi lại chèn vào import ma hoặc API đã deprecated
Vì vậy ở mỗi PR tôi chạy một lượt quét nhẹ để bắt gói npm không tồn tại hoặc lệch khỏi ngữ cảnh
Phân tích tĩnh truyền thống chỉ nhìn cú pháp, nhưng mã AI thường sai về mặt ngữ nghĩa
Tôi nghĩ sau này kiểu kiểm chứng dựa trên tri thức miền như vậy sẽ là bắt buộc
Có bài viết hỏi vì sao hiệu năng giảm gần mốc 100k token
Nhiều ý kiến cho rằng context thực sự dùng được còn nhỏ hơn nữa
Có thể chỉ là do ấn tượng còn sót lại từ trải nghiệm trước đây
Dùng 90k token thì dù là 100k hay 1M cũng tệ đi tương tự
Với codebase lớn, chất lượng prompt mới là yếu tố then chốt
Nên để xử lý 1M token phải dùng nhiều kỹ thuật xấp xỉ, và đó có thể là nguyên nhân làm giảm hiệu năng
Trong Claude Code 2.1.75, không còn phân biệt giữa Opus mặc định và Opus 1M
Trên gói Pro cũng trông như vậy, nhưng thực tế vẫn còn giới hạn
Có lẽ đây là chiến lược của Anthropic để đáp trả cuộc cạnh tranh cửa sổ 1M từ GPT 5.4
Chính sách giá của Claude khá kỳ lạ
Gói 5X có giá đúng bằng 5 lần gói trước đó
Bình thường mua số lượng lớn thì phải được giảm giá, nhưng ở đây thì không
Có vẻ họ cho rằng một người dùng gấp 5 lần không tốt bằng 5 người chia nhau dùng
Hôm nay dùng thử thấy đây thật sự là một thay đổi thú vị
Giờ có thể nhét nhiều phiên song song của các sub-agent vào trong một phiên master duy nhất
Opus 1M được nói là tương đương mức 256k của GPT 5.4, nhưng gần như không bị suy giảm chất lượng
Tuy vậy nó không tụt mạnh như model q4 ’25
Có lẽ vì nó dùng token rất mạnh tay, không tiết kiệm
Công ty họ nói chỉ hỗ trợ GitHub Copilot
Có câu hỏi liệu các phiên dài có đốt ngân sách token rất nhanh hay không
Vì hội thoại càng dài thì ngữ cảnh trước đó càng phải được gửi lại liên tục
Nếu gọi tool thường xuyên thì có thể bị tính phí nhiều lần mỗi phút
Có thể cache tối đa tới 900k token