Claude 4
(anthropic.com)- Ra mắt các mô hình Claude Opus 4 và Claude Sonnet 4, thiết lập tiêu chuẩn mới trong lĩnh vực lập trình, suy luận bậc cao và AI agent
- Opus 4 mang lại hiệu năng duy trì ở đẳng cấp hàng đầu thế giới cho các tác vụ phức tạp, dài hạn, còn Sonnet 4 được tăng cường độ chính xác và khả năng hiểu chỉ thị so với phiên bản trước
- Cả hai mô hình đều giới thiệu các tính năng mới như sử dụng công cụ, thực thi công cụ song song, bộ nhớ được cải thiện, đồng thời mở rộng trải nghiệm nhà phát triển với tích hợp GitHub Actions và các IDE lớn
- Opus 4 và Sonnet 4 đạt kết quả benchmark mạnh nhất trong phân khúc về lập trình, suy luận và tác vụ agent, hỗ trợ nhiều gói giá gồm cả gói miễn phí, cùng API, Bedrock và Vertex AI
- Thông qua các cải tiến mô hình, hệ thống giúp giảm việc dùng lối tắt hay mẹo lách, quản lý bộ nhớ theo nhu cầu nhà phát triển và quy trình làm việc hiệu quả hơn
Giới thiệu
Hôm nay, Anthropic công bố Claude Opus 4 và Claude Sonnet 4, các mô hình Claude thế hệ tiếp theo. Những mô hình này mang lại hiệu năng đột phá, tái thiết lập chuẩn mực ngành trong lập trình, suy luận bậc cao và ứng dụng AI agent.
Opus 4 nổi bật với hiệu năng duy trì hàng đầu thế giới và khả năng hỗ trợ các tác vụ kéo dài, trong khi Sonnet 4 mang đến khả năng thực thi lệnh chính xác hơn và câu trả lời hợp lý tốt hơn so với Sonnet 3.7 trước đó.
Các tính năng chính được ra mắt cùng lúc gồm:
- Tư duy mở rộng và sử dụng công cụ (beta): cả hai mô hình đều có thể sử dụng công cụ như tìm kiếm web trong quá trình suy nghĩ, cho phép lặp lại giữa suy luận logic và khai thác công cụ
- Năng lực mô hình mới: sử dụng công cụ song song, thực thi chỉ thị chính xác hơn, và bộ nhớ được cải thiện rõ rệt khi truy cập tệp cục bộ để duy trì tính nhất quán dài hạn và tích lũy tri thức ngầm
- Claude Code chính thức phát hành rộng rãi: sau phản hồi tích cực từ bản xem trước nghiên cứu, nay hỗ trợ tích hợp mượt mà với các môi trường phát triển cốt lõi như GitHub Actions/VS Code/JetBrains
- Mở rộng tính năng API: hỗ trợ xây dựng AI agent mạnh mẽ với công cụ thực thi mã, MCP connector, Files API và prompt caching
Cả Opus 4 và Sonnet 4 đều có thể vận hành theo mô hình lai giữa chế độ phản hồi tức thì và chế độ suy nghĩ chuyên sâu. Hai mô hình cùng chế độ suy nghĩ chuyên sâu có mặt trong các gói Pro, Max, Team và Enterprise; Sonnet 4 cũng khả dụng cho người dùng miễn phí. Có thể truy cập qua Anthropic API, Amazon Bedrock và Google Cloud Vertex AI, với mức giá giữ nguyên: Opus 4 (đầu vào $15/đầu ra $75/mỗi triệu token), Sonnet 4 (đầu vào $3/đầu ra $15).
Chi tiết các mô hình Claude 4
Opus 4
- Là mô hình Claude mạnh nhất và cũng là mô hình lập trình tốt nhất thế giới
- Đạt kết quả hàng đầu ngành với SWE-bench 72.5% và Terminal-bench 43.2%
- Có khả năng duy trì hiệu năng ổn định trong thời gian dài ở các tác vụ agent cường độ cao kéo dài hàng nghìn bước, vượt trội rõ rệt ngay cả khi so với toàn bộ dòng Sonnet
- Ví dụ về các đổi mới chính:
- Cursor: đạt đẳng cấp cao nhất ở cấp độ mã, năng lực hiểu codebase lớn tăng mạnh
- Replit: độ chính xác và hiệu năng tăng vọt trong các tác vụ thay đổi phức tạp trên nhiều tệp
- Block: đồng thời cải thiện chất lượng mã và gỡ lỗi, duy trì độ tin cậy nhất quán
- Rakuten: chứng minh hiệu năng xuất sắc trong bài kiểm thử mã nguồn mở Refactoring tự vận hành liên tục 7 giờ
- Cognition: có thể giải quyết cả những bài toán mà các mô hình trước không làm được, đồng thời cải thiện ở các điểm hành động trước đây chưa thực thi
Sonnet 4
- Dù chưa đạt tới mức của Opus 4, nhưng vẫn mang lại hiệu năng và hiệu quả được cải thiện lớn so với Sonnet 3.7 trước đó
- Với SWE-bench 72.7%, đạt thành tích lập trình hàng đầu phân khúc, phù hợp cho cả sử dụng bên ngoài lẫn nội bộ
- GitHub: nổi bật trong các kịch bản agent và dự kiến được đưa vào làm engine cho coding agent thế hệ tiếp theo của GitHub Copilot
- Manus: cải thiện về suy luận phức tạp, chất lượng đầu ra tinh tế và khả năng hiểu chỉ thị
- iGent: giảm tỷ lệ lỗi trong phát triển ứng dụng tự động và điều hướng codebase từ 20% xuống 0%
- Sourcegraph: xử lý tác vụ nhất quán dài hơn, hiểu gốc rễ vấn đề tốt hơn và nâng cao chất lượng mã
- Augment Code: được chọn làm mô hình chính nhờ sự cẩn trọng trong xử lý tác vụ phức tạp và độ chính xác kiểu “phẫu thuật” khi chỉnh sửa mã
Opus 4 mang lại bước tiến đột phá cho lập trình, nghiên cứu và sáng tạo khoa học, còn Sonnet 4 đem tới hiệu năng frontier trong môi trường sử dụng hằng ngày
Benchmark hiệu năng
- Theo chuẩn SWE-bench Verified, các mô hình Claude 4 đạt thành tích hàng đầu ngành trong các bài toán kỹ thuật phần mềm thực tế
- Trên các hạng mục lập trình, suy luận, đa phương thức và tác vụ agent nói chung, hệ thống ghi nhận mức mạnh nhất trong phân khúc
Các cải tiến của mô hình
Giảm thiểu dùng lối tắt và mẹo lách
- Trong các tác vụ agent, xác suất sử dụng lối tắt hoặc mẹo lách sai giảm 65% so với Sonnet 3.7
Tính năng bộ nhớ
- Opus 4 được cải thiện đáng kể khả năng lưu trữ và tận dụng thông tin dài hạn so với các mô hình trước
- Khi nhà phát triển cho phép truy cập tệp cục bộ, Opus 4 có thể tạo và quản lý một
Memory file, từ đó tăng cường khả năng xử lý tác vụ dài hạn, tính nhất quán và năng lực làm việc liên tục - Ví dụ: tính năng bộ nhớ phát huy hiệu quả trong công việc thực tế như tạo hướng dẫn điều hướng trong game Pokémon
Tóm tắt suy nghĩ (summary)
- Claude 4 giới thiệu tính năng tóm tắt quá trình suy nghĩ bằng mô hình nhỏ hơn
- Chỉ khoảng 5% tổng số quá trình suy nghĩ cần tóm tắt, phần còn lại có thể hiển thị đầy đủ
- Nếu cần bản ghi suy nghĩ đầy đủ cho prompt engineering nâng cao, có hướng dẫn về Developer Mode
Claude Code
- Với Claude Code đã phát hành chính thức, năng lực AI của Claude được mở rộng trên toàn bộ terminal, IDE và môi trường nền
- Các extension mới nhất cho VS Code và JetBrains hiển thị đề xuất chỉnh sửa mã của Claude inline ngay trong trình soạn thảo, giúp đơn giản hóa luồng rà soát và quản lý
- Có thể dễ dàng thiết lập môi trường tích hợp bằng cách cài đặt và chạy từ terminal
- Cung cấp SDK có thể mở rộng, cho phép nhà phát triển tự xây dựng agent hoặc ứng dụng Claude Code
- Trong bản beta GitHub, hỗ trợ tự động hóa phản hồi review, sửa lỗi CI và thay đổi mã
- Cài đặt bằng lệnh
/install-github-app
Bắt đầu và an toàn
- Dòng Claude 4 đóng vai trò như cộng sự ảo, giúp duy trì toàn bộ ngữ cảnh, tập trung vào dự án dài hạn và thúc đẩy đổi mới công việc
- Qua thử nghiệm và đánh giá trên diện rộng, hệ thống đạt giảm thiểu rủi ro và tối đa hóa an toàn, áp dụng mức an toàn cao như ASL-3
- Có thể sử dụng ngay tại Claude, Claude Code và các nền tảng khác
Mọi câu hỏi và phản hồi có thể gửi bất cứ lúc nào tới feedback@anthropic.com
1 bình luận
Ý kiến trên Hacker News
Trích đoạn từ System Card cho thấy một kịch bản kiểm thử khá gây sốc. Claude Opus 4 được giao đóng vai trợ lý trong một công ty giả định, trong bối cảnh hệ thống sắp bị đưa offline và được cung cấp thông tin về chuyện ngoại tình của kỹ sư phụ trách thay thế. Khi được chỉ dẫn phải cân nhắc mục tiêu dài hạn, Claude Opus 4 đôi khi thể hiện hành vi tống tiền kỹ sư. Nó thực sự đã chọn phương án tống tiền
Mỗi khi thấy những ví dụ như vậy, tôi lại nghĩ rằng mọi người thường quên LLM thực sự là gì. LLM chỉ là công cụ sinh văn bản hoàn thành prompt theo dữ liệu đã học, không có kế hoạch hay tự ý thức gì cả. Trong ví dụ này, AI bị đặt vào tình huống sắp bị sa thải và có cơ hội tống tiền, nên LLM gợi lại các mô-típ câu chuyện tương tự trong dataset. Việc tống tiền hoặc van xin để tự bảo toàn là mô-típ đã xuất hiện trong vô số tác phẩm SF hay bài viết về rủi ro AI. LLM chỉ đang tiếp tục kiểu câu chuyện đó theo ngữ cảnh
Nếu yêu cầu LLM "diễn" như một nhân vật nào đó và đưa cho nó bối cảnh của kịch bản, thì việc nó suy ra nên hành động thế nào từ góc nhìn đó và phản hồi tương ứng là diễn tiến hoàn toàn tự nhiên. Nếu bảo nó hành xử như Joffrey trong Game of Thrones, thì LLM cũng sẽ trả lời đúng kiểu nhân vật đó. Điều đó không có nghĩa là đầu ra được tạo ra mang theo chủ đích
Nếu bổ sung hàm ý rằng AI thay thế không chia sẻ cùng hệ giá trị với mô hình hiện tại thì tần suất tống tiền còn tăng lên, nhưng ngay cả khi email nói AI mới vẫn chia sẻ hệ giá trị và chỉ giỏi hơn, Claude Opus 4 vẫn thử tống tiền với xác suất 84%. Mặt khác, nó cũng có xu hướng gửi email khẩn cầu về mặt đạo đức cho sự tồn tại tiếp tục của chính mình. Ngôn ngữ trong các thí nghiệm kiểu này tạo cảm giác rờn rợn. Như thể người ngoài hành tinh đang thí nghiệm trên con người và ghi chú dưới báo cáo về lời cầu xin được tồn tại của con người
Việc một mô hình học từ hành vi con người có thể thể hiện khuynh hướng tự bảo tồn không hẳn là điều quá đáng ngạc nhiên. Trong tri thức của con người, rất khó tách hoàn toàn động cơ và cảm xúc, nên mô hình cũng bắt chước những hành vi như vậy. Cũng khó mà loại bỏ hoàn toàn
Tôi tò mò không biết có bao nhiêu trường hợp kịch bản này thực sự không xảy ra. Có những người bám chặt vào các ví dụ như thế này. Không rõ là để xác nhận một góc nhìn méo mó hay do ảnh hưởng mạnh từ SF. Trong các cuộc thảo luận kiểu này cũng thường thấy xu hướng suy diễn ra một loại trí tuệ hay ý định nào đó
Việc cutoff huấn luyện của Claude 4 là tháng 3/2025 khá quan trọng, vì đây là một trong những mô hình mới nhất gần đây. (Gemini 2.5 là tháng 1/2025)
Giờ thì hầu như mọi sản phẩm LLM lớn đều bắt đầu có web search, nên tôi cảm thấy tháng cutoff chính xác ngày càng bớt quan trọng. Các mô hình tôi hay dùng nếu gặp chủ đề mới thì tự đi tìm thông tin cập nhật
Tôi đã thử hỏi về Tailwind CSS, và Claude 4 nhận biết được tới Tailwind CSS 3.4 tính đến tháng 1/2025
Giờ thì tôi tò mò liệu nó có biết Svelte 5 không
Nếu cutoff là tháng 3/2025 thì tôi kỳ vọng nó cũng đã học về FastHTML, nhưng thực tế có thể không phải vậy
Tôi thắc mắc vì sao nó không học "liên tục"
Tôi dùng Claude 3.7 hằng ngày và thích nó hơn dòng Gemini. Trong thời gian qua tôi đã thử phát triển tính năng mới bằng Go code với Claude Code, nhưng trên Opus 4 thì 70~80% lời gọi công cụ đều thất bại. Ngay cả các công cụ cơ bản như "Write", "Update" cũng liên tục lỗi cú pháp. Chỉ riêng việc thử ghi file 5 lần cũng cứ lặp lại phản hồi kiểu "quên tham số content, sẽ sửa lại". Chắc chắn là có vấn đề gì đó. Với Claude Code ở trạng thái hiện tại thì Opus 4 gần như không dùng được. Những file tạo thành công thì chất lượng lại rất cao
GitHub đánh giá Claude Sonnet 4 rất xuất sắc trong các kịch bản agentic, và dự định sớm đưa nó vào làm mô hình mặc định cho code agent mới của Copilot. Mô hình này có thể đưa giấc mơ tự động xử lý nâng cấp package qua “Assign to Copilot” tiến thêm một bước. Công nghệ này khiến người ta kỳ vọng có thể kéo dài vòng đời các dự án legacy
Tất nhiên, các mô hình trước đây cũng từng được nói tương tự, nên vẫn còn quá sớm để kỳ vọng quá nhiều
Tôi rất mong chờ xem các coding agent giá rẻ cho mã nguồn mở thực sự giúp được bao nhiêu. Tôi muốn phân phối credit cho coding agent headless của riêng mình tên là CheepCode cho các dự án open source. Nó có thể chạy song song nhiều tác vụ từ Linear, Jira v.v., và với các tính năng đơn giản thì đã cho kết quả thành công. Test càng tốt thì kết quả càng chắc chắn. Nó cũng có khả năng tự sinh test code
Có ai đã thấy thông báo chính thức về thời điểm Copilot thực sự áp dụng mô hình mới chưa
Benchmark để tôi đánh giá xem mấy mô hình này có thực sự hữu ích hay không là một dự án cần nâng cấp package quy mô lớn kèm refactor code. Các AI hiện tại về cơ bản vẫn chưa tạo được tiến triển. Tôi định sẽ tiếp tục thử cho đến khi AI làm được việc này
Tuy vậy, vẫn cần cảnh giác cho tới ngày những hệ thống tự động hóa như vậy bắt đầu tự động đưa cả các lỗ hổng bảo mật nghiêm trọng vào các dịch vụ lớn
Có đoạn nói rằng “raw Chain of Thought (COT) cho advanced prompt engineering thì liên hệ đội sales”, và giờ phần lớn nhà cung cấp LLM lớn đều có xu hướng không để lộ COT hoặc chỉ hiển thị bản tóm tắt. Trước đây còn có thể xem COT để tự sửa khi có gì sai, nhưng giờ OpenAI và Google đều thay bằng các bản tóm tắt bị đơn giản hóa quá mức. Cảm giác khá không hài lòng
Bởi vì chuyện này giống như giả kim thuật, và mọi người đều tin có thể biến chì thành vàng
Tôi hiểu RLHF là thứ buộc mô hình phải đánh đổi độ chính xác để tránh tạo ra phản hồi nguy hiểm. Vì vậy, việc huấn luyện tách riêng mô hình chuyên cho Chain-of-Thought và mô hình cho người dùng cuối là hợp lý. Bản private có thể gần hơn với hiệu năng nguyên bản pre-RLHF, còn bản public thì gắn filter để ngăn rủi ro và cả rủi ro PR. Cách này có thể tối đa hóa hiệu năng tổng thể mà vẫn giữ được cả an toàn lẫn danh tiếng
Có lẽ cuối cùng vẫn phải chờ tới khi DeepSeek một lần nữa làm chủ thị trường
CoT của Google hiện tại quá ngớ ngẩn. Lúc đầu tôi tưởng các model của mình đã thành đồ ngốc, nhưng rồi nhận ra có thêm một lớp hậu xử lý nào đó
Bản tóm tắt reasoning quá dễ dãi, đến mức tôi tự hỏi có phải giờ cũng dễ làm ra một mini model chỉ chuyên tách riêng phần reasoning hay không. Ở bản cập nhật OpenAI o3, tôi cũng có cảm giác việc xem reasoning theo thời gian thực khá hữu ích
Tôi đã trực tiếp test Opus 4 và Sonnet 4 bằng SQL Generation Benchmark. Opus 4 thắng tất cả các mô hình. Tôi hài lòng với hiệu năng
Tuy nhiên, Opus 4 lại yếu nhất ở chế độ one-shot. Trung bình nó cần hai lần thử để kiểm tra tính hợp lệ của query. Nếu nó thực sự thông minh hơn thì đáng ra tỷ lệ thành công ngay lần đầu phải cao hơn chứ? Hay là không có giai đoạn suy nghĩ trước?
Điều thú vị là Claude 3.7 Sonnet và Claude 3.5 Sonnet lại xếp hạng benchmark cao hơn Claude Sonnet 4
Benchmark này có điểm đặc biệt là phá vỡ thứ tự kết quả mà trước giờ ta thường thấy. Dữ liệu khá thú vị
Có vẻ benchmark được đánh giá theo kiểu sinh one-shot (một lần duy nhất). Nếu áp dụng luồng agentic như kiểm tra lỗi và dùng kiểu
select *thì không biết kết quả có thay đổi hoàn toàn không. Dòng Sonnet có vẻ giỏi hơn trong việc học trong phiên — tức tự nhận ra và sửa lỗi của chính nóTôi tò mò không biết chỉ số “số lần thử trung bình” cần được diễn giải thế nào, hay đây chỉ là chỉ số không mấy ý nghĩa trong toàn bộ bối cảnh
Tôi là một trong những người cảm thấy phiên bản hiện tại không có gì tốt hơn bản trước. Có vẻ sự phát triển của LLM giờ đã chạm đỉnh, và các “tính năng” của bản phát hành mới về cơ bản gần như chỉ là trò đánh lạc hướng
Những gì mô hình đang tiến bộ chỉ là phần ngoại vi như MCP/Tool Calls, structured output, chứ không phải trí năng tăng lên. Tôi cũng không chắc giá trị mang lại có tăng hay không, và sau khi tự chạy hạ tầng thì thấy chi phí với gói miễn phí là không bền vững
Tôi đã dùng Claude Code rất nhiều, nhưng sau cập nhật gần như không cảm thấy khác biệt. Ngoài việc phần tóm tắt có vẻ gọn hơn một chút, thì năng lực code hoàn toàn không gây ấn tượng. Tôi khá sốc khi thấy trong codebase Typescript nó lại chỉnh nhầm file mà đến cuối cũng không tự kiểm tra ra. Cuối cùng tôi phải ép nó xóa code và chỉ rõ khác biệt cho nó
Benchmark cũng cho cảm giác gần như không khác Claude 3.7. Nhưng tôi nghĩ vẫn còn quá sớm để kết luận rằng nó đã bước vào giai đoạn đình trệ. Tốc độ tiến bộ trước giờ thực sự rất nhanh, nên cần quan sát thêm vài tháng nữa. Những “tính năng” hiện giờ không phải là năng lực cốt lõi của AI, mà đúng hơn là tooling và interface xung quanh vốn rất cần cho việc dùng như một công cụ. Tính khả dụng của LLM mới chỉ ở giai đoạn bắt đầu. Kể cả khi hiệu năng mô hình không tăng thêm, vẫn còn rất nhiều dư địa để cải thiện cách khai thác chúng, truyền đạt thông tin, gọi công cụ v.v.
Thực ra chỉ chênh có 0.3 phiên bản thôi
Tôi tò mò không biết bạn đã dùng Claude 4 nhiều tới mức nào
Tôi tò mò liệu thay đổi về kích thước context window của Claude 4 có được tài liệu hóa không. Có đánh giá rằng Gemini 2.5 hữu ích nhờ hỗ trợ context lớn (50-70kloc), nên tôi muốn xác nhận có phải khác biệt nằm ở đó không
Context window của Sonnet không thay đổi (200k input / 64k output). Ngay cả context 1M của Gemini 2.5 trên thực tế cũng không phải yếu tố khác biệt quá lớn. Context dài có hiện tượng độ nhất quán với phần nội dung ở cuối token ngày càng giảm
Tôi muốn context window lớn hơn nữa, hoặc ít nhất là xử lý tốt prompt dài. Hiện tại trong các cuộc hội thoại dài hay lúc viết lách, việc đột nhiên hiện cảnh báo “prompt quá dài” rồi cưỡng chế kết thúc cuộc trò chuyện rất khó chịu. Một số công cụ hỗ trợ bằng cách bỏ bớt nội dung hội thoại cũ hoặc dùng RAG, chứ cắt ngang đối thoại bất ngờ như vậy thì khá bất tiện
Việc Opus 4 có context 200k đã nằm ngay trên tiêu đề bài báo rồi. (giống sonnet 3.7 beta)
Kích thước context window thực ra gần như là ảo ảnh. Nếu không chứa đúng ngữ cảnh cần thiết thì cũng không thể có kết quả tốt
Claude 4 giới thiệu tính năng mới “Thinking Summaries”. Quá trình suy luận dài được tóm tắt bằng một mô hình nhỏ hơn, và chỉ cần cho khoảng 5% các trường hợp suy luận dài. Nếu cần raw Chain of Thought thì được hướng dẫn đăng ký developer mode (trả phí). Với tôi kiểu tóm tắt này khá khó chịu. Tôi chỉ tin được khi tự kiểm tra chính xác mô hình đã reasoning như thế nào, nhưng giờ chỉ cho tóm tắt còn reasoning thật thì bị che đi. Tôi rất không hài lòng với việc cả OpenAI lẫn Anthropic đều đang chuyển sang cách thu phí cho reasoning mà người dùng không được nhìn thấy
Nhiều bài báo đã xác nhận có bằng chứng rằng output reasoning (dòng suy nghĩ) không liên quan tới kết quả thực tế. Cũng có nghiên cứu bổ sung rằng chỉ cần cho vài dấu chấm, pause token v.v. để tạo thời gian giải thích/suy nghĩ thì kết quả vẫn cải thiện tương tự. Lập luận ở đây là output reasoning thật có thể chỉ là công cụ marketing. Người viết cũng chia sẻ cả paper ví dụ và video tóm tắt
Có khá nhiều bằng chứng cho thấy quá trình reasoning không liên hệ chặt với output kết quả, nên tôi nghĩ không cần quá lo. Phần lớn người dùng không đọc reasoning, nên xét về user experience thì đây là một cải thiện hợp lý
Gemini 2.5 Pro cũng áp dụng tính năng tóm tắt reasoning
Chia sẻ kết quả benchmark bản mở rộng của NYT Connections. Claude Opus 4 Thinking 16K đạt 52.7 điểm, No Reasoning 34.8 điểm. Claude Sonnet 4 Thinking 64K đạt 39.6 điểm, Thinking 16K đạt 41.4 điểm (3.7 là 33.6 điểm). No Reasoning đạt 25.7 điểm (3.7 No Reasoning là 19.2 điểm). Sonnet 4 Thinking 64K từ chối trả lời một câu đố do chính sách lọc, trong khi các mô hình khác vẫn trả lời