Ra mắt Claude 4: Opus 4 và Sonnet 4

(anthropic.com)

1 điểm bởi GN⁺ 2025-05-23 | 1 bình luận | Chia sẻ qua WhatsApp

Anthropic ra mắt Claude Opus 4 và Claude Sonnet 4, đưa lập trình, suy luận nâng cao và tác vụ AI agent thành các lĩnh vực hiệu năng trọng tâm của thế hệ Claude tiếp theo
Cả hai mô hình đều là mô hình lai chuyển đổi giữa phản hồi tức thì và suy luận sâu, đồng thời hỗ trợ dùng công cụ như tìm kiếm web trong lúc suy nghĩ mở rộng và chạy công cụ song song
Opus 4 đạt 72.5% trên SWE-bench và 43.2% trên Terminal-bench, còn Sonnet 4 đạt 72.7% trên SWE-bench, cải thiện khả năng lập trình, suy luận và tuân thủ chỉ dẫn so với Sonnet 3.7
Claude Code đã chính thức phát hành, mở rộng sang terminal, VS Code, JetBrains, GitHub Actions và SDK, có thể đảm nhận phản hồi review PR, sửa lỗi CI và thay đổi mã
API được bổ sung công cụ thực thi mã, MCP connector, Files API và bộ nhớ đệm prompt tối đa 1 giờ để nhà phát triển có thể xây dựng AI agent mạnh hơn

Ra mắt dòng mô hình Claude 4

Anthropic công bố Claude Opus 4 và Claude Sonnet 4 là các mô hình thế hệ tiếp theo của Claude
Trọng tâm cốt lõi của hai mô hình là lập trình, suy luận nâng cao và tác vụ AI agent
Claude Opus 4 là mô hình lập trình có hiệu năng bền bỉ trong các tác vụ phức tạp, kéo dài và quy trình agent workflow
Claude Sonnet 4 là bản nâng cấp của Claude Sonnet 3.7, nâng cao hiệu năng lập trình, suy luận và độ chính xác khi làm theo chỉ dẫn

Cách cung cấp và giá

Claude Opus 4 và Sonnet 4 đều cung cấp cả phản hồi gần như tức thì lẫn chế độ suy nghĩ mở rộng để suy luận sâu hơn
Các gói Claude Pro, Max, Team và Enterprise bao gồm cả hai mô hình cùng suy nghĩ mở rộng
Người dùng miễn phí cũng có thể dùng Sonnet 4
Cả hai mô hình đều có trên Anthropic API, Amazon Bedrock và Google Cloud Vertex AI
Giá giữ nguyên như các mô hình Opus và Sonnet trước đó
- Opus 4: $15/$75 cho mỗi 1 triệu token đầu vào/đầu ra
- Sonnet 4: $3/$15 cho mỗi 1 triệu token đầu vào/đầu ra

Hiệu năng lập trình và tác vụ dài hạn của Opus 4

Claude Opus 4 là mô hình mạnh nhất của Anthropic, đạt 72.5% trên SWE-bench và 43.2% trên Terminal-bench
Mô hình cho hiệu năng bền bỉ trong các tác vụ dài hạn cần tập trung qua hàng nghìn bước và có thể làm việc liên tục trong nhiều giờ
Cursor đánh giá Opus 4 là mô hình tiên tiến nhất cho lập trình và cho rằng nó đã tạo ra bước tiến lớn trong việc hiểu các codebase phức tạp
Replit cho biết độ chính xác đã tăng lên trong các thay đổi phức tạp trải rộng trên nhiều tệp
Block mô tả rằng trong agent nội bộ codename goose, Opus 4 là mô hình đầu tiên vừa nâng cao chất lượng mã trong lúc chỉnh sửa và gỡ lỗi vừa duy trì hiệu năng và độ tin cậy
Rakuten xác nhận Opus 4 thể hiện hiệu năng bền bỉ khi chạy độc lập trong 7 giờ với các tác vụ refactor mã nguồn mở đầy thách thức
Cognition đánh giá Opus 4 mạnh ở các tác vụ quan trọng mà mô hình trước bỏ lỡ và các bài toán phức tạp mà những mô hình khác không giải được

Vị trí của Sonnet 4

Claude Sonnet 4 là mô hình được cải thiện so với Sonnet 3.7 và đạt 72.7% trên SWE-bench
Mô hình hướng tới sự cân bằng giữa hiệu năng và hiệu quả cho các trường hợp sử dụng nội bộ lẫn bên ngoài, đồng thời cải thiện khả năng điều hướng để kiểm soát triển khai
Dù không ngang với Opus 4 ở hầu hết lĩnh vực, mô hình vẫn mang lại sự kết hợp giữa năng lực và tính thực dụng
GitHub dự kiến đưa Sonnet 4 vào làm mô hình vận hành coding agent mới của GitHub Copilot
Manus nhấn mạnh các cải thiện về tuân thủ chỉ dẫn phức tạp, suy luận rõ ràng và kết quả có tính thẩm mỹ
iGent cho biết việc phát triển ứng dụng đa chức năng tự động và khám phá codebase đã được cải thiện, đồng thời lỗi khám phá giảm từ 20% xuống gần 0
Sourcegraph đánh giá Sonnet 4 duy trì định hướng lâu hơn, hiểu vấn đề sâu hơn và cho chất lượng mã thanh lịch hơn
Augment Code chọn Sonnet 4 là ưu tiên hàng đầu cho mô hình mặc định nhờ tỷ lệ thành công cao hơn, chỉnh sửa mã chính xác hơn và sự cẩn trọng trong các tác vụ phức tạp

Cải thiện tính năng mô hình

Cả hai mô hình đều có thể dùng công cụ ngay trong lúc suy nghĩ mở rộng
- Ví dụ có thể dùng web search
- Claude có thể luân phiên giữa suy luận và dùng công cụ để cải thiện phản hồi
Cũng hỗ trợ chạy công cụ song song và tuân thủ chỉ dẫn chính xác hơn
Nếu nhà phát triển cấp quyền truy cập tệp cục bộ, mô hình có thể thể hiện tính năng bộ nhớ, trích xuất và lưu trữ các sự kiện cốt lõi để duy trì tính liên tục và tri thức ngầm
Hành vi kết thúc tác vụ bằng cách tận dụng lối tắt hay lỗ hổng đã giảm so với Sonnet 3.7
- Đặc biệt trong các tác vụ agent dễ bị ảnh hưởng bởi lối tắt và lỗ hổng, hai mô hình này có khả năng xuất hiện hành vi đó thấp hơn 65% so với Sonnet 3.7
Opus 4 đặc biệt mạnh trong việc tạo và duy trì memory files chứa thông tin cốt lõi trong các ứng dụng mà nhà phát triển cấp quyền truy cập tệp cục bộ
- Ví dụ, trong lúc chơi Pokémon, mô hình tạo ra Navigation Guide
- Điều này cải thiện khả năng nhận biết tác vụ dài hạn, tính nhất quán và hiệu năng tác vụ agent

Tóm tắt suy nghĩ và Developer Mode

Dòng Claude 4 giới thiệu thinking summaries, nén quá trình suy nghĩ dài bằng một mô hình nhỏ hơn
Các bản tóm tắt này chỉ cần thiết trong khoảng 5% trường hợp
Phần lớn quá trình suy nghĩ đủ ngắn để hiển thị toàn bộ
Người dùng cần chuỗi suy nghĩ thô cho kỹ thuật prompt nâng cao có thể liên hệ về Developer Mode mới qua contact sales

Claude Code chính thức phát hành

Claude Code đã chính thức phát hành, mở rộng Claude sang terminal, IDE và các workflow chạy nền
Các extension beta mới cho VS Code và JetBrains tích hợp trực tiếp Claude Code vào IDE
- Các chỉnh sửa do Claude đề xuất được hiển thị inline trong tệp
- Người dùng có thể review và theo dõi thay đổi ngay trong editor quen thuộc
- Chạy Claude Code trong terminal của IDE để cài đặt
Hỗ trợ tác vụ chạy nền thông qua GitHub Actions
Claude Code SDK có thể mở rộng cũng được công bố
- Nhà phát triển có thể dùng agent cốt lõi giống Claude Code để xây dựng agent và ứng dụng riêng
Claude Code on GitHub được cung cấp ở bản beta
- Có thể gắn thẻ Claude Code trong PR để phản hồi góp ý của reviewer, sửa lỗi CI và chỉnh sửa mã
- Cài đặt bằng cách chạy /install-github-app trong Claude Code

API và an toàn

Anthropic API được bổ sung bốn tính năng mới dành cho phát triển AI agent
- công cụ thực thi mã
- MCP connector
- Files API
- bộ nhớ đệm prompt tối đa 1 giờ
Dòng Claude 4 được định vị là bước tiến hướng tới việc duy trì toàn bộ ngữ cảnh, giữ tập trung trong các dự án dài hạn và thực hiện các công việc có tác động lớn
Các mô hình đã trải qua kiểm thử và đánh giá trên diện rộng nhằm giảm rủi ro và nâng cao an toàn
Bao gồm các biện pháp bảo vệ cho mức ASL-3 cao hơn về AI Safety Levels
Người dùng có thể bắt đầu từ Claude, Claude Code hoặc nền tảng mà họ muốn

Cách báo cáo benchmark

Claude Opus 4 và Sonnet 4 là các mô hình suy luận lai, và các benchmark được công bố hiển thị điểm cao nhất đạt được bất kể có dùng suy nghĩ mở rộng hay không
Các kết quả không dùng suy nghĩ mở rộng gồm
- SWE-bench Verified
- Terminal-bench
Các kết quả dùng suy nghĩ mở rộng sử dụng tối đa 64K token gồm
- TAU-bench
- GPQA Diamond
- MMMLU
- MMMU
- AIME
Một số điểm số đo không dùng suy nghĩ mở rộng cũng được cung cấp
- GPQA Diamond: Opus 4 74.9%, Sonnet 4 70.0%
- MMMLU: Opus 4 87.4%, Sonnet 4 85.4%
- MMMU: Opus 4 73.7%, Sonnet 4 72.6%
- AIME: Opus 4 33.9%, Sonnet 4 33.1%

Phương pháp luận của TAU-bench và SWE-bench

Điểm TAU-bench được lấy trong thiết lập có thêm phụ lục prompt vào Airline và Retail Agent Policy để Claude tận dụng tốt hơn khả năng suy luận khi dùng suy nghĩ mở rộng và công cụ
Mô hình được hướng dẫn ghi lại suy nghĩ theo cách khác với chế độ suy nghĩ thông thường trong lúc giải quyết vấn đề
Do phần suy nghĩ bổ sung có thể làm tăng số bước, giới hạn bước tối đa được nâng từ 30 lên 100
- Hầu hết các quỹ đạo kết thúc trước 30 bước
- Chỉ có một quỹ đạo vượt quá 50 bước
Trong SWE-bench của dòng Claude 4, Anthropic tiếp tục dùng scaffold đơn giản như các bản phát hành trước
- Chỉ có hai công cụ là công cụ bash và công cụ chỉnh sửa tệp theo cách thay thế chuỗi
- Công cụ thứ ba là planning tool từng dùng trong Claude 3.7 Sonnet không còn được đưa vào
Tất cả điểm số của mô hình Claude 4 đều được báo cáo trên toàn bộ 500 bài toán
Điểm của mô hình OpenAI được báo cáo trên tập con 477 bài toán
Điểm “high compute” dùng phép tính tại thời điểm kiểm thử song song và độ phức tạp bổ sung
- Lấy mẫu nhiều lần thử song song
- Loại bỏ các bản vá làm hỏng các bài kiểm thử hồi quy nhìn thấy được của kho mã
- Không dùng thông tin từ các bài kiểm thử ẩn
- Dùng mô hình chấm điểm nội bộ để chọn ứng viên tốt nhất còn lại
Theo cách này, điểm high compute là Opus 4 79.4% và Sonnet 4 80.2%

1 bình luận

GN⁺ 2025-05-23

Ý kiến trên Hacker News

Một điểm quan trọng bị bỏ sót trong thông báo lần này là mốc cắt dữ liệu huấn luyện của Claude 4 là tháng 3/2025. Đây là mức mới nhất trong các mô hình gần đây, còn Gemini 2.5 có mốc cắt là tháng 1/2025
https://docs.anthropic.com/en/docs/about-claude/models/overv...
- Giờ thì các sản phẩm LLM dành cho người dùng phổ thông lớn đều đã có tìm kiếm web, và một số API cũng cung cấp hoặc đôi khi vô tình dùng được, nên ít nhất với cá nhân tôi, tháng cắt dữ liệu chính xác ngày càng có vẻ ít quan trọng hơn
  Những mô hình tôi hay dùng đủ thông minh để tự nhận ra khi một chủ đề cần thông tin mới và đi lấy về
- Hay đấy. Giờ cuối cùng có thể nó đã biết Svelte 5
- Vì Claude không biết Tailwind 4 nên tôi từng khổ sở; khi hỏi về Tailwind CSS, nó trả lời rằng nó biết đến Tailwind CSS 3.4, bản ổn định mới nhất theo mốc cắt tháng 1/2025 của nó
- Tại sao không thể cho nó học liên tục được nhỉ?
- Dù vậy vẫn không biết cái gì đã được cập nhật và cái gì chưa. Có thể giả định rằng mọi thứ có thể cập nhật đều đã được cập nhật không?
“GitHub says Claude Sonnet 4 soars in agentic scenarios and will introduce it as the base model for the new coding agent in GitHub Copilot.”
Mô hình này có thể đẩy giấc mơ để “Assign to CoPilot” tự động xử lý hầu hết các việc máy móc như nâng cấp package tiến gần hơn. Nếu gánh nặng bảo trì giảm, khả năng cao cũng sẽ dẫn đến sự hồi sinh của các dự án cũ
- Có thể, nhưng mỗi khi tất cả các mô hình trước đây ra mắt cũng đều nhận được kỳ vọng y như vậy
- Tôi thật sự mong chờ xem coding agent giá rẻ có thể làm gì cho mã nguồn mở. Thực ra tôi đang nghĩ nên phân phát credit CheepCode[0] cho các dự án mã nguồn mở
  Chưa có cấu trúc chính thức, nhưng nếu đọc bình luận này và cần chạy coding agent miễn phí thì gửi email cho tôi, tôi sẽ thiết lập giúp
  [0] Sản phẩm coding agent headless của tôi, tương tự “assign to copilot” nhưng xử lý song song nhiều tác vụ từ các bảng công việc như Linear, Jira. Đến nay nó khá thành công với các tính năng đơn giản, lặp đi lặp lại, và nhìn chung test càng tốt thì mã đầu ra càng tốt. Tất nhiên nó cũng có thể tự viết test, và thực tế là có viết
- Tiêu chí của tôi để đánh giá những mô hình như thế có hữu ích hay không chính là điểm đó. Tôi có một dự án cần refactor quy mô lớn để chạy lại được, chủ yếu là nâng cấp package nhưng cũng phải sửa mã cho phù hợp với ngữ nghĩa ngôn ngữ mới vốn chưa có vào thời điểm viết
  Các mô hình AI hiện tại về cơ bản không tạo được tiến triển nào trong việc này. Tôi định sẽ tiếp tục thử cho đến khi làm được
- Nâng cấp package và các tác vụ máy móc vốn đã là lĩnh vực phần lớn được bot giải quyết rồi
  Tôi nghĩ phần AI có thể giúp ở đây là tóm tắt thay đổi, xung đột, ảnh hưởng lên codebase và nếu có thể thì quét bảo mật
- Có ai thấy tin gì về thời điểm nó dự kiến được áp dụng vào Copilot chưa?
“Users requiring raw chains of thought for advanced prompt engineering can contact sales”
Giờ có vẻ cả ba nhà cung cấp LLM đều đang che giấu chuỗi suy nghĩ (CoT). Thật đáng tiếc, vì có thể thấy khoảnh khắc nó sắp đi sai hướng, giúp tinh chỉnh prompt nhanh hơn
Không chỉ OpenAI mà gần đây Google cũng bắt đầu chuyển chuỗi suy nghĩ thành bản tóm tắt, mà cá nhân tôi thấy là các tóm tắt bị đơn giản hóa quá mức
- Có thể lý do loại bỏ chuỗi suy nghĩ là vì bài báo gần đây của Anthropic không?
  https://assets.anthropic.com/m/71876fabef0f0ed4/original/rea...
  Bài báo đánh giá độ trung thực của chuỗi suy nghĩ trong các mô hình suy luận mới nhất bằng 6 gợi ý suy luận, và nói rằng trong hầu hết cấu hình và mô hình, ít nhất 1% các trường hợp dùng gợi ý có xuất hiện trong chuỗi suy nghĩ, nhưng tỷ lệ công khai thường dưới 20%; học tăng cường dựa trên kết quả ban đầu làm tăng độ trung thực nhưng rồi chững lại mà không bão hòa; và dù reward hacking làm tăng tần suất dùng gợi ý, xu hướng diễn đạt điều đó bằng lời trong chuỗi suy nghĩ không tăng
  Nói cách khác, chuỗi suy nghĩ cũng có thể là lời giải thích bịa ra của mô hình. Vì vậy có thể ai đó trong nội bộ Anthropic không muốn đánh lừa khách hàng, và nếu vấn đề này được giải quyết thì nó có thể quay lại
- Đây là thuật giả kim, vì ai cũng tin mình có lợi thế riêng trong việc biến chì thành vàng
- Theo tôi nhớ thì RLHF trong quá trình huấn luyện để không đưa ra phản hồi nguy hiểm tất yếu sẽ hy sinh một phần độ chính xác của mô hình
  Nếu mô hình dùng cho chuỗi suy nghĩ được huấn luyện khác với mô hình tương tác với người dùng cuối thì cũng hợp lý. Ví dụ có thể là một expert khác trong MoE; dù sao người dùng chỉ thấy đầu ra đã được lọc bởi mô hình công khai, nên nếu mô hình chuỗi suy nghĩ gần với mô hình gốc trước RLHF hơn thì rủi ro danh tiếng của công ty cũng thấp hơn
  Làm vậy có thể đạt hiệu năng của mô hình gốc trong khi vẫn giữ lớp lọc để ngăn thiệt hại thực tế hoặc sự cố PR nghiêm trọng
- Có lẽ phải đợi đến khi DeepSeek lại áp đảo tất cả
- Khi học Zig, chuỗi suy nghĩ đã giúp ích cực kỳ nhiều
  Khi hỏi về Zig và cách triển khai, việc xem chuỗi suy nghĩ của mô hình đã mở rộng tầm nhìn của tôi rất nhiều
Hẳn không chỉ mình tôi nghĩ rằng phiên bản này không tốt hơn trước, LLM trên thực tế đã bước vào giai đoạn chững lại, và “tính năng” của các bản phát hành mới phần lớn gần như chỉ là trò đánh lừa thị giác
- Có vẻ chỉ tốt hơn ở các phần rìa. Những mảng như MCP, gọi công cụ, đầu ra có cấu trúc. Chắc chắn không phải trí thông minh đã tăng lên, nhưng giá trị gia tăng thì có tăng, còn giá trị đó có xứng với chi phí huấn luyện hay định giá công ty hay không thì tôi không biết
  Thực tế là tôi hoàn toàn không hình dung nổi các công ty này sẽ bền vững kiểu gì. Tôi từng host inference trên GPU đám mây, và chỉ cần gắn thêm một chút gói miễn phí thôi là chi phí trông đã cực kỳ nặng nề
- “LLM đã đạt đến giai đoạn chững lại” nghe như một meme con vẹt xác suất mới. Chỉ cần nhìn bài vừa lên trang chính vài giờ trước, một agent dựa trên LLM được giao 3 công cụ tìm kiếm email và một nhiệm vụ đơn giản là “tìm tên con của anh/em tôi”, rồi nó đã giải quyết vấn đề một cách có hệ thống, tinh chỉnh tìm kiếm, và suy luận ra đúng cái tên từ một email chỉ có “món ăn X thích” và một liên kết YouTube
  Chưa kể alphaevolve, demo thử nghiệm Copilot agent của Microsoft chạy trình duyệt để khám phá tính năng và viết test Playwright, hay các tiến bộ trong lĩnh vực coding
- Tôi đã dùng Claude Code rất nhiều và đồng ý. Sau bản cập nhật tôi chẳng cảm nhận được khác biệt nào. Tóm tắt có vẻ gọn gàng hơn một chút, nhưng về năng lực thì chưa lần nào khiến tôi ngạc nhiên
  Với codebase TypeScript, tôi vẫn phải liên tục sửa và prompt lại y như hồi 3.7. Thậm chí có lần nó đang sửa nhầm file, mà cho đến khi tôi buộc nó xóa hết code và cho thấy đối tượng chúng tôi đang xem hoàn toàn không thay đổi, nó vẫn không nghĩ đến việc kiểm tra cụ thể hơn; chuyện đó khá sốc
- Nhìn chung tôi cũng có cảm giác tương tự. Các chiến thắng benchmark gần đây trông như đến từ tuning, đổi lại là mất mát ở những mảng khác. o3, o4-mini cũng hallucination nhiều hơn o1 trong SimpleQA, PersonQA
  Dữ liệu tổng hợp có vẻ làm tăng tỷ lệ hallucination, và các mô hình suy luận còn dễ tổn thương hơn vì ở mỗi bước suy luận, một hallucination đều có nguy cơ khiến mô hình đi chệch hướng
  Từ góc độ sử dụng phổ quát, tôi nghĩ LLM đã gần như kết thúc từ đầu năm nay. OpenAI cũng nhận ra điều đó khi hủy GPT-5, rồi sau đó phát hành GPT-4.5 “quá đắt so với những gì thu được” và sớm quyết định dừng nó
  Tôi không biết thị trường chứng khoán đã phản ánh điều này chưa. Muốn thoát khỏi tình trạng này cần phải có một đột phá
- Trong nhiều trường hợp, benchmark trông rất giống Claude 3.7
  Nhưng như vậy hoàn toàn chưa đủ để nói là đã đạt đến giai đoạn chững lại. Tốc độ tiến triển từng cực kỳ nhanh, nên để kết luận như vậy thì cần chờ thêm vài tháng nữa
  Về các tính năng thì tôi lại nghĩ ngược lại. Chúng không phải trò đánh lừa thị giác, mà là quá trình công cụ hóa quan trọng, tuy không phải bản thân AI cốt lõi nhưng cần thiết để thực sự sử dụng AI. Lĩnh vực LLM theo tiêu chuẩn sử dụng đại chúng vẫn còn ở giai đoạn đầu. Ngay cả khi mô hình không tốt hơn nữa, vẫn còn rất nhiều dư địa để cải thiện mạnh về tính hữu dụng và năng lực ở các chức năng như cách tương tác, cung cấp thông tin, gọi công cụ
Tôi rất thích Claude 3.7, dùng hằng ngày và nhìn chung thích hơn các mô hình Gemini. Nhưng khi thử dùng Opus 4 trong Claude Code cho một tác vụ gần như là tính năng mới trên codebase Go, quá trình suy nghĩ thì tốt nhưng 70–80% lượt gọi công cụ bị thất bại
Ngay cả các công cụ cơ bản như “Write”, “Update” cũng thất bại vì sai cú pháp. Cả 5 lần thử ghi file đều thất bại, nó cứ nói “Tôi cứ quên thêm tham số content. Tôi sẽ sửa” rồi tiếp tục thử
Có gì đó không ổn. Hy vọng sẽ sớm được giải quyết, nhưng hiện tại ít nhất Opus 4 không dùng được trong Claude Code. Dù vậy, những file mà nó tạo thành công thì có chất lượng cao
- Có vẻ đã tìm ra nguyên nhân, và trông là một bug rõ ràng: https://github.com/anthropics/claude-code/issues/1236#issuec...
  Về cơ bản có vẻ nó chạm giới hạn số token đầu ra tối đa, nên khi viết toàn bộ file mới trong một lần thì phản hồi bị dừng. Lỗi “tham số gọi công cụ không đúng” là đánh lạc hướng
Chúng tôi đã thử nghiệm Opus 4 và Sonnet 4 trên benchmark sinh SQL của mình: https://llm-benchmark.tinybird.live/
Opus 4 đã vượt qua tất cả các mô hình khác, tốt
- Việc Opus 4 tệ nhất ở one-shot thật kỳ lạ. Trung bình cần hai lần thử để tạo ra truy vấn hợp lệ
  Nếu mô hình thực sự thông minh hơn nhiều như vậy, chẳng phải hiệu năng ở lần thử đầu cũng phải tốt sao? Dù gì thì nó cũng “nghĩ” trước mà
- Thú vị là Claude-3.7-Sonnet và Claude-3.5-Sonnet xếp hạng cao hơn Claude-Sonnet-4
- Benchmark này khá thú vị. Nó có vẻ phá vỡ thứ hạng mô hình thường thấy ở các benchmark khác
- Tôi đang trả tiền Claude Premium nhưng thực ra cũng dùng Grok khá nhiều. Tính năng “think” thường đưa tôi đến kết quả mong muốn hơn
  Việc mô hình xAI không có trong danh sách hơi lạ. Cái tên Grok thì dở tệ, nhưng nó khá thường xuyên khiến tôi bất ngờ. Tôi vẫn chưa dùng mô hình ChatGPT giá 250 đô, và không thích cách hành xử gần đây của OpenAI
- Tôi tò mò, làm sao biết được câu hỏi và SQL không có trong dữ liệu huấn luyện của LLM? Có vẻ câu hỏi benchmark và SQL đang ở trên mạng: https://ghe.clickhouse.tech/
Có nơi nào ghi lại những thay đổi về cửa sổ ngữ cảnh của Claude 4 không? Tôi không rành lắm, nhưng tôi hiểu rằng một trong những lý do Gemini 2.5 hữu ích là vì nó có thể xử lý ngữ cảnh khổng lồ cỡ 50.000~70.000 dòng
- Cửa sổ ngữ cảnh của Sonnet vẫn như cũ. Đầu vào 200k, đầu ra 64k: https://docs.anthropic.com/en/docs/about-claude/models/overv...
  Thực ra ngữ cảnh 1M của Gemini 2.5 không phải là điểm khác biệt quá lớn. Ngữ cảnh càng lớn thì lợi ích cảm nhận được từ khả năng bám theo các token ở phần sau càng giảm
- Sẽ tốt hơn nếu họ tăng cửa sổ ngữ cảnh hoặc xử lý tốt hơn khi prompt trở nên quá dài. Hiện tại đột nhiên hiện cảnh báo “prompt is too long”, khiến mô hình trở nên khó chịu khi xử lý các cuộc trò chuyện dài hoặc viết lách dài
  Các công cụ khác có thể bỏ bớt một phần ngữ cảnh trước đó hoặc dùng RAG, nhưng chúng không ép bắt đầu chat mới mà không cảnh báo
- Tôi không rõ ý là gì. Tiêu đề bài viết nói Opus 4 có ngữ cảnh 200k
  Giống beta header của Sonnet 3.7
- Kích thước cửa sổ ngữ cảnh là một chỉ số trông rất giả tạo. Nếu không có ngữ cảnh đúng thì cũng không thể có đầu ra tốt
“Finally, we've introduced thinking summaries for Claude 4 models that use a smaller model to condense lengthy thought processes. This summarization is only needed about 5% of the time—most thought processes are short enough to display in full. Users requiring raw chains of thought for advanced prompt engineering can contact sales about our new Developer Mode to retain full access.”
Tôi không muốn xem “bản tóm tắt” suy luận của mô hình. Để kiểm tra suy luận của mô hình có chính xác không và liệu có thể tin kết quả hay không, cần phải xem suy luận thực tế
Rất khó chịu khi sau OpenAI, đến cả Anthropic cũng đi theo hướng che giấu quá trình suy nghĩ của mô hình, tính phí các token mà người dùng không thể thấy, rồi cung cấp “bản tóm tắt” khiến người dùng không biết thực sự đang xảy ra chuyện gì
- Nhiều bài báo cáo rằng đầu ra “suy nghĩ” không liên quan nhiều đến đầu ra cuối cùng, và ngay cả khi dùng dấu chấm hoặc token tạm dừng để cho phép thêm các bước xử lý, mức cải thiện tương tự vẫn xuất hiện
  Ở nhiều khía cạnh, “suy nghĩ” phần lớn gần với marketing hơn
  - "Think before you speak: Training Language Models With Pause Tokens" - https://arxiv.org/abs/2310.02226
  - "Let's Think Dot by Dot: Hidden Computation in Transformer Language Models" - https://arxiv.org/abs/2404.15758
  - "Do LLMs Really Think Step-by-step In Implicit Reasoning?" - https://arxiv.org/abs/2411.15862
  - Video tổng quan của bycloud -> https://www.youtube.com/watch?v=Dk36u4NGeSU
- Không cần lo quá. Có đủ bằng chứng cho thấy suy nghĩ thường tách rời khỏi đầu ra
  Xét việc mọi người thực ra hầu như không đọc quá trình suy nghĩ, tôi xem đây là cải thiện trải nghiệm người dùng
- Cái này đang nói về giao diện chat riêng của họ à? API vẫn stream ngay thinking token mà
- Tôi hiểu là Gemini 2.5 Pro cũng làm như vậy
Tôi thật sự mong Sonnet 4 đừng ám ảnh với gọi công cụ như 3.7. 3.5 lần đầu tiên đem lại trải nghiệm kỳ diệu như thể mô hình sắp làm chủ được lập trình. Sau đó thì cảm giác hơi đi xuống
- Tôi cũng rất không thích kiểu quá chủ động “tiện thể tôi làm thêm một việc nữa nhé” của 3.7. Hy vọng nó quay lại mức tuân thủ chỉ dẫn như 3.5
- Cái này có vẻ giống vấn đề system prompt hơn là vấn đề của mô hình
Cảm giác như cuộc đua MHz CPU thập niên 90 đã quay trở lại. Chỉ là giờ đây, thay vì bàn tán về kiến trúc CPU và các kết quả có giá trị mơ hồ trên nhiều benchmark, chúng ta đang nói cùng một kiểu chuyện đậm chất mọt công nghệ giữa các LLM
Lịch sử tự gieo vần với chính nó
- Đúng là đã quay lại, nhưng với tốc độ phát triển công nghệ giữa thập niên 2020. Tôi nhớ cuộc đua MHz CPU chậm hơn nhiều, dù cũng có thể cảm nhận thời gian thời 90 khi tôi còn nhỏ vốn chậm hơn
  Dù vậy, tôi khá chắc là hồi đó không có các “đợt ra mắt” CPU mới cứ vài tháng một lần như các mô hình mới trong cuộc đua AI hiện nay

Ra mắt Claude 4: Opus 4 và Sonnet 4

Ra mắt dòng mô hình Claude 4

Cách cung cấp và giá

Hiệu năng lập trình và tác vụ dài hạn của Opus 4

Vị trí của Sonnet 4

Cải thiện tính năng mô hình

Tóm tắt suy nghĩ và Developer Mode

Claude Code chính thức phát hành

API và an toàn

Cách báo cáo benchmark

Phương pháp luận của TAU-bench và SWE-bench

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News