Anthropic ra mắt Claude Opus 4.8
(anthropic.com)Anthropic đã ra mắt Claude Opus 4.8, phiên bản nâng cấp của Claude Opus, mẫu model cao cấp nhất của hãng. Dựa trên phiên bản trước là 4.7, model này cải thiện hiệu năng benchmark, tăng cường khả năng cộng tác và vẫn giữ nguyên mức giá.
Các cải tiến và đặc điểm chính
- Hiệu năng tăng cường: Cho thấy hiệu năng vượt trội so với model trước đó và các model cạnh tranh như GPT-5.5 trên nhiều tác vụ như lập trình, kỹ năng agent, suy luận và công việc đòi hỏi kiến thức thực tiễn.
- Tăng cường tính trung thực (Honesty): Cải thiện vấn đề AI đưa ra khẳng định không có cơ sở hoặc vội vàng kết luận. Opus 4.8 tự đánh dấu những phần không chắc chắn, và xác suất bỏ sót lỗi trong mã đã giảm khoảng 4 lần so với model trước.
- Khả năng agent đáng tin cậy: Theo kết quả thử nghiệm ban đầu, khi thực hiện các tác vụ phức tạp nhiều bước, model cho thấy khả năng phán đoán sắc bén hơn, phát hiện sai sót của chính mình và phản biện khi kế hoạch không hợp lý, từ đó thể hiện khả năng cộng tác tốt hơn.
- Hiệu quả chi phí: Tốc độ của 'Fast Mode' đã nhanh hơn 2,5 lần, và chi phí rẻ hơn 3 lần so với model trước.
Các tính năng mới ra mắt cùng lúc
- Dynamic Workflows: Tính năng research preview của Claude Code, cho phép chạy hàng trăm sub-agent song song để thực hiện các tác vụ phức tạp như di chuyển một codebase quy mô lớn.
- Effort Control: Người dùng có thể chọn mức độ nỗ lực mà Claude sẽ đầu tư vào tác vụ. Ở thiết lập cao, Claude sẽ suy nghĩ sâu hơn để cung cấp phản hồi chất lượng cao; ở thiết lập thấp, Claude sẽ phản hồi nhanh hơn.
- Cập nhật Messages API: Giờ đây có thể đưa system entry vào trong mảng message, cho phép cập nhật chỉ dẫn giữa chừng mà không làm hỏng prompt cache.
Kế hoạch sắp tới
Anthropic đang phát triển một model mang lại hiệu năng cấp Opus với chi phí thấp hơn, đồng thời chuẩn bị một lớp model mới có trí thông minh cao hơn Opus (Claude Mythos) thông qua Project Glasswing. Hiện model này đang được kiểm thử bảo mật tại một số tổ chức và dự kiến sẽ được mở cho tất cả khách hàng trong vài tuần tới.
Giá và hướng dẫn sử dụng
- Chế độ thường: đầu vào $5 / 1M token, đầu ra $25 / 1M token (giống Opus 4.7)
- Fast Mode: đầu vào $10 / 1M token, đầu ra $50 / 1M token
- Tên model:
claude-opus-4-8
11 bình luận
Cứ làm tôi liên tục mất công mò mẫm nên có vẻ GPT ổn định vẫn tốt hơn.
Tôi từng dùng Claude gói 200$, rồi chuyển sang GPT 100$ + Claude 100$,
từ tháng sau chắc tôi chỉ dùng Claude 20$ thôi. Dù sao cũng chỉ để review nên cũng không còn cần nhiều nữa, với lại nếu thiếu thì tôi cũng đang trả phí AGY nên dùng cái đó là được hehe
Sao Sonnet với Haiku lại bị bỏ rơi vậy? Họ chỉ nghĩ đến chuyện cạnh tranh với GPT quá nhiều sao?
Biến thể fast mode được cho là chạy nhanh hơn 2,5 lần so với trước đây, trong khi chi phí rẻ hơn 3 lần.
Mình đang hạ xuống gói Claude Pro và dùng GPT, nhưng vì có việc đang làm nên thử cho nó review thì hết sạch hạn mức Pro chỉ trong 10 phút rồi dừng luôn.
Claude ghê thật!
Trong buổi sáng, do tôi đang dùng một kỹ năng để sắp xếp các cuộc họp hoặc bản ghi âm, nên tôi thử chuyển effort của nó sang ultracode trên 4.8 để dùng thì thấy khá ổn hơn mong đợi. Cảm nhận cá nhân là nó cho cảm giác có xu hướng khá giống codex. Hiệu quả token thì hiện tại vẫn chưa bằng codex, nhưng bù lại context window rộng rãi, và do workflow nên màn hình sub-agent cũng đã thay đổi đôi chút, phần này tôi cũng khá thích.
Bản 4.7 thực sự khó dùng đến mức có thể cảm nhận rõ, nên tôi hy vọng 4.8 ít nhất đã được cải thiện.
Cũng có cảm giác như đây là bản tung ra vội vì quá nhiều người đang chuyển sang ChatGPT/Codex..
Dùng
/effortthì hiệu quả tạo ra khá thú vị đấy hahaTôi đã tìm nguyên văn của cụm "trái treo thấp" trong bản dịch bình luận Hacker News bên dưới, thì câu gốc là
low hanging juice to squeeze out of smaller models << nguyên văn là như vậy,
nên có thể hiểu là vẫn còn rất nhiều tiềm năng dễ khai thác từ các mô hình nhỏ hơn.
Thôi được rồi, ăn nhiều lắm rồi đó mà~
Ý kiến trên Hacker News
Có lẽ đây là lần đầu Anthropic tăng phiên bản minor lần thứ ba cho một mô hình tuyến đầu
Ở đây các bản tăng 0.5 trước giờ xuất hiện không theo chuỗi, mà bước nhảy hiệu năng cũng lớn nên tôi xem như bản major, ví dụ Sonnet 3.5 hay Opus 4.5
Giờ thì dòng Opus 4.5 đã có các hậu bản 4.6, 4.7, 4.8, và ngay cả theo tuyên bố chính thức thì mức cải thiện của từng bản cũng khá nhẹ
Với 4.6/4.7 mà tôi đã dùng trực tiếp, khi so với ký ức về 4.5 thì khó xác định rõ là khả năng nào đã tốt hơn; cảm nhận quá mơ hồ nên rất khó kết luận
Có thể gu của tôi đã bão hòa, hoặc mô hình đã thông minh hơn tôi đến mức từ giờ tôi không còn cảm nhận được tiến bộ nữa; nhưng cũng có thể nếu đem workflow hiện tại trên 4.7 chạy lại bằng 4.5 thì tôi sẽ nhận ra ngay những cải thiện dần dần đó
Có vẻ phía phòng lab cũng ở thế khó. Nếu có sản phẩm mạnh hơn thì tôi muốn họ phát hành để mọi người dùng được, nhưng nếu xu hướng này tiếp tục thì ngay cả khi có cải thiện thật, người dùng cuối sẽ ngày càng ít nhận thấy hơn, và nó có thể giống như bị thay đổi liên tục mà không được lợi ích tương xứng
Ở các mô hình nhỏ vẫn còn rất nhiều trái thấp dễ hái chưa được khai thác
Trong 2~3 năm tới, gần như chắc chắn các mô hình 60~90B sẽ vượt mặt đỉnh hiện tại trong các tác vụ coding. Thiết kế chưa chốt và có lẽ cũng không dễ, nhưng khả năng đó rất cao
Ngược lại, việc có đáng để huấn luyện mô hình 1.2T để đạt cải thiện đủ ý nghĩa hay không thì bất định hơn nhiều
Về suy luận, nhìn vào việc GRAM vừa được công bố gần đây thì dư địa cải thiện suy luận có thể gắn vào mô hình nhỏ có khi lên tới 4 chữ số
Google, OpenAI và Anthropic có thể huấn luyện một mô hình dựa trên GRAM cỡ 30B chỉ trong vài ngày, và mô hình đó thậm chí có thể suy luận cục bộ tốt hơn các mô hình tốt nhất hiện nay với hơn 1T tham số. Nếu tiếp tục mở rộng lên khoảng 600B MoE cũng chỉ trong vài ngày, nó còn có thể đạt trình độ ngang ngửa các mô hình tốt nhất về tri thức tổng quát
Các mô hình 1T+ tham số không thể huấn luyện nhanh như vậy. GRAM thực sự cải thiện được bao nhiêu vẫn là biến số lớn, nhưng có vẻ khó mà chỉ mang lại hiệu quả nhỏ nhặt hay vô nghĩa
Các mô hình lớn hiện giờ gần như đã có thể nói cho bạn bất cứ thứ gì. Nhưng chừng nào vẫn là LLM thì chúng sẽ không thể đúng mọi thứ
Có vẻ cũng không còn nhiều thứ để vắt thêm từ Gemini chỉ để nó trả lời chính xác chiều cao của Ke$ha hay lần cuối Brittney Spears vào tù là khi nào
Cá nhân tôi thấy từ sau khi 4.5 ra mắt, năng suất tăng lên chủ yếu nhờ cải tiến harness và cửa sổ ngữ cảnh tăng từ 200k lên 1M, hơn là nhờ bản thân mô hình. Tôi thấy vậy với cc, cursor cli, codex, opencode, v.v.
Còn “trí thông minh thuần” của mô hình hay khả năng đưa ra quyết định tốt thì có cảm giác đã chững lại từ sau 4.5. 4.6 có thể tốt hơn đôi chút, nhưng khó tách bạch với hiệu ứng học trong ngữ cảnh của cửa sổ 1M; còn 4.7 thì với tôi và đồng nghiệp lại giống như sự khôn ngoan bị thụt lùi, liên tục đưa ra các quyết định tệ hơn và lười hơn
Đằng sau các tính năng điều khiển mới mà người dùng cuối nhìn thấy, tôi đoán còn có những điều khiển nội bộ chi tiết hơn nhiều để tinh chỉnh theo từng loại người dùng
Ý tôi là các cơ chế như điều khiển mức nỗ lực chi tiết hơn, “dynamic workflow”, hay điều khiển tốc độ kiểu “fast mode”. Chúng được gói như tính năng cho người dùng, nhưng cũng có vẻ như các cần gạt backend để cân bằng chi phí, biên lợi nhuận, ARR, tăng trưởng người dùng và tỷ lệ giữ chân nhằm đạt các chỉ số cốt lõi trong báo cáo quý sau IPO
Tính đến lúc này, Opus 4.8 cũng có vẻ đi theo hướng đó. Nó chậm đến mức khó dùng, dù có thể là vấn đề rollout trong ngày phát hành. Bài test đầy đủ cho Opus 4.8 vẫn đang được tiến hành
Dữ liệu có tại https://gertlabs.com/rankings
Cách nói “người dùng sẽ cảm nhận Opus 4.8 là một cải thiện nhẹ nhưng có thể nhận ra so với bản trước” nghe khá mới mẻ
Tôi cũng xác nhận là giờ có thể tắt adaptive thinking trong web UI, khá tốt vì đã có nhiều vấn đề khi thinking không hoạt động làm đầu ra của mô hình trở nên tệ hẳn
Cuối cùng cũng tắt được nên thật đáng mừng. Nếu vốn dĩ lúc nào cũng tắt được thì hơi ngượng thật
Tôi chủ yếu xem mảng web research, và Opus 4.7 đã tụt lùi so với Opus 4.6 trên BrowseComp, ngoài sử dụng thực tế cũng vậy
Opus 4.8 tốt hơn hẳn 4.7 lẫn 4.6, mà tìm kiếm web lại là một use case cốt lõi của chatbot
Kiểu như các nhà cung cấp mô hình khác tung bản cập nhật lớn mỗi x tháng, còn chúng tôi tung cập nhật tăng dần mỗi x/2 tháng
Điều quan trọng hơn với tôi là CC phản ứng thế nào với cờ “riêng” của 4.6 liên quan đến thinking, và hiện tại có vẻ nó không ghi đè cấu hình của tôi
Tôi đã hy vọng thay đổi lần này sẽ đưa nó lên gần mức đó, nhưng dùng thực tế thì vẫn chưa
Với những câu hỏi sự kiện đơn giản mà ChatGPT chỉ cần tìm kiếm nhanh để kiểm chứng rồi trả lời, Claude với model mới và cả thinking high vẫn đáp lại kiểu “Câu hỏi hay đấy!” rồi bịa ra hoàn toàn. Nó không tự nhận ra là cần tìm kiếm như GPT, và ngay cả các dữ kiện cơ bản bạn cũng phải chỉ rõ là hãy đi tìm kiếm
Phần Claude Mythos Preview với tuyên bố “có kế hoạch phát hành một loại mô hình mới có trí tuệ cao hơn cả Opus” có vẻ còn thú vị hơn bản phát hành 4.8
Một số ít tổ chức đang sử dụng nó cho công việc an ninh mạng như một phần của Project Glasswing, và họ nói rằng mô hình ở cấp độ này cần các biện pháp an toàn mạng mạnh hơn trước khi được công bố rộng rãi
Việc IPO đang đến gần chắc chắn cũng sẽ được phản ánh trong các phát ngôn công khai. Nói công bằng thì đó cũng là trách nhiệm của ông ấy
Lý do trì hoãn mô hình có thể không phải là “đang làm cho nó an toàn”, mà là “không biết cách lưu trữ nó ở quy mô lớn hoặc với chi phí hiệu quả”
GPT 5.5 dường như đã giỏi tìm lỗ hổng ngang với Mythos
Cuối cùng, người không chuyên thường đánh giá thấp nghiêm trọng tầm quan trọng của harness trong hiệu năng mô hình. OpenHands đã có từ lâu hơn nhiều so với Claude Code, nhưng Claude Code đã thay đổi cuộc chơi nhờ cách bổ trợ thông minh. Mythos cũng có khả năng là nhiều hơn chỉ một mô hình đơn thuần
Khi so với các mô hình cạnh tranh hiện tại từ Trung Quốc, Sonnet và Haiku có vẻ đang thua khá nhiều về hiệu năng trên giá thành
Vậy thì có phải họ cũng đang làm điều tương tự với Mythos, và Mythos mà chúng ta nhận được sẽ là một phiên bản đã bị làm yếu ở điểm đó?
Chính xác hơn thì có vẻ Mythos sẽ bị chia thành hai phiên bản, và bản đáng sợ hơn sẽ tiếp tục đòi hỏi rất nhiều thủ tục giấy tờ
/mythos-security-auditbị giới hạn và làm yếu điHy vọng người bình thường sẽ không bị gạt khỏi quyền truy cập theo kiểu đó
Tôi đã thử tạo bồ nông đi xe đạp ở cả mức thinking low và high
https://gist.github.com/simonw/68560eddb0b268a8417f80ceb7304dc6?permalink_comment_id=6172953#gistcomment-6172953
Kết quả high rõ ràng tốt hơn. Không giống low, hình dạng khung xe đạp đúng hơn
Đây là kết quả Opus 4.7 để so sánh: https://gist.github.com/simonw/afcb19addf3f38eb1996e1ebe749c118?permalink_comment_id=6104087#gistcomment-6104087
Tay lái không quay bánh trước mà lại quay cả khung xe. Tay lái phải được gắn thẳng hàng với bánh trước
Mong 4.9 sẽ đọc được bình luận của tôi
https://www.gianlucagimini.it/portfolio-item/velocipedia/
Con người cũng có thể vẽ xe đạp khá tệ
https://tools.simonwillison.net/markdown-svg-renderer#url=https%3A%2F%2Fgist.github.com%2Fsimonw%2Ffea4f7546626d627862dc241a4e3a86a
Với các model tuyến đầu, benchmark code mình thích là bắt nó tạo một game chiến thuật thời gian thực đơn giản chỉ trong một file (js/html/css)
Claude Code + Opus 4.8 ở chế độ ultracode đã làm được rất tốt, và đây là kết quả tốt nhất từ trước đến nay
https://bsky.app/profile/senko.net/post/3mmwnrkwboc2v
Prompt là: “Hãy tạo một game RTS đơn giản nhưng chạy được kiểu như WarCraft, StarCraft, Command & Conquer đời cũ. Người chơi phải có thể xây công trình, tạo đơn vị, thu thập tài nguyên và khám phá toàn bộ bản đồ. Không cần AI hay multiplayer. Dùng đồ họa đơn giản nhưng đẹp mắt. Không có âm thanh. Triển khai toàn bộ bằng HTML/CSS/JS và gói trong một file duy nhất. Có thể dùng thư viện hoặc framework js/css bên thứ ba qua CDN”
Cũng thú vị là phong cách hình ảnh khá giống với những gì nó từng làm cho mình
Tò mò không biết có ai rà qua các đợt phát hành kiểu này rồi thử cherry-pick những chỉ số tùy ý mà các công ty khác có lẽ đã chọn để làm model của họ trông ngầu hơn không
Cảm giác như có đến 8 triệu benchmark vậy. Mỗi lần phát hành, mỗi model lại chọn ngẫu nhiên 5–10 cái rồi trình bày như thể nó thắng tất cả trừ một, như thể họ đang cố giả vờ rằng đây không phải là trò cherry-pick ngẫu nhiên từ một đống benchmark rất có thể đã bị “benchmaxxed” rồi
Mình không biết chính xác phương pháp luận, nhưng khi dùng Claude/GPT cho công việc lập trình hằng ngày thì kết quả họ báo cáo khá khớp với cảm nhận định tính của mình
Trong số các chỉ số từng báo ở 4.7, bản 4.8 đã bỏ BrowseComp, CharXiv Reasoning, CyberGym, GPQA Diamond, MCP Atlas, MMMLU và SWE-bench Verified. 4 chỉ số cuối gần như luôn được nhắc đến trong các đợt phát hành Opus trước đó
“Thông minh hơn 5%” thì rốt cuộc nghĩa là gì? Trải nghiệm sử dụng thực tế của mình có thể khác hẳn. Tốt hơn là cứ tự dùng thử
Mình không nghĩ Anthropic nội bộ lại nhắm vào việc cải thiện một benchmark cụ thể nào. Chúng chỉ là cách để trực quan hóa tiến bộ, còn bên trong chắc hẳn họ có những chỉ số phức tạp hơn nhiều
Kết quả ban đầu từ ArtificialAnalysis.ai cho thấy GPT 5.5 vẫn có vẻ có hiệu năng/giá tốt hơn
OpenAI dùng ít hơn khoảng 50% output token để giải quyết công việc
https://artificialanalysis.ai/?intelligence=coding-index&intelligence-efficiency=intelligence-efficiency-vs-output-tokens&models=gpt-5-5%2Cgpt-5-5-pro%2Cgemini-3-1-pro-preview%2Cclaude-opus-4-8%2Cclaude-opus-4-7%2Cnvidia-nemotron-3-super-120b-a12b
Chắc mình chỉ đổi nếu Claude trở nên đắt hơn rất nhiều
Mình rất vui khi thấy ở trang 102 của system card có phần đánh giá về mức độ thành thạo sáng tạo
Trong công việc của bọn mình, nhóm đã yêu cầu nhiều AI tuyến đầu thiết kế các API cần thiết và so sánh Opus 4.7 với GPT-5.5 cùng các model khác. Opus 4.7 đưa ra thiết kế API sáng tạo và thông minh nhất, khiến mình ngạc nhiên theo hướng tích cực, nhất là khi GPT-5.5 đang dẫn trước trong nhiều benchmark lập trình
Điều đó khiến mình nhận ra là chưa có benchmark chung nào để đo “sự sáng tạo” và “tính độc đáo”, và kiểu benchmark đó ở vài khía cạnh có thể còn xung đột với IFBench phổ biến
Dù vậy, đây là năng lực cực kỳ quan trọng trong thiết kế hệ thống. Mình rất mừng vì Anthropic để tâm đến chuyện này, và hy vọng sẽ có benchmark công khai để các model khác cũng có thể so sánh
https://cdn.sanity.io/files/4zrzovbb/website/c886650a2e96fc0925c805a1a7ca77314ccbf4a6.pdf
5.5 thì vượt trội hơn hẳn cả hai về coding nhưng cũng đắt hơn. Vì thế mình để 4.7 làm phần kế hoạch/kiến trúc, 4.6 viết code, rồi 5.5 phản biện và sửa lại
GPT giống như một con robot nhận chỉ thị rồi làm đúng như vậy, còn Opus thì đôi khi thật sự nảy ra ý tưởng hay và còn phản bác các ý tưởng dở, cảm giác gần như con người hơn
Nên hiện tại mình tách ra: Opus cho kế hoạch/kiến trúc/chiến lược, GPT cho coding thuần túy
Trong coding kiểu agent, việc GPT có dư địa token lớn hơn cũng là một lợi thế
Đáng tiếc là có vẻ Claude Code đã hỏng hoàn toàn vì bản phát hành backend lần này hoặc phiên bản CC mới.
Lỗi “không thể sửa thinking blocks” đang biến các phiên làm việc chạy lâu thành đồ bỏ: https://github.com/anthropics/claude-code/issues?q=is%3Aissue%20state%3Aopen%20blocks%20modified
stablecủa 4.7.Tôi đã giải quyết được bằng cách để Claude tạo một script khôi phục để gỡ tình trạng phiên bị brick, nhưng có thể sẽ khác tùy môi trường.
https://gist.github.com/robertfw/993dbe8643c4fbdf12005dff2eca1f90
/rewindrồi tiếp tụcTrong thử nghiệm của tôi, Opus 4.8 tệ hơn một chút và đắt gần gấp 2 lần so với Opus 4.7.
Tôi khá bất ngờ khi nó thất bại trong bài test trích xuất dữ liệu. 2 trên 3 lần thì đúng, nhưng một lần lại trả về ngẫu nhiên một giá trị là null.
Việc nó thất bại nhiều hơn ở các tác vụ kiến thức trivia/kiến thức chuyên biệt theo lĩnh vực thì tôi còn phần nào hiểu được. Có vẻ các model ngày càng được huấn luyện nhiều hơn cho các ca sử dụng kiểu agent hơn là trí tuệ tổng quát.
https://aibenchy.com/compare/anthropic-claude-opus-4-7-medium/anthropic-claude-opus-4-8-medium/
Tôi đang kiểm tra lại test harness, nhưng đây là model đầu tiên có biểu hiện như vậy nên tôi nghĩ khả năng là do phía tôi không cao.
Sửa: có vẻ harness là đúng, và ở các tác vụ thuần coding thì hiệu năng tương đương: https://i.snipboard.io/5xbpzY.jpg
“Claude Opus 4.8 is available everywhere today. Pricing for regular usage is unchanged from Opus 4.7: $5 per million input tokens and $25 per million output tokens. Pricing for fast mode is $10 per million input tokens and $50 per million output tokens.”
Tôi đang thắc mắc là mức chi phí gấp đôi xuất hiện ở đâu