12 điểm bởi flyingsquirrel 9 ngày trước | 11 bình luận | Chia sẻ qua WhatsApp

Anthropic đã ra mắt Claude Opus 4.8, phiên bản nâng cấp của Claude Opus, mẫu model cao cấp nhất của hãng. Dựa trên phiên bản trước là 4.7, model này cải thiện hiệu năng benchmark, tăng cường khả năng cộng tác và vẫn giữ nguyên mức giá.

Các cải tiến và đặc điểm chính

  • Hiệu năng tăng cường: Cho thấy hiệu năng vượt trội so với model trước đó và các model cạnh tranh như GPT-5.5 trên nhiều tác vụ như lập trình, kỹ năng agent, suy luận và công việc đòi hỏi kiến thức thực tiễn.
  • Tăng cường tính trung thực (Honesty): Cải thiện vấn đề AI đưa ra khẳng định không có cơ sở hoặc vội vàng kết luận. Opus 4.8 tự đánh dấu những phần không chắc chắn, và xác suất bỏ sót lỗi trong mã đã giảm khoảng 4 lần so với model trước.
  • Khả năng agent đáng tin cậy: Theo kết quả thử nghiệm ban đầu, khi thực hiện các tác vụ phức tạp nhiều bước, model cho thấy khả năng phán đoán sắc bén hơn, phát hiện sai sót của chính mình và phản biện khi kế hoạch không hợp lý, từ đó thể hiện khả năng cộng tác tốt hơn.
  • Hiệu quả chi phí: Tốc độ của 'Fast Mode' đã nhanh hơn 2,5 lần, và chi phí rẻ hơn 3 lần so với model trước.

Các tính năng mới ra mắt cùng lúc

  • Dynamic Workflows: Tính năng research preview của Claude Code, cho phép chạy hàng trăm sub-agent song song để thực hiện các tác vụ phức tạp như di chuyển một codebase quy mô lớn.
  • Effort Control: Người dùng có thể chọn mức độ nỗ lực mà Claude sẽ đầu tư vào tác vụ. Ở thiết lập cao, Claude sẽ suy nghĩ sâu hơn để cung cấp phản hồi chất lượng cao; ở thiết lập thấp, Claude sẽ phản hồi nhanh hơn.
  • Cập nhật Messages API: Giờ đây có thể đưa system entry vào trong mảng message, cho phép cập nhật chỉ dẫn giữa chừng mà không làm hỏng prompt cache.
Quảng cáo

Kế hoạch sắp tới

Anthropic đang phát triển một model mang lại hiệu năng cấp Opus với chi phí thấp hơn, đồng thời chuẩn bị một lớp model mới có trí thông minh cao hơn Opus (Claude Mythos) thông qua Project Glasswing. Hiện model này đang được kiểm thử bảo mật tại một số tổ chức và dự kiến sẽ được mở cho tất cả khách hàng trong vài tuần tới.

Giá và hướng dẫn sử dụng

  • Chế độ thường: đầu vào $5 / 1M token, đầu ra $25 / 1M token (giống Opus 4.7)
  • Fast Mode: đầu vào $10 / 1M token, đầu ra $50 / 1M token
  • Tên model: claude-opus-4-8

11 bình luận

 
jimmy2056 9 ngày trước

Cứ làm tôi liên tục mất công mò mẫm nên có vẻ GPT ổn định vẫn tốt hơn.
Tôi từng dùng Claude gói 200$, rồi chuyển sang GPT 100$ + Claude 100$,
từ tháng sau chắc tôi chỉ dùng Claude 20$ thôi. Dù sao cũng chỉ để review nên cũng không còn cần nhiều nữa, với lại nếu thiếu thì tôi cũng đang trả phí AGY nên dùng cái đó là được hehe

 
slowandsnow 8 ngày trước

Sao Sonnet với Haiku lại bị bỏ rơi vậy? Họ chỉ nghĩ đến chuyện cạnh tranh với GPT quá nhiều sao?

 

Biến thể fast mode được cho là chạy nhanh hơn 2,5 lần so với trước đây, trong khi chi phí rẻ hơn 3 lần.

 

Mình đang hạ xuống gói Claude Pro và dùng GPT, nhưng vì có việc đang làm nên thử cho nó review thì hết sạch hạn mức Pro chỉ trong 10 phút rồi dừng luôn.
Claude ghê thật!

 

Trong buổi sáng, do tôi đang dùng một kỹ năng để sắp xếp các cuộc họp hoặc bản ghi âm, nên tôi thử chuyển effort của nó sang ultracode trên 4.8 để dùng thì thấy khá ổn hơn mong đợi. Cảm nhận cá nhân là nó cho cảm giác có xu hướng khá giống codex. Hiệu quả token thì hiện tại vẫn chưa bằng codex, nhưng bù lại context window rộng rãi, và do workflow nên màn hình sub-agent cũng đã thay đổi đôi chút, phần này tôi cũng khá thích.

 

Bản 4.7 thực sự khó dùng đến mức có thể cảm nhận rõ, nên tôi hy vọng 4.8 ít nhất đã được cải thiện.

 

Cũng có cảm giác như đây là bản tung ra vội vì quá nhiều người đang chuyển sang ChatGPT/Codex..

 

Dùng /effort thì hiệu quả tạo ra khá thú vị đấy haha

 

Tôi đã tìm nguyên văn của cụm "trái treo thấp" trong bản dịch bình luận Hacker News bên dưới, thì câu gốc là
low hanging juice to squeeze out of smaller models << nguyên văn là như vậy,
nên có thể hiểu là vẫn còn rất nhiều tiềm năng dễ khai thác từ các mô hình nhỏ hơn.

 
iolothebard 9 ngày trước

Thôi được rồi, ăn nhiều lắm rồi đó mà~

 
Ý kiến trên Hacker News
  • Có lẽ đây là lần đầu Anthropic tăng phiên bản minor lần thứ ba cho một mô hình tuyến đầu
    Ở đây các bản tăng 0.5 trước giờ xuất hiện không theo chuỗi, mà bước nhảy hiệu năng cũng lớn nên tôi xem như bản major, ví dụ Sonnet 3.5 hay Opus 4.5
    Giờ thì dòng Opus 4.5 đã có các hậu bản 4.6, 4.7, 4.8, và ngay cả theo tuyên bố chính thức thì mức cải thiện của từng bản cũng khá nhẹ
    Với 4.6/4.7 mà tôi đã dùng trực tiếp, khi so với ký ức về 4.5 thì khó xác định rõ là khả năng nào đã tốt hơn; cảm nhận quá mơ hồ nên rất khó kết luận
    Có thể gu của tôi đã bão hòa, hoặc mô hình đã thông minh hơn tôi đến mức từ giờ tôi không còn cảm nhận được tiến bộ nữa; nhưng cũng có thể nếu đem workflow hiện tại trên 4.7 chạy lại bằng 4.5 thì tôi sẽ nhận ra ngay những cải thiện dần dần đó
    Có vẻ phía phòng lab cũng ở thế khó. Nếu có sản phẩm mạnh hơn thì tôi muốn họ phát hành để mọi người dùng được, nhưng nếu xu hướng này tiếp tục thì ngay cả khi có cải thiện thật, người dùng cuối sẽ ngày càng ít nhận thấy hơn, và nó có thể giống như bị thay đổi liên tục mà không được lợi ích tương xứng

    • Sẽ không có gì đáng ngạc nhiên nếu thế hệ mô hình tuyến đầu tiếp theo là thế hệ cuối cùng
      Ở các mô hình nhỏ vẫn còn rất nhiều trái thấp dễ hái chưa được khai thác
      Trong 2~3 năm tới, gần như chắc chắn các mô hình 60~90B sẽ vượt mặt đỉnh hiện tại trong các tác vụ coding. Thiết kế chưa chốt và có lẽ cũng không dễ, nhưng khả năng đó rất cao
      Ngược lại, việc có đáng để huấn luyện mô hình 1.2T để đạt cải thiện đủ ý nghĩa hay không thì bất định hơn nhiều
      Về suy luận, nhìn vào việc GRAM vừa được công bố gần đây thì dư địa cải thiện suy luận có thể gắn vào mô hình nhỏ có khi lên tới 4 chữ số
      Google, OpenAI và Anthropic có thể huấn luyện một mô hình dựa trên GRAM cỡ 30B chỉ trong vài ngày, và mô hình đó thậm chí có thể suy luận cục bộ tốt hơn các mô hình tốt nhất hiện nay với hơn 1T tham số. Nếu tiếp tục mở rộng lên khoảng 600B MoE cũng chỉ trong vài ngày, nó còn có thể đạt trình độ ngang ngửa các mô hình tốt nhất về tri thức tổng quát
      Các mô hình 1T+ tham số không thể huấn luyện nhanh như vậy. GRAM thực sự cải thiện được bao nhiêu vẫn là biến số lớn, nhưng có vẻ khó mà chỉ mang lại hiệu quả nhỏ nhặt hay vô nghĩa
      Các mô hình lớn hiện giờ gần như đã có thể nói cho bạn bất cứ thứ gì. Nhưng chừng nào vẫn là LLM thì chúng sẽ không thể đúng mọi thứ
      Có vẻ cũng không còn nhiều thứ để vắt thêm từ Gemini chỉ để nó trả lời chính xác chiều cao của Ke$ha hay lần cuối Brittney Spears vào tù là khi nào
    • 4.7 là phiên bản đầu tiên mà tôi phải quay lại dùng 4.6 cho hầu hết nhu cầu. Hy vọng 4.8 sửa được điều đó
    • Tôi khá tò mò không biết mọi người có cảm nhận được cải thiện đáng kể hay dễ nhận thấy nào trong workflow lập trình giữa 4.5 và 4.7 không
      Cá nhân tôi thấy từ sau khi 4.5 ra mắt, năng suất tăng lên chủ yếu nhờ cải tiến harness và cửa sổ ngữ cảnh tăng từ 200k lên 1M, hơn là nhờ bản thân mô hình. Tôi thấy vậy với cc, cursor cli, codex, opencode, v.v.
      Còn “trí thông minh thuần” của mô hình hay khả năng đưa ra quyết định tốt thì có cảm giác đã chững lại từ sau 4.5. 4.6 có thể tốt hơn đôi chút, nhưng khó tách bạch với hiệu ứng học trong ngữ cảnh của cửa sổ 1M; còn 4.7 thì với tôi và đồng nghiệp lại giống như sự khôn ngoan bị thụt lùi, liên tục đưa ra các quyết định tệ hơn và lười hơn
    • Có lẽ các đợt phát hành tăng dần thường xuyên hơn cũng nhằm triển khai những tính năng mới mà Anthropic dùng để kiểm soát chi phí và điều tiết mức tiêu thụ tài nguyên
      Đằng sau các tính năng điều khiển mới mà người dùng cuối nhìn thấy, tôi đoán còn có những điều khiển nội bộ chi tiết hơn nhiều để tinh chỉnh theo từng loại người dùng
      Ý tôi là các cơ chế như điều khiển mức nỗ lực chi tiết hơn, “dynamic workflow”, hay điều khiển tốc độ kiểu “fast mode”. Chúng được gói như tính năng cho người dùng, nhưng cũng có vẻ như các cần gạt backend để cân bằng chi phí, biên lợi nhuận, ARR, tăng trưởng người dùng và tỷ lệ giữ chân nhằm đạt các chỉ số cốt lõi trong báo cáo quý sau IPO
    • Trong các bài test của chúng tôi, 4.5/4.6 khá tương đương nhau. Opus 4.7 thông minh hơn, nhưng có nhiều vấn đề về tính cách nên khó dùng trong sản phẩm
      Tính đến lúc này, Opus 4.8 cũng có vẻ đi theo hướng đó. Nó chậm đến mức khó dùng, dù có thể là vấn đề rollout trong ngày phát hành. Bài test đầy đủ cho Opus 4.8 vẫn đang được tiến hành
      Dữ liệu có tại https://gertlabs.com/rankings
  • Cách nói “người dùng sẽ cảm nhận Opus 4.8 là một cải thiện nhẹ nhưng có thể nhận ra so với bản trước” nghe khá mới mẻ
    Tôi cũng xác nhận là giờ có thể tắt adaptive thinking trong web UI, khá tốt vì đã có nhiều vấn đề khi thinking không hoạt động làm đầu ra của mô hình trở nên tệ hẳn
    Cuối cùng cũng tắt được nên thật đáng mừng. Nếu vốn dĩ lúc nào cũng tắt được thì hơi ngượng thật

    • Tôi nghĩ cái công tắc đó có lẽ luôn ở đó, nhưng khi tắt thì nó không cho ra hành vi mà bạn mong muốn. Nó vô hiệu hóa hoàn toàn thinking
    • Nghe mới mẻ thật, nhưng lần này có khi cách diễn đạt đó còn hơi thiếu
      Tôi chủ yếu xem mảng web research, và Opus 4.7 đã tụt lùi so với Opus 4.6 trên BrowseComp, ngoài sử dụng thực tế cũng vậy
      Opus 4.8 tốt hơn hẳn 4.7 lẫn 4.6, mà tìm kiếm web lại là một use case cốt lõi của chatbot
    • Những đợt phát hành nhỏ kiểu này có phải để người dùng quen dần với chu kỳ cập nhật tăng dần hơn không nhỉ
      Kiểu như các nhà cung cấp mô hình khác tung bản cập nhật lớn mỗi x tháng, còn chúng tôi tung cập nhật tăng dần mỗi x/2 tháng
    • Khi chuyển mô hình từ 4.6 sang 4.8 extra, có lẽ tôi đã vướng phải một bug giả khi tắt Adaptive, nhưng thử lại thì có vẻ nó hoạt động đúng như thiết kế
      Điều quan trọng hơn với tôi là CC phản ứng thế nào với cờ “riêng” của 4.6 liên quan đến thinking, và hiện tại có vẻ nó không ghi đè cấu hình của tôi
    • Tôi từng kỳ vọng web UI sẽ tốt hơn. Về mặt giá trị, tôi thích Anthropic hơn OpenAI nên muốn dùng sản phẩm của họ, nhưng ChatGPT ở chế độ thinking vẫn vượt claude.ai khá xa
      Tôi đã hy vọng thay đổi lần này sẽ đưa nó lên gần mức đó, nhưng dùng thực tế thì vẫn chưa
      Với những câu hỏi sự kiện đơn giản mà ChatGPT chỉ cần tìm kiếm nhanh để kiểm chứng rồi trả lời, Claude với model mới và cả thinking high vẫn đáp lại kiểu “Câu hỏi hay đấy!” rồi bịa ra hoàn toàn. Nó không tự nhận ra là cần tìm kiếm như GPT, và ngay cả các dữ kiện cơ bản bạn cũng phải chỉ rõ là hãy đi tìm kiếm
  • Phần Claude Mythos Preview với tuyên bố “có kế hoạch phát hành một loại mô hình mới có trí tuệ cao hơn cả Opus” có vẻ còn thú vị hơn bản phát hành 4.8
    Một số ít tổ chức đang sử dụng nó cho công việc an ninh mạng như một phần của Project Glasswing, và họ nói rằng mô hình ở cấp độ này cần các biện pháp an toàn mạng mạnh hơn trước khi được công bố rộng rãi

    • Không hẳn là “thú vị hơn”, mà đúng hơn là có nhiều nghi ngờ rằng kiểu tin xấu tự tạo ra như “Mythos quá nguy hiểm để cấp quyền truy cập cho công chúng” là phong cách marketing rất đặc trưng của Dario
      Việc IPO đang đến gần chắc chắn cũng sẽ được phản ánh trong các phát ngôn công khai. Nói công bằng thì đó cũng là trách nhiệm của ông ấy
      Lý do trì hoãn mô hình có thể không phải là “đang làm cho nó an toàn”, mà là “không biết cách lưu trữ nó ở quy mô lớn hoặc với chi phí hiệu quả”
      GPT 5.5 dường như đã giỏi tìm lỗ hổng ngang với Mythos
      Cuối cùng, người không chuyên thường đánh giá thấp nghiêm trọng tầm quan trọng của harness trong hiệu năng mô hình. OpenHands đã có từ lâu hơn nhiều so với Claude Code, nhưng Claude Code đã thay đổi cuộc chơi nhờ cách bổ trợ thông minh. Mythos cũng có khả năng là nhiều hơn chỉ một mô hình đơn thuần
    • Như vậy có vẻ họ sẽ tước quyền truy cập mô hình lớn nhất khỏi Claude Pro. Muốn dùng mô hình lớn hơn Opus thì có lẽ ít nhất sẽ phải đăng ký Claude Max
    • So với điều đó, phần “đang phát triển và phát hành các mô hình chi phí thấp hơn nhưng vẫn cung cấp nhiều khả năng tương tự Opus” còn thú vị hơn
      Khi so với các mô hình cạnh tranh hiện tại từ Trung Quốc, Sonnet và Haiku có vẻ đang thua khá nhiều về hiệu năng trên giá thành
    • Trong ghi chú phát hành Opus 4.7, họ nói đã cố ý hạ thấp năng lực an ninh mạng https://www.anthropic.com/news/claude-opus-4-7
      Vậy thì có phải họ cũng đang làm điều tương tự với Mythos, và Mythos mà chúng ta nhận được sẽ là một phiên bản đã bị làm yếu ở điểm đó?
      Chính xác hơn thì có vẻ Mythos sẽ bị chia thành hai phiên bản, và bản đáng sợ hơn sẽ tiếp tục đòi hỏi rất nhiều thủ tục giấy tờ
    • Điều này nghe như đang ám chỉ rằng nếu không phải tỷ phú hay công ty trị giá hàng chục tỷ đô, bạn có thể chỉ nhận được những thứ như lệnh slash Claude Code /mythos-security-audit bị giới hạn và làm yếu đi
      Hy vọng người bình thường sẽ không bị gạt khỏi quyền truy cập theo kiểu đó
  • Tôi đã thử tạo bồ nông đi xe đạp ở cả mức thinking low và high
    https://gist.github.com/simonw/68560eddb0b268a8417f80ceb7304dc6?permalink_comment_id=6172953#gistcomment-6172953
    Kết quả high rõ ràng tốt hơn. Không giống low, hình dạng khung xe đạp đúng hơn
    Đây là kết quả Opus 4.7 để so sánh: https://gist.github.com/simonw/afcb19addf3f38eb1996e1ebe749c118?permalink_comment_id=6104087#gistcomment-6104087

    • Không thể nói là hình dạng khung xe đạp đúng được. Tay lái bị sai
      Tay lái không quay bánh trước mà lại quay cả khung xe. Tay lái phải được gắn thẳng hàng với bánh trước
      Mong 4.9 sẽ đọc được bình luận của tôi
    • Mỗi lần ai đó đăng chuyện xe đạp là tôi lại có xu hướng chia sẻ liên kết này, nhưng trong thread này chưa thấy nên đăng luôn
      https://www.gianlucagimini.it/portfolio-item/velocipedia/
      Con người cũng có thể vẽ xe đạp khá tệ
    • Thật vui khi thấy mũ bảo hiểm được thêm vào ở mức “high thinking”. Đó luôn là lựa chọn khôn ngoan
    • Đây là kết quả bồ nông ở mọi mức thinking: low, medium, high, xhigh, max theo thứ tự
      https://tools.simonwillison.net/markdown-svg-renderer#url=https%3A%2F%2Fgist.github.com%2Fsimonw%2Ffea4f7546626d627862dc241a4e3a86a
    • Tôi không hiểu làm sao một khung xe không có ống đầu lại có thể được gọi là “đúng hình dạng”
  • Với các model tuyến đầu, benchmark code mình thích là bắt nó tạo một game chiến thuật thời gian thực đơn giản chỉ trong một file (js/html/css)
    Claude Code + Opus 4.8 ở chế độ ultracode đã làm được rất tốt, và đây là kết quả tốt nhất từ trước đến nay
    https://bsky.app/profile/senko.net/post/3mmwnrkwboc2v
    Prompt là: “Hãy tạo một game RTS đơn giản nhưng chạy được kiểu như WarCraft, StarCraft, Command & Conquer đời cũ. Người chơi phải có thể xây công trình, tạo đơn vị, thu thập tài nguyên và khám phá toàn bộ bản đồ. Không cần AI hay multiplayer. Dùng đồ họa đơn giản nhưng đẹp mắt. Không có âm thanh. Triển khai toàn bộ bằng HTML/CSS/JS và gói trong một file duy nhất. Có thể dùng thư viện hoặc framework js/css bên thứ ba qua CDN”

    • Không biết có bảng xếp hạng nào kiểu cho bài test này không. Nếu chấm Opus 4.8 và GPT 5.5 theo thang 100 điểm thì mỗi bên được bao nhiêu?
    • Mã nguồn trông gần như mã đã được minify. Tên biến rất ngắn và cách trình bày có vẻ như cố giảm tối đa khoảng trắng; không rõ nó tự viết ra theo kiểu nén như vậy luôn à?
    • Hữu ích thật khi chia sẻ cả prompt. Mình cũng đã test bằng cách bảo Claude làm những thứ tương tự
      Cũng thú vị là phong cách hình ảnh khá giống với những gì nó từng làm cho mình
    • Mình thích benchmark này. Nếu đưa các sản phẩm lên GitHub Pages thì mọi người có thể tự chơi thử game
    • Không biết bộ sưu tập app benchmark kiểu này được lưu ở đâu. Mình đặc biệt muốn xem chênh lệch chi phí tương đối giữa các model trong những use case như thế này
  • Tò mò không biết có ai rà qua các đợt phát hành kiểu này rồi thử cherry-pick những chỉ số tùy ý mà các công ty khác có lẽ đã chọn để làm model của họ trông ngầu hơn không
    Cảm giác như có đến 8 triệu benchmark vậy. Mỗi lần phát hành, mỗi model lại chọn ngẫu nhiên 5–10 cái rồi trình bày như thể nó thắng tất cả trừ một, như thể họ đang cố giả vờ rằng đây không phải là trò cherry-pick ngẫu nhiên từ một đống benchmark rất có thể đã bị “benchmaxxed” rồi

    • https://arena.ai/leaderboard có vẻ là một bên xếp hạng khá ổn
      Mình không biết chính xác phương pháp luận, nhưng khi dùng Claude/GPT cho công việc lập trình hằng ngày thì kết quả họ báo cáo khá khớp với cảm nhận định tính của mình
    • Lần này chỉ đưa vào 6 chỉ số, khá thú vị. Opus 4.7 là 12 cái, còn 4.6 là 13 cái
      Trong số các chỉ số từng báo ở 4.7, bản 4.8 đã bỏ BrowseComp, CharXiv Reasoning, CyberGym, GPQA Diamond, MCP Atlas, MMMLU và SWE-bench Verified. 4 chỉ số cuối gần như luôn được nhắc đến trong các đợt phát hành Opus trước đó
    • Mọi benchmark đều nên được nhìn với mức độ hoài nghi nhất định. Mình hầu như không dùng chúng
      “Thông minh hơn 5%” thì rốt cuộc nghĩa là gì? Trải nghiệm sử dụng thực tế của mình có thể khác hẳn. Tốt hơn là cứ tự dùng thử
      Mình không nghĩ Anthropic nội bộ lại nhắm vào việc cải thiện một benchmark cụ thể nào. Chúng chỉ là cách để trực quan hóa tiến bộ, còn bên trong chắc hẳn họ có những chỉ số phức tạp hơn nhiều
    • Cũng nhân tiện, không biết có trình tổng hợp benchmark nào gom tất cả benchmark vào một lưới lớn không
    • Ít nhất thì họ cũng không giả vờ như không có đối thủ cạnh tranh kiểu OpenAI, mà vẫn đưa model đối thủ vào từng benchmark
  • Kết quả ban đầu từ ArtificialAnalysis.ai cho thấy GPT 5.5 vẫn có vẻ có hiệu năng/giá tốt hơn
    OpenAI dùng ít hơn khoảng 50% output token để giải quyết công việc
    https://artificialanalysis.ai/?intelligence=coding-index&intelligence-efficiency=intelligence-efficiency-vs-output-tokens&models=gpt-5-5%2Cgpt-5-5-pro%2Cgemini-3-1-pro-preview%2Cclaude-opus-4-8%2Cclaude-opus-4-7%2Cnvidia-nemotron-3-super-120b-a12b

    • Mình vẫn thử Codex mỗi khi có phiên bản mới, nhưng nó không hợp với mình. Nên điều đó không đúng với tất cả mọi người
      Chắc mình chỉ đổi nếu Claude trở nên đắt hơn rất nhiều
  • Mình rất vui khi thấy ở trang 102 của system card có phần đánh giá về mức độ thành thạo sáng tạo
    Trong công việc của bọn mình, nhóm đã yêu cầu nhiều AI tuyến đầu thiết kế các API cần thiết và so sánh Opus 4.7 với GPT-5.5 cùng các model khác. Opus 4.7 đưa ra thiết kế API sáng tạo và thông minh nhất, khiến mình ngạc nhiên theo hướng tích cực, nhất là khi GPT-5.5 đang dẫn trước trong nhiều benchmark lập trình
    Điều đó khiến mình nhận ra là chưa có benchmark chung nào để đo “sự sáng tạo” và “tính độc đáo”, và kiểu benchmark đó ở vài khía cạnh có thể còn xung đột với IFBench phổ biến
    Dù vậy, đây là năng lực cực kỳ quan trọng trong thiết kế hệ thống. Mình rất mừng vì Anthropic để tâm đến chuyện này, và hy vọng sẽ có benchmark công khai để các model khác cũng có thể so sánh
    https://cdn.sanity.io/files/4zrzovbb/website/c886650a2e96fc0925c805a1a7ca77314ccbf4a6.pdf

    • Cảm nhận của mình cũng là 4.6 coder tốt hơn 4.7. 4.7 tư duy chiến lược tốt hơn nhiều, và nhìn tổng thể có cảm quan kiến trúc tốt hơn 5.5
      5.5 thì vượt trội hơn hẳn cả hai về coding nhưng cũng đắt hơn. Vì thế mình để 4.7 làm phần kế hoạch/kiến trúc, 4.6 viết code, rồi 5.5 phản biện và sửa lại
    • Mình cũng thấy tương tự. Với các việc như lập kế hoạch, chiến lược, kiến trúc, Opus 4.7 tốt hơn GPT-5.5 rất nhiều
      GPT giống như một con robot nhận chỉ thị rồi làm đúng như vậy, còn Opus thì đôi khi thật sự nảy ra ý tưởng hay và còn phản bác các ý tưởng dở, cảm giác gần như con người hơn
      Nên hiện tại mình tách ra: Opus cho kế hoạch/kiến trúc/chiến lược, GPT cho coding thuần túy
      Trong coding kiểu agent, việc GPT có dư địa token lớn hơn cũng là một lợi thế
  • Đáng tiếc là có vẻ Claude Code đã hỏng hoàn toàn vì bản phát hành backend lần này hoặc phiên bản CC mới.
    Lỗi “không thể sửa thinking blocks” đang biến các phiên làm việc chạy lâu thành đồ bỏ: https://github.com/anthropics/claude-code/issues?q=is%3Aissue%20state%3Aopen%20blocks%20modified

    • Vấn đề này cũng đã xảy ra trên nhánh stable của 4.7.
      Tôi đã giải quyết được bằng cách để Claude tạo một script khôi phục để gỡ tình trạng phiên bị brick, nhưng có thể sẽ khác tùy môi trường.
      https://gist.github.com/robertfw/993dbe8643c4fbdf12005dff2eca1f90
    • Có vẻ các bản cập nhật CC không được test trước khi phát hành. Đội nội bộ dùng sản phẩm hoặc phản hồi công khai đang đóng vai trò kiểm thử
    • Không chắc có giúp được không, nhưng trong vài trường hợp nhẹ tôi đã có thể khôi phục bằng /rewind rồi tiếp tục
    • Tôi cũng vậy. Việc này xảy ra đúng vào lúc tung ra model mới trông không ổn chút nào
    • Đó cũng là một phần “hấp dẫn” khi làm việc với Claude. Mỗi lần ra mắt cái gì mới là toàn bộ đồ của bạn lại vỡ tung
  • Trong thử nghiệm của tôi, Opus 4.8 tệ hơn một chút và đắt gần gấp 2 lần so với Opus 4.7.
    Tôi khá bất ngờ khi nó thất bại trong bài test trích xuất dữ liệu. 2 trên 3 lần thì đúng, nhưng một lần lại trả về ngẫu nhiên một giá trị là null.
    Việc nó thất bại nhiều hơn ở các tác vụ kiến thức trivia/kiến thức chuyên biệt theo lĩnh vực thì tôi còn phần nào hiểu được. Có vẻ các model ngày càng được huấn luyện nhiều hơn cho các ca sử dụng kiểu agent hơn là trí tuệ tổng quát.
    https://aibenchy.com/compare/anthropic-claude-opus-4-7-medium/anthropic-claude-opus-4-8-medium/

    • Có cảm giác mọi thứ đều gấp đôi. Chi phí gấp đôi, thời gian phản hồi trung bình gấp đôi, token suy luận và token đầu ra cũng gấp đôi.
      Tôi đang kiểm tra lại test harness, nhưng đây là model đầu tiên có biểu hiện như vậy nên tôi nghĩ khả năng là do phía tôi không cao.
      Sửa: có vẻ harness là đúng, và ở các tác vụ thuần coding thì hiệu năng tương đương: https://i.snipboard.io/5xbpzY.jpg
    • Chẳng phải bài blog nói giá vẫn giống 4.7 sao?
      “Claude Opus 4.8 is available everywhere today. Pricing for regular usage is unchanged from Opus 4.7: $5 per million input tokens and $25 per million output tokens. Pricing for fast mode is $10 per million input tokens and $50 per million output tokens.”
      Tôi đang thắc mắc là mức chi phí gấp đôi xuất hiện ở đâu
    • Việc phát hành model mới giờ đã thành một cách mới để tăng giá rồi haha