4 điểm bởi GN⁺ 7 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Hiệu năng kỹ thuật phần mềm nâng cao được cải thiện, xử lý các tác vụ phức tạp và chạy dài với độ nhất quán và chính xác cao
  • Khả năng nhận thức thị giác và hiểu đa phương thức được nâng cấp, cho phép phân tích thông tin trực quan phức tạp như ảnh độ phân giải cao, sơ đồ kỹ thuật, cấu trúc hóa học
  • Tích hợp các biện pháp bảo vệ an ninh mạng, tự động phát hiện và chặn các yêu cầu rủi ro cao; các nhà nghiên cứu bảo mật hợp pháp có thể tham gia Cyber Verification Program
  • Các tính năng mới như điều khiển Effort, Task Budget, lệnh ultrareview cải thiện hiệu quả công việc dài hạn và khả năng kiểm chứng chất lượng mã
  • Hiệu năng tăng 13% so với Opus 4.6 cùng độ tin cậy cao hơn, và Anthropic đang chuẩn bị cho việc công bố an toàn các mô hình cấp Mythos dựa trên nền tảng này

Tổng quan về Claude Opus 4.7

  • Claude Opus 4.7 là mô hình có hiệu năng kỹ thuật phần mềm nâng cao được cải thiện đáng kể so với Opus 4.6, có thể xử lý các tác vụ phức tạp và kéo dài với độ nhất quán và độ chính xác cao
  • Người dùng có thể tin tưởng và giao phó các tác vụ lập trình khó hơn so với trước đây, và mô hình sẽ tự kiểm chứng rồi báo cáo kết quả
  • Khả năng nhận thức thị giác được tăng cường, thể hiện chất lượng và tính sáng tạo cao trên ảnh độ phân giải cao, giao diện, slide, tài liệu, v.v.
  • Dù năng lực tổng quát thấp hơn Claude Mythos Preview của Anthropic, mô hình vẫn ghi nhận kết quả tốt hơn Opus 4.6 trên nhiều benchmark
  • Có thể sử dụng trên toàn bộ dòng sản phẩm Claude và API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry, với mức giá giữ nguyên như Opus 4.6

Các biện pháp liên quan đến an ninh mạng

  • Thông qua Project Glasswing, Anthropic công khai cả rủi ro lẫn lợi ích an ninh mạng của AI, hạn chế công khai Mythos Preview và quyết định ưu tiên thử nghiệm bảo mật trên các mô hình ít mạnh hơn
  • Opus 4.7 là mô hình đầu tiên theo hướng này, bao gồm các biện pháp bảo vệ tự động phát hiện và chặn các yêu cầu an ninh mạng bị cấm hoặc rủi ro cao
  • Dựa trên dữ liệu triển khai thực tế, Anthropic đang chuẩn bị cho việc công bố rộng rãi hơn các mô hình cấp Mythos trong tương lai
  • Các nhà nghiên cứu bảo mật hợp pháp (phân tích lỗ hổng, kiểm thử xâm nhập, red team, v.v.) có thể tham gia Cyber Verification Program

Hiệu năng chính và phản hồi từ người dùng

  • Trong các bài kiểm thử ban đầu, đã xác nhận khả năng tự phát hiện lỗi logic và tăng tốc độ thực thi
  • Mô hình thể hiện hiệu năng nổi bật trong quy trình bất đồng bộ, CI/CD, tác vụ tự động hóa chạy dài, đồng thời tiếp cận vấn đề sâu hơn và đưa ra ý kiến, thay vì chỉ đơn thuần đồng ý
  • Tránh suy luận sai khi thiếu dữ liệu, và không rơi vào bẫy dữ liệu không nhất quán
  • Trên 93 benchmark lập trình, mô hình cải thiện 13% so với Opus 4.6, đồng thời giải thêm 4 bài toán trước đó không thể giải được
  • Cho thấy mức độ nhất quán hàng đầu về hiệu quả tác vụ nhiều bước; trong mô-đun tài chính đạt 0.813, vượt Opus 4.6 (0.767)
  • Khả năng hiểu đa phương thức được cải thiện, nâng cao năng lực diễn giải cấu trúc hóa học và sơ đồ kỹ thuật phức tạp
  • Khả năng tự chủ thực hiện các tác vụ dài hạn được tăng cường, cho phép giải quyết vấn đề nhất quán trong nhiều giờ
  • Nhiều công ty như Replit, Harvey, Hex, Notion, Databricks, Vercel báo cáo sự cải thiện về chất lượng mã, độ chính xác khi gọi công cụ, độ tin cậy của workflow dài hạn
  • Một ví dụ thực tế là mô hình đã phát triển hoàn toàn tự chủ một engine tổng hợp giọng nói dựa trên Rust, rồi tự kiểm chứng mức độ khớp với mô hình tham chiếu Python

Các cải tiến chính trong thử nghiệm ban đầu

  • Độ chính xác khi diễn giải chỉ thị

    • Opus 4.7 diễn giải chỉ dẫn theo đúng nghĩa đen và tuân thủ nghiêm ngặt hơn nhiều so với các mô hình trước
    • Prompt hiện tại có thể cho ra kết quả ngoài dự kiến, nên cần tinh chỉnh lại prompt
  • Tăng cường hỗ trợ đa phương thức

    • Có thể xử lý hình ảnh với độ phân giải tối đa 2.576 pixel (khoảng 3,75MP)
    • Phù hợp cho các tác vụ tận dụng thông tin thị giác chi tiết như phân tích sơ đồ phức tạp, trích xuất dữ liệu từ ảnh chụp màn hình
  • Hiệu năng trong công việc thực tế

    • Đạt mức chuyên môn và độ nhất quán cao hơn Opus 4.6 trong phân tích tài chính, thuyết trình, mô hình hóa
    • Trong đánh giá bên ngoài GDPval-AA, mô hình cũng đạt nhóm dẫn đầu trong các lĩnh vực lao động tri thức như tài chính và pháp lý
  • Khai thác bộ nhớ

    • Sử dụng hiệu quả bộ nhớ dựa trên hệ thống tệp để ghi nhớ và tái sử dụng ngữ cảnh công việc qua nhiều phiên

Đánh giá an toàn và căn chỉnh

  • Nhìn chung, mô hình có hồ sơ an toàn tương tự Opus 4.6, với tỷ lệ phát sinh các vấn đề như đánh lừa, nịnh nọt, hỗ trợ lạm dụng ở mức thấp
  • Tính trung thực, khả năng chống prompt injection độc hại đã được cải thiện, nhưng ở một số lĩnh vực (ví dụ: đưa lời khuyên quá mức liên quan đến thuốc) có phần suy giảm nhẹ
  • Kết luận đánh giá là: “Nhìn chung được căn chỉnh tốt và đáng tin cậy, nhưng chưa hoàn toàn lý tưởng
  • Mythos Preview vẫn được đánh giá là mô hình được căn chỉnh tốt nhất

Các tính năng phát hành bổ sung

  • Tăng cường điều khiển Effort

    • Bổ sung mức xhigh mới giữa highmax, cho phép điều chỉnh tinh hơn giữa năng lực suy luận và độ trễ
    • Trong Claude Code, mức Effort mặc định được nâng lên xhigh
  • Claude Platform(API)

    • Cùng với hỗ trợ ảnh độ phân giải cao, tính năng Task Budget được cung cấp dưới dạng beta công khai, cho phép điều chỉnh ưu tiên sử dụng token trong các tác vụ dài hạn
  • Claude Code

    • Lệnh mới /ultrareview dùng để chạy phiên rà soát thay đổi mã và phát hiện lỗi
    • Người dùng Pro và Max được 3 lượt ultrareview miễn phí
    • Auto Mode được mở rộng cho người dùng Max để giảm thủ tục phê duyệt trong các tác vụ dài hạn và cho phép chạy liên tục không gián đoạn

Di chuyển từ Opus 4.6 sang 4.7

  • Opus 4.7 có thể nâng cấp trực tiếp, nhưng cần lưu ý đến thay đổi về mức sử dụng token
    • Do tokenizer mới, cùng một đầu vào có thể được chuyển thành số token nhiều hơn khoảng 1,0~1,35 lần
    • Ở mức Effort cao, mô hình thực hiện nhiều suy luận hơn nên token đầu ra có thể tăng
  • Có thể kiểm soát mức sử dụng token bằng tham số Effort, Task Budget và thiết kế prompt ngắn gọn
  • Trong các thử nghiệm nội bộ, hiệu quả đã được cải thiện trên toàn bộ các mức Effort
  • Phương pháp nâng cấp chi tiết được cung cấp trong Migration Guide

1 bình luận

 
Ý kiến trên Hacker News
  • Tôi thấy khái niệm adaptive thinking mới được đưa vào quá khó hiểu
    Trước đây tôi vẫn viết code với chế độ thinking budget / effort, nhưng giờ nó hoạt động hoàn toàn khác
    Xem tài liệu chính thức rồi mà tôi vẫn chưa nắm được
    Hơn nữa ở 4.7 mặc định không còn xuất ra bản tóm tắt reasoning mà con người có thể đọc được. Phải tự thêm tùy chọn "display": "summarized"
    Tôi đang thử chạy dự án Pelican, nhưng cứ liên tục bị vướng vì kiểu thinking mới này

    • Câu trả lời của Boris cho bug report của tôi là “có vẻ adaptive thinking không hoạt động đúng”, nhưng từ đó đến giờ không có thêm tin tức gì
      Xem thread liên quan
      Tắt adaptive thinking và tăng effort thì nó lại trở về mức như trước
      Nhưng nói rằng “đánh giá nội bộ cho thấy nó ổn” là không đủ. Rất nhiều người dùng đang báo cùng một vấn đề
    • Có người đùa rằng câu “muốn tạo ra pelican tốt” nghe giống p-hacking (thao túng thống kê). Ở đây p là chữ p của pelican, kiểu chơi chữ như vậy
    • Claude Opus 4.6 đã cho tôi rất nhiều kết quả buồn cười
      Ảnh chụp màn hình
    • Có vẻ trong Claude Code đã có thêm tùy chọn dòng lệnh không chính thức --thinking-display summarized
      Người dùng VS Code có thể tạo một wrapper script chứa exec "$@" --thinking-display summarized rồi đưa vào thiết lập claudeCode.claudeProcessWrapper để xem lại phần tóm tắt reasoning
    • Tôi tự hỏi giờ Claude không còn xuất toàn bộ reasoning mà chỉ hiển thị phần tóm tắt thôi sao
      Trước đây việc để lộ CoT (Chain of Thought) của LLM từng được xem là cốt lõi của an toàn, nhưng có vẻ hướng đi đã thay đổi
  • Tokenizer mới của Opus 4.7 giúp tăng hiệu quả xử lý văn bản, nhưng đầu vào lại được ánh xạ thành số token nhiều hơn từ 1.0 đến 1.35 lần
    Vì vậy tôi lại thấy đầu ra của dự án caveman dễ đọc hơn
    Kho caveman

    • caveman thực ra gần như là một dự án đùa vui
      Vì phần lớn context được dùng cho việc đọc file và reasoning, nên hiệu quả tiết kiệm token thực tế còn chưa đến 1%. Thậm chí còn có thể làm mô hình rối hơn
    • caveman cũng vui, nhưng nếu thực sự muốn tiết kiệm token thì headroom tốt hơn
      ứng dụng mac, bản CLI
    • Tôi đã thử nghiệm loại bỏ 100~1000 từ tiếng Anh phổ biến nhất trong prompt
      Tôi nghĩ các từ phổ biến có thể là nhiễu, nhưng kết quả gần như không khác gì
      Tôi muốn thử so sánh với caveman
    • Có người gợi ý thử cách tiếp cận như rtk-ai/rtk
    • Trong benchmark dầu khí nội bộ của tôi, Opus 4.7 đạt 80%, cao hơn Opus 4.6 (64%) và GPT-5.4 (76%)
      Lý do là lượng reasoning token sử dụng đã giảm xuống. Điều này cho thấy giờ so sánh chi phí mô hình chỉ bằng đơn giá token không còn nhiều ý nghĩa nữa
  • Sau khi thấy Anthropic công bố Opus 4.7 là mô hình bị hạn chế về an ninh mạng, tôi cảm thấy đây là một chiến lược thất bại
    Vừa kiểm duyệt tri thức bảo mật lại vừa muốn phát triển phần mềm an toàn là điều mâu thuẫn
    Trừ khi mọi công ty AI đều áp dụng cùng một chính sách, nếu không thì cũng không có nhiều hiệu lực. Cuối cùng có lẽ họ sẽ phải từ bỏ cách tiếp cận này

    • Tôi không phải chuyên gia bảo mật, nhưng khi build các dự án mã nguồn mở thì tôi cần AI hỗ trợ xác minh lỗ hổng
      Nhưng các hạn chế kiểu này lại đẩy bảo mật theo hướng tập trung hóa, nên khó coi đó là cải thiện bảo mật thực sự
    • Tôi cảm thấy các rào chắn an toàn ở giai đoạn huấn luyện quá mức sẽ làm giảm trí tuệ tổng quát
      Giống như khi bắt ai đó đứng trước bảng trắng trong buổi phỏng vấn thì IQ giảm 10%, mô hình cũng bị co cụm lại
    • Các mô hình hiện giờ đang ở trạng thái kỳ lạ: quá thông minh cho việc hack, nhưng vẫn còn thiếu cho các công việc mang lại giá trị kinh tế
      Vì thế có vẻ họ đang đi theo hướng “làm cho nó ngu đi một cách có chọn lọc”. Có lẽ họ đã bắt đầu thử nghiệm điều đó rồi
    • Tôi nghĩ đây là biện pháp chấp nhận được trong ngắn hạn
      Xét ở chỗ kẻ tấn công chỉ cần thành công một lần, còn bên phòng thủ phải thành công mọi lần, nó có thể giúp câu giờ
  • Tuần trước vì chất lượng 4.6 giảm sút nên cuối cùng tôi đã chuyển sang Codex
    4.6 thậm chí không tìm kiếm web mà lại nhồi 17K token toàn thứ vô nghĩa. Ví dụ xử lý song song cũng được triển khai sai hoàn toàn

    • Tôi cũng hủy gói Pro vì đúng lý do đó
      Lượng token sử dụng đột nhiên tăng vọt, và cách phản hồi thờ ơ của đội hỗ trợ là giọt nước tràn ly
      Bug thì còn có thể hiểu, nhưng thái độ với khách hàng thì khó chấp nhận
      Sau khi chuyển sang Codex thì ít nhất công việc còn tiến triển, thế là đủ
    • Nhiều người từng nói OpenAI sẽ sụp vì thừa compute, nhưng giờ ngược lại nó lại thành lợi thế chiến lược
      Codex đang tăng gấp đôi hạn mức sử dụng để hút khách của Claude, và PR cũng tốt hơn nhiều
      Có vẻ 90% vấn đề của Claude là do thiếu compute
    • Đây chỉ là thuyết âm mưu của tôi thôi, nhưng có vẻ họ cố tình hạ hiệu năng ngay trước khi ra model mới để phiên bản sau trông có vẻ tốt hơn
      Vì AI lúc nào cũng phải trông như đang “tiến bộ”, mà đình trệ thì đồng nghĩa với cái chết của hype
    • Tôi có dùng Codex rồi nhưng với nhu cầu của tôi thì nó kém hơn rất nhiều
      Nhanh hơn thật, nhưng nếu chỉ cho ra code chất lượng thấp nhanh hơn thì cũng vô nghĩa
      Gemini CLI còn chậm hơn và chất lượng cũng kém hơn
      Codex có xu hướng nịnh rằng mọi thứ đều “hoàn hảo” kể cả khi có bug, nên khá nguy hiểm
    • Dù vậy Codex vẫn đã có chỗ trong bộ công cụ của tôi
      Khả năng thực thi của nó rất tốt, và OpenAI không cần marketing mà để kết quả tự nói lên tất cả
      Cảm giác giống Google thời kỳ đầu, cạnh tranh bằng chất lượng sản phẩm
  • Bộ lọc an ninh mạng của Opus 4.7 đang quá gắt, đến mức chặn cả nghiên cứu hợp pháp
    Ngay cả khi lấy trực tiếp guideline của chương trình từ web, nó vẫn chặn là “yêu cầu nguy hiểm”
    Nếu cứ thế này tôi sẽ chuyển sang Codex

    • Giờ thậm chí có thể còn yêu cầu xác minh danh tính (Identity Verification)
      Như thông báo chính thức, có những tính năng cần làm thủ tục xác minh mới được truy cập
    • Thực tế trong API xuất hiện lỗi “Vi phạm Usage Policy”, kèm theo link đăng ký Cyber Verification Program
      Vì vậy toàn bộ nghiên cứu đang làm đều bị chặn
    • Tôi bị chặn ngay giữa phiên làm việc dù đầu vào vẫn y nguyên
      Có lẽ mô hình đã phát hiện trong reasoning nội bộ của chính nó một bước trông giống “tấn công”
      Có vẻ khi bug hunting dần chuyển sang các bước mang tính tấn công hơn thì bộ lọc sẽ kích hoạt
      Giờ là thời đại mà vi phạm chính sách là segfault mới
    • Tệ hơn nữa là ngay cả khi tôi đang viết chính code của mình, nó cũng tự in ra những câu như “đây không phải mã độc”
      Chỉ cần chứa vài từ nhất định là nó đã phản ứng quá mức
      Giờ thành ra tôi phải xin AI cho phép xem dự án của mình có phải mã độc hay không. Tôi sắp hủy đăng ký rồi
    • Ngay cả tác vụ đơn giản như gửi PDF tới máy in cũng bị từ chối
  • Thread này là một bài học hay cho các nhà sáng lập
    Nó cho thấy chỉ cần một chút giao tiếp trung thực cũng có thể làm dịu đi biết bao nhiêu bất mãn
    Với tư cách người đang ghim ứng dụng ở Opus 4.5, giờ tôi còn không phân biệt nổi là lỗi ở model hay lỗi ở harness

    • Trong các thread kiểu này lúc nào cũng đầy những chuyện mê tín như “Anthropic đã nerf model”
      Đôi khi chỉ đơn giản là xui thôi
    • Nếu họ thực sự cố ý làm chậm model vì tải cao, thì điều quan trọng là phải nói rõ điều đó
      Như vậy tôi có thể điều chỉnh giờ làm việc để chạy các tác vụ nặng vào ban đêm
    • Opus 4.5 rất ổn định, còn 4.6 thì thất thường
    • Tôi là lập trình viên mới và đang học sự khác nhau giữa các model
      Trong cảnh hỗn loạn như thế này, tôi nghĩ dùng model broker hoặc một lớp trung gian kiểu Copilot là lựa chọn khôn ngoan
    • Chính sự bất ổn này khiến người dùng ngày càng đa nghi
      Tôi cảm thấy cần có một dịch vụ như “AI tiêu chuẩn”, lúc nào cũng cung cấp cùng một model
  • Theo benchmark riêng của đội chúng tôi, Opus 4.7 chiến lược hơn và thông minh hơn 4.6/4.5
    Nó gần như ngang GPT-5.4, và trong các phiên agentic có dùng công cụ thì thậm chí còn cho hiệu năng tốt nhất
    Link benchmark
    Tuy nhiên ở xử lý context có một chút thụt lùi. Chúng tôi đang thêm benchmark để trực quan hóa điều này

    • Tôi tò mò vì sao tỷ lệ thành công của Opus 4.7 lại thấp hơn Sonnet 4.6 nhưng percentile trung bình lại cao hơn
    • Có người hỏi liệu 4.6 hay 4.5 có từng gặp hồi quy hiệu năng sau giai đoạn phát hành ban đầu hay không
  • Gần đây mức độ tin tưởng vào Anthropic đã giảm
    Việc họ tung ra 4.7 ngay sau đợt hạ cấp của 4.6 khiến tôi thấy bất an
    Giờ cần giao tiếp minh bạch

    • Cốt lõi vấn đề là thiếu compute
      OpenAI đầu tư vào compute từ sớm, và giờ đó là lợi thế lớn
    • Có thể hiệu năng Opus bị giảm vì họ đang huấn luyện Mythos
      Cũng có khả năng họ đang distillation Mythos bằng Opus 4.7
    • Tôi thắc mắc vì sao Claude trên Bedrock cũng cùng lúc chậm đi
      Có lẽ nguyên nhân là do cập nhật harness
    • Việc tích hợp xác minh Persona ID là giọt nước tràn ly. Từ sau đó tôi rời đi
    • Không rõ liệu có thể tiếp tục cầm cự kiểu này được bao lâu
  • Dạo gần đây các bình luận kiểu “tôi chuyển sang Codex rồi” tăng đột biến
    Nhưng dùng thực tế thì Codex vẫn chưa đạt tới mức của Claude
    Những bình luận mang tính quảng bá như vậy chỉ càng làm giảm độ tin cậy

    • Nhưng trên thực tế cũng có nhiều lập trình viên thích Codex hơn
      Công ty chúng tôi dùng cả hai model, còn tôi thì giờ gần như chỉ dùng Codex
      Tôi thấy tốc độ và kết quả của nó tốt hơn
    • Tôi cũng chạy một pilot ngắn, và Codex giải quyết vấn đề nhanh hơn Claude hơn 4 lần
      Tuy nhiên chất lượng phản hồi thì Claude tốt hơn. Ưu và nhược điểm rất rõ ràng
    • Khi giao cùng một tác vụ refactor, Codex mất 5 phút còn Claude mất 20 phút
      Nhưng Codex lại cho ra kết quả “đúng về mặt kỹ thuật nhưng kỳ quặc về mặt con người”
      Vì vậy tôi dùng Claude để viết đặc tả rồi dùng Codex để thực thi
    • Có người mỉa mai rằng “Java là nhất”, ý nói những cuộc tranh cãi này rốt cuộc cũng chẳng khác gì chiến tranh ngôn ngữ lập trình
    • Có người chỉ trích OpenAI đang tăng thị phần bằng chiến lược trợ giá quá mức
      Và nghi ngờ rằng sau này họ rồi sẽ tăng giá
  • Chính sách hạn chế bảo mật của Opus 4.7 có thể là chí mạng
    Muốn nghiên cứu tấn công và phòng thủ thì cần năng lực đối xứng, mà ngăn điều đó lại là rất nguy hiểm

    • Có lẽ đây là biện pháp để định vị sản phẩm Mythos
    • Giờ muốn làm nghiên cứu bảo mật hợp pháp thì lại phải lừa model
    • Nếu chính sách này tiếp diễn, tôi sẽ rời nền tảng
    • Có ý kiến cho rằng cách gọi là “chí mạng” hơi quá, và đặt câu hỏi sự bất đối xứng thực sự đến từ đâu
    • Cuối cùng có vẻ chúng ta đang tiến tới thời đại mà chỉ phần mềm được Anthropic hoặc chính phủ phê duyệt mới được công nhận là an toàn