36 điểm bởi GN⁺ 12 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Chiến lược Advisor đã được chính thức đưa vào Claude Platform — một mẫu kết hợp Opus làm cố vấn, Sonnet hoặc Haiku làm bộ thực thi (executor), giúp áp dụng năng lực suy luận tiệm cận mức của Opus cho agent trong khi vẫn giữ chi phí thấp
  • Khi Sonnet kết hợp với cố vấn Opus, điểm SWE-bench Multilingual tăng 2,7 điểm phần trăm so với khi Sonnet tự thực hiện tác vụ một mình, đồng thời chi phí cho mỗi tác vụ agent giảm 11,9%
  • Tổ hợp Haiku + cố vấn Opus đạt 41,2% theo chuẩn BrowseComp, cao hơn gấp đôi Haiku chạy đơn lẻ (19,7%), đồng thời giảm 85% chi phí so với Sonnet chạy đơn lẻ
  • Nếu khai báo công cụ advisor_20260301 trong yêu cầu Messages API, việc chuyển giao giữa các mô hình sẽ hoàn tất trong một yêu cầu /v1/messages duy nhất, không cần thêm vòng gọi qua lại hay quản lý ngữ cảnh
  • Token của cố vấn được tính phí theo giá của mô hình cố vấn, còn token của bộ thực thi được tính theo giá của mô hình thực thi, tạo nên cấu trúc có thể theo dõi và kiểm soát chi phí

Tổng quan về chiến lược Advisor

  • Sonnet hoặc Haiku đóng vai trò bộ thực thi, xử lý tác vụ từ đầu đến cuối, bao gồm gọi công cụ, đọc kết quả và thực hiện các bước lặp
  • Khi bộ thực thi đi đến một quyết định khó có thể giải quyết hợp lý, nó sẽ yêu cầu Opus cung cấp hướng dẫn, và Opus sẽ tham chiếu ngữ cảnh dùng chung để trả về một trong các tín hiệu: lập kế hoạch, chỉnh sửa hoặc dừng lại
  • Cố vấn (Opus) không trực tiếp gọi công cụ hay tạo đầu ra hướng tới người dùng, mà chỉ cung cấp hướng dẫn cho bộ thực thi
  • Cấu trúc này là phiên bản đảo ngược của mẫu sub-agent truyền thống, nơi một mô hình điều phối lớn phân rã công việc và giao cho các mô hình worker nhỏ hơn, đồng thời hoạt động mà không cần worker pool hay logic điều phối riêng
  • Năng lực suy luận ở cấp độ frontier chỉ được áp dụng khi bộ thực thi thực sự cần đến, còn các phần thực thi còn lại vẫn giữ ở mức chi phí của mô hình thực thi

Kết quả đánh giá hiệu năng

  • Tổ hợp Sonnet + cố vấn Opus cải thiện 2,7 điểm phần trăm trên SWE-bench Multilingual so với Sonnet đơn lẻ, trong khi chi phí mỗi tác vụ agent giảm 11,9%
  • Trên các benchmark BrowseComp, Terminal-Bench 2.0, điểm số cũng tăng so với Sonnet đơn lẻ, trong khi chi phí mỗi tác vụ giảm
  • Haiku + cố vấn Opus: điểm BrowseComp đạt 41,2% — cao hơn gấp đôi Haiku chạy đơn lẻ (19,7%)
    • Điểm số thấp hơn 29% so với Sonnet đơn lẻ, nhưng chi phí mỗi tác vụ giảm 85%
    • Dù việc thêm cố vấn làm tăng chi phí so với Haiku chạy đơn lẻ, tổng chi phí kết hợp vẫn thấp hơn rất nhiều so với Sonnet

Cách dùng Advisor Tool

  • Khai báo advisor_20260301 trong yêu cầu Messages API sẽ hoàn tất việc chuyển giao mô hình trong một yêu cầu /v1/messages duy nhất — không cần thêm vòng gọi qua lại hay quản lý ngữ cảnh
  • Mô hình thực thi tự quyết định thời điểm gọi cố vấn; ngữ cảnh đã được tuyển chọn sẽ được chuyển tới mô hình cố vấn và một kế hoạch sẽ được trả về
  • Có thể dùng tham số max_uses để đặt giới hạn số lần gọi cố vấn tối đa cho mỗi yêu cầu
  • Token của cố vấn được báo cáo riêng trong khối usage, cho phép theo dõi chi tiêu theo từng tier
  • Có thể dùng cùng vòng lặp với các công cụ hiện có khác (tìm kiếm web, thực thi mã, v.v.)
response = client.messages.create(  
    model="claude-sonnet-4-6",  # executor  
    tools=[  
        {  
            "type": "advisor_20260301",  
            "name": "advisor",  
            "model": "claude-opus-4-6",  
            "max_uses": 3,  
        },  
        # ... your other tools  
    ],  
    messages=[...]  
)  

Cấu trúc giá

  • Token của cố vấn được tính phí theo giá của mô hình cố vấn (Opus), còn token của bộ thực thi được tính phí theo giá của mô hình thực thi (Sonnet/Haiku)
  • Cố vấn chỉ tạo ra các kế hoạch ngắn (thường 400~700 token văn bản), còn toàn bộ đầu ra được bộ thực thi xử lý với đơn giá thấp hơn, nên tổng chi phí vẫn thấp hơn đáng kể so với việc chỉ chạy riêng mô hình cố vấn

Phản hồi từ người dùng

  • Kỹ sư ML của Eve Legal: "Haiku 4.5 mở rộng trí tuệ một cách động bằng cách tham chiếu Opus 4.6 tùy theo độ phức tạp, đạt chất lượng ở mức mô hình frontier với chi phí thấp hơn 5 lần"
  • CEO Bolt: "Đưa ra các quyết định kiến trúc tốt hơn trong những tác vụ phức tạp, và không có overhead trong các tác vụ đơn giản — sự khác biệt trong quỹ đạo lập kế hoạch và thực thi là rất rõ ràng"
  • CTO Genspark: "Cải thiện rõ rệt ở số lượt agent, số lần gọi công cụ và tổng điểm — kết quả tốt hơn so với công cụ lập kế hoạch do chúng tôi tự phát triển"

Bắt đầu

  • Hiện đang được cung cấp ở bản beta trên Claude Platform
  • Quy trình bắt đầu:
    1. Thêm header tính năng beta: anthropic-beta: advisor-tool-2026-03-01
    2. Thêm advisor_20260301 vào yêu cầu Messages API
    3. Chỉnh sửa system prompt cho phù hợp với trường hợp sử dụng
  • Khuyến nghị chạy so sánh ba cấu hình bằng bộ eval hiện có: Sonnet đơn lẻ / Sonnet + cố vấn Opus / Opus đơn lẻ

1 bình luận

 
heycalmdown 12 ngày trước

Dù đây không phải là ý tưởng quá mới ở thời điểm hiện tại, nhưng có vẻ đây là một cách hay vì có thể thực hiện mà không phá vỡ interface signature hay workflow.