Kỹ năng của AI agent ngoài thực tế không đạt nổi một nửa hiệu năng benchmark

(arxiv.org)

3 điểm bởi davespark 2026-04-16 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Đây là kết quả nghiên cứu của nhóm UC Santa Barbara, MIT CSAIL và MIT-IBM Watson AI Lab nhằm đánh giá một cách thực tế khả năng tận dụng kỹ năng của AI agent.

Nhóm nghiên cứu đã thu thập và kiểm thử 34.198 kỹ năng từ mã nguồn mở (quy trình làm việc, cách dùng API, best practice và các tri thức có cấu trúc khác). Benchmark hiện có (SKILLSBENCH) gặp vấn đề phóng đại hiệu năng vì đánh giá trong điều kiện lý tưởng khi cung cấp sẵn đúng kỹ năng phù hợp cho agent.

Để khắc phục điều này, nhóm đã thiết kế 6 kịch bản thực tế:

Cung cấp trực tiếp kỹ năng
Agent tự chọn kỹ năng
Trộn thêm các kỹ năng không liên quan
Tìm kiếm trong một kho kỹ năng quy mô lớn
Trường hợp hoàn toàn không có kỹ năng được tùy biến phù hợp

Kết quả kiểm thử trên các mô hình mới như Claude Opus 4.6, Kimi K2.5, Qwen3.5-397B cho thấy:

Với Claude Opus 4.6
- Khi được cung cấp trực tiếp kỹ năng: tỷ lệ vượt qua 55,4%
- Trong điều kiện thực tế (tìm kiếm quy mô lớn + lựa chọn): 40,1%
- Khi không có kỹ năng tùy biến phù hợp: 38,4% (chỉ hơn 3 điểm phần trăm so với baseline không dùng kỹ năng là 35,4%)
Với các mô hình yếu hơn (Kimi, Qwen), việc dùng kỹ năng thậm chí còn gây tác dụng ngược, khiến hiệu năng rơi xuống dưới baseline.

Các nguyên nhân chính làm suy giảm hiệu năng

Thất bại trong khâu chọn lọc kỹ năng: ngay cả khi có kỹ năng phù hợp, Claude cũng chỉ gọi đúng trong 49% trường hợp
Giới hạn về độ chính xác tìm kiếm: tỷ lệ thu hồi kỹ năng liên quan trong top 5 (Recall@5) cao nhất chỉ đạt 65,5%
Thiếu khả năng thích nghi: không thể vận dụng tốt các kỹ năng tương tự theo đúng ngữ cảnh

Các thử nghiệm cải thiện và kết quả

Khi áp dụng phương pháp tinh lọc hoặc sinh kỹ năng theo từng tác vụ, hiệu năng của Claude tăng từ 40,1% → 48,2%, nhưng vẫn cần các kỹ năng tìm được ban đầu phải có mức độ liên quan nhất định mới phát huy tác dụng.
Cũng có ý kiến cho rằng cách làm đơn giản như nghiên cứu của Vercel — chỉ đưa một tệp Markdown như AGENTS.md vào context — lại ổn định hơn.

Kết luận và đề xuất

Hiện nay, kỹ năng cho AI agent chỉ cho thấy hiệu năng bị thổi phồng trên benchmark, còn trong môi trường sử dụng thực tế thì hiệu quả rất hạn chế. Đặc biệt với các mô hình yếu hơn, kỹ năng thậm chí có thể trở thành yếu tố cản trở.

Nhóm nghiên cứu nhấn mạnh sự cần thiết của kỹ thuật tìm kiếm tốt hơn, chiến lược tinh lọc kỹ năng offline hiệu quả, và thiết kế hệ sinh thái kỹ năng phù hợp với năng lực mô hình. Bài báo và mã nguồn đã được công khai trên GitHub.

Tham khảo liên quan: https://aisparkup.com/posts/11097

Kỹ năng của AI agent ngoài thực tế không đạt nổi một nửa hiệu năng benchmark

Các nguyên nhân chính làm suy giảm hiệu năng

Các thử nghiệm cải thiện và kết quả

Kết luận và đề xuất

Bài viết liên quan

Chưa có bình luận nào.