AI agent thực sự đang làm việc tự chủ đến mức nào
- Anthropic đã phân tích hàng triệu lượt tương tác với Claude Code để đo lường AI agent thực sự đang được giao bao nhiêu công việc.
- Trọng tâm của nghiên cứu không phải là hiệu năng mô hình mà là con người đã ủy quyền mức độ tự chủ đến đâu.
- Phần lớn tác vụ đều ngắn, nhưng thời gian làm việc tự chủ dài nhất đã tăng từ 25 phút lên hơn 45 phút trong vòng 3 tháng.
- Điểm thú vị là sự thay đổi này đến từ sự tích lũy niềm tin của người dùng hơn là các bản nâng cấp mô hình.
- Người dùng có nhiều kinh nghiệm chuyển chiến lược giám sát sang phương thức “theo dõi” can thiệp giữa chừng khi cần, đồng thời tăng tỷ lệ phê duyệt tự động.
- Ngoài ra, bản thân AI cũng cho thấy cơ chế tự kiểm soát như đặt câu hỏi hoặc dừng lại khi không chắc chắn.
- Hiện tại, một nửa mức sử dụng agent đang tập trung vào lĩnh vực phát triển phần mềm.
- Cuối cùng, mức độ tự chủ của AI agent được quyết định bởi niềm tin, văn hóa tổ chức và cấu trúc công cụ nhiều hơn là hiệu năng mô hình.
1 bình luận
Khoan đã!<ctrl+ enter>