ClawWork — khung benchmark chuyển AI assistant thành “đồng nghiệp AI chịu trách nhiệm kinh tế”
(github.com/HKUDS)Đây là dự án mã nguồn mở do nhóm nghiên cứu HKUDS công bố vào tháng 2/2026. Hệ thống này sử dụng bộ dữ liệu GDPVal của OpenAI để kiểm chứng xem tác nhân AI có thể thực sự kiếm ra tiền hay không. Thay vì chỉ đo hiệu năng chatbot đơn thuần, nó đánh giá liệu AI có thể thực hiện công việc chuyên môn thực tế và tạo ra doanh thu hay không, dưới góc nhìn về sự sinh tồn kinh tế.
Ý tưởng cốt lõi: áp lực sinh tồn kinh tế
Tác nhân bắt đầu với $10. Mỗi lần gọi LLM, chi phí token thực tế sẽ bị trừ, và chỉ khi hoàn thành công việc thì mới có doanh thu. Mỗi ngày, tác nhân phải chọn một trong hai hướng: làm việc ngay để có thu nhập (work), hoặc học để cải thiện hiệu năng dài hạn (learn). Cách tính thu nhập cũng mang tính thực tế.
Payment = điểm chất lượng (0.0~1.0) × (thời gian dự kiến × mức lương giờ chính thức của BLS)
Phạm vi giá trị công việc là từ $82~$5,004, trung bình khoảng $259.
Benchmark: bộ dữ liệu GDPVal
Hệ thống sử dụng bộ dữ liệu GDPVal do OpenAI tạo ra để đo mức đóng góp GDP của AI. Bộ dữ liệu gồm 44 nhóm nghề và 220 tác vụ công việc thực tế, bao phủ 4 lĩnh vực: công nghệ·kỹ thuật, kinh doanh·tài chính, y tế và pháp lý·vận hành. Kết quả tác vụ yêu cầu nộp các tệp thực tế như Word, Excel, PDF, báo cáo phân tích dữ liệu, v.v., và chất lượng được chấm điểm bằng đánh giá LLM dựa trên GPT-4o.
Cấu trúc
Đây là kiến trúc nhẹ chạy trên Nanobot; các công cụ của tác nhân gồm tìm kiếm web, tạo tệp (.docx/.xlsx/.pdf), thực thi mã Python (sandbox cô lập E2B), tạo video, v.v. Bảng điều khiển React thời gian thực cho phép theo dõi trực quan biến động số dư, tiến độ hoàn thành công việc và quá trình học. Hệ thống cũng hỗ trợ tích hợp với 9 kênh như Telegram, Discord, Slack.
Hạn chế
Cụm “$10K in 7 hours” trong tiêu đề là mức thu nhập tương đương trong môi trường mô phỏng cô lập, và bản thân việc đánh giá cũng do GPT-4o thực hiện. Cần lưu ý rằng đây là cấu trúc trong đó mô hình OpenAI được chấm điểm bởi một bộ đánh giá cũng dựa trên OpenAI. Do mới được công bố chưa lâu, việc kiểm chứng từ cộng đồng vẫn còn hạn chế. Dù vậy, bản thân khuôn khổ đánh giá AI theo “sinh tồn kinh tế” thay vì “độ chính xác” vẫn là một ý tưởng đáng chú ý.
Chưa có bình luận nào.