- Một thước đo mới được đề xuất để đánh giá hiệu năng dựa trên “độ dài” của tác vụ mà mô hình AI có thể hoàn thành trọn vẹn
- Phân tích cho thấy trong 6 năm qua, độ dài tác vụ mà AI có thể tự chủ hoàn thành đã tăng gấp đôi sau khoảng mỗi 7 tháng
- Các tác vụ mà chuyên gia con người hoàn thành trong vòng 4 phút có tỷ lệ thành công gần 100%, nhưng các tác vụ mất hơn 4 giờ có tỷ lệ thành công dưới 10%
- Nếu xu hướng này tiếp diễn, có thể trong vài năm tới AI sẽ có thể tự mình thực hiện các dự án kéo dài nhiều tuần
- Nghiên cứu mang hàm ý quan trọng đối với benchmark AI, dự báo năng lực tương lai và quản lý rủi ro
Tổng quan nghiên cứu
- METR đề xuất một phương pháp mới để đo lường AI có thể hoàn thành các tác vụ dài đến mức nào
- Tiêu chí đo lường là thời gian mà chuyên gia con người cần để thực hiện tác vụ đó
- Mối quan hệ giữa xác suất thành công của mô hình và thời gian làm việc của con người được mô hình hóa bằng đường cong logistic
- Cách tiếp cận này được xem là một chỉ số hữu ích để đánh giá khả năng ứng dụng thực tế của AI
- Bù đắp cho hạn chế của các benchmark hiện có vốn tập trung vào năng lực giải từng bài toán đơn lẻ
Kết quả chính
- Giới hạn hiệu năng của các mô hình hiện tại
- Các tác vụ con người thực hiện trong vòng 4 phút có tỷ lệ thành công gần 100%
- Các tác vụ mất hơn 4 giờ có tỷ lệ thành công dưới 10%
- Ví dụ: Claude 3.7 Sonnet đạt tỷ lệ thành công 50% với các tác vụ dài khoảng 1 giờ
- Xu hướng cải thiện hiệu năng
- Trong 6 năm qua, độ dài tác vụ có thể hoàn thành với mức tin cậy 50% tăng gấp đôi sau khoảng mỗi 7 tháng
- Kết quả phân tích theo thang log xác nhận tăng trưởng theo cấp số nhân liên tục
- Nếu xu hướng tiếp diễn, khả năng thực hiện tác vụ kéo dài theo tuần có thể xuất hiện trong 2–4 năm tới
Phương pháp và kiểm chứng
- Kiểm chứng dựa trên bộ dữ liệu
- Ghi lại thời gian thực hiện của con người đối với nhiều nhóm tác vụ khác nhau (phần mềm, suy luận, v.v.)
- Bộ dữ liệu SWE-Bench Verified cũng cho thấy mức tăng theo cấp số nhân tương tự
- Trong dữ liệu này, quan sát thấy tốc độ tăng gấp đôi dưới 3 tháng
- Phân tích độ nhạy
- Kiểm tra độ vững trước nhiều yếu tố như lựa chọn mô hình, lựa chọn tác vụ, nhiễu, v.v.
- Trong mô phỏng dự đoán thời điểm AI có thể thực hiện tác vụ kéo dài 1 tháng, xu hướng vẫn được giữ nguyên ngay cả khi sai số đo lường lớn
Diễn giải và giới hạn
- Giải thích khoảng cách giữa thành tích benchmark của AI và tính hữu dụng thực tế
- Dù vượt con người trong các bài kiểm tra, AI vẫn còn yếu trong việc thực hiện các dự án dài hạn ngoài thực tế
- Thừa nhận sự bất định của việc ngoại suy xu hướng
- Nếu chỉ dùng dữ liệu 2024–2025, thời điểm AI thực hiện được các tác vụ theo tháng sẽ đến sớm hơn khoảng 2,5 năm
- Nghiên cứu cũng đề cập khả năng xu hướng gần đây dự báo hiệu năng tương lai tốt hơn so với dữ liệu quá khứ
Kết luận và ý nghĩa
- Cách tiếp cận đo hiệu năng AI bằng “độ dài tác vụ”
- Cho phép định lượng mức cải thiện hiệu năng trên nhiều độ khó và lĩnh vực khác nhau
- Giúp diễn giải thành tựu theo thước đo tuyệt đối, gắn trực tiếp với tác động trong thế giới thực
- Nếu tăng trưởng theo cấp số nhân liên tục được duy trì,
- Trong vòng 10 năm, AI có thể tự chủ thực hiện các dự án kéo dài theo tháng
- Điều này đồng thời kéo theo lợi ích tiềm năng rất lớn và cả rủi ro
- Dữ liệu nghiên cứu và mã phân tích đã được công khai trên GitHub, khuyến khích nghiên cứu tiếp theo và thử nghiệm tái lập
2 bình luận
Có vẻ là một benchmark rất tốt.
Dạo này nhìn vào các công cụ AI coding thì có nhiều trường hợp chúng lập Plan trước rồi hành động ở chế độ Agent, nên mình cũng tò mò không biết điều này có thực sự ảnh hưởng đáng kể đến tỷ lệ thành công dài hạn hay không
Ý kiến trên Hacker News
Chỉ là một prompt ngắn cỡ một dòng tweet mà 15 phút đã xong, còn trong lúc đó tôi đang chơi Kirby Air Riders
Tuy vậy, điều đáng tiếc là qua quá trình này tôi không học được gì về cách xây dựng vector search. Rốt cuộc mục tiêu là tính năng, còn việc học chỉ là thứ yếu
Thay vì tự làm trong 4 tiếng, để agent làm xong trong 15 phút trong lúc mình làm việc khác, rồi sau đó dành khoảng 30 phút đọc code, chỉnh sửa và đặt câu hỏi sẽ hiệu quả hơn nhiều
30 phút học tập tập trung có thể còn tốt hơn 4 tiếng thử sai
AI đến một lúc nào đó cũng mất luôn cấu trúc của code, và rốt cuộc bạn trở thành khách hàng phụ thuộc vào Opus
Trước đây tôi thích vừa nghe nhạc vừa giải quyết vấn đề bằng Scala, còn giờ kết quả đến quá dễ nên ngược lại lại thấy hụt hẫng
Khi làm model giao dịch, tôi cũng muốn LLM viết code thay mình hơn là tự học chart
Nhờ vậy tôi không lãng phí thời gian vào mấy xử lý API lặt vặt, mà chỉ tập trung vào những phần thực sự cần ra quyết định
Khi port một parser Python HTML5 sang JavaScript, tôi đã cho Codex CLI chạy trên 9.200 bài test của html5lib-tests, và việc nhìn nó lặp suốt hơn 4 tiếng để giải quyết vấn đề thực sự rất ấn tượng
Tôi có viết lại ở đây
Opus 4.5 có nghĩa là có thể làm loại việc như vậy với độ tin cậy 50%, còn thời gian thực thi thật sự thì ngắn hơn nhiều
Sau này nếu vượt qua các mốc 8 tiếng hay 40 tiếng thì sẽ còn thú vị hơn
Nó cho thấy rất rõ rằng benchmark thì bị phá nhanh, nhưng tự động hóa công việc thực tế vẫn còn khó
Nếu là người quen với hệ sinh thái jq, PyPI hay comment TypeScript thì có thể xong nhanh hơn rất nhiều
Suy cho cùng sức hấp dẫn của AI là ở chỗ nó có thể lập tức cho bạn sự hỗ trợ ở cấp độ chuyên gia như vậy
Phần lớn model cứ nói “hãy sang bước tiếp theo” rồi tự dừng lại
Không biết có ai tìm ra cách giải quyết vấn đề này chưa
Chênh lệch giá cũng đã giảm so với trước nên giá trị sử dụng thực tế cao hơn, còn Haiku 4.5 nếu bật reasoning thì cũng khá ổn
Nó đặc biệt phù hợp cho các công cụ nhỏ hoặc chỉnh sửa một trang đơn
Nhờ LLM mà hai giai đoạn này được kết hợp một cách tự nhiên
Ví dụ khi làm animation bằng AnimeJS, tôi học bằng cách xem CCAgent viết code, rồi sau đó tự mình cấu trúc lại và refactor
Làm vậy có thể vừa tiết kiệm thời gian vừa giữ được quyền kiểm soát sáng tạo
Tức là với việc ngắn thì GPT 5.1 phù hợp hơn, còn việc dài thì Opus hợp hơn
Nếu giao một công việc 4 tiếng với tỷ lệ thành công 50% thì thực chất gần như là đánh bạc, mà nếu còn phải debug sau khi thất bại thì tổn thất lại càng lớn
Vì thế tôi nghĩ nên đặt checkpoint để con người review theo chu kỳ 30 phút
Dù vậy, khả năng AI tự phục hồi khi bị kẹt giữa chừng cũng rất quan trọng
Bề ngoài trông ổn nhưng có rất nhiều bug tinh vi chỉ lộ ra về sau
Vì thế với việc quan trọng tôi vẫn chưa dùng agent, vì nó còn lấy mất niềm vui của công việc
Nếu có 50% cơ hội ra kết quả thì đây vẫn có thể là một vụ đặt cược hiệu quả theo thời gian
Có thể thử nhanh nhiều hướng khác nhau, và ngay cả thất bại cũng đem lại bài học
Như vậy sẽ thấy rõ hơn vì sao LLM vẫn thường xuyên thất bại ở những việc con người thấy dễ
Kết quả có thể kiểm chứng bằng số liệu, code càng ngắn càng tốt, và nó đòi hỏi tư duy hệ thống chứ không chỉ là tổ hợp đơn thuần
Cho đến nay Gemini Pro 3 vẫn là model giỏi nhất trong việc tối ưu code SIMD
Nếu lặp lại một công việc 4 tiếng nhiều lần thì xác suất thành công có thể rơi xuống còn 6,25%
Điều này còn tùy vào tính chất của công việc