Đo lường khả năng thực hiện các tác vụ dài hạn của AI

(metr.org)

10 điểm bởi GN⁺ 2025-12-23 | 2 bình luận | Chia sẻ qua WhatsApp

Một thước đo mới được đề xuất để đánh giá hiệu năng dựa trên “độ dài” của tác vụ mà mô hình AI có thể hoàn thành trọn vẹn
Phân tích cho thấy trong 6 năm qua, độ dài tác vụ mà AI có thể tự chủ hoàn thành đã tăng gấp đôi sau khoảng mỗi 7 tháng
Các tác vụ mà chuyên gia con người hoàn thành trong vòng 4 phút có tỷ lệ thành công gần 100%, nhưng các tác vụ mất hơn 4 giờ có tỷ lệ thành công dưới 10%
Nếu xu hướng này tiếp diễn, có thể trong vài năm tới AI sẽ có thể tự mình thực hiện các dự án kéo dài nhiều tuần
Nghiên cứu mang hàm ý quan trọng đối với benchmark AI, dự báo năng lực tương lai và quản lý rủi ro

Tổng quan nghiên cứu

METR đề xuất một phương pháp mới để đo lường AI có thể hoàn thành các tác vụ dài đến mức nào
- Tiêu chí đo lường là thời gian mà chuyên gia con người cần để thực hiện tác vụ đó
- Mối quan hệ giữa xác suất thành công của mô hình và thời gian làm việc của con người được mô hình hóa bằng đường cong logistic
Cách tiếp cận này được xem là một chỉ số hữu ích để đánh giá khả năng ứng dụng thực tế của AI
- Bù đắp cho hạn chế của các benchmark hiện có vốn tập trung vào năng lực giải từng bài toán đơn lẻ

Kết quả chính

Giới hạn hiệu năng của các mô hình hiện tại
- Các tác vụ con người thực hiện trong vòng 4 phút có tỷ lệ thành công gần 100%
- Các tác vụ mất hơn 4 giờ có tỷ lệ thành công dưới 10%
- Ví dụ: Claude 3.7 Sonnet đạt tỷ lệ thành công 50% với các tác vụ dài khoảng 1 giờ
Xu hướng cải thiện hiệu năng
- Trong 6 năm qua, độ dài tác vụ có thể hoàn thành với mức tin cậy 50% tăng gấp đôi sau khoảng mỗi 7 tháng
- Kết quả phân tích theo thang log xác nhận tăng trưởng theo cấp số nhân liên tục
- Nếu xu hướng tiếp diễn, khả năng thực hiện tác vụ kéo dài theo tuần có thể xuất hiện trong 2–4 năm tới

Phương pháp và kiểm chứng

Kiểm chứng dựa trên bộ dữ liệu
- Ghi lại thời gian thực hiện của con người đối với nhiều nhóm tác vụ khác nhau (phần mềm, suy luận, v.v.)
- Bộ dữ liệu SWE-Bench Verified cũng cho thấy mức tăng theo cấp số nhân tương tự
- Trong dữ liệu này, quan sát thấy tốc độ tăng gấp đôi dưới 3 tháng
Phân tích độ nhạy
- Kiểm tra độ vững trước nhiều yếu tố như lựa chọn mô hình, lựa chọn tác vụ, nhiễu, v.v.
- Trong mô phỏng dự đoán thời điểm AI có thể thực hiện tác vụ kéo dài 1 tháng, xu hướng vẫn được giữ nguyên ngay cả khi sai số đo lường lớn

Diễn giải và giới hạn

Giải thích khoảng cách giữa thành tích benchmark của AI và tính hữu dụng thực tế
- Dù vượt con người trong các bài kiểm tra, AI vẫn còn yếu trong việc thực hiện các dự án dài hạn ngoài thực tế
Thừa nhận sự bất định của việc ngoại suy xu hướng
- Nếu chỉ dùng dữ liệu 2024–2025, thời điểm AI thực hiện được các tác vụ theo tháng sẽ đến sớm hơn khoảng 2,5 năm
- Nghiên cứu cũng đề cập khả năng xu hướng gần đây dự báo hiệu năng tương lai tốt hơn so với dữ liệu quá khứ

Kết luận và ý nghĩa

Cách tiếp cận đo hiệu năng AI bằng “độ dài tác vụ”
- Cho phép định lượng mức cải thiện hiệu năng trên nhiều độ khó và lĩnh vực khác nhau
- Giúp diễn giải thành tựu theo thước đo tuyệt đối, gắn trực tiếp với tác động trong thế giới thực
Nếu tăng trưởng theo cấp số nhân liên tục được duy trì,
- Trong vòng 10 năm, AI có thể tự chủ thực hiện các dự án kéo dài theo tháng
- Điều này đồng thời kéo theo lợi ích tiềm năng rất lớn và cả rủi ro
Dữ liệu nghiên cứu và mã phân tích đã được công khai trên GitHub, khuyến khích nghiên cứu tiếp theo và thử nghiệm tái lập
- Hạ tầng liên quan: vivaria, eval-analysis-public

2 bình luận

crawler 2025-12-23

Có vẻ là một benchmark rất tốt.
Dạo này nhìn vào các công cụ AI coding thì có nhiều trường hợp chúng lập Plan trước rồi hành động ở chế độ Agent, nên mình cũng tò mò không biết điều này có thực sự ảnh hưởng đáng kể đến tỷ lệ thành công dài hạn hay không

GN⁺ 2025-12-23

Ý kiến trên Hacker News

Gần đây trong dự án hobby của tôi, tôi chỉ yêu cầu “thêm vector search”, vậy mà Opus đã tự cấu hình manticore, kéo model embedding về, tạo công cụ để migrate chỉ mục từ khóa hiện có, rồi cả frontend cũng dựng luôn
Chỉ là một prompt ngắn cỡ một dòng tweet mà 15 phút đã xong, còn trong lúc đó tôi đang chơi Kirby Air Riders
Tuy vậy, điều đáng tiếc là qua quá trình này tôi không học được gì về cách xây dựng vector search. Rốt cuộc mục tiêu là tính năng, còn việc học chỉ là thứ yếu
- Tôi không nghĩ cố tình làm theo cách tốn nhiều thời gian hơn thì sẽ học hiệu quả hơn
  Thay vì tự làm trong 4 tiếng, để agent làm xong trong 15 phút trong lúc mình làm việc khác, rồi sau đó dành khoảng 30 phút đọc code, chỉnh sửa và đặt câu hỏi sẽ hiệu quả hơn nhiều
  30 phút học tập tập trung có thể còn tốt hơn 4 tiếng thử sai
- Nhưng làm vậy thì cuối cùng sẽ tạo ra một khối code khổng lồ không thể bảo trì
  AI đến một lúc nào đó cũng mất luôn cấu trúc của code, và rốt cuộc bạn trở thành khách hàng phụ thuộc vào Opus
- Opus hay Anthropic rõ ràng là hàng top, nhưng mỗi lần dùng lại có cảm giác như đồ ăn nhanh trí tuệ
  Trước đây tôi thích vừa nghe nhạc vừa giải quyết vấn đề bằng Scala, còn giờ kết quả đến quá dễ nên ngược lại lại thấy hụt hẫng
- Tôi hoàn toàn đồng cảm với câu “Tôi muốn tính năng, chứ không muốn học cách làm ra nó”
  Khi làm model giao dịch, tôi cũng muốn LLM viết code thay mình hơn là tự học chart
  Nhờ vậy tôi không lãng phí thời gian vào mấy xử lý API lặt vặt, mà chỉ tập trung vào những phần thực sự cần ra quyết định
- Không biết có thể chia sẻ đoạn code vector search đó không
Trước khi tự trải nghiệm khái niệm “long task”, tôi cũng chưa thật sự hiểu nó
Khi port một parser Python HTML5 sang JavaScript, tôi đã cho Codex CLI chạy trên 9.200 bài test của html5lib-tests, và việc nhìn nó lặp suốt hơn 4 tiếng để giải quyết vấn đề thực sự rất ấn tượng
Tôi có viết lại ở đây
- “Công việc 4 tiếng” của METR không có nghĩa là AI thực sự mất 4 tiếng, mà là độ khó tương đương việc con người cần 4 tiếng
  Opus 4.5 có nghĩa là có thể làm loại việc như vậy với độ tin cậy 50%, còn thời gian thực thi thật sự thì ngắn hơn nhiều
  Sau này nếu vượt qua các mốc 8 tiếng hay 40 tiếng thì sẽ còn thú vị hơn
- Chỉ số này không đo tốc độ thực tế của AI mà đo độ khó theo chuẩn con người
  Nó cho thấy rất rõ rằng benchmark thì bị phá nhanh, nhưng tự động hóa công việc thực tế vẫn còn khó
- “human hours equivalent” của METR quan trọng ở chỗ lấy con người nào làm chuẩn
  Nếu là người quen với hệ sinh thái jq, PyPI hay comment TypeScript thì có thể xong nhanh hơn rất nhiều
  Suy cho cùng sức hấp dẫn của AI là ở chỗ nó có thể lập tức cho bạn sự hỗ trợ ở cấp độ chuyên gia như vậy
- Nhưng khi chạy long task bằng Codex hay Claude code thì yêu cầu xin quyền hiện lên quá thường xuyên, và giữa chừng hay bị dừng
  Phần lớn model cứ nói “hãy sang bước tiếp theo” rồi tự dừng lại
- GPT5.2 đặc biệt đòi hỏi đầu vào từ người dùng quá mức, nên rất khó bắt nó làm việc liên tục quá 2 phút
  Không biết có ai tìm ra cách giải quyết vấn đề này chưa
Tôi vẫn thận trọng khi đánh giá model, nhưng sự khác biệt giữa Opus 4.5 và Sonnet 4.5 thì tôi cảm nhận rất rõ
Chênh lệch giá cũng đã giảm so với trước nên giá trị sử dụng thực tế cao hơn, còn Haiku 4.5 nếu bật reasoning thì cũng khá ổn
Nó đặc biệt phù hợp cho các công cụ nhỏ hoặc chỉnh sửa một trang đơn
Tôi nghĩ việc học phần mềm được chia thành hai giai đoạn: khám phá (exploration) và khai thác (exploitation)
Nhờ LLM mà hai giai đoạn này được kết hợp một cách tự nhiên
Ví dụ khi làm animation bằng AnimeJS, tôi học bằng cách xem CCAgent viết code, rồi sau đó tự mình cấu trúc lại và refactor
Làm vậy có thể vừa tiết kiệm thời gian vừa giữ được quyền kiểm soát sáng tạo
Opus có vẻ như là một bước nhảy lớn hơn GPT 5.1, nhưng ở mốc độ tin cậy 80% thì GPT 5.1 vẫn nhỉnh hơn
Tức là với việc ngắn thì GPT 5.1 phù hợp hơn, còn việc dài thì Opus hợp hơn
- Với tỷ lệ thành công 50% thì sự lãng phí token đắt đỏ là rất lớn, nhưng tôi kỳ vọng sang năm model mã nguồn mở cũng sẽ đạt đến mức này
Điểm cốt lõi của METR là đo độ phức tạp theo “thời gian tương đương con người”
Nếu giao một công việc 4 tiếng với tỷ lệ thành công 50% thì thực chất gần như là đánh bạc, mà nếu còn phải debug sau khi thất bại thì tổn thất lại càng lớn
Vì thế tôi nghĩ nên đặt checkpoint để con người review theo chu kỳ 30 phút
Dù vậy, khả năng AI tự phục hồi khi bị kẹt giữa chừng cũng rất quan trọng
- Nhưng trong 30 phút AI tạo ra quá nhiều thứ, nên việc review đúng là ác mộng
  Bề ngoài trông ổn nhưng có rất nhiều bug tinh vi chỉ lộ ra về sau
  Vì thế với việc quan trọng tôi vẫn chưa dùng agent, vì nó còn lấy mất niềm vui của công việc
- Dù có lãng phí 4 tiếng đi nữa thì nếu trong thời gian đó bạn làm việc khác, cũng không hẳn là thiệt
  Nếu có 50% cơ hội ra kết quả thì đây vẫn có thể là một vụ đặt cược hiệu quả theo thời gian
- Kể cả thất bại thì thứ thực sự mất đi cũng chỉ là vài phút AI đã dùng để làm việc, nên nó rất tuyệt để khám phá prototype
  Có thể thử nhanh nhiều hướng khác nhau, và ngay cả thất bại cũng đem lại bài học
Cũng cần có biểu đồ theo mốc độ tin cậy 95% hoặc 99%
Như vậy sẽ thấy rõ hơn vì sao LLM vẫn thường xuyên thất bại ở những việc con người thấy dễ
Tôi nghĩ tối ưu hiệu năng là benchmark rất tốt để đo trí thông minh thực chất của AI
Kết quả có thể kiểm chứng bằng số liệu, code càng ngắn càng tốt, và nó đòi hỏi tư duy hệ thống chứ không chỉ là tổ hợp đơn thuần
Cho đến nay Gemini Pro 3 vẫn là model giỏi nhất trong việc tối ưu code SIMD
Vấn đề của tỷ lệ thành công 50% là xác suất giảm rất mạnh khi retry
Nếu lặp lại một công việc 4 tiếng nhiều lần thì xác suất thành công có thể rơi xuống còn 6,25%
- Tuy vậy, thay vì nói là “xui”, cũng có thể là xác suất thành công của lần thử sau thay đổi sau khi đã thất bại một lần
  Điều này còn tùy vào tính chất của công việc