- ARC-AGI-3 là benchmark suy luận tương tác đầu tiên nhằm đo lường trí tuệ ở mức con người của các AI agent, đánh giá khả năng khám phá môi trường và học thích nghi
- Mọi nhiệm vụ đều được cấu thành từ môi trường mà con người có thể giải được, đồng thời đo lường hiệu quả tiếp thu kỹ năng theo thời gian và năng lực lập kế hoạch dài hạn
- Cung cấp mục tiêu rõ ràng và phản hồi mà không cần kiến thức trước, đồng thời duy trì cấu trúc nhiệm vụ mới lạ để ngăn cách tiếp cận kiểu ghi nhớ máy móc
- Có thể kiểm chứng minh bạch hành vi và quá trình suy luận của agent thông qua trực quan hóa replay, bộ công cụ cho nhà phát triển và UI đánh giá
- Hỗ trợ tham gia cuộc thi ARC Prize 2026 và kiểm thử agent thông qua bộ game công khai, tài liệu, SDK và các kênh cộng đồng
Tổng quan về ARC-AGI-3
- ARC-AGI-3 được thiết kế như một benchmark suy luận tương tác nhằm đo lường trí tuệ ở mức con người của các AI agent
- Đánh giá khả năng của agent trong việc khám phá môi trường mới, xác định mục tiêu, xây dựng mô hình thế giới có thể thích nghi và học liên tục
- Điểm số 100% có nghĩa là AI giải quyết mọi trò chơi hiệu quả ngang con người
- Không phải giải puzzle tĩnh, mà phải học từ trải nghiệm trong môi trường và điều chỉnh chiến lược
- Phải thực hiện nhận thức, lựa chọn hành động và thích nghi chiến lược mà không có chỉ dẫn ngôn ngữ tự nhiên
Tính năng chính
- Bao gồm run có thể phát lại, bộ công cụ cho nhà phát triển để tích hợp agent và UI đánh giá minh bạch
-
Replay và đánh giá
- Trực quan hóa hành vi của agent dưới dạng replay để có thể theo dõi quá trình ra quyết định, hành động và suy luận theo trình tự thời gian
- Cung cấp sample replay
-
Công cụ và UI
- Có thể tích hợp agent thông qua toolkit ARC-AGI-3, đồng thời thử nghiệm và lặp lại bằng UI tương tác
- Có thể chạy trực tiếp qua liên kết Play and test
-
Tài liệu
- Cung cấp tài liệu cần thiết để xây dựng agent như cấu hình môi trường, cách dùng API và hướng dẫn tích hợp
- Có thể truy cập tại trang tài liệu
Tài liệu liên quan và cộng đồng
- Public Game Set: bộ game công khai
- Docs + SDK: tài liệu phát triển và SDK
- ARC Prize 2026 Track: hạng mục thi năm 2026
- Technical Paper: báo cáo kỹ thuật
- Người tham gia có thể chọn nhiều môi trường game khác nhau (ar25, bp35, ls20, v.v.) để kiểm thử agent của mình
- Các kênh cộng đồng chính thức gồm Discord, Twitter, YouTube, GitHub
- Có thể theo dõi tin tức cập nhật và giải đấu chính thức thông qua ARC Prize 2026
1 bình luận
Ý kiến từ Hacker News
Xem tweet của scaling01 thì thấy nhiều vấn đề trong phương pháp đánh giá của ARC-AGI-3 đã được chỉ ra
mốc chuẩn của con người được định nghĩa là ‘người nhanh thứ hai’, và điểm số không được tính bằng tỷ lệ thành công đơn thuần mà bằng bình phương hiệu suất
tức là nếu con người giải một bài trong 10 bước mà mô hình cần 100 bước thì chỉ nhận được 1% điểm
ngoài ra, 100% chỉ có nghĩa là đã giải được mọi cấp độ, chứ không có nghĩa là đạt mức con người
thiết kế này vốn khiến mô hình dù ở mức con người cũng không thể đạt 100%
prompt thì đơn giản, và mô hình không thể dùng số bước nhiều hơn con người quá 5 lần
việc đặt trọng số cao hơn cho các cấp độ sau cũng được cho là nhằm phát hiện học liên tục
Với câu “chừng nào còn khoảng cách giữa cách AI và con người học thì đó chưa phải AGI”, tôi nhớ đến phép so sánh từ thời Deep Blue những năm 90
giống như câu “máy bay không vỗ cánh như chim mà vẫn bay”, việc học theo cách khác con người không có nghĩa là thiếu trí thông minh
Tôi cho rằng cách tiếp cận của ARC là một phương pháp đánh giá AGI rất xuất sắc
đây là một cấu trúc đơn giản: đưa cùng một đầu vào cho con người và AI rồi so sánh kết quả
từ ‘General’ mới là điểm mấu chốt, và ARC chính là nỗ lực nhằm đo lường tính tổng quát đó
AI có hữu dụng hay không chỉ là chuyện thứ yếu. Bài test này là nỗ lực thuyết phục nhất từ trước đến nay
ngoài ra, nếu thử hỏi AI về lĩnh vực chuyên môn của chính mình, bạn sẽ thường thấy nó trả lời sai. Chúng ta có xu hướng nhầm lẫn giữa tri thức và trí thông minh
Khi nhìn vào các benchmark kiểu này, điều tôi thắc mắc là liệu có cách nào ngăn OpenAI thuê người làm bộ dữ liệu hay không
Tự mình thử qua nhiều cấp độ rồi, tôi càng chắc rằng mình không phải AGI
Tôi hơi hoài nghi
người quen chơi game thì sẽ vượt 100%, nhưng một bà cụ lần đầu dùng máy tính thì sẽ thất bại hoàn toàn. LLM cũng vậy
rốt cuộc những mô hình được huấn luyện bằng dữ liệu game kiểu này sẽ dễ dàng thích nghi, và điều đó không phải AGI
Tôi đã trực tiếp xem dự án này ở sự kiện ra mắt của YC, và lâu rồi mới thấy mình được truyền cảm hứng như vậy
tôi còn nghe chuyện có người trong lúc thử nghiệm ARC2 đã phát hiện ra cách làm cho cánh tay robot di chuyển hiệu quả hơn
nghĩa là quá trình chỉ đơn giản nâng điểm số lại dẫn tới đổi mới thực sự trong robotics
ARC-4, 5, 6 cũng được lên kế hoạch, và về sau họ còn kỳ vọng vào các mô hình giải bài toán trong trạng thái zero-context
Tôi không chắc ARC-AGI có liên quan trực tiếp tới AGI hay không
rốt cuộc nó chỉ là phép đo hiệu năng của LLM trong một kiểu trò chơi nhất định
dù con người giỏi hay dở trò đó thì cũng đã có rất nhiều game mà máy tính áp đảo con người từ lâu
vì vậy điều quan trọng là liệu những trò chơi này có mang tính đại diện cho trí thông minh hay không
Tôi là một người thử nghiệm của con người cho trò chơi này
trong 90 phút tôi đã giải 25 game, và dù hướng dẫn có nói phải tối thiểu hóa số hành động, trên thực tế tôi lại tập trung giải thật nhanh vì có thưởng tốc độ ($5/game)
nên dữ liệu mốc chuẩn của con người có khả năng đã ghi nhận số hành động nhiều hơn thực tế
Điều tôi thích nhất ở bảng xếp hạng ARC-AGI là đồ thị hiệu năng theo chi phí
phần lớn tiến bộ AI gần đây đi kèm với mức tiêu thụ điện tăng lên. Cuối cùng thì cứ dùng nhiều điện hơn là sẽ có kết quả tốt hơn