ARC-AGI-3 - benchmark suy luận tương tác đầu tiên

(arcprize.org)

1 điểm bởi GN⁺ 26 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp

ARC-AGI-3 là benchmark suy luận tương tác đầu tiên nhằm đo lường trí tuệ ở mức con người của các AI agent, đánh giá khả năng khám phá môi trường và học thích nghi
Mọi nhiệm vụ đều được cấu thành từ môi trường mà con người có thể giải được, đồng thời đo lường hiệu quả tiếp thu kỹ năng theo thời gian và năng lực lập kế hoạch dài hạn
Cung cấp mục tiêu rõ ràng và phản hồi mà không cần kiến thức trước, đồng thời duy trì cấu trúc nhiệm vụ mới lạ để ngăn cách tiếp cận kiểu ghi nhớ máy móc
Có thể kiểm chứng minh bạch hành vi và quá trình suy luận của agent thông qua trực quan hóa replay, bộ công cụ cho nhà phát triển và UI đánh giá
Hỗ trợ tham gia cuộc thi ARC Prize 2026 và kiểm thử agent thông qua bộ game công khai, tài liệu, SDK và các kênh cộng đồng

Tổng quan về ARC-AGI-3

ARC-AGI-3 được thiết kế như một benchmark suy luận tương tác nhằm đo lường trí tuệ ở mức con người của các AI agent
- Đánh giá khả năng của agent trong việc khám phá môi trường mới, xác định mục tiêu, xây dựng mô hình thế giới có thể thích nghi và học liên tục
- Điểm số 100% có nghĩa là AI giải quyết mọi trò chơi hiệu quả ngang con người
- Không phải giải puzzle tĩnh, mà phải học từ trải nghiệm trong môi trường và điều chỉnh chiến lược
- Phải thực hiện nhận thức, lựa chọn hành động và thích nghi chiến lược mà không có chỉ dẫn ngôn ngữ tự nhiên

Tính năng chính

Bao gồm run có thể phát lại, bộ công cụ cho nhà phát triển để tích hợp agent và UI đánh giá minh bạch
Replay và đánh giá
- Trực quan hóa hành vi của agent dưới dạng replay để có thể theo dõi quá trình ra quyết định, hành động và suy luận theo trình tự thời gian
- Cung cấp sample replay
Công cụ và UI
- Có thể tích hợp agent thông qua toolkit ARC-AGI-3, đồng thời thử nghiệm và lặp lại bằng UI tương tác
- Có thể chạy trực tiếp qua liên kết Play and test
Tài liệu
- Cung cấp tài liệu cần thiết để xây dựng agent như cấu hình môi trường, cách dùng API và hướng dẫn tích hợp
- Có thể truy cập tại trang tài liệu

Tài liệu liên quan và cộng đồng

Public Game Set: bộ game công khai
Docs + SDK: tài liệu phát triển và SDK
ARC Prize 2026 Track: hạng mục thi năm 2026
Technical Paper: báo cáo kỹ thuật
Người tham gia có thể chọn nhiều môi trường game khác nhau (ar25, bp35, ls20, v.v.) để kiểm thử agent của mình
Các kênh cộng đồng chính thức gồm Discord, Twitter, YouTube, GitHub
Có thể theo dõi tin tức cập nhật và giải đấu chính thức thông qua ARC Prize 2026

1 bình luận

GN⁺ 26 ngày trước

Ý kiến từ Hacker News

Xem tweet của scaling01 thì thấy nhiều vấn đề trong phương pháp đánh giá của ARC-AGI-3 đã được chỉ ra
mốc chuẩn của con người được định nghĩa là ‘người nhanh thứ hai’, và điểm số không được tính bằng tỷ lệ thành công đơn thuần mà bằng bình phương hiệu suất
tức là nếu con người giải một bài trong 10 bước mà mô hình cần 100 bước thì chỉ nhận được 1% điểm
ngoài ra, 100% chỉ có nghĩa là đã giải được mọi cấp độ, chứ không có nghĩa là đạt mức con người
thiết kế này vốn khiến mô hình dù ở mức con người cũng không thể đạt 100%
prompt thì đơn giản, và mô hình không thể dùng số bước nhiều hơn con người quá 5 lần
việc đặt trọng số cao hơn cho các cấp độ sau cũng được cho là nhằm phát hiện học liên tục
- Những điểm này không hẳn là vấn đề, mà ngược lại còn giống cách tiếp cận đúng đắn hơn. Ấn tượng của tôi về ARC-AGI thậm chí còn tốt hơn
- Việc prompt đơn giản là phần sẽ được giải quyết trong cuộc thi Kaggle. Nếu nối với LLM mới nhất thì sẽ làm tốt hơn nhiều so với các thí sinh bị giới hạn GPU
- Cách định nghĩa mốc chuẩn con người vốn dĩ không tránh khỏi tính tùy ý. Dù sao thì ‘con người trung bình’ hoặc là mù chữ hoặc đã qua đời rồi
- Thực ra thiết kế này khá hợp lý. Vượt 80% người khác là điều dễ, và vượt 95% cũng có thể đạt được nếu đủ động lực
- Ngược lại, cách này tạo ra một bài kiểm tra khó hơn nhiều cho LLM, nên điểm số hiện tại lại càng có vẻ ấn tượng hơn
Với câu “chừng nào còn khoảng cách giữa cách AI và con người học thì đó chưa phải AGI”, tôi nhớ đến phép so sánh từ thời Deep Blue những năm 90
giống như câu “máy bay không vỗ cánh như chim mà vẫn bay”, việc học theo cách khác con người không có nghĩa là thiếu trí thông minh
- Khoảng cách này không chỉ là vấn đề triết học mà còn là vấn đề về tác động kinh tế. Nếu khoảng cách bằng 0 thì lao động tri thức của con người sẽ bị thay thế hoàn toàn. Thậm chí không cần AGI hoàn chỉnh thì nền kinh tế cũng có thể sụp đổ
- Điều này làm tôi nhớ tới bài viết của Dijkstra (EWD867). Phép so sánh ở đó là: “Máy tính có thể suy nghĩ không?” cũng vô nghĩa chẳng khác gì “tàu ngầm có thể bơi không?”
- Chữ ‘G’ trong AGI là General, nhưng con người cũng không thực sự tổng quát. Máy bay không đa năng hơn chim, nhưng lại mở rộng khả năng di chuyển
- Với tôi, tranh luận về AGI thực ra đã khép lại rồi. Chỉ riêng các công cụ hiện tại cũng đã đủ hữu dụng, và thậm chí đã thấy dấu hiệu của ASI (trí tuệ tự cải tiến). Cuộc thi ARC-AGI chỉ là một thí nghiệm thú vị để đo lường hiện trạng
- Trí thông minh không chỉ tồn tại ở dạng giống con người. Điều quan trọng là tính hữu dụng của đầu ra. Tuy vậy, chuyện có ý thức hay không là vấn đề đạo đức; vì không thể chứng minh nên tạm thời phải giả định là có ý thức
Tôi cho rằng cách tiếp cận của ARC là một phương pháp đánh giá AGI rất xuất sắc
đây là một cấu trúc đơn giản: đưa cùng một đầu vào cho con người và AI rồi so sánh kết quả
từ ‘General’ mới là điểm mấu chốt, và ARC chính là nỗ lực nhằm đo lường tính tổng quát đó
AI có hữu dụng hay không chỉ là chuyện thứ yếu. Bài test này là nỗ lực thuyết phục nhất từ trước đến nay
ngoài ra, nếu thử hỏi AI về lĩnh vực chuyên môn của chính mình, bạn sẽ thường thấy nó trả lời sai. Chúng ta có xu hướng nhầm lẫn giữa tri thức và trí thông minh
- Tôi nghĩ cách dùng từ ‘General’ là sai. Con người cũng không tổng quát và có năng lực rất không đồng đều. Về ngôn ngữ thì LLM đã vượt con người rồi
- Bài test này là một trò chơi đòi hỏi nhận thức thị giác, nên giống như bắt người mù thi bằng lái xe. Nếu đổi trò chơi sang dạng văn bản thì LLM có thể còn làm tốt hơn con người
- ARC-AGI trước đây giống bài kiểm tra IQ, còn phiên bản này thì quá dễ. Việc LLM không giải được có lẽ là do không khớp định dạng đầu vào. Chỉ cần học thêm game dựa trên văn bản là có vẻ sắp giải được rồi
Khi nhìn vào các benchmark kiểu này, điều tôi thắc mắc là liệu có cách nào ngăn OpenAI thuê người làm bộ dữ liệu hay không
- Nhưng câu hỏi quan trọng không phải vậy, mà là “mô hình có thể khái quát hóa hay không?”. ARC-AGI dường như được thiết kế để đánh giá khả năng giải quyết vấn đề thị giác với ngữ cảnh dài hạn và tính tác nhân
Tự mình thử qua nhiều cấp độ rồi, tôi càng chắc rằng mình không phải AGI
- Chắc phải gọi là NGI, tức Natural General Intelligence
- Chỉ là AI có thể truy cập toàn bộ internet, không bị giới hạn thời gian, và cũng không thấy xấu hổ khi nộp vô số đáp án sai. Những điều kiện đó hoàn toàn khác với bài kiểm tra dành cho con người
- Tôi còn nghe cả câu đùa “cảm ơn vì đã hạ thấp tiêu chuẩn AGI” nữa
Tôi hơi hoài nghi
người quen chơi game thì sẽ vượt 100%, nhưng một bà cụ lần đầu dùng máy tính thì sẽ thất bại hoàn toàn. LLM cũng vậy
rốt cuộc những mô hình được huấn luyện bằng dữ liệu game kiểu này sẽ dễ dàng thích nghi, và điều đó không phải AGI
- Nhưng con người cũng giỏi game hơn nhờ học tập, nên nếu không cho phép học trực tuyến thì bài test này không phản ánh được kiểu học của con người
- Tôi cũng là game thủ 40 năm, nên các câu đố kiểu này quá dễ. Chỉ cần nắm được quy tắc là giải ngay. Dạng bài này đúng là lĩnh vực chuyên môn của tôi
Tôi đã trực tiếp xem dự án này ở sự kiện ra mắt của YC, và lâu rồi mới thấy mình được truyền cảm hứng như vậy
tôi còn nghe chuyện có người trong lúc thử nghiệm ARC2 đã phát hiện ra cách làm cho cánh tay robot di chuyển hiệu quả hơn
nghĩa là quá trình chỉ đơn giản nâng điểm số lại dẫn tới đổi mới thực sự trong robotics
ARC-4, 5, 6 cũng được lên kế hoạch, và về sau họ còn kỳ vọng vào các mô hình giải bài toán trong trạng thái zero-context
- Nhưng kiểu mở rộng này rốt cuộc cũng có thể trông như dời cột mốc mục tiêu (goalpost moving)
Tôi không chắc ARC-AGI có liên quan trực tiếp tới AGI hay không
rốt cuộc nó chỉ là phép đo hiệu năng của LLM trong một kiểu trò chơi nhất định
dù con người giỏi hay dở trò đó thì cũng đã có rất nhiều game mà máy tính áp đảo con người từ lâu
vì vậy điều quan trọng là liệu những trò chơi này có mang tính đại diện cho trí thông minh hay không
- Nhà sáng lập ARC-AGI là Chollet định nghĩa trí thông minh là “hoạt động tốt đến đâu trong tình huống chưa từng gặp”. ARC-AGI đo đúng năng lực đó
- Nhưng ‘AGI’ gần như là một thuật ngữ marketing, và các benchmark như thế này mang tính quảng bá nhiều hơn là cải thiện hiệu suất công việc thực tế
Tôi là một người thử nghiệm của con người cho trò chơi này
trong 90 phút tôi đã giải 25 game, và dù hướng dẫn có nói phải tối thiểu hóa số hành động, trên thực tế tôi lại tập trung giải thật nhanh vì có thưởng tốc độ ($5/game)
nên dữ liệu mốc chuẩn của con người có khả năng đã ghi nhận số hành động nhiều hơn thực tế
Điều tôi thích nhất ở bảng xếp hạng ARC-AGI là đồ thị hiệu năng theo chi phí
phần lớn tiến bộ AI gần đây đi kèm với mức tiêu thụ điện tăng lên. Cuối cùng thì cứ dùng nhiều điện hơn là sẽ có kết quả tốt hơn

ARC-AGI-3 - benchmark suy luận tương tác đầu tiên

Tổng quan về ARC-AGI-3

Tính năng chính

Replay và đánh giá

Công cụ và UI

Tài liệu

Tài liệu liên quan và cộng đồng

Bài viết liên quan

1 bình luận

Ý kiến từ Hacker News