Đạt độ chính xác 50% trên ARC-AGI với GPT-4
ARC-AGI là gì?
- ARC-AGI là một bộ dữ liệu được tạo ra để đánh giá năng lực suy luận tổng quát của AI.
- Bài toán gồm các ví dụ đầu vào-đầu ra dưới dạng lưới (grid) gồm các ô màu, từ đó suy ra quy tắc biến đổi.
- Độ chính xác trung bình của con người là 85% trên tập huấn luyện, nhưng tập kiểm tra khó hơn nhiều.
Phương pháp của tôi
- Sử dụng GPT-4 để tạo khoảng 8.000 chương trình Python cho mỗi bài toán, rồi chọn chương trình tạo ra đầu ra đúng.
- Hiệu năng được cải thiện đáng kể nhờ một số cách tiếp cận và tinh chỉnh bổ sung:
- Few-shot prompts: dùng prompt để thực hiện suy luận từng bước.
- Sửa mã: cho GPT-4 chỉnh sửa một phần cách triển khai sau khi xem kết quả đầu ra của ví dụ.
- Feature engineering: cung cấp cho mô hình cách biểu diễn lưới tốt hơn.
- Prompt chuyên biệt: dùng các prompt khác nhau tùy theo kích thước lưới có thay đổi hay không.
Tác động của việc lấy mẫu nhiều hơn
- Hiệu năng tăng lên khi số lượng mẫu tăng.
- Ví dụ, đạt độ chính xác 25% với 1024 mẫu, nhưng đạt 34% với 2048 mẫu.
Tác động của prompt tốt hơn và sửa mã
- Việc cải thiện prompt và bước sửa mã là yếu tố quan trọng để nâng độ chính xác.
- Ở phiên bản cuối cùng, đã đạt độ chính xác 50%.
Hạn chế và dự đoán
- Năng lực nhận thức thị giác và năng lực lập trình của GPT-4 còn hạn chế.
- Cần nhiều lấy mẫu hơn và prompt tốt hơn.
- Nhiều khả năng thế hệ LLM tiếp theo sẽ cải thiện đáng kể hiệu năng trên ARC-AGI.
Ý kiến của GN⁺
- Năng lực nhận thức thị giác: Khả năng nhận thức thị giác của GPT-4 còn hạn chế, nên cần các mô hình nhận thức thị giác tốt hơn.
- Năng lực lập trình: GPT-4 thường mắc các lỗi đơn giản khi lập trình. Cần các công cụ gỡ lỗi tốt hơn để cải thiện điều này.
- Chi phí lấy mẫu: Do cần lấy mẫu rất nhiều nên chi phí có thể cao. Cần các phương pháp lấy mẫu hiệu quả hơn.
- Tiềm năng trong tương lai: Nhiều khả năng thế hệ LLM tiếp theo sẽ cải thiện mạnh hiệu năng trên ARC-AGI. Điều này có thể trở thành một tiêu chuẩn quan trọng để đánh giá năng lực suy luận tổng quát của AI.
- Ứng dụng thực tế: Cần nghiên cứu thêm về cách những năng lực giải quyết vấn đề như ARC-AGI có thể được ứng dụng trong thực tế.
1 bình luận
Ý kiến Hacker News
Đồng sáng lập ARC Prize: Nghiên cứu của Ryan là một hướng nghiên cứu "suy luận LLM" mới mẻ và thú vị, sử dụng GPT-4o để tạo ra 8.000 chương trình Python, sau đó chọn chương trình đúng và áp dụng vào các đầu vào kiểm tra bổ sung. Đây là kết quả trên bộ đánh giá công khai, chưa phải kết quả đã được xác minh, nhưng rất đáng kỳ vọng. Gửi lời chúc mừng và cảm ơn tới nỗ lực của Ryan.
Phê bình bài viết: Bài viết đã dùng nhiều mẹo thủ công để đạt được kết quả nhưng lại nhảy ngay tới kết luận rằng "các LLM hiện nay có thể hoạt động khá tốt trên ARC-AGI". Việc công kích Francois Chollet gây hại cho cộng đồng.
Ý kiến về GPT-4: GPT-4 là một AGI kém, và GPT-1 cũng đã là AGI. Cũng như trí tuệ con người phát triển dần dần, GPT-4 có thể được xem như một bộ não nhỏ chuyên về tư duy văn bản. Việc khẳng định ARC là thước đo tuyệt đối của trí tuệ tổng quát là bỏ lỡ bức tranh lớn hơn về trí thông minh.
Những thử nghiệm ban đầu với GPT-4: GPT-4 đã cho kết quả "tạm ổn" với các câu đố, nhưng có những trường hợp thất bại ở phần logic. Yếu tố thị giác-không gian là quan trọng, và có thể cần mô hình đa phương thức. Việc tạo ngẫu nhiên các lời giải Python là một cách tiếp cận "phi con người".
Ý nghĩa của việc điều khiển LLM: Nhiều người cho rằng việc điều khiển LLM để vượt qua bài kiểm tra AGI làm mất ý nghĩa mục đích của bài kiểm tra đó. Tuy vậy, việc tìm ra kiểu điều khiển nào hiệu quả vẫn hữu ích. Phần lớn vấn đề cuối cùng quy về khớp mẫu.
Các điểm chính:
Khiếm khuyết của ARC-AGI: ARC-AGI có vẻ tồn tại khiếm khuyết. Những gì có thể được giải thích bằng AGI cũng có thể được giải thích bằng việc nó đã nằm trong tập huấn luyện.
Hệ thống 2 và AGI: Việc tạo ra và đánh giá nhiều chương trình có thể đóng vai trò như System 2 của AGI. Điều này tương tự với cách con người suy nghĩ một cách thông minh.
Tầm quan trọng của hiểu biết vật lý: Thử thách này phụ thuộc vào hiểu biết vật lý, nhận thức không gian và ranh giới đối tượng. Việc nhận diện đối tượng và ánh xạ các phép biến đổi hoặc quan hệ là rất quan trọng. Có thể giải bằng cách kết hợp tìm kiếm chương trình với LLM.
Khả năng lập kế hoạch của GPT-4: GPT-4 có thể tạo ra các kế hoạch tương tự như mô tả trong bài viết. Bao gồm trích xuất đặc trưng, tổng hợp chương trình và cải tiến lặp. Nó có điểm yếu ở lập trình và đầu vào thị giác.