OpenAI O3 đạt điểm số đột phá cao trên ARC-AGI-PUB

(arcprize.org)

3 điểm bởi GN⁺ 2024-12-21 | 1 bình luận | Chia sẻ qua WhatsApp

Hệ thống o3 của OpenAI đã lập kỷ lục mới trên bộ dữ liệu công khai ARC-AGI-1
- Semi-Private Evaluation: đạt 75.7% ở chế độ hiệu quả cao
- Chế độ chi phí cao (lượng tính toán cao hơn 172 lần): đạt 87.5%
Đây là bước tiến quan trọng cho thấy khả năng xử lý tác vụ mới và thích ứng, vượt qua giới hạn của dòng mô hình GPT
GPT-3 (2020) 0% → GPT-4o (2024) 5% → o3 tăng lên tới 75.7%
Kết quả ARC-AGI-1 đưa ra trực giác mới về sự cải thiện năng lực AI

Tương lai của ARC Prize và nghiên cứu AGI

ARC Prize hướng tới vai trò kim chỉ nam cho nghiên cứu AGI
Dự kiến phát hành ARC-AGI-2 vào năm 2025:
- Gồm các bài toán dễ với con người nhưng khó với AI
- Mục tiêu phát triển các lời giải mới, hiệu quả cao và mã nguồn mở
Thành tựu của o3 nhấn mạnh nhu cầu phải thiết kế các benchmark AGI mới

Kết quả kiểm thử ARC-AGI của OpenAI o3

Bộ dữ liệu kiểm thử và phương pháp

Semi-Private Eval: 100 tác vụ không công khai dùng để tránh overfitting
Public Eval: 400 tác vụ công khai
Tiến hành kiểm thử với hai cấu hình lượng tính toán: hiệu quả cao (6 mẫu) và hiệu quả thấp (1024 mẫu)

Thành quả chính (hiệu quả cao vs hiệu quả thấp)

Semi-Private Eval:
- Hiệu quả cao: 75.7% / chi phí $20 / 1.3 phút cho mỗi tác vụ
- Hiệu quả thấp: 87.5% / 13.8 phút cho mỗi tác vụ
Public Eval:
- Hiệu quả cao: 82.8% / chi phí $17
- Hiệu quả thấp: 91.5%

Mối quan hệ giữa hiệu quả và hiệu năng

Điểm số ở chế độ hiệu quả cao đứng số 1 theo chuẩn ARC-AGI-Pub (dưới $10,000)
Điểm số ở chế độ hiệu quả thấp cho thấy hiệu năng tăng khi lượng tính toán tăng, nhưng chi phí cao
o3 không chỉ đạt thành tích nhờ tăng đơn thuần lượng tính toán, mà còn là cải thiện nền tảng về khả năng thích ứng của AI

Thảo luận về AGI

Khác biệt giữa ARC-AGI và AGI

ARC-AGI là công cụ nghiên cứu để đánh giá khả năng tổng quát hóa của AI
o3 đạt kết quả xuất sắc trên ARC-AGI nhưng vẫn chưa đủ để được xem là AGI
- Vẫn có trường hợp thất bại ở các tác vụ dễ
- Trong ARC-AGI-2 sắp tới, điểm số có thể giảm xuống dưới 30%

Điểm khác biệt chính của o3

Cải thiện khả năng xử lý và thích ứng với tác vụ mới so với các mô hình GPT trước đây
Áp dụng cách tiếp cận tìm kiếm và thực thi chương trình bằng ngôn ngữ tự nhiên:
- Trong quá trình kiểm thử, mô hình khám phá "chuỗi suy nghĩ (Chain of Thought)" để giải bài toán
- Cách tiếp cận tương tự tìm kiếm cây Monte-Carlo
- Lập trình dưới dạng tạo và thực thi chỉ dẫn bằng ngôn ngữ tự nhiên

So sánh với các mô hình GPT trước đây

GPT trước đây hoạt động theo cách "lưu trữ → truy xuất → áp dụng"
Hạn chế nằm ở khả năng thích ứng kém với tác vụ mới
o3 có khả năng tái tổ hợp các chức năng sẵn có để thích ứng với tác vụ mới

Hướng nghiên cứu sắp tới

Phân tích mã nguồn mở về o3

ARC Prize đặt mục tiêu phát triển các lời giải hiệu quả cao và mã nguồn mở
Công bố dữ liệu kiểm thử o3 và các bài toán chưa giải được:
- Mời cộng đồng phân tích đặc tính của các tác vụ chưa được giải quyết
- Có thể thảo luận trên kênh Discord và GitHub

Benchmark thế hệ tiếp theo

ARC-AGI-2 đang được phát triển:
- Dự kiến ra mắt vào cuối quý 1 năm 2025
- Thiết kế hoàn toàn mới, tách khỏi định dạng ARC-AGI hiện tại
Quỹ ARC Prize có kế hoạch tiếp tục phát triển các benchmark mới cho nghiên cứu AGI

Kết luận

OpenAI o3 là thành tựu mang tính đột phá, chứng minh khả năng thích ứng của AI vượt qua giới hạn của dòng GPT
Việc đưa tìm kiếm chương trình bằng ngôn ngữ tự nhiên do LLM dẫn dắt đã mở ra một hướng đi mới
Trong tương lai, cần nghiên cứu để cân bằng giữa hiệu quả và hiệu năng, đồng thời thúc đẩy hợp tác thông qua mã nguồn mở

1 bình luận

GN⁺ 2024-12-21

Ý kiến Hacker News

Hiệu quả ngày càng trở nên quan trọng. Việc dùng thuật ngữ ARC-AGI-TUNED hàm ý đã sử dụng rất nhiều tài nguyên tính toán. So với chi phí để con người giải các câu đố ARC-AGI, chi phí suy luận ở mức con người bằng năng lực tính toán hiện nay vẫn còn khá cao.
Việc giải mã các mẫu ngôn ngữ tự nhiên phức tạp hơn câu đố. Nếu AI được huấn luyện để giải câu đố, thì việc tạo dữ liệu huấn luyện cho các phương tiện bên ngoài là khó khăn. Khả năng suy ra đáp án của các mẫu khối với lượng huấn luyện bổ sung tối thiểu là rất ấn tượng.
Bài toán lập trình của o3-mini thực ra không quá khó. Khi giao bài cho Claude 3.5 Sonnet, nó đã thành công ngay ở lần thử đầu tiên.
ARC của Francois Chollet là một benchmark LLM rất thú vị và đầy thách thức. Nhiều người đã chỉ trích rằng ARC không đại diện cho suy luận thực sự, nhưng điều đó lại chứng minh rằng những gì ARC đo lường là quan trọng đối với suy luận.
Hiệu suất của con người là 85% còn o3 high là 87,5%. Điều này có nghĩa là đã tồn tại một thuật toán có thể đạt hiệu suất ở mức con người. Điều đó giải thích vì sao nhiều người cảm thấy AGI đang đến gần.
o3 bao hàm các khía cạnh cốt lõi của AGI. Việc giải các bài toán ARC đòi hỏi sử dụng nhiều loại tri thức then chốt và chọn mức độ trừu tượng phù hợp.
Chi phí chạy mô hình o3 là rất cao. Tuy vậy, ở cấp độ quốc gia, đây vẫn có thể là một bước tiến quan trọng dù chưa kinh tế. Nếu AI có trí tuệ tương tự con người có thể được cung cấp theo nhu cầu, tác động của nó có thể xuất hiện sớm hơn dự đoán.
ARC-AGI không có nghĩa là đã đạt AGI. o3 vẫn thất bại ở những tác vụ dễ. Benchmark ARC-AGI-2 vẫn sẽ là thách thức đối với o3.
Không nên nhầm ARC hay bất kỳ benchmark nào với trí tuệ tổng quát thực sự. Trí tuệ tổng quát có lẽ chỉ có thể được nhận diện khi nhìn lại với một lợi thế hồi cố đáng kể.

OpenAI O3 đạt điểm số đột phá cao trên ARC-AGI-PUB

Tương lai của ARC Prize và nghiên cứu AGI

Kết quả kiểm thử ARC-AGI của OpenAI o3

Bộ dữ liệu kiểm thử và phương pháp

Thành quả chính (hiệu quả cao vs hiệu quả thấp)

Mối quan hệ giữa hiệu quả và hiệu năng

Thảo luận về AGI

Khác biệt giữa ARC-AGI và AGI

Điểm khác biệt chính của o3

So sánh với các mô hình GPT trước đây

Hướng nghiên cứu sắp tới

Phân tích mã nguồn mở về o3

Benchmark thế hệ tiếp theo

Kết luận

Bài viết liên quan

1 bình luận

Ý kiến Hacker News