Giải ARC-AGI mà không cần huấn luyện trước

(iliao2345.github.io)

1 điểm bởi GN⁺ 2025-03-05 | 1 bình luận | Chia sẻ qua WhatsApp

Trong các bài toán như ARC-AGI, nơi phải tìm quy luật từ rất ít ví dụ, CompressARC tìm lời giải chỉ bằng học tại thời điểm suy luận cho từng câu đố, không cần huấn luyện trước, không dùng tập dữ liệu bên ngoài và không cần tìm kiếm quy mô lớn
Ý tưởng cốt lõi là một thí nghiệm cho thấy hành vi thông minh có thể xuất hiện nếu tối ưu hóa mục tiêu nén thông tin không mất mát, sao cho biểu diễn của câu đố, bao gồm cả đáp án, trở nên ngắn hơn
Trên RTX 4070, hệ thống dành khoảng 20 phút cho mỗi câu đố và đạt 34,75% trên tập huấn luyện, 20% trên tập đánh giá; điểm đặc trưng là đây là một cách tiếp cận neural network chỉ dùng đúng một câu đố mục tiêu làm dữ liệu học
Kiến trúc được thiết kế xoay quanh tính đẳng biến đối với thứ tự ví dụ, hoán vị màu, xoay và phản chiếu, đồng thời dùng biểu diễn multitensor gom các tensor thuộc nhiều hạng khác nhau
Hệ thống mạnh ở ánh xạ màu–thủ tục, tô lấp, cắt xén, nối điểm và dịch chuyển ngắn, nhưng đếm số, mở rộng mẫu trên khoảng cách dài, xoay–sao chép–đổi kích thước và lập kế hoạch kiểu agent vẫn là các điểm nghẽn

Thí nghiệm xem chỉ nén có thể giải ARC-AGI hay không

Câu hỏi cốt lõi là liệu chỉ nén thông tin không mất mát có thể tạo ra hành vi thông minh hay không
CompressARC là một phương pháp nhắm vào các câu đố ARC-AGI, hoạt động chỉ bằng hàm mục tiêu dựa trên nén
Có ba ràng buộc
- Không huấn luyện trước: mô hình được khởi tạo ngẫu nhiên và được học tại thời điểm suy luận
- Không có tập dữ liệu: một mô hình chỉ học đúng một câu đố ARC-AGI mục tiêu và xuất ra một đáp án
- Không tìm kiếm: theo hầu hết các nghĩa, chỉ dùng gradient descent mà không tìm kiếm
Kết quả là 34,75% trên tập huấn luyện và 20% trên tập đánh giá; mỗi câu đố mất khoảng 20 phút trên RTX 4070
Bài viết mô tả đây là phương pháp neural network đầu tiên cho ARC-AGI chỉ dùng câu đố mục tiêu làm dữ liệu học

Thiết lập bài toán ARC-AGI

ARC-AGI là benchmark AI được giới thiệu năm 2019, kiểm tra khả năng suy luận và khái quát hóa quy luật trừu tượng từ ít ví dụ
Mỗi câu đố cung cấp nhiều ví dụ đầu vào–đầu ra và một đầu vào kiểm thử; hệ thống phải đoán đúng lưới đầu ra kiểm thử
Mỗi câu đố cho phép hai lần thử, nếu một trong hai đúng thì được 1 điểm
Có thể thay đổi kích thước lưới đầu ra và chọn màu cho mọi pixel
Các câu đố được thiết kế để con người có thể giải hợp lý, nhưng khó hơn đối với máy
- Người bình thường giải được 76,2% tập huấn luyện
- Chuyên gia con người giải được 98,5%
400 câu đố huấn luyện dễ hơn phần còn lại và dùng để học các mẫu sau
- Tính đối tượng: đối tượng không tự nhiên xuất hiện hay biến mất vô cớ
- Tính hướng mục tiêu: một số đối tượng hành động như agent có ý định
- Số và đếm: dùng số lượng đối tượng, sắp xếp, so sánh, toán cơ bản như cộng–trừ
- Hình học và tô pô: bao gồm phản chiếu, xoay, dịch chuyển, biến dạng, kết hợp, lặp lại và chênh lệch khoảng cách của hình
Cuộc thi Kaggle gần đây của ARC Prize có tổng giải thưởng lên tới hơn 1 triệu USD, trong đó giải chính dành cho phương pháp đạt 85% trên 100 bài bí mật với 12 giờ tính toán trong môi trường giới hạn

CompressARC hoạt động như thế nào

Trong CompressARC, biểu diễn được nén xuống số bit thấp hơn sẽ liên hệ với lời giải câu đố chính xác hơn
Hệ thống tìm một biểu diễn nén biến câu đố chưa hoàn chỉnh thành câu đố hoàn chỉnh, sao cho khi giải nén biểu diễn này có thể tái tạo câu đố và đáp án
Neural network đóng vai trò decoder
- Không có neural network encoder riêng
- Việc mã hóa được triển khai bằng gradient descent để huấn luyện decoder tại thời điểm suy luận
- Các trọng số đã tối ưu và thiết lập phân phối đầu vào đóng vai trò biểu diễn bit nén chứa câu đố và đáp án
Nếu viết theo cách biểu diễn machine learning tiêu chuẩn, quy trình như sau
- Nhận một câu đố ARC-AGI
- Cấu hình neural network f theo số ví dụ và số màu quan sát được trong câu đố
- Nhận đầu vào chuẩn ngẫu nhiên z ~ N(μ, Σ) và xuất ra logit màu theo từng pixel cho mọi lưới
- Tối thiểu hóa tổng cross-entropy trên các lưới đã biết, đồng thời bỏ qua lưới đáp án
- Đặt phạt KL divergence để N(μ, Σ) gần với N(0,1)
- Lưu các lưới đáp án được tạo trong quá trình học và chọn đáp án xuất hiện thường xuyên nhất làm dự đoán cuối cùng
fθ được thiết kế đẳng biến với các phép tăng cường thường gặp như thay đổi thứ tự cặp đầu vào–đầu ra, hoán vị màu, xoay và phản chiếu không gian

Suy dẫn từ góc nhìn nén

Nén không mất mát là bài toán biểu diễn thông tin bằng ít bit nhất có thể, nhưng vẫn khôi phục chính xác dữ liệu gốc từ biểu diễn bit đó
Trong ARC-AGI, về nguyên tắc cần xem toàn bộ cặp câu đố và đáp án như ký hiệu để nén, nhưng thực tế encoder không có đáp án làm đầu vào và cũng không biết phân phối sinh câu đố
Giả định rằng tồn tại một hệ thống nén hiệu quả về bit có thể triển khai thực tế cho tập dữ liệu ARC-AGI
Dù không biết phân phối p, ta có thể nghĩ tới một bộ nén phổ quát tối thiểu hóa độ dài len(f)+len(s) của chương trình f và đầu vào s
- Decoder chạy f(s) để khôi phục dữ liệu gốc
- Theo lý thuyết thông tin thuật toán, nó có thể chỉ kém hiệu quả hơn bộ nén ban đầu đúng bằng độ dài của f
- Trong thực tế, encoder phải tìm kiếm trong không gian chương trình là không khả thi
Thay vì tìm kiếm trong không gian chương trình, CompressARC chọn forward pass của neural network làm chương trình cố định
- s gồm trọng số θ, đầu vào z và phần hiệu chỉnh đầu ra ε
- Độ dài mã của θ và z được tính theo góc nhìn Relative Entropy Coding (REC), còn ε theo góc nhìn arithmetic coding
- Độ dài mã hiệu chỉnh đầu ra trở thành tổng cross-entropy của các lưới đã biết
- Độ dài mã của z là KL(pz || qz), với qz = N(0,I)
Tổng độ dài mã có cùng dạng với loss của VAE
- Lỗi tái tạo
- KL cho z
- Chuẩn hóa decoder
Triển khai CompressARC là một biến thể của suy dẫn này, có thêm một số chỉnh sửa liên quan đến một phần chuẩn hóa, tính đẳng biến và tính độc lập giữa các câu đố

Kiến trúc: multitensor và tính đẳng biến

Đặc trưng quan trọng nhất của kiến trúc là tính đẳng biến
- Nếu đầu vào z được biến đổi, câu đố ARC-AGI đầu ra cũng phải được biến đổi theo cùng cách
- Ví dụ gồm sắp xếp lại các cặp đầu vào–đầu ra, xáo màu, lật–xoay–phản chiếu lưới
Thiết kế trước tiên tạo một kiến trúc cơ bản hoàn toàn đối xứng, rồi thêm các lớp bất đối xứng cung cấp năng lực không đẳng biến cần thiết để phá vỡ từng đối xứng không cần thiết
Dữ liệu nội bộ chảy qua một định dạng gọi là multitensor
- Đây là một bó các tensor với nhiều hạng và shape khác nhau
- Các chiều được cấu thành từ những tập con tối đa của [n_examples, n_colors, n_directions, height, width, n_channels]
- Chiều channel luôn được duy trì
- Áp dụng các quy tắc để giảm số tensor hợp lệ trong multitensor xuống còn 18
Câu đố có thể được biểu diễn bằng tensor [examples, colors, height, width, channel]
- channel được dùng để chọn lưới đầu vào hoặc đầu ra
- width và height biểu diễn vị trí pixel
- Chiều color chứa biểu diễn one-hot của màu pixel
Toàn bộ kiến trúc có luồng như sau
- Bắt đầu từ tham số phân phối của z
- Decoding Layer
- Lặp 4 lần các khối Multitensor Communication, Softmax, Directional Cummax, Directional Shift, Directional Communication, Nonlinear, Normalization, v.v.
- Xuất phân phối câu đố ARC-AGI bằng Linear Heads

Kết quả hiệu năng

Huấn luyện bằng Adam trong 2000 iterations
- Learning rate là 0.01
- β1 = 0.5, β2 = 0.9
Kết quả trên tập huấn luyện
- 100 iteration: Pass@2 2,25%
- 500 iteration: Pass@2 27,5%
- 1000 iteration: Pass@2 31,75%
- 2000 iteration: Pass@2 34,75%
- Pass@1000 ở 2000 iteration là 52,75%
Kết quả trên tập đánh giá
- 100 iteration: Pass@2 1,25%
- 500 iteration: Pass@2 15%
- 1000 iteration: Pass@2 19,25%
- 2000 iteration: Pass@2 20%
- Pass@1000 ở 2000 iteration là 33,75%
Vì cách chấm điểm ARC-AGI cho phép thử hai lần, kết quả trọng tâm trong bài dựa trên Pass@2

Các câu đố giải được và câu đố khó

CompressARC nắm bắt quy luật trong phạm vi năng lực hiện có, nhưng bị nghẽn ở những năng lực kiến trúc chưa có
Ví dụ các tác vụ có thể làm được như sau
- Gán từng màu riêng lẻ cho từng thủ tục riêng lẻ
- Tô lấp
- Cắt xén
- Nối điểm, bao gồm đường chéo 45 độ
- Phát hiện cùng màu
- Nhận diện pixel kề nhau
- Gán màu theo từng ví dụ
- Nhận diện phần của hình
- Dịch chuyển khoảng cách ngắn
Các ví dụ tác vụ khó cũng rất rõ ràng
- Ánh xạ hai màu với nhau
- Lặp lại cùng một phép toán nhiều lần liên tiếp
- Dịch chuyển, xoay, phản chiếu, đổi kích thước, nhân bản ảnh
- Phát hiện thuộc tính tô pô như tính liên thông
- Lập kế hoạch và mô phỏng hành vi agent
- Mở rộng mẫu trên khoảng cách dài
Trong câu đố huấn luyện 28e73c20, cần mở rộng mẫu từ mép vào trung tâm; CompressARC mở rộng được ở khoảng cách ngắn nhưng gần trung tâm thì dựa vào phỏng đoán

Trường hợp: Color the Boxes

Trong cách giải của con người, đầu vào được nhận ra là chia thành các ô hộp, và ở đầu ra các ô hộp đó được tô màu
- Góc luôn là màu đen
- Trung tâm luôn là màu magenta
- Các ô ở cạnh được tô theo hướng: trên đỏ, dưới xanh dương, phải xanh lá, trái vàng
Tiến trình học của CompressARC thay đổi theo từng giai đoạn
- 50 step: phản ánh rằng các hàng và cột màu cyan ở đầu vào cũng tương ứng ở đầu ra
- 150 step: đầu ra có dạng các pixel gần nhau mang màu tương tự
- 200 step: bắt chước các khối màu lớn hơn được cắt bởi ranh giới cyan và các khối góc màu đen
- 350 step: phần lớn khớp màu hộp theo hướng so với tâm
- 1500 step: đầu ra gần như được tinh chỉnh hoàn chỉnh, nhưng đôi khi vẫn còn lỗi hiếm trong mẫu
Phân tích phân phối z đã học cho thấy nó mã hóa bảng tương ứng màu–hướng và vị trí các đường phân cách hàng–cột
Chỉ bốn tensor giữ lại lượng thông tin
- (examples, height, channel): chứa vị trí hàng màu cyan của từng ví dụ
- (examples, width, channel): chứa vị trí cột màu cyan của từng ví dụ
- (direction, color, channel): chứa tương ứng giữa hướng và màu
- (color, channel): phân biệt vai trò đặc biệt của magenta và cyan

Các trường hợp bổ sung và phân tích biểu diễn

Câu đố Bounding Box 6d75e8bb
- Cách giải của con người là vẽ hộp cyan nhỏ nhất bao quanh hình màu đỏ
- Ở 100 step, CompressARC cho thấy dấu hiệu nắm được bounding box chung; ở 150 step, nó tìm ra đáp án rồi tinh chỉnh đáp án trong quá trình học tiếp theo
- Các tensor chính còn sống sót là (examples, height, channel), (examples, width, channel), (color, channel)
- Tensor hàng–cột biểu thị những hàng và cột có nhiều pixel cyan, nhưng không rõ bằng cách nào hệ thống biết vị trí biên
Câu đố Center Cross 41e4d17e
- Từ tâm của bong bóng màu xanh dương trong đầu vào, vẽ các tia magenta theo bốn hướng trên–dưới–trái–phải, và màu của bong bóng phải phủ lên trên tia
- CompressARC sau khi sao chép đầu vào thì xuất hiện hàng–cột magenta và dần ổn định về vị trí đúng
- Không thấy lỗi vẽ tia nhầm lên trên bong bóng như trong cách giải của con người
- Các tensor còn sống sót là (examples, height, width, channel) và (color, channel)
- (examples, height, width, channel) mã hóa tâm bong bóng

Ý tưởng cải tiến

Thay vì nén riêng từng câu đố, nếu nén toàn bộ tập dữ liệu ARC-AGI cùng nhau thì có thể chia sẻ tính toán giữa các câu đố và thu được inductive bias tốt hơn
- Cân nhắc cách dùng cùng trọng số mạng cho mọi câu đố và thêm perturbation giới hạn theo từng câu đố
- Cũng đề xuất cách dùng hypernetwork, trong đó học embedding chiều cao cho từng câu đố rồi học ánh xạ tuyến tính từ embedding này sang trọng số mạng
- Hướng này có thể làm chậm tốc độ lặp nghiên cứu nên chưa được thử
Các lớp họ convolution có thể hữu ích cho tác vụ sao chép hình
- Nếu một lưới lưu hình và lưới khác biểu thị vị trí sao chép, convolution có thể tạo ra kết quả sao chép
- Convolution thông thường gặp vấn đề khuếch đại nhiễu lớn hơn tín hiệu
- Tropical convolution hoạt động tốt trên các câu đố đồ chơi nhưng chưa đủ cho các câu đố huấn luyện ARC-AGI
Cũng cân nhắc đặt KL floor để giảm posterior collapse
- Quan sát thấy nếu KL của tensor quan trọng rơi về 0 thì không thể phục hồi lại
- Nếu giữ KL lớn hơn 0 trong một thời gian, mạng có thể học cách dùng thông tin đó
- Đã triển khai nhưng không thấy trường hợp tensor phục hồi; cần thiết kế lịch KL floor khác
Chuẩn hóa không được dùng trong phần triển khai
- Trong công thức bài toán, đây là yếu tố đo độ phức tạp của f và được đưa vào suy dẫn CompressARC
- Việc loại bỏ nó khỏi triển khai được đánh giá là hơi liều lĩnh

Công trình liên quan và vị trí nghiên cứu

Ý tưởng về tính tương đương giữa nén và trí tuệ lấy cảm hứng từ Hutter Prize
- Hutter Prize trao giải cho hệ thống nén tốt nhất một tệp văn bản Wikipedia, liên hệ năng lực nén thông tin với trí tuệ
Nền tảng lý thuyết bao gồm Solomonoff Induction, Kolmogorov Complexity và Minimum Description Length
Về mặt lý thuyết thông tin, Relative Entropy Coding là trọng tâm
- Nếu có thể giới hạn KL divergence thì có thể xây dựng thuật toán nén, qua đó trừu tượng hóa vấn đề triển khai mã nhị phân thực tế
Từ góc nhìn VAE, decoder đóng vai trò thuật toán giải nén
- Cũng có thể cân nhắc neural Turing machine có năng lực tổng quát hơn, nhưng vì không phù hợp với tối ưu hóa bằng gradient descent nên bài viết dùng hướng VAE
- Việc tái trọng số reconstruction loss kiểu beta-VAE hoạt động tốt trong trường hợp này
Các phương pháp ARC-AGI hiện có chủ yếu dùng LLM, data augmentation, tập dữ liệu thay thế, học tại thời điểm kiểm thử và tìm kiếm chương trình dựa trên ngôn ngữ chuyên biệt miền
CompressARC nhấn mạnh rằng đây là phương pháp dùng deep learning mà không cần huấn luyện trước bên ngoài và không cần tìm kiếm quy mô lớn
Mã dự án được công bố trên GitHub

1 bình luận

GN⁺ 2025-03-05

Các ý kiến trên Hacker News

Việc tiền huấn luyện quy mô lớn có vẻ đi ngược lại tinh thần của tính tổng quát
Nếu đã tạo ra được một cỗ máy tổng quát có thể tổng hợp một chương trình chỉ bằng cách xem 3 ví dụ rồi dự đoán ví dụ thứ 4, thì về thực chất là đã giải được bài toán tổng hợp oracle
Ngược lại, nếu huấn luyện mạng bằng toàn bộ tri thức nhân loại, bao gồm cả việc tạo câu đố, rồi tinh chỉnh trên 99% bộ dữ liệu và cho thử nhiều lần với 1% cuối cùng, thì điều đó gần với việc tạo ra một bộ nén đắt tiền để nén tâm lý của người ra đề hơn
- Điều này bộc lộ một góc nhìn khá ngây thơ về tri thức và sự hiểu biết
  Nó giả định rằng có một miền logic và lý tính kiểu Platon mà AGI chỉ cần kết nối vào là được, nhưng nếu không có ngữ cảnh thì không thể có ý nghĩa, suy luận hay logic
  Để khớp các mẫu hình học, cần có khái niệm về hình dạng; điều này lại giả định có khái niệm về quan hệ không gian, và tiếp nữa là khái niệm về không gian 2D hoặc 3D
  Những thứ này trông hiển nhiên và ngầm định là vì chúng đã ăn sâu vào môi trường mà tâm trí con người tiến hóa để diễn giải qua hàng trăm triệu năm, cũng như môi trường mà nó đã tiêu thụ và xử lý trong hàng chục năm
  Bài kiểm tra thật sự của AGI là năng lực đồng hóa các thông tin khác nhau thành một thế giới quan nhất quán, và tiền huấn luyện về thực chất đang làm việc đó
  Ngay cả một trí tuệ có năng lực như vậy cũng rất có khả năng cần được “nạp sẵn” các giả định cấu trúc về thế giới mà nó sẽ được đặt vào. Điều này giống với các vùng não giỏi xử lý quan hệ không gian, ngôn ngữ và diễn giải giác quan
- Nếu khi gặp một dạng vấn đề chưa từng thấy, máy có thể tự quyết định cách học, tức cách điều chỉnh trọng số, thì tôi cho rằng điều đó không đi ngược lại tinh thần của trí tuệ tổng quát
  Con người cũng vậy: khi muốn làm tốt hơn một việc gì đó, họ tìm ra cách luyện tập nhiệm vụ ấy và học theo cách thật sự giúp mình tiến bộ
- Đúng vậy. Vấn đề của nhiều mô hình hiện nay cũng nằm ở đó, và chúng không cho phép khái quát hóa thật sự
  Vì thế có người cho rằng AGI sẽ chưa xuất hiện trong một thời gian nữa: https://www.lycee.ai/blog/why-no-agi-openai
- Tôi cho rằng phần lớn việc học của con người đến từ đầu vào giác quan trong nhiều năm
  Tôi không thấy có lý do gì để kỳ vọng máy móc sẽ khái quát hóa tốt nếu không có tri thức nền
- ARC tương đương với một phân phối trên các bộ 4 ảnh, và nếu không có phân phối tiên nghiệm thì ngay cả khi đã cho 3 ảnh đầu, ảnh cuối vẫn là phân phối đều
Tôi nhớ đến podcast Lex Fridman có Marcus Hutter tham gia
Joshua Bach cũng định nghĩa trí tuệ là năng lực mô hình hóa thực tại một cách chính xác, nên tôi tự hỏi liệu bản thân nén không mất mát có phải là trí tuệ không, hay đó là mô hình khớp tối ưu. Có khác biệt nào giữa hai thứ này không?
https://www.youtube.com/watch?v=E1AxVXt2Gv4
- Nhân tiện, François Chollet, người tạo ra ARC-AGI, từng lập luận trong podcast Lex Fridman năm 2020 rằng trí tuệ không phải là nén: https://youtu.be/-V-vOXLyKGw
- Trí tuệ là năng lực tìm ra một mô hình đơn giản có thể dự đoán thực tại phức tạp với độ chính xác cao và độ trễ thấp
  Vì vậy cần xem xét bốn trục: tính đơn giản, độ chính xác, độ trễ và độ phức tạp của thực tại; trí tuệ nhân tạo sẽ nằm ở một vùng nào đó trong không gian này
  Thật ra có một bài kiểm tra đơn giản để phân biệt trí tuệ: liệu bạn có thể đọc mã hàm C và nói được thay đổi ở đầu vào ảnh hưởng thế nào đến đầu ra hay không
  Với các thuật toán phức tạp, bạn phải tạo ra mô hình nội tại. Nếu không thì làm sao bạn có thể chạy trong đầu qsort trên một triệu mục
  Cũng có thể phân biệt theo cách tương tự xem một sinh viên chỉ giả vờ hiểu hay thật sự hiểu
  Bài kiểm tra khó hơn là làm ngược lại: chỉ nhìn vài ví dụ đầu vào/đầu ra rồi tạo ra thuật toán
- Nếu liên hệ nhanh mà không xem toàn bộ podcast, lập trường của Hutter được thể hiện dưới dạng Hutter Prize[1]; ở một khía cạnh nào đó, nó có mục tiêu khá giống ARC-AGI, nhưng xem bản thân việc nén là một mốc chuẩn hướng tới trí tuệ
  [1] http://prize.hutter1.net/
Tôi đang cố chắt lọc bản chất của cách tiếp cận này, nhưng có vẻ nó bị che khuất sau những chi tiết không cốt lõi như việc chọn một phương thức nén cụ thể hay phân phối tiên nghiệm
Đổi mới cốt lõi dường như nằm ở việc xây dựng một “mô hình” có thể tối ưu hóa bằng gradient descent, và làm sao để điểm tối ưu đó trở thành mô hình “đơn giản” nhất ghi nhớ quan hệ đầu vào-đầu ra
Ở đây, “đơn giản” cụ thể là “có thể nén hiệu quả”, nhưng nói rộng hơn có lẽ gần với ý nghĩa là độ phức tạp của mô hình thấp nhất có thể
Điều này tương phản rõ rệt với machine learning tiêu chuẩn. Thông thường, trước hết ta chọn cấu trúc mô hình và nhiều tham số độ phức tạp để đặt ra ngân sách độ phức tạp, rồi sau đó huấn luyện bằng dữ liệu để tìm một nghiệm ghi nhớ tốt quan hệ đầu vào-đầu ra
Phương pháp mới này đảo ngược machine learning. Các cặp đầu vào-đầu ra vẫn được ghi nhớ, nhưng nó tối ưu hóa để giảm tối đa độ phức tạp của mô hình
Việc có thể khái quát hóa chỉ với 2 ví dụ huấn luyện thật sự đáng kinh ngạc, và tôi nghĩ nó gợi ý mạnh mẽ rằng đây là hướng đúng để xử lý vấn đề khái quát hóa
Con đường mà các tác giả đi đến cấu trúc này là lý thuyết thông tin, nhưng tôi không chắc đó có phải là bản chất hay không
Điểm cốt lõi có vẻ gần với nhận ra rằng thay vì tìm mô hình tốt nhất trong một ngân sách độ phức tạp cố định, ta có thể tìm mô hình có độ phức tạp tối thiểu khả dĩ
- Ý tưởng tối thiểu hóa độ phức tạp không mới như vẻ ngoài của nó
  Trong hàm mục tiêu mất mát của tối ưu hóa, người ta thường thêm một hạng regularization, và loại regularization này thường có thể được diễn giải là phạt độ phức tạp
  Nhờ tính đối ngẫu, cùng một hàm mục tiêu có thể được nhìn theo nhiều cách: tối thiểu hóa tổng có trọng số của lỗi dữ liệu và độ phức tạp, hoặc tối thiểu hóa độ phức tạp trong khi giữ lỗi dữ liệu dưới một ngưỡng, hoặc tối thiểu hóa lỗi dữ liệu trong khi giữ độ phức tạp dưới một ngưỡng
  Kiểu regularization cổ điển này gần đây có vẻ đã bớt thịnh hành
  Tôi không nghĩ nó đóng vai trò lớn trong hầu hết các kiến trúc Transformer, nhưng sẽ rất thú vị nếu nó quay trở lại dưới một hình thức nào đó
  Ngoài ra, cách tiếp cận này có quá nhiều yếu tố mới nên khó phân biệt yếu tố nào thực sự tạo ra hiệu năng
  Ví dụ, bản thân kiến trúc neural network dường như cũng đã được tinh chỉnh khá công phu để tối đa hóa hiệu năng trên các bài toán kiểu ARC-AGI, và chưa rõ nó sẽ khái quát hóa ra ngoài phạm vi đó như thế nào
- Về các thành phần cốt lõi thì có vẻ đúng, nhưng tôi cảm thấy kết quả này khá chuyên biệt cho ARC-AGI
  Mỗi câu đố có định dạng tương tự nhau, và dữ liệu thay đổi bên trong câu đố gần như khớp chính xác với thông tin cần thiết để suy luận ra quy tắc
  Nếu giảm lượng thông tin cần để mô tả quy tắc, thì để tối thiểu hóa mất mát thông tin, codec gần như buộc phải thu gọn thành chính việc mà quy tắc thực hiện
  Nếu mỗi câu đố có nhiều nhiễu hoặc dữ liệu ngẫu nhiên hơn, tôi nghĩ kỹ thuật này đã không hoạt động
  Tất nhiên, đến một mức nào đó thì câu đố không nên biến thành “tìm xem câu đố nằm ở đâu”, nhưng ở đây nó hoạt động vì mỗi ví dụ là thông tin thuần túy về chính câu đố
Thú vị. Tôi ngày càng nghĩ rằng tương lai của machine learning có thể lại là hướng có ít “machine learning” hơn theo nghĩa mà chúng ta đã quen
Ít pretraining, dữ liệu và tìm kiếm hơn; nhiều biểu diễn trực tiếp, xử lý ký hiệu, thỏa mãn ràng buộc, meta-learning hơn
Những thứ sẽ bớt cần thiết hơn, tức pretraining và dữ liệu, là những thứ lộn xộn, thô bạo và ngẫu nhiên
Khi phụ thuộc vào chúng, ta luôn bị lệ thuộc vào chất lượng dữ liệu; nếu mục tiêu là data mining thì ổn, nhưng không phù hợp nếu mục tiêu là mô hình hóa nguyên nhân gốc rễ của dữ liệu
Theo cách tôi hiểu, họ gần như đang cố làm lộ ra biểu diễn tối thiểu của không gian lời giải/bài toán
Thông qua tính đẳng biến, họ theo dõi cấu trúc thực của bài toán, và thay vì kỳ vọng tình cờ nắm bắt được nó từ nhiều ví dụ lời giải, họ suy ra thứ gần với biểu diễn nền tảng thực sự của câu đố và cách giải nó
Tài liệu hóa và giải thích rất hay. Tôi vui vì nó cũng khớp với sự tự phản tỉnh của mình
Tôi cho rằng “trí tuệ là nén thông tin thành một biểu diễn không thể quy giản”
- Cách diễn đạt về trí tuệ hay đấy
  https://en.wikipedia.org/wiki/Kolmogorov_complexity
  https://en.wikipedia.org/wiki/Solomonoff%27s_theory_of_induc...
  https://en.wikipedia.org/wiki/Minimum_description_length
  Có vẻ liên quan đến các khái niệm này, nên tôi định tìm hiểu sâu hơn
- Nếu “trí tuệ là nén thông tin thành một biểu diễn không thể quy giản”, thì tôi từng nghĩ đó là vật lý học ;)
  https://en.wikipedia.org/wiki/Wigner%27s_classification
Nếu ARC-AGI là benchmark kiểm tra năng lực suy luận ra quy tắc trừu tượng từ số ví dụ tối thiểu và khái quát hóa, thì rốt cuộc nó đang định nghĩa trí tuệ là năng lực nén thông tin thành một tập quy tắc
Nếu vậy thì nói nén làm được việc đó là đúng
- Điều này không vòng vo hay hiển nhiên như lời khẳng định đâu
  Tôi tò mò không biết bạn đã từng trực tiếp giải bài ARC-AGI chưa
  Các bài toán khá tinh tế và kiểm tra một phạm vi rộng các khái niệm trừu tượng
  Để tham khảo, o1-preview đạt 21% trong đánh giá công khai, còn cách tiếp cận trong bài gốc đạt 34%
Một bài báo của Schmidhuber có liên quan ở mức nào đó: https://arxiv.org/abs/0812.4360
Cụm “xử lý mỗi câu đố khoảng 20 phút trên RTX 4070” có vẻ nghĩa là thử thách 100 bài sẽ mất 33,3 giờ
Như vậy vượt mục tiêu 12 giờ của thử thách, nhưng bản thân cách tiếp cận thì khá hay
Cái này, ngoại trừ việc đã thiết kế cấu trúc rất công phu, trông gần như là một cách tiếp cận Bayesian deep learning khá tiêu chuẩn

Giải ARC-AGI mà không cần huấn luyện trước

Thí nghiệm xem chỉ nén có thể giải ARC-AGI hay không

Thiết lập bài toán ARC-AGI

CompressARC hoạt động như thế nào

Suy dẫn từ góc nhìn nén

Kiến trúc: multitensor và tính đẳng biến

Kết quả hiệu năng

Các câu đố giải được và câu đố khó

Trường hợp: Color the Boxes

Các trường hợp bổ sung và phân tích biểu diễn

Câu đố Bounding Box 6d75e8bb

Câu đố Center Cross 41e4d17e

Ý tưởng cải tiến

Công trình liên quan và vị trí nghiên cứu

Bài viết liên quan

1 bình luận

Các ý kiến trên Hacker News