- Bài viết về tầm quan trọng mang tính lịch sử của bài báo "Backpropagation Applied to Handwritten Zip Code Recognition" do Yann LeCun và cộng sự công bố năm 1989; bài báo này được xem là một trong những ứng dụng thực tế sớm nhất huấn luyện mạng nơ-ron từ đầu đến cuối bằng backpropagation.
- Tác giả đã cố gắng tái hiện công trình trong bài báo bằng các công cụ hiện đại như PyTorch, đồng thời cho biết mạng gốc được triển khai bằng Lisp với trình mô phỏng backpropagation SN của Bottou và LeCun năm 1988 (sau này được đổi tên thành Lush).
- Mạng gốc được huấn luyện trong 3 ngày trên workstation SUN-4/260, nhưng bản tái hiện của tác giả dùng CPU trên MacBook Air (M1) chỉ mất khoảng 90 giây.
- Tác giả cũng thử nghiệm các kỹ thuật deep learning hiện đại như dùng bộ tối ưu Adam, bổ sung data augmentation và dropout, cũng như thay hàm kích hoạt tanh bằng ReLU; kết quả là tỷ lệ lỗi giảm khoảng 60%.
- Tác giả cho rằng có thể đạt thêm cải thiện bằng cách mở rộng kích thước mạng hoặc bộ dữ liệu, nhưng điều này sẽ làm tăng chi phí tính toán và gây ra độ trễ suy luận.
- Nhìn lại những tiến bộ của deep learning trong 33 năm qua, tác giả chỉ ra rằng các nguyên lý cơ bản vẫn giữ nguyên, nhưng quy mô của bộ dữ liệu và mô hình đã tăng lên rất nhiều, còn thời gian cần để huấn luyện mô hình thì giảm mạnh.
- Tác giả suy đoán rằng đến năm 2055, các mạng nơ-ron sẽ còn lớn hơn nữa, và phần lớn ứng dụng sẽ được thực hiện bằng cách tinh chỉnh nhẹ một phần của mạng, prompt engineering, hoặc chưng cất dữ liệu hay mô hình thành các mạng suy luận nhỏ hơn, chuyên dụng hơn.
1 bình luận
Ý kiến Hacker News