2 điểm bởi GN⁺ 2023-08-27 | 1 bình luận | Chia sẻ qua WhatsApp
  • Bài viết về tầm quan trọng mang tính lịch sử của bài báo "Backpropagation Applied to Handwritten Zip Code Recognition" do Yann LeCun và cộng sự công bố năm 1989; bài báo này được xem là một trong những ứng dụng thực tế sớm nhất huấn luyện mạng nơ-ron từ đầu đến cuối bằng backpropagation.
  • Tác giả đã cố gắng tái hiện công trình trong bài báo bằng các công cụ hiện đại như PyTorch, đồng thời cho biết mạng gốc được triển khai bằng Lisp với trình mô phỏng backpropagation SN của Bottou và LeCun năm 1988 (sau này được đổi tên thành Lush).
  • Mạng gốc được huấn luyện trong 3 ngày trên workstation SUN-4/260, nhưng bản tái hiện của tác giả dùng CPU trên MacBook Air (M1) chỉ mất khoảng 90 giây.
  • Tác giả cũng thử nghiệm các kỹ thuật deep learning hiện đại như dùng bộ tối ưu Adam, bổ sung data augmentation và dropout, cũng như thay hàm kích hoạt tanh bằng ReLU; kết quả là tỷ lệ lỗi giảm khoảng 60%.
  • Tác giả cho rằng có thể đạt thêm cải thiện bằng cách mở rộng kích thước mạng hoặc bộ dữ liệu, nhưng điều này sẽ làm tăng chi phí tính toán và gây ra độ trễ suy luận.
  • Nhìn lại những tiến bộ của deep learning trong 33 năm qua, tác giả chỉ ra rằng các nguyên lý cơ bản vẫn giữ nguyên, nhưng quy mô của bộ dữ liệu và mô hình đã tăng lên rất nhiều, còn thời gian cần để huấn luyện mô hình thì giảm mạnh.
  • Tác giả suy đoán rằng đến năm 2055, các mạng nơ-ron sẽ còn lớn hơn nữa, và phần lớn ứng dụng sẽ được thực hiện bằng cách tinh chỉnh nhẹ một phần của mạng, prompt engineering, hoặc chưng cất dữ liệu hay mô hình thành các mạng suy luận nhỏ hơn, chuyên dụng hơn.

1 bình luận

 
GN⁺ 2023-08-27
Ý kiến Hacker News
  • Bài viết này bàn về sự tiến hóa của mạng nơ-ron sâu trong 33 năm qua và đưa ra các dự đoán cho 33 năm tiếp theo.
  • Việc huấn luyện ban đầu của mạng này được thực hiện trong 3 ngày trên máy trạm Sun 4/260, tiêu thụ khoảng 14400 watt-giờ năng lượng. Ngày nay, cùng một quá trình huấn luyện có thể được thực hiện trên MacBook chỉ trong 90 giây, chỉ dùng 0,5 watt-giờ, tức hiệu quả năng lượng đã cải thiện gần 30000 lần.
  • Một số độc giả chỉ trích dự đoán của bài viết về năm 2055 là "meta-linear", cho rằng nó vẫn phản ánh "đối xứng worldline" với ngày hiện tại làm gốc. Họ cho rằng đây là một khoảng thời gian đủ dài để có rất nhiều đột phá và trở ngại không thể lường trước.
  • Có tranh luận về việc trong 33 năm tới có nên tiếp tục làm cùng một việc với nhiều dữ liệu hơn và nhiều sức mạnh tính toán hơn hay nên khám phá các cách tiếp cận mới.
  • Một số độc giả đặt câu hỏi về khả năng mở rộng của điện toán trong 33 năm tới, trong khi những người khác cho rằng nó không cần phải mở rộng theo cách đã từng diễn ra trong quá khứ.
  • Bài viết được khen ngợi vì khám phá các nền tảng của machine learning theo cách trực diện và đơn giản, trái ngược với nhiều bài báo chỉ lấp đầy trang bằng những kết quả khó tái lập trên các kiến trúc mới phức tạp.
  • Độc giả chỉ ra rằng thay đổi căn bản nhất nằm ở việc mô hình đang được huấn luyện trên loại dữ liệu nào, từ những hình ảnh nhỏ chuyển sang giao tiếp ngôn ngữ và thị giác của loài người.
  • Bài viết gợi cảm giác hoài niệm cho một số độc giả từng chứng kiến sự trỗi dậy, suy giảm rồi hồi sinh của mối quan tâm đối với mạng nơ-ron.
  • Một số độc giả bày tỏ sự hào hứng về tương lai của công nghệ, trong khi những người khác lo ngại về khả năng con người trở nên vô nghĩa trong một thế giới do AI thống trị.
  • Bài viết cho thấy các tiến bộ phần cứng đóng vai trò quan trọng trong sự tiến hóa của AI, dù một số độc giả cho rằng những bước tiến trong tương lai có thể sẽ không còn kịch tính đến vậy.