Bài nói của Ilya Sutskever tại NeurIPS: nhìn lại 10 năm seq2seq [video]

(youtube.com)

1 điểm bởi GN⁺ 2024-12-15 | 1 bình luận | Chia sẻ qua WhatsApp

Ilya Sutskever nhìn lại Sequence to Sequence Learning with Neural Networks tại NeurIPS 2014 sau 10 năm, và tóm lược điểm khởi đầu của làn sóng mô hình ngôn ngữ lớn ngày nay là mô hình văn bản tự hồi quy, mạng nơ-ron lớn và tập dữ liệu lớn
Giả định táo bạo khi đó là nếu mạng nơ-ron dự đoán token tiếp theo đủ tốt, nó có thể nắm bắt phân phối đúng của chuỗi; ý tưởng này được áp dụng cho bài toán dịch máy
Phần triển khai dựa trên LSTM và pipeline trên 8 GPU, đạt tốc độ nhanh hơn 3,5 lần, nhưng ông đánh giá rằng theo tiêu chuẩn hiện nay thì pipeline không phải lựa chọn tốt
Kỷ nguyên tiền huấn luyện dẫn tới GPT-2, GPT-3 và scaling laws chắc chắn sẽ kết thúc do giới hạn của dữ liệu Internet; ông cho rằng chúng ta đã đạt tới peak data
Bước tiếp theo sẽ dẫn tới agent, dữ liệu tổng hợp, compute tại thời điểm suy luận và các ví dụ ban đầu như o1; về dài hạn, có thể xuất hiện những hệ thống khác về chất, có khả năng suy luận nhiều hơn và thậm chí có tự nhận thức

Nhìn lại bài báo seq2seq năm 2014 sau 10 năm

Sequence to Sequence Learning with Neural Networks, được trình bày tại NeurIPS 2014 ở Montreal, trở thành chủ đề được nhìn lại sau 10 năm
Sutskever gửi lời cảm ơn tới các đồng tác giả và cộng sự khi đó, rồi xem lại các slide thuyết trình từ 10 năm trước để kiểm tra điều gì đã đúng và điều gì chưa đúng lắm
Cốt lõi của bài báo có thể được rút gọn thành ba điểm
- Mô hình tự hồi quy được huấn luyện trên văn bản
- Mạng nơ-ron lớn
- Tập dữ liệu lớn

Ý tưởng cốt lõi và cách triển khai khi đó

Bài trình bày năm 2014 có bao gồm Deep Learning Hypothesis
- Đây là giả định rằng một mạng nơ-ron lớn 10 tầng có thể thực hiện những việc con người có thể làm trong chưa tới 1 giây
- Cơ sở của giả định nằm ở ý tưởng rằng nơ-ron nhân tạo và nơ-ron sinh học tương đối giống nhau, còn nơ-ron thật thì chậm
- Vì khi đó mạng nơ-ron có thể huấn luyện được chỉ khoảng 10 tầng, nên trọng tâm được đặt vào “những việc con người có thể làm rất nhanh”
Một điểm cốt lõi khác là ý tưởng rằng nếu mô hình tự hồi quy dự đoán token tiếp theo đủ tốt, nó sẽ nắm bắt phân phối chính xác của chuỗi tiếp theo
- Đây không hoàn toàn là mạng nơ-ron tự hồi quy đầu tiên, nhưng được giới thiệu như một ví dụ sớm về niềm tin mạnh mẽ rằng nếu huấn luyện tốt thì có thể đạt kết quả mong muốn
- Bài toán khi đó là dịch máy; nhìn từ hiện tại có vẻ khiêm tốn, nhưng vào thời điểm ấy đây là một mục tiêu rất táo bạo
Phần triển khai sử dụng LSTM
- Sutskever giới thiệu LSTM như một kiến trúc mà các nhà nghiên cứu deep learning trước thời Transformer từng sử dụng
- Ông ví LSTM gần giống “ResNet xoay 90 độ”, cho rằng nó có một bộ tích phân mà nay được gọi là residual stream cùng với cấu trúc nhân
Song song hóa huấn luyện dùng phương pháp pipeline, đặt một layer trên mỗi GPU
- Với 8 GPU, tốc độ tăng 3,5 lần
- Từ góc nhìn hiện nay, pipeline không phải lựa chọn khôn ngoan, nhưng khi đó họ đã làm như vậy

Scaling, connectionism và kỷ nguyên tiền huấn luyện

Slide kết luận năm 2014 có thể được xem là điểm khởi đầu của scaling hypothesis
- Nó chứa ý tưởng rằng huấn luyện các tập dữ liệu cực lớn và mạng nơ-ron cực lớn sẽ bảo đảm thành công
- Sutskever đánh giá rằng, nếu nhìn một cách rộng lượng, thực tế đã diễn ra theo hướng đó
Trong số các ý tưởng sống lâu hơn, ông nêu connectionism
- Ông cho rằng nếu tin rằng nơ-ron nhân tạo tương đối giống nơ-ron sinh học, điều đó mang lại sự tự tin rằng có thể cấu hình mạng nơ-ron để làm gần như mọi việc con người làm, ngay cả khi không mở rộng mạng tới quy mô não người
- Tuy nhiên, ông nói não người có khả năng tự tái cấu trúc, còn các thuật toán học hiện nay cần số điểm dữ liệu nhiều ngang số tham số, nên ở điểm này con người vẫn tốt hơn
Dòng chảy này dẫn tới kỷ nguyên tiền huấn luyện
- GPT-2, GPT-3 và scaling laws được nhắc đến như các ví dụ tiêu biểu
- Các cộng sự cũ Radford, Kaplan và Dario Amodei đã góp phần làm cho hướng đi này thực sự hoạt động
- Động lực tiến bộ ngày nay nằm ở việc huấn luyện các mạng nơ-ron khổng lồ bằng các tập dữ liệu khổng lồ

Hướng đi sau tiền huấn luyện

Sutskever cho rằng tiền huấn luyện chắc chắn sẽ kết thúc
- Phần cứng, thuật toán và cụm máy có thể tiếp tục tăng compute
- Dữ liệu phụ thuộc vào một Internet duy nhất, và chỉ có một Internet mà thôi
- Ông diễn đạt rằng dữ liệu giống như nhiên liệu hóa thạch của AI, và vì chúng ta đã đạt tới peak data, nên phải ứng phó bằng lượng dữ liệu hiện có
Sau tiền huấn luyện, một số hướng đi được nêu ra
- Agent: khái niệm thường được nhắc đến như một hướng tương lai
- Dữ liệu tổng hợp: bản thân việc khái niệm này có nghĩa gì đã là một thách thức lớn
- Compute tại thời điểm suy luận: hướng đi gần đây được thấy rõ hơn trong các mô hình như o1
Ví dụ sinh học được dùng là quan hệ giữa kích thước cơ thể và kích thước não ở động vật có vú
- Động vật có vú và linh trưởng không phải người cho thấy quan hệ tương tự, nhưng hominids có độ dốc khác trong số mũ scaling giữa kích thước não và cơ thể
- Sự khác biệt này xuất hiện trên đồ thị có trục x và trục y ở thang log
- Trong sinh học cũng từng có tiền lệ tìm ra những dạng scaling khác, và ông cho rằng thứ AI đã scale được cho đến nay là đối tượng đầu tiên mà chúng ta tìm ra cách scale

Siêu trí tuệ, suy luận và các hệ thống khác về chất

Về dài hạn, lĩnh vực này đang hướng tới siêu trí tuệ
- Các mô hình ngôn ngữ và chatbot hiện nay rất đáng kinh ngạc, nhưng đồng thời cũng có độ tin cậy thấp một cách kỳ lạ và đôi khi bị rối
- Trong các bài đánh giá, đôi khi chúng thể hiện hiệu năng siêu nhân một cách ngoạn mục, nên ông cho rằng khó dung hòa hai hình ảnh này
Các hệ thống trong tương lai có thể khác hiện tại về chất
- Ông dự đoán chúng sẽ trở nên có tính agent theo nghĩa thực sự
- Các hệ thống hiện tại được đánh giá là chưa phải agent ở mức có ý nghĩa, mà chỉ mới khởi đầu rất yếu
- Ông cho rằng chúng sẽ có khả năng suy luận, hiểu từ dữ liệu hạn chế và không còn bị rối
Suy luận làm tăng tính khó dự đoán
- Deep learning hiện có gần với việc tái tạo trực giác của con người, tức các xử lý như phản ứng trong 0,1 giây, nên có tính dự đoán cao
- Hệ thống biết suy luận càng suy luận nhiều thì càng khó dự đoán hơn
- Ông nêu ví dụ AI cờ vua mạnh là thứ không thể dự đoán ngay cả với kỳ thủ cờ vua giỏi nhất của con người
Tự nhận thức cũng nằm trong khả năng có thể xảy ra
- Vì bản thân hệ thống là một phần của mô hình thế giới, ông cho rằng self-awareness là hữu ích
- Khi các yếu tố này kết hợp lại, chúng có thể trở thành những hệ thống có tính chất và năng lực khác căn bản so với các hệ thống tồn tại ngày nay
- Những vấn đề nảy sinh từ các hệ thống như vậy có thể rất khác với các vấn đề quen thuộc hiện nay, và tương lai thực sự khó dự đoán

Các vấn đề được nêu trong phần hỏi đáp

Về AI lấy cảm hứng từ sinh học, ông trả lời rằng nếu ai đó có insight cụ thể thì hướng này đáng theo đuổi
- Ông cho rằng cảm hứng sinh học đã thành công cho đến nay chỉ ở mức rất hạn chế là “hãy dùng nơ-ron”
- Cảm hứng sinh học chi tiết hơn thì khó thu được, nhưng nếu có insight đặc biệt, nó có thể hữu ích
Trước câu hỏi liệu mô hình suy luận có thể tự sửa hallucination hay không, ông trả lời rằng khả năng này rất cao
- Ông đồng ý với hướng rằng về dài hạn, mô hình có thể thông qua suy luận để hiểu và sửa việc phát sinh hallucination
- Ông cũng không loại trừ khả năng điều đó đã xảy ra trong một số mô hình suy luận giai đoạn đầu
- Tuy nhiên, ông cho rằng gọi việc này là autocorrect là cách diễn đạt đánh giá thấp quy mô của nó
Về quyền của AI, sự cùng tồn tại và cấu trúc khuyến khích, ông tránh đưa ra câu trả lời chắc chắn
- Nếu AI cùng tồn tại với con người và muốn có quyền, đó có thể là một kết quả không tệ
- Nhưng ông nói thêm rằng tình hình rất khó dự đoán, nên khó có thể nói một cách tự tin
Trước câu hỏi liệu LLM có tổng quát hóa suy luận nhiều bước ra ngoài phân phối hay không, ông cho rằng khó trả lời bằng có/không đơn giản
- Bản thân việc “trong phân phối” và “ngoài phân phối” là gì đã là một vấn đề
- Trong thời kỳ dịch máy thống kê trước đây, nếu không phải cụm từ giống với dataset thì được xem là tổng quát hóa; nhưng hiện nay người ta tranh luận liệu sự tương đồng giữa bài toán thi toán và thảo luận trên Internet là ghi nhớ hay tổng quát hóa
- Tiêu chuẩn về tổng quát hóa đã tăng lên rất nhiều, và dù đúng là con người tổng quát hóa tốt hơn, ông trả lời rằng LLM cũng tổng quát hóa ngoài phân phối ở một mức độ nào đó

1 bình luận

GN⁺ 2024-12-15

Ý kiến trên Hacker News

Bài nói này tạo cảm giác khá thiếu nội dung thực chất
Ý chính tôi nhớ được với cái đầu mệt mỏi là tổng kết 10 năm qua, nói rằng chúng ta gần chạm giới hạn của các định luật mở rộng vì đã dùng gần hết dữ liệu khả dụng, và bước tiếp theo có thể là agent, dữ liệu tổng hợp, cùng các cải tiến về tính toán
Ngoài ra thì phần lớn gần như là lặp lại việc so sánh mạng nơ-ron nhân tạo với mạng nơ-ron sinh học, kiểu tương quan dương giữa cân nặng và khối lượng não, nhưng không thấy luận điểm rõ ràng
Phần hỏi đáp thì có chuyện liệu mô hình có tự biết mình đang hallucinate hay không, một câu hỏi liên quan đến tiền mã hóa, và suy luận đa bước hơi thú vị một chút
- Tôi có nghe trực tiếp tại chỗ, nên cần thêm bối cảnh. Anh ấy được mời vào chuỗi bài giảng test of time, nên phần lịch sử dài như vậy cũng dễ hiểu
  Có vẻ xu hướng của Ilya và mối liên hệ của nó với AI đã dẫn đến phần suy đoán khá lỏng ở cuối
  Anh ấy dường như muốn nói về các chủ đề suy đoán rất xa trong tương lai, nhưng lại phòng thủ theo kiểu “không nói khi nào hay như thế nào, nhưng nó sẽ xảy ra”, nên khó phản bác
  Cách làm này dễ thu hút những người kỳ quặc như câu hỏi cuối về tiền mã hóa, trong khi bài trình bày ngay trước đó về ảnh hưởng của GAN thì không đi chệch khỏi chủ đề phiên họp
- Trọng tâm có lẽ là: “chúng ta không thể tiếp tục kỳ vọng rằng cứ huấn luyện mô hình chiều lớn hơn trên những bản dump Internet lớn hơn thì năng lực sẽ tiếp tục tăng”
  Chỉ một câu thôi nhưng khá quan trọng, và dù nhiều người đã biết, việc chính Sutskever nói ra khiến nó có ý nghĩa như một nhận thức chung đang được xác lập
  Phần còn lại về cơ bản gần như chỉ là mở đầu và kết lại
- Khá ngạc nhiên là chưa có ai dùng LLM để tóm tắt video rồi đăng vào phần bình luận kèm câu cảnh báo
- Dù bộ não có xuất sắc đến đâu thì có lẽ cũng khó mà lúc nào được yêu cầu cũng đưa ra những điều sâu sắc
- Các câu hỏi trông như những tín hiệu cảnh báo lớn. Nào là tiền mã hóa, nhân quyền của AI, kiểu “tự động sửa” cho AI, toàn những câu hỏi lỏng lẻo; và dù người đặt câu hỏi ở hội nghị vốn thường là nhóm hơi khác thường, tôi vẫn có cảm giác hiện nay trong lĩnh vực AI có quá nhiều thành phần mang màu sắc lừa đảo đến mức có thể che lấp nghiên cứu thật sự
  Phần lớn những người đóng góp cốt lõi đã là triệu phú với các hợp đồng hậu hĩnh, còn các viện nghiên cứu và khoa bộ môn cũng đã giành được nguồn tài trợ lớn nhờ chủ đề AI
  Trong 10 năm tới có thể vẫn sẽ có tiền đổ vào dữ liệu tổng hợp, agent, hay chuyện làm sao để ảnh sinh tự động không hiện ngực, nhưng tôi không nghĩ sẽ có nhiều tiến bộ nền tảng
  /remindme 10 years
Điều cốt lõi là chỗ Sutskever nói rằng pretraining theo hình thức chúng ta biết “chắc chắn rồi sẽ kết thúc”, và rằng “chúng ta đã đạt đỉnh dữ liệu, không còn nữa”
Ông ấy cũng ví Internet như dầu mỏ, một tài nguyên hữu hạn vì nội dung do con người tạo ra là hữu hạn
Vậy cái gì sẽ thay thế dữ liệu Internet? Các bộ dữ liệu tổng hợp được tuyển chọn chăng?
Có những bộ dữ liệu độc quyền khổng lồ hiện không được dùng nhiều cho huấn luyện vì lo ngại bản quyền, nhưng nếu thực sự sở hữu dữ liệu đó thì vấn đề pháp lý giảm đi đáng kể
Ví dụ Getty có một thư viện ảnh khổng lồ; nếu người khác đem đi huấn luyện thì có nguy cơ bị kiện, nhưng nếu chính Getty huấn luyện AI của mình thì lại khác
Trường hợp News Corp huấn luyện AI bằng các tài sản xuất bản như Wall Street Journal hay HarperCollins cũng tương tự
- Vì những công ty như Meta hay Google có thể tiếp cận thêm dữ liệu, nên dù không phải ai cũng đang dư dả, với họ dữ liệu vẫn đủ nhiều và do đó nghiên cứu tận dụng dữ liệu tổng hợp có lẽ ít được thúc đẩy hơn
  Trước đây khi huấn luyện bộ phát hiện vật thể, tôi từng dùng mô hình 3D Blender, script chỉnh tham số, và các mô hình machine learning sẵn có để suy ra hiệu chỉnh camera cùng hướng chồng lớp, và nó hoạt động rất tốt trong việc nhận diện vật thể thật
  Tôi cũng biết có người làm tương tự với việc huấn luyện xe cộ bằng game engine
  Có những chi tiết chiến thuật bất ngờ có thể kéo độ chính xác lên đáng kể, ví dụ như phải ngẫu nhiên hóa đúng cách các yếu tố không liên quan trong tập huấn luyện, chẳng hạn bề mặt texture của mô hình 3D
  Nếu phủ các mẫu fractal ngẫu nhiên lên vật thể khi huấn luyện, bộ phát hiện vật thể sẽ vững hơn trước nhiễu loạn trong môi trường thực
- Nếu muốn tạo một LLM diễn giải luật của một bang cực tốt, ta có thể nhìn vấn đề theo hướng: tải toàn bộ tài liệu luật và quy định của bang đó xuống, rồi xem có rào cản nào trong việc huấn luyện nó đạt mức top 5% theo tiêu chuẩn của người hành nghề pháp lý và luật sư hay không
  Trong trường hợp này, “Internet” không còn thật sự cần thiết nữa
  Chỉ cần một bộ dữ liệu chuyên biệt theo miền đủ lớn và đủ chất lượng, và kết quả có thể đã đủ đáng sợ rồi
  “LLM về luật bang” chỉ là ví dụ; lập luận này có thể mở rộng thành chỗ nào cần chuyên gia theo miền thì cứ huấn luyện cho miền đó
- Tôi không nghĩ chúng ta thực sự đang cận kề chuyện cạn sạch dữ liệu huấn luyện. Điều cần là tri thức, không nhất thiết phải là cả mẫu hành vi của chính văn bản đó
  LLM hiện không giỏi gợi lại những thứ mà người dùng Internet lâu năm biết, như các meme nổi tiếng nhưng chưa từng được báo chí nhắc đến
  Nếu có thể khiến nó ghi nhớ mà không bắt chước dữ liệu kiểu 4chan, thì dùng chúng cho huấn luyện có lẽ không hoàn toàn vô nghĩa
  Tôi tự hỏi còn kịch bản phim, lời bài hát, phụ đề của các video YouTube nổi tiếng, thậm chí cả chương trình truyền hình thì sao
- Con người không cần hàng nghìn tỷ token để suy luận hay để biết mình biết gì
  Một phần đến từ tiến hóa, nhưng những phần như năng lực ngôn ngữ cơ bản và mô hình hóa thế giới cơ bản vốn đến từ tiến hóa thì theo tôi chúng ta đã phần nào khớp được bằng dữ liệu Internet
  Pretraining hiện tại dùng nhiều dữ liệu hơn con người rất nhiều, và cũng như không cần xem toàn bộ ảnh của Getty để biết vẽ, các mô hình tự nhận thức hay tự cải thiện có lẽ cũng không cần như vậy
  Để đạt mức chuyên gia trong một lĩnh vực nào đó, chỉ học dự đoán token tiếp theo trên dữ liệu Internet hay bất kỳ dữ liệu nào cũng không phải là lời giải
- Các ngành như dược phẩm và thăm dò năng lượng rất đáng chú ý. Ở những lĩnh vực này, chính data silo là cốt lõi của lợi thế cạnh tranh
  Không có lý do gì để mở bộ dữ liệu ra và san phẳng điều kiện cạnh tranh, còn nếu giữ kín thì có thể độc chiếm các khám phá tiềm năng
  Dữ liệu công khai là nền tảng của Internet, nhưng có những ngành được xây dựng trên cách thức che giấu khám phá rất kỹ trong nhiều thập kỷ
Thật vui khi Ilya mở đầu bài nói chuyện bằng hình của Quoc Le, người đã dẫn dắt bài báo về scaling của mạng nơ-ron năm 2012. Bài báo đó chính là động lực khiến tôi bước vào deep learning khi ấy
Nhận xét của anh ấy tương đối khiêm tốn và dựa trên các nghiên cứu công khai có trước, nhưng rõ ràng anh ấy đang làm những việc lớn và cũng có trí tưởng tượng rất lớn
Giờ thì “con mèo đã chui ra khỏi túi”, và tương lai của AI có lẽ sẽ do một thế hệ lãnh đạo mới dẫn dắt, chỉ mong họ có tinh thần nhân đạo
- Ta nên hy vọng họ nhân đạo nhất có thể, nhưng cũng đừng quên rằng họ vẫn là con người
- Tôi cho rằng khả năng thế hệ lãnh đạo AI mới sẽ có tinh thần nhân đạo đúng nghĩa gần như bằng 0
Câu anh ấy nói rằng “càng suy luận nhiều thì càng khó đoán hơn” theo tôi là một cách nói cực kỳ tiết chế
Ở một khía cạnh nào đó, suy luận gần như phải được xem là đồng nghĩa với tính khó đoán, và cụ thể hơn thì suy luận hữu ích theo định nghĩa vốn là khó đoán
Cách đóng khung này rất quan trọng với các vấn đề như alignment
- Tôi lại nghĩ gần như ngược lại. Từ “phi lý trí” thường cũng được dùng để chỉ sự thất thường, khó đoán và nguy hiểm
  Lý trí thường được xem là thứ rất dễ dự đoán, và hai người cùng suy luận hợp lý từ cùng một tập dữ kiện thì được kỳ vọng sẽ đi đến các kết luận tương tự
  Có vẻ điều Ilya muốn nói gần hơn với ý rằng một người rất thông minh có thể trông “khó đoán” đối với người kém thông minh hơn
  Không phải bản thân lý trí là khó đoán, mà là suy luận đủ nhanh và đủ chất lượng có thể dẫn tới những kết luận mà không ai đoán trước được, dù nhìn lại thì vẫn thấy hợp lý
- Từ quan trọng ở đây là “khó đoán”, chứ không phải “gây ngạc nhiên”, “không thể kiểm chứng” hay “phi lý”
  Trong bài nói chuyện này, dự đoán gắn với trực giác mà con người đưa ra trong 0,1 giây
  Mô hình suy luận mạnh theo định nghĩa sẽ phải đi tới những câu trả lời không mang tính trực giác. Nếu trực giác rồi thì hẳn người ta đã đi tới cùng câu trả lời ấy nhanh hơn nhiều mà không cần chuỗi suy luận dài
  “Suy luận” ở đây khác với chứng minh theo nghĩa toán học. Trong toán học, ngay cả kết luận trực giác cũng có thể cần những chứng minh rất đặc biệt
- Tôi thấy ví dụ về AI chơi cờ mà anh ấy đưa ra không phải là ví dụ phù hợp nhất
  Kỳ thủ con người không thể tính xa như AI nên có thể khó hiểu một nước đi nào đó, nhưng vẫn gần như có thể chắc chắn rằng AI cờ vua đang tối ưu cùng mục tiêu dưới cùng một bộ luật
  Với mô hình suy luận thì alignment không phải là thứ đã được cho sẵn
  Chúng có thể suy luận dưới các quy tắc và hàm chi phí hoàn toàn khác, và với những câu hỏi mở hơn, khi chúng tạo ra đầu ra mà con người không hiểu nổi, sẽ rất khó nói đó là ý tưởng thiên tài hay tư duy không được căn chỉnh
- Xét độ phức tạp thời gian của việc tìm ra lời giải và kiểm chứng nó thì câu đó không hẳn đúng
- Có chắc anh ấy thực sự muốn nói như vậy không? Có thể ý anh ấy là quá trình ép mô hình suy luận nhiều hơn là thứ khó đoán, chứ không hẳn nói rằng bản thân suy luận là khó đoán
Tập podcast DeepMind tuần này với Oriole Vinyals còn thú vị hơn khi bàn về chủ đề tương tự bài nói chuyện này, tức tình trạng hiện tại của LLM và con đường phía trước của việc huấn luyện: https://pca.st/episode/0f68afd5-2b2b-4ce9-964f-38193b7e8dd3
Phép so sánh với dầu mỏ thực sự rất đúng. Kiểu như việc đun cạn thêm vài cái hồ là hoàn toàn xứng đáng miễn sao tài sản ròng của Mr Worldcoin và nhóm đó tăng thêm 3 xu
- Tôi hiểu phép so sánh với dầu mỏ, nhưng không hiểu cú nhảy đó. Cụ thể là hồ nào đang bị đun sôi vậy?
Thật đáng ngạc nhiên khi một số người thực hành machine learning có tiếng vẫn còn ví “nơ-ron” trong Transformer với nơ-ron sinh học thực sự
Nơ-ron thật phụ thuộc vào spike, gradient ion, cấu trúc dendrite phức tạp và tính dẻo của khớp thần kinh do các quá trình sinh hóa tinh vi chi phối
Đây đều là những yếu tố không hiện diện trong các tầng tuyến tính đơn giản, khả vi và phi tuyến điểm-điểm của Transformer
Tôi tự hỏi có nhà thần kinh học hay sinh học đáng tin cậy nào ủng hộ phép so sánh này không, hay đây chỉ là một ẩn dụ được duy trì như thói quen trong cộng đồng machine learning
- Cần nhớ rằng trước năm 2012 đã có gì. Đó là SVM, random forest và những thứ tương tự, hoàn toàn chẳng giống não bộ
  Mạng nơ-ron thì đã có từ lâu, nhưng 2012 là khởi đầu của cuộc cách mạng deep learning
  Theo tiêu chuẩn này thì não bộ và mạng nơ-ron đều là một dạng connectionism có những tính chất tương đồng, nên việc so sánh chúng và lấy cảm hứng từ bên này áp dụng sang bên kia là hoàn toàn có lý
- Để dự đoán quỹ đạo của các hành tinh, bạn không cần mô phỏng mọi nguyên tử của hành tinh
  Nơ-ron toán học có thể mang chức năng tương tự nơ-ron thật dù cách vận hành hoàn toàn khác
- Có khác gì mấy so với việc gọi cấu trúc dữ liệu có node cha và node con là cây đâu?
- Đọc các trả lời thì có vẻ câu trả lời cho câu hỏi đơn giản là “không”
  Tôi cũng tò mò không biết đã từng có phép so sánh nghiêm túc nào chưa, và nếu có thì tôi muốn đọc thử
- Không phải để bênh việc bài trình bày không gắn đủ điều kiện ràng buộc, nhưng tôi nghĩ câu ngạn ngữ cũ “mọi mô hình đều sai, nhưng một số mô hình hữu ích” áp dụng được ở đây
Rất nhiều tri thức trên đời bị khóa lại và chỉ có thể mở ra bằng thực nghiệm thực chứng, còn tính toán trên thực tế chỉ có thể giúp những thí nghiệm đó hiệu quả hơn
Với một can thiệp nào đó, bạn vẫn phải thực sự tiến hành thử nghiệm đối chứng ngẫu nhiên, và điều đó đòi hỏi thời gian và nguyên tử ngoài đời thực
Toàn bộ bài nói chuyện khá thú vị: https://www.youtube.com/watch?v=YD-9NG1Ke5Y
- Ở slide về mối quan hệ giữa cân nặng và trọng lượng não, anh ấy nhấn mạnh chênh lệch scaling trong nhánh loài người
  Nhưng điều tôi thấy thú vị là cũng chính slide đó, ở cùng chỗ ấy, cho thấy một trần cứng khá rõ ở nhánh không phải người, và anh ấy đã không nhắc đến phần đó
Có một bản chép lời đã được hiệu chỉnh bằng LLM. Nó dùng Gemini Flash 8B trên phụ đề YouTube gốc: https://www.appblit.com/scribe?v=YD-9NG1Ke5Y#0
- Tôi tò mò họ đã ngăn Gemini khỏi việc cứ dần dần nuốt mất văn bản theo thời gian bằng cách nào
  Hiệu chỉnh bản chép âm thanh là lĩnh vực mà nếu không cắt nhỏ xuống còn một hai trang trở lại thì rất khó thấy kết quả tốt với bất kỳ LLM nào
  Tôi cũng muốn biết liệu họ có dùng công cụ riêng nào không

Bài nói của Ilya Sutskever tại NeurIPS: nhìn lại 10 năm seq2seq [video]

Nhìn lại bài báo seq2seq năm 2014 sau 10 năm

Ý tưởng cốt lõi và cách triển khai khi đó

Scaling, connectionism và kỷ nguyên tiền huấn luyện

Hướng đi sau tiền huấn luyện

Siêu trí tuệ, suy luận và các hệ thống khác về chất

Các vấn đề được nêu trong phần hỏi đáp

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News