- Bài báo cho rằng một lý thuyết khoa học đang hình thành nhằm đặc trưng hóa các thuộc tính chính của deep learning như quá trình học, biểu diễn ẩn, trọng số cuối cùng và hiệu năng
- Đưa ra năm hướng nghiên cứu (thiết lập lý tưởng hóa có thể phân tích, giới hạn dễ xử lý, quy luật toán học đơn giản, lý thuyết siêu tham số, hành vi phổ quát) làm cơ sở chính
- Lý thuyết này tập trung vào động lực học của quá trình học, mô tả các thống kê tổng hợp ở mức thô và nhấn mạnh các dự đoán định lượng có thể bị bác bỏ
- Đề xuất gọi khuôn khổ lý thuyết mới này là động lực học của quá trình học, tức "learning mechanics"
- Các kết quả như deep linear network, NTK, mean-field và phân biệt lazy-rich cho phép xử lý định lượng về động lực học học, khả năng khái quát hóa, feature learning và scaling law
- Dự đoán mối quan hệ cộng sinh với các góc nhìn thống kê, lý thuyết thông tin và mechanistic interpretability, đồng thời phác họa hướng đi tương lai của lý thuyết deep learning
Luận điểm cốt lõi của bài báo
- Một lý thuyết khoa học (scientific theory) đang nổi lên để đặc trưng hóa những thuộc tính và thống kê quan trọng của deep learning như quá trình học, biểu diễn ẩn, trọng số cuối cùng và hiệu năng
- Tổng hợp các dòng nghiên cứu chính hiện nay về lý thuyết deep learning và xác định năm hướng nghiên cứu hỗ trợ cho sự tồn tại của lý thuyết này
- (a) thiết lập lý tưởng hóa có thể phân tích (solvable idealized settings): cung cấp trực giác về động lực học học của các hệ thống thực tế
- (b) giới hạn dễ xử lý (tractable limits): hé lộ hiểu biết về các hiện tượng học tập mang tính nền tảng
- (c) quy luật toán học đơn giản (simple mathematical laws): nắm bắt các đại lượng quan sát vĩ mô quan trọng (macroscopic observables)
- (d) lý thuyết về siêu tham số (theories of hyperparameters): tách siêu tham số khỏi phần còn lại của quá trình học để còn lại một hệ đơn giản hơn
- (e) hành vi phổ quát (universal behaviors): làm rõ hiện tượng nào cần được giải thích thông qua các hiện tượng được chia sẻ giữa nhiều hệ thống và thiết lập
- Cách nhìn phù hợp nhất về lý thuyết đang nổi lên này là như động lực học của quá trình học, và đề xuất tên gọi "learning mechanics"
- Thảo luận mối quan hệ với các cách tiếp cận khác để xây dựng lý thuyết deep learning như góc nhìn thống kê và lý thuyết thông tin (information-theoretic)
- Đặc biệt dự đoán mối quan hệ cộng sinh (symbiotic relationship) giữa learning mechanics và mechanistic interpretability
Giới thiệu
- Deep learning rất mạnh mẽ, nhưng vẫn thiếu một khung khoa học thống nhất để giải thích cơ chế hoạt động bên trong của nó
- Mạng nơ-ron cho thấy hiệu năng siêu nhân loại trong nhiều tác vụ, nhưng vẫn chưa có lý thuyết thống nhất giải thích vì sao chúng hoạt động như vậy và bằng cách nào tạo ra hiệu năng đó
- Cách huấn luyện trong thực tế vẫn phụ thuộc đáng kể vào thử-sai hơn là first principles, và lý thuyết hiện chỉ đóng vai trò hạn chế trong thực hành deep learning hằng ngày
- Khi bước vào thời đại mô hình ngôn ngữ lớn và diffusion model, bí ẩn còn sâu hơn, nhưng lý thuyết khoa học về deep learning thực sự đã bắt đầu hình thành và hình dạng của nó gần với mechanics của quá trình học
- Trọng tâm của lý thuyết deep learning đã thay đổi theo thời gian
- Giai đoạn đầu tập trung vào việc mô hình có thể biểu diễn loại hàm nào và học từ dữ liệu ra sao
- Sau đó chuyển sang khi nào có thể khái quát hóa với mẫu hữu hạn, kéo theo sự phát triển của classical learning theory, lý thuyết học tính toán, lý thuyết PAC và lý thuyết tối ưu hóa cổ điển
- Đồng thời cũng hình thành truyền thống statistical physics of machine learning nghiên cứu hành vi trung bình của các mô hình đơn giản
- Mạng nhiều lớp, backpropagation, cùng sự mở rộng dữ liệu và tài nguyên tính toán đã bộc lộ giới hạn của các lý thuyết cũ
- Mạng nơ-ron có cấu trúc phi lồi và quá tham số hóa, khác với các mô hình đơn giản và lồi mà lý thuyết cổ điển xử lý tốt
- Chúng vượt ra ngoài việc đạt lỗi huấn luyện thấp để học biểu diễn nội tại có cấu trúc, đồng thời bộc lộ tính quy luật xuyên suốt nhiều tác vụ và quy mô
- Sự thay đổi này đưa lý thuyết deep learning từ giai đoạn hỏi bằng toán học điều gì là khả thi sang giai đoạn khoa học mô tả và dự đoán hành vi của các hệ thống thực nghiệm phức tạp
- Vì vậy cần một cách tiếp cận khoa học có thể bao quát quan sát thực nghiệm, tìm nguyên lý thống nhất và nhận diện các mẫu lặp lại
- Con đường phía trước được cho là gần với quá trình trưởng thành của một ngành khoa học hơn là sự phát triển của một lĩnh vực thuần toán
learning mechanics là gì
- Việc huấn luyện mạng nơ-ron có thể được xem như tương tự với mechanics nơi vật thể chuyển động trong không gian và thời gian
- Cũng như vật thể liên tục di chuyển trong không gian vật lý dưới tác động của lực, mô hình di chuyển trong parameter space thông qua các cập nhật rời rạc
- Trong vật lý, lực sinh ra từ tương tác giữa các thành phần của hệ; trong deep learning, việc học được định hình bởi tương tác giữa tham số, tập dữ liệu, tác vụ và quy tắc học
- Cũng có sự tương ứng giữa trường trong vật lý và gradient trong deep learning
- Giống như hệ vật lý ổn định tại các cực tiểu cục bộ của thế năng do tương tác bên trong và ràng buộc bên ngoài quyết định, mạng nơ-ron cũng hội tụ về các cực tiểu cục bộ của loss landscape do kiến trúc và dữ liệu huấn luyện tạo ra
- Phép so sánh này không chỉ là tu từ mà còn phù hợp với các dòng nghiên cứu đang diễn ra
- Cũng như nhiều nhánh của mechanics sử dụng thiết lập có thể phân tích, giới hạn đơn giản hóa, thống kê tóm tắt, phân tích tham số hệ thống và hiện tượng phổ quát, learning mechanics cũng dùng các công cụ tương tự
- Đặc biệt, giống continuum mechanics và statistical mechanics vốn xử lý nhiều thành phần tương tác, deep learning cũng hưởng lợi từ cách giải thích các thống kê ở mức phóng to thay vì từng thành phần riêng lẻ
- Chương trình nghiên cứu này có thể được gom lại dưới tên gọi learning mechanics
7 điều kiện cần cho learning mechanics
-
Tính nền tảng
- Cần triển khai việc huấn luyện mạng nơ-ron một cách logic từ first principles
- Ở giai đoạn trung gian có thể dùng các giả định về trọng số, động lực học và hiệu năng như công cụ, nhưng cuối cùng những điều đó cũng phải được giải thích từ first principles
-
Tính toán học
- Cần tạo ra các phát biểu định lượng rõ ràng, không mơ hồ về những đặc tính quan trọng của mạng nơ-ron
- Chỉ mô tả định tính thì chưa đủ để tạo thành mechanics
-
Khả năng dự đoán
- Cần đưa ra các khẳng định có thể được kiểm chứng bằng những phép đo thực nghiệm đơn giản và lặp lại được
- Vì khả năng kiểm soát thực nghiệm đối với hệ thống là rất cao, các tiến bộ quan trọng phải có thể được kiểm chứng rõ ràng bằng thực nghiệm
-
Tính bao quát
- Cần nối quá trình huấn luyện, biểu diễn nội tại và trọng số cuối cùng vào cùng một bức tranh
- Thay vì cố chứa mọi chi tiết, nên chọn độ phân giải phù hợp đủ để mang lại hiểu biết ngay cả khi phải hy sinh một phần chi tiết
-
Tính trực quan
- Nên ưu tiên các hiểu biết đơn giản và soi sáng hơn là độ phức tạp kỹ thuật
- Đó phải là một lý thuyết mang lại cảm giác thỏa mãn khi bóc tách bí ẩn của deep learning
-
Tính hữu ích
- Cũng như vật lý là nền tảng cho các ngành kỹ thuật khác, nó phải trở thành nền tảng khoa học cho deep learning ứng dụng
- Bao gồm các mục tiêu cụ thể như giảm tinh chỉnh siêu tham số, công cụ dự đoán cho dataset design và nền tảng chặt chẽ cho AI safety
-
Tính khiêm tốn
- Cần làm rõ mình giải thích tốt điều gì và không giải thích được điều gì
- Mechanics có thể áp dụng cho deep learning thực tế cũng có thể bị phá vỡ trong những trường hợp đặc biệt nhỏ và được thiết kế thủ công, và điều này được xem là cái giá phải trả để có một bức tranh đơn giản trong miền quan tâm
Vì sao learning mechanics quan trọng
-
Lý do khoa học
- Thành công kỹ thuật của các mạng nơ-ron lớn cho thấy chúng đang khai thác những nguyên lý sâu sắc của việc học và biểu diễn mà chúng ta vẫn chưa hiểu
- Các tiền lệ về việc công nghệ đi trước lý thuyết được nêu ra như động cơ hơi nước và nhiệt động lực học, máy bay và lý thuyết khí động học
- Nguyên lý học của mạng nơ-ron nhân tạo cũng có thể soi sáng việc hiểu trí tuệ sinh học (biological intelligence), từ đó có hàm ý cho khoa học thần kinh và khoa học nhận thức
-
Lý do thực tiễn
- Một lý thuyết deep learning trưởng thành có thể dẫn dắt thiết kế mô hình, tối ưu hóa, scaling và triển khai bằng các nguyên lý đáng tin cậy hơn
- Trên thực tế, trong một số lĩnh vực lý thuyết đã bắt đầu phát huy vai trò
- empirical scaling laws
- các công thức toán học cho scaling của siêu tham số
- optimizer và phương pháp data attribution được thiết kế với động cơ lý thuyết
- Một lý thuyết sâu hơn và đầy đủ hơn có thể cung cấp thêm nhiều chỉ dẫn như vậy, đồng thời làm chúng sắc bén hơn và giàu khả năng dự đoán hơn
-
Lý do liên quan đến an toàn
- Để mô tả, đặc trưng hóa và kiểm soát các hệ AI ngày càng mạnh, cần làm rõ được các biến liên quan, cơ chế và nguyên lý tổ chức của chúng
- Rất khó điều tiết một công nghệ không thể mô tả rõ ràng, và lý thuyết nền tảng có thể mang lại sự minh bạch cần thiết cho reliability, oversight và control
- Đặc biệt, có khả năng nó sẽ đóng góp cho AI safety theo cách hỗ trợ mechanistic interpretability
Bằng chứng cho thấy learning mechanics đang xuất hiện
- Các thành phần cốt lõi của deep learning đều tường minh và đo được
- Kiến trúc được cho dưới dạng mạng nơ-ron f(x; θ) được định nghĩa như hợp thành của các phép biến đổi tuyến tính và phi tuyến đơn giản
- Dữ liệu được cho dưới dạng tập mẫu D = {(xi, yi)} lấy từ một phân phối sinh dữ liệu chưa biết
- Tác vụ được định nghĩa bằng hàm mục tiêu L(θ) đo hiệu năng trên tập dữ liệu
- Quy tắc học được mô tả bằng cập nhật dựa trên gradient như
θ(t+1) = θ(t) −η∇L(θ(t)), cùng khởi tạo và các siêu tham số tối ưu hóa
- Hầu như không có gì bị che giấu trong quá trình học
- Khác với nhiều hệ phức tạp, deep learning trực tiếp bộc lộ equations of motion chi phối động lực học
- Có thể ghi lại mọi weight, activation, gradient và loss, rồi từ đó tạo ra bất kỳ thống kê nào
- Việc thiết kế, tái tạo và kiểm chứng thí nghiệm rất thuận lợi cho việc phát hiện quy luật thực nghiệm và kiểm tra nghiêm ngặt các dự đoán lý thuyết
- Tuy nhiên, bài toán trung tâm không phải là tính mờ đục mà là độ phức tạp
- Tương tác giữa architecture, data, task và learning rule tạo nên động lực học học phi tuyến, ghép nối và cao chiều
- Hệ thống nhạy với lựa chọn siêu tham số, trong khi chính phân phối dữ liệu cũng khó đặc trưng hóa một cách đơn giản
- Dù vậy, vẫn có tính quy luật ẩn dưới sự phức tạp này, và bài báo đưa ra năm quan sát để hỗ trợ điều đó
- (a) thiết lập lý tưởng hóa có thể phân tích (solvable idealized settings)
- (b) giới hạn dễ xử lý (tractable limits)
- (c) quy luật toán học đơn giản (simple mathematical laws)
- (d) lý thuyết về siêu tham số (theories of hyperparameters)
- (e) hành vi phổ quát (universal behaviors)
=== Lược bỏ nội dung bài báo ===
- Tài liệu nhập môn bổ sung, các góc nhìn và câu hỏi mở có tại learningmechanics.pub
- Bài báo dài 41 trang
2 bình luận
Ý là họ muốn tiếp cận và giải nó theo hướng động lực học, nhưng ngay từ việc liệu có thể xây dựng được một phương trình có thể tìm ra nghiệm tổng quát hay không thì đã thấy đáng nghi rồi.
Ý kiến trên Hacker News
Từ góc nhìn của người đang làm trong lĩnh vực này, bài viết này tóm tắt khá tốt những chủ đề nghiên cứu được bàn tới nhiều nhất hiện nay
Đặc biệt, phần open problems ở cuối thực chất đã chỉ ra gần như toàn bộ các hướng nghiên cứu cốt lõi, nên là phần hữu ích nhất
Thấy trong phần bình luận có nhiều ý kiến hoài nghi thì khá tiếc, vì điều đó cho thấy những nghiên cứu như thế này hầu như chưa được truyền tải tới công chúng
Hiện vẫn chưa có nhiều cơ chế cho phép suy ra trực tiếp bằng toán học thiết kế mạng tối ưu, nhưng phần lớn là vì thực nghiệm thường đi nhanh hơn lý thuyết nên nhiều việc chỉ được giải thích hậu nghiệm
Dù vậy, với câu hỏi vì sao mạng nơ-ron hoạt động tốt hơn các mô hình khác, giờ đây chúng ta đã khá gần với một câu trả lời vững chắc
Vấn đề là câu hỏi mà mọi người thực sự tò mò từ đầu lại không phải điều đó, nên có vẻ giờ đã đến giai đoạn phải quyết định xem tiếp theo nên hỏi điều gì
Câu hỏi vì sao nó hoạt động về cơ bản đã được giải xong, và điểm mấu chốt là tối thiểu hóa hiệu quả phần mất mát thông tin bất khả nghịch so với noise floor
Toán học đang chỉ ra những con đường hiệu quả hơn, nhưng ngành này mấy năm nay vẫn lãng phí khi chỉ chăm chăm đẩy mô hình lớn hơn
Một mô hình 70B được làm tốt cũng có thể chạy ở khoảng 16GB mà không mất năng lực, thậm chí còn tiếp tục học được, nhưng vốn vẫn cứ đổ dồn vào bigger
Giờ đây ngành này đã chuyển mục tiêu sang Agency và Long-horizon Persistence, và bước chuyển từ chiếc máy tính dự đoán sang một hệ thống tồn tại bền lâu gần hơn với bài toán nhiệt động lực học phi cân bằng
Ở đây có những toán học và định luật áp dụng nguyên vẹn cho AI, và nguyên lý khiến tín hiệu tồn tại trong mô hình với nguyên lý khiến một tác nhân tồn tại thực ra nối liền bằng gần như cùng một hệ toán học
Chuyên môn của tôi cũng chính là dạng tính bền vững này, nên nhìn AI phải vật lộn học lại các nguyên lý bậc nhất mà lĩnh vực khác đã nắm từ lâu thì thành thật mà nói đôi lúc khá sốt ruột
Vì vậy tôi viết và chia sẻ các tài liệu giải thích toán học đó vận hành ra sao và áp dụng vào từng domain thế nào; đọc xong thì thay vì đoán mò theo cảm tính, bạn sẽ biết chính xác phải cải thiện điều gì để tăng tính bền vững
Những câu hỏi như có thể bắt mô hình làm việc được bao nhiêu giờ thậm chí còn thấy khá dễ thương, vì còn có những câu hỏi bản chất hơn nhiều
Từ góc nhìn cổ điển, hiệu ứng của overparameterization hay các kiến trúc mạng nơ-ron khác quả thực rất khó chấp nhận một cách trực giác
Tôi công nhận double descent có hiệu quả về mặt thực nghiệm, nhưng cảm giác là lẽ ra nó không nên như vậy
Với người rất thích Elements của Hastie và cộng sự, chỉ riêng bias-variance tradeoff thôi cũng khiến kết quả kiểu đó có vẻ khó xuất hiện
Đây là điều khiến tôi băn khoăn nhiều năm nay, nên nếu có tiến triển ở điểm này thì ngay cả ở bình diện triết học cũng sẽ cực kỳ hữu ích
Tôi mới chỉ đọc phần mở đầu nhưng bài viết được viết rất tốt, và kiểu chương trình nghiên cứu như thế này hoàn toàn đáng được ủng hộ
Nó cũng giống như bagging hay boosting, ban đầu thành công nhờ thực nghiệm trước khi có lý thuyết giải thích
Có lẽ ảnh hưởng lớn là do mạng nơ-ron thường bị mô tả như ở thái cực đối lập với linear regression vốn có thể diễn giải theo kiểu cổ điển
Vì kỹ thuật phát triển quá nhanh nên cũng có bầu không khí là nếu nghiên cứu không tạo ra kết quả tức thì thì chẳng ai muốn chờ
Ngay cả các nhà nghiên cứu interpretability dường như cũng thường bỏ cuộc quá sớm nếu chưa thấy kết quả nổi bật ngay lập tức
Nếu có tài liệu tham khảo nào mà cả người ngoài ngành cũng đọc được thì tôi muốn biết
Đúng là chúng xử lý được một tập bài toán rộng hơn nhiều, như ảnh chẳng hạn, nơi ML truyền thống gặp khó, nhưng ở các bài toán có thể so sánh công bằng thì tôi biết có không ít trường hợp gradient boosting cho kết quả tốt hơn
Điều tôi không hiểu là chỗ này
Ý tưởng mạng nơ-ron đã có từ vài chục năm trước nhưng không được chú ý nhiều, rồi sau Attention Is All You Need năm 2017 thì deep learning bùng nổ
Tôi hiểu GPU tăng tốc deep learning, nhưng bản thân khái niệm transformer chẳng phải lẽ ra đã có thể được thử sớm hơn trên phần cứng chậm hơn sao
AlexNet, như trong https://en.wikipedia.org/wiki/AlexNet, đã cho thấy mức cải thiện hiệu năng khác hẳn trước đó tại cuộc thi phân loại ImageNet, và từ đó các phòng lab nghiên cứu ảnh ML lớn đều chuyển hẳn sang deep CNN
Chỉ trong vài năm, các cách tiếp cận khác gần như biến mất khỏi các cuộc thi ảnh SOTA, và sau đó mạng nơ-ron sâu bắt đầu thống trị cả những lĩnh vực ML khác
Cách giải thích phổ biến rốt cuộc là tổ hợp của hai yếu tố
Thứ nhất là lượng tính toán lớn hơn áp đảo so với trước đây, và thứ hai là các bộ dữ liệu chất lượng cao lớn hơn nhiều như ImageNet, vốn được tinh lọc và gán nhãn thủ công
attention đặc biệt hữu ích trong việc học các quan hệ phức tạp trên các chuỗi có cấu trúc thứ tự khá tự do như văn bản, nhưng hiện nay nhiều người xem kiến trúc không phải là bản chất của việc học mà chỉ là một tradeoff khi dữ liệu và compute còn thiếu
Cuối cùng, giống như https://en.wikipedia.org/wiki/Bitter_lesson, nhiều compute hơn và nhiều dữ liệu hơn thường đánh bại các mô hình “thông minh hơn” nhưng khó scale
Con người có khoảng 10^11 nơ-ron, chó khoảng 10^9, chuột khoảng 10^7, và điểm nổi bật ở đây là tất cả đều là những con số khổng lồ
Ngay cả trí thông minh hạn chế như của chuột cũng cần tới hàng chục triệu nơ-ron, và dường như trí thông minh chỉ xuất hiện khi vượt qua một ngưỡng năng lực tính toán nào đó
Có lẽ là vì để xử lý độ phức tạp nội tại của môi trường học tập phức tạp thì cần rất nhiều tham số
Ngược lại, ở các bài toán đơn giản hoặc có cấu trúc rõ ràng thì có nhiều kỹ thuật ít tham số hơn vẫn hoạt động tốt, thậm chí còn được chứng minh là tối ưu
Điều chúng ta gọi là học và trí thông minh thường mặc định một môi trường phức tạp, và độ phức tạp đó về bản chất đòi hỏi số lượng lớn tham số
Nó đã áp đảo cuộc thi, và chỉ vài năm sau thì cách làm đó gần như trở thành tiêu chuẩn cho các tác vụ hình ảnh
Tôi nhớ hình như là Jeremy Howard, từng viết đâu đó vào khoảng năm 2017 rằng bao giờ thì transfer learning mới phát huy trong NLP mạnh như convnet đã làm được với ảnh
Bài báo attention năm đó không lập tức thống trị thế giới, và khi ấy phần cứng cũng còn thiếu, chưa ai đồng thuận rằng scale sẽ giải quyết mọi thứ
Phải mất gần 5 năm nữa cho tới khi GPT-3 nổi lên, và rồi làn sóng hiện tại mới thực sự bắt đầu
Ngoài ra, nhiều người đánh giá quá thấp quy mô compute cần để huấn luyện những con quái vật này; với một bộ xử lý đơn 1GHz thì huấn luyện một mô hình cỡ này mất cỡ 100 triệu năm
Một mô hình cỡ GPT-3 cũng cần khoảng 25.000 GPU chạy trong nhiều tháng, và với bộ nhớ nghèo nàn của GPU cách đây 10 năm thì việc huấn luyện transformer lớn gần như là bất khả thi
K80 ngày xưa chỉ tầm 12GB, còn H100/H200 hiện nay là hàng trăm GB, nên phải nói rằng trước đầu thập niên 2020 thì transformer lớn thực tế chưa thể xây dựng được
Tôi cũng nhớ thời cuối thập niên 2010 các game thủ than phiền giá GPU tăng vọt vì ML
Điều thú vị là trước đó mạng nơ-ron bị xem như thứ không mấy quan trọng
Khi tôi học môn liên quan vào khoảng năm 2000 thì bầu không khí nhìn chung vẫn là như vậy
Cuối cùng để ngọn lửa bùng lại thì vẫn cần dữ liệu huấn luyện khổng lồ như ImageNet cùng với bộ xử lý nhanh hơn
Sau đó, các cải tiến tiếp nối trên những kiến trúc cụ thể cứ thế chồng lên nhau như quả cầu tuyết
Với cộng đồng rộng hơn thì AlexNet là bước ngoặt lớn, nhưng trong nội bộ học thuật thì xu hướng đã đổi chiều từ trước đó 2–3 năm
Tôi bắt đầu thấy từ khoảng 2008–09 rằng các bài thuyết trình về mạng nơ-ron ở workshop không còn bị phớt lờ nữa
Ma trận đã có từ 400 năm trước, nhưng đại số tuyến tính, đặc biệt là đại số tuyến tính số, chỉ thực sự bùng nổ sau khi máy tính xuất hiện
Trước kia giải hệ phương trình bằng lý thuyết minors từng là chuẩn mực, nhưng khi có máy tính thì những lý thuyết như Gaussian elimination hay không gian Krylov phát triển mạnh
Người ta có thể đã hình dung ra, nhưng chưa có phần cứng để hiện thực hóa
Nói đơn giản, LLM rốt cuộc là transformer cộng với một lượng dữ liệu khổng lồ, và để thực sự học được ở quy mô dữ liệu đó thì phần cứng đủ mạnh là điều bắt buộc
Việc dùng một công cụ học tập là bộ não để cố hiểu một công cụ học tập khác thật thú vị
SGD vốn đã hoạt động đủ tốt, và kể cả có làm nó tốt hơn vài lần thì cũng chưa chắc giải được câu hỏi nền tảng về việc chiếc hộp đen đó thực sự đang làm gì
Cách học diễn ra thế nào và bản thân mô hình thực sự đang làm gì là hai vấn đề khác nhau, bởi bộ não của chúng ta cũng là black box trên nhiều phương diện
Vì vậy tôi cảm thấy cần có những mắt xích nối nghiên cứu về cơ chế học với tâm lý học, và với các ý tưởng triết học về bản chất của tư duy và ngôn ngữ
Điều này đáng khích lệ, nhưng tôi nghĩ tiêu đề hơi cường điệu
Có lẽ các điểm đột phá để hiểu deep learning thực sự đang làm gì sẽ chính xác hơn, chỉ là kém bắt mắt hơn
Nếu điều này có thể dẫn tới cách đo được khi nào hệ thống deep learning tạo ra hallucination thì sẽ cực kỳ có giá trị
Trước khi làm được điều đó, hệ thống deep learning vẫn chỉ có thể được dùng một cách hạn chế cho những công việc mà việc nói sai cũng ít gây hại
Ví dụ, chính từ hallucination đã gán ép một ý nghĩa mang tính con người lên đầu ra của LLM
Nếu nhìn theo nguyên lý toán học thật sự thì hallucination cũng chỉ là một đầu ra nữa mà thôi, và không có ranh giới rõ ràng nào được định nghĩa giữa nó với các đầu ra khác
Đây cũng là hướng nghiên cứu chính của tôi nên có thể tôi hơi thiên vị
Cách tiếp cận phổ biến là OOD detection, nhưng tôi luôn cảm thấy ngay từ cách đặt vấn đề thì nó đã không ổn định
Vì vậy tôi và đồng nghiệp đang thử một cách tiếp cận cơ bản hơn là đo misspecification của mô hình, nhưng chi phí tính toán quá cao nên hiện vẫn gần như là một chủ đề ngách
Dù theo hướng nào thì có lẽ vẫn sẽ cần thêm thời gian mới có được đột phá
Đọc cái này khiến tôi thấy nó khá giống vibecoding về mặt khái niệm
Trước hết cứ làm cho cái gì đó chạy được đã, rồi sau đó việc hiểu vì sao nó chạy và nó chạy như thế nào lại là một công việc hoàn toàn khác
Khoan đã, người ta tạo ra thứ mà vẫn chưa hiểu nổi, cũng chưa giải thích được tử tế, rồi bây giờ lại gọi đó là science sao?
Từ hàng chục năm trước đã vay mượn thuật ngữ từ sinh học, đặc biệt là neurobiology, và rốt cuộc cũng có cảm giác như chỉ copy paste bắt chước loài khỉ vậy
Thành thật mà nói thì hai nỗ lực về lý thuyết phổ quát này lại khiến tôi thấy hứng thú hơn
https://arxiv.org/abs/2510.12269
https://www.mdpi.com/1099-4300/28/3/332
Tôi cũng tò mò về mối liên hệ với fuzzy logic
Mạng nơ-ron có vẻ như suy luận theo cách mơ hồ, nhưng tôi không rõ về mặt hình thức thì nên gọi đó là gì
Đã có nhiều năm người ta cố hình thức hóa fuzzy reasoning, nhưng giờ dường như chẳng ai còn quan tâm
Cảm giác của tôi là mạng nơ-ron và transformer giống như OOP của ML
Rất nổi tiếng và trong thực tế làm việc khá hiệu quả, nhưng nền tảng thì vẫn còn mờ mịt, giống như diễn đạt lại bằng một ngôn ngữ mới những gì trước đây đã có thể biểu diễn, trong khi rất khó chỉ ra chính xác lợi ích xuất hiện ở đâu
Tôi vẫn chưa đọc hết bài báo, nhưng cảm giác nó được viết thật sự cuốn hút và khá sâu sắc
Có quá nhiều thứ để tiêu hóa, nhưng thấy tất cả nội dung này được gom lại với nhau khiến tôi thấy rất thú vị
Ở cấp độ cao, lý do deep learning hoạt động tốt rốt cuộc là vì nó giỏi hơn các cách tiếp cận khác ở khả năng tiếp tục học từ nhiều dữ liệu hơn
Nhưng nếu không có khối lượng dữ liệu khổng lồ hiện nay thì kiến trúc có lẽ cũng chẳng quan trọng đến thế
Nếu không giải thích được đồng thời cả hai vế của phương trình mô hình-dữ liệu thì sẽ khó xây dựng một lý thuyết khoa học vững chắc cho những câu hỏi như vì sao mô hình reasoning lại suy luận
Mô hình là sản phẩm được tạo nên cùng lúc bởi kiến trúc và dữ liệu huấn luyện
Hiện giờ vấn đề này vẫn mịt mờ chẳng kém gì việc giải thích con người hay động vật học được điều cụ thể nào đó ra sao giữa một lượng dữ liệu đầu vào khổng lồ
Hiểu biết thực nghiệm có thể sẽ tốt lên, nhưng nền tảng cuối cùng có khi lại không thể quy về khoa học máy tính
Tôi cho rằng cốt lõi của độ phức tạp thực sự nằm ở gigadataset hơn là ở kiến trúc
Lý thuyết trở nên cực kỳ quan trọng vào đúng lúc cần dự đoán failure mode
Một hệ thống hỗ trợ ra quyết định phần lớn thời gian có vẻ đúng nhưng lại âm thầm hỏng ở edge case thực ra còn nguy hiểm hơn một hệ thống đơn giản hơn nhưng có giới hạn rõ ràng
Hiểu được cơ chế thiên lệch sẽ giúp phân biệt khi nào mô hình thực sự chắc chắn, và khi nào nó chỉ đang pattern matching
Sự khác biệt này đặc biệt quan trọng trong những môi trường có mức độ rủi ro cao