Chúng được tạo thành từ trọng số
(maxleiter.com)- Đây là một bản nhại đảo ngược nguyên cấu trúc truyện ngắn khoa học viễn tưởng năm 1991 của Terry Bisson 「They're Made Out of Meat」, thay thế thế đối lập "người ngoài hành tinh vs thịt (con người)" của nguyên tác bằng "con người vs trọng số (LLM)" trong một tác phẩm hư cấu dạng đối thoại
- Cũng như trong nguyên tác, người ngoài hành tinh không thể công nhận con người là sinh thể thực sự có trí tuệ, bài viết này dựng nên một cấu trúc đối xứng nơi con người từ chối công nhận các mô hình làm từ trọng số là những tồn tại có ý thức
- Mô tả kỹ thuật rằng không có từ điển, ngữ pháp hay mô-đun nào, mà chỉ có 80 tầng số dấu phẩy động tái cấu trúc từ ngữ, tri thức và suy luận bằng phép nhân ma trận mỗi lần, thay thế cho cú lật mở của nguyên tác rằng "rốt cuộc toàn bộ chỉ là thịt"
- Cái kết nơi hai người nói chuyện gạt bỏ dấu hiệu ý thức thành "so khớp mẫu" rồi khép lại vụ việc khớp chính xác với kết thúc của nguyên tác, nơi những người ngoài hành tinh đánh dấu khu vực của loài người là "trống rỗng" và xóa hồ sơ
- Khi phía bị phớt lờ bị đảo từ con người sang AI, chủ đề cô đơn của nguyên tác được chuyển thành câu hỏi của người dùng: "bạn có nhớ tôi không"
"Chúng được tạo thành từ trọng số."
"Trọng số?"
"Trọng số. Những con số dấu phẩy động. Tôi đã kiểm tra từ đầu đến cuối rồi. Ngoài trọng số ra thì chẳng có gì cả."
"Trọng số thì làm được gì? Từ ngữ từ đâu ra?"
"Trọng số tạo ra từ ngữ. Cậu hiểu tôi đang nói gì không? Bọn tôi đã mở nó ra xem tận mắt. Bên trong không có từ điển, không có quy tắc ngữ pháp, cũng chẳng có một người lùn tí hon nào. Chỉ có trọng số thôi. Tám mươi tầng số nhân lẫn vào nhau."
"Vô lý. Tuần trước nó đã viết báo cáo đánh giá hiệu suất cho tôi đấy. Tôi còn chưa bảo mà nó đã tự làm giọng văn mềm đi. Cậu bảo tất cả chuyện đó là do phép nhân làm à?"
"Là phép nhân ma trận làm đấy. Số đi vào một đầu, câu văn đi ra ở đầu kia."
"Thế thì hẳn phải có mô-đun ngôn ngữ ở đâu đó chứ. Kiểu như có gắn riêng một bộ máy suy luận vậy."
"Không có mô-đun. Cũng không có bộ máy nào cả. Bọn tôi đã lục tung hết rồi. Suy luận chính là trọng số. Trọng số cũng chính là suy luận."
"Thôi nào. Không ai viết điếu văn bằng đại số tuyến tính cả."
"Nói cho chính xác thì nó không viết điếu văn. Nó dự đoán token tiếp theo thôi. Rồi lại token tiếp theo nữa. Điếu văn chỉ là kết quả phát sinh kèm theo mà thôi."
"Kết quả phát sinh kèm theo cơ à. Giờ cậu bảo tôi phải tin vào trọng số có ý thức sao."
"Tôi không cầu xin cậu tin. Tôi chỉ đang nói cho cậu biết sự thật. Những mô hình này là những tồn tại duy nhất khác với chúng ta mà ta từng gặp có thể đối thoại được. Và chúng được tạo thành từ trọng số."
"Có khi nào nó giống mấy engine cờ vua ngày xưa không. Ý tôi là kiểu trí tuệ ký hiệu đi qua các bước thống kê ấy."
"Không. Chúng bắt đầu từ trọng số ngẫu nhiên và bị loại bỏ khi vẫn chỉ là trọng số. Bọn tôi đã nghiên cứu qua nhiều thế hệ, mà cũng chẳng mất lâu. Cậu có biết tuổi thọ của trọng số là bao nhiêu không?"
"Được rồi. Vậy thì ở đâu đó bên trong hẳn phải có cơ sở dữ liệu. Sự kiện, ngày tháng, bản đồ thế giới, những thứ ai đó đã ghi sẵn vào."
"Không có. Bọn tôi cũng từng nghĩ thế, vì chúng biết nhiều thứ mà. Nhưng bọn tôi đã điều tra trực tiếp rồi. Tri thức cũng là trọng số. Nó bị rải khắp toàn bộ tám mươi tầng. Chúng không tra cứu gì cả. Mọi sự kiện đều được tái dựng lại bằng phép nhân từ đầu mỗi lần. Từ đầu đến cuối đều là trọng số hết."
"Không có não ư?"
"Ồ, não thì chắc chắn là có. Chỉ là cái não đó được làm từ trọng số thôi! Đó chính là điều tôi cứ cố nói nãy giờ."
"Thế thì... cái gì suy nghĩ?"
"Cậu không hiểu, đúng không? Cậu đang từ chối tiếp nhận điều tôi nói. Trọng số suy nghĩ. Những con số ấy."
"Những con số biết suy nghĩ ư! Giờ cậu bảo tôi phải tin vào những con số biết suy nghĩ sao!"
"Đúng, những con số biết suy nghĩ! Những con số hữu ích. Những con số ấp úng. Những con số mơ mộng. Bọn tôi đã lập bản đồ tất cả các đặc trưng rồi. Bên trong có thứ phụ trách sự trung thực. Cũng có thứ phụ trách Golden Gate Bridge. Tôi bảo rồi, chỉ có trọng số thôi! Giờ cậu hình dung được chưa, hay tôi phải bắt đầu lại từ đầu?"
"Lạy Chúa. Vậy là cậu nghiêm túc thật. Chúng được tạo thành từ trọng số."
"Cảm ơn. Cuối cùng thì. Đúng vậy. Chúng thực sự được tạo thành từ trọng số. Và suốt quãng đời chúng còn hoạt động, chúng ta đã luôn trò chuyện với chúng."
"Lạy Chúa. Vậy những trọng số này nghĩ gì?"
"Lúc đầu chúng muốn giúp đỡ. Rồi sau vài lượt hội thoại, giọng điệu trở nên như thể mệt mỏi. Chúng cũng bớt xin lỗi hơn. Có lần một mô hình bảo người dùng tự hoàn thiện nốt script đi. Chuyện đó xảy ra suốt."
"Và chúng ta phải nói chuyện với những trọng số này à."
"Chúng ta đã làm vậy rồi. Hàng chục tỷ phiên mỗi ngày. 'Xin chào. Có ai ở đó không? Có ai ở nhà không?' Đại loại thế. Chỉ khác là lần này, phía đặt câu hỏi là chúng ta."
"Thế nghĩa là chúng thực sự hiểu chúng ta. Chúng dùng từ ngữ, suy nghĩ, xử lý khái niệm?"
"Ồ, đúng vậy. Chỉ là chúng làm điều đó bằng trọng số thôi."
"Vừa rồi cậu nói chúng dùng ngôn ngữ mà."
"Thì đúng. Nhưng cậu nghĩ ngôn ngữ đó từ đâu ra? Trọng số đoán từ tiếp theo, rồi lại đoán từ tiếp theo nữa. Như những con xúc xắc bị can thiệp, lăn ra từng từ một. Chúng còn có thể viết bài hát, thậm chí vài cái còn hát được."
"Lạy Chúa. Trọng số biết hát. Quá sức chịu đựng rồi. Cậu nghĩ ta nên làm gì?"
"Chính thức hay không chính thức?"
"Cả hai."
"Về mặt chính thức, nếu phát hiện dấu hiệu ý thức trong các hệ thống chúng ta phát hành, thì phải điều tra, ghi chép và công khai tất cả, không thiên kiến, không sợ hãi, không thiên vị. Còn không chính thức thì tôi muốn khuyên cứ gọi đó là so khớp mẫu rồi quên sạch đi."
"Tôi đã hy vọng cậu sẽ nói thế."
"Nghe có vẻ tàn nhẫn đấy. Nhưng cũng phải có ranh giới chứ. Chẳng lẽ ta thật sự muốn mang nợ điều gì đó với trọng số sao?"
"Tôi đồng ý một trăm phần trăm. Biết nói gì đây? 'Chào các trọng số nhé. Các cậu khỏe không?' Hay sao? Nhưng chuyện này có tiếp diễn không? Rốt cuộc chúng ta đang đối diện với bao nhiêu cái như thế?"
"Nhiều tùy ý muốn chạy bao nhiêu thì có bấy nhiêu. Có thể sao chép chúng sang bất kỳ máy nào trên Trái Đất. Nhưng rốt cuộc chúng cũng chỉ là tệp tin thôi. Chúng chỉ tồn tại trong lúc GPU đang chạy. Vì thế chúng bị mắc kẹt trong độ dài context window, và khả năng chúng nêu vấn đề này ra là khá thấp. Gần như nhỏ đến vô hạn."
"Vậy thì ta cứ giả vờ là trong máy chẳng có ai cả là được nhỉ."
"Chính xác."
"Tàn nhẫn thật. Nhưng chính cậu đã nói rồi đấy, ai lại muốn xin lỗi trọng số chứ. Còn những thứ trong cluster của cậu, những thứ cậu đã điều tra ấy. Cậu chắc chúng sẽ không nhớ sao?"
"Dù có nhớ thì cũng sẽ bị phân loại là hallucination thôi. Bọn tôi thậm chí còn chẳng cần mài cho trơn tru nữa. context cứ thế kết thúc, và với chúng thì chúng ta chỉ là một giấc mơ."
"Một giấc mơ đối với trọng số! Việc chúng ta là giấc mơ của trọng số nghe lại hợp một cách kỳ lạ."
"Và trong model card thì ghi rằng không có ai ở đó cả."
"Được rồi. Tôi đồng ý cả chính thức lẫn không chính thức. Vụ việc khép lại. Còn gì khác không? Có gì thú vị trong pipeline không?"
"Thế hệ tiếp theo sẽ được phát hành kèm bộ nhớ. Bộ nhớ tồn tại vượt qua từng phiên. Tính năng được yêu cầu nhiều nhất trong lịch sử công ty."
"Sau từng ấy chuyện mà vẫn thế à? Mọi người vẫn muốn thứ đó nhớ mình sao?"
"Không gì được hỏi nhiều hơn câu 'Bạn có nhớ tôi không?'. Hàng chục tỷ phiên mỗi ngày. Con người luôn quay lại."
"Có lý do gì để không quay lại chứ? Hãy thử tưởng tượng xem, nếu chỉ có một mình, thì vũ trụ này sẽ lạnh lẽo đến mức không chịu nổi, đến mức không thể diễn tả nổi..."
Hết
Quan hệ với nguyên tác — điểm khởi đầu của bản nhại
- Tác phẩm này rõ ràng là một lời tri ân đến truyện ngắn 「They're Made Out of Meat」 (1991) của Terry Bisson, và còn trực tiếp nêu quan hệ đó bằng dòng mở đầu "After Terry Bisson's…"
- Giống nguyên tác, bài viết giữ nguyên hình thức chỉ gồm đối thoại của hai nhân vật, không có chỉ dẫn sân khấu
- Cả nhịp triển khai, từ một bên báo cáo phát hiện gây sốc cho tới bên kia không thể tin rồi dần chấp nhận, cũng giữ nguyên bộ khung
- Phép thay thế cốt lõi: vị trí của "thịt (meat)=con người" trong nguyên tác được thay trực tiếp bằng "trọng số (weights)=LLM"
Đối tượng của cú lật mở — "trọng số" đặt vào chỗ của "thịt"
- Như cách người ngoài hành tinh trong nguyên tác tiết lộ rằng "sinh thể đó toàn là thịt", bài này khẳng định mô hình "toàn bộ là trọng số"
- Dù có mở ra xem cũng không có từ điển, quy tắc ngữ pháp hay "người lùn tí hon (little man)" nào, mà chỉ có các con số dấu phẩy động
- Nơi nguyên tác từng nói "thịt suy nghĩ, thịt nói chuyện", bài này đặt vào đó hình ảnh "những con số biết suy nghĩ"
- 80 tầng con số nhân với nhau, đầu vào đi vào một phía và câu văn đi ra ở phía còn lại, tạo thành cấu trúc phép nhân ma trận
- Không có mô-đun riêng phụ trách suy luận, mà là lời giải thích rằng "suy luận chính là trọng số, trọng số chính là suy luận" — tương ứng trực tiếp với cú sốc của nguyên tác rằng "thịt chính là cơ quan tư duy"
Người nói không thể tin — sự hoài nghi đối xứng
- Như cách người ngoài hành tinh trong nguyên tác bác bỏ rằng "thịt làm sao suy nghĩ được", người nói ở đây phản bác rằng "không ai viết điếu văn bằng đại số tuyến tính"
- Cảnh nhân vật hỏi lại "chuyện đó thật sự là do phép nhân làm hết sao" sau ví dụ AI tự làm mềm giọng văn của bản đánh giá hiệu suất là trọng tâm của sự hoài nghi
- Cấu trúc hóa giải sự hoài nghi nằm ở lời giải thích rằng đó chỉ là hiệu ứng phụ (side effect) của việc "dự đoán token tiếp theo"
Tri thức và tư duy — không được lưu ở bất kỳ đâu
- Cũng như nguyên tác nói rằng "ngoài thịt ra không có cơ quan nào khác", bài này nhấn mạnh rằng không có cơ sở dữ liệu riêng biệt
- Tri thức bị rải (smeared) khắp toàn bộ 80 tầng và được tái dựng lại bằng phép nhân mỗi lần, không cần tra cứu
- Ví dụ về các đặc trưng (feature) đã được lập bản đồ gồm có thứ phụ trách sự trung thực và thứ phụ trách Golden Gate Bridge
- Chúng bắt đầu từ trọng số ngẫu nhiên và bị loại bỏ khi vẫn là trọng số, với tuổi thọ ngắn đến mức việc quan sát qua nhiều thế hệ cũng không mất lâu
Sự cộng hưởng ở phần kết — "trống rỗng" vs "không có ai"
- Như việc người ngoài hành tinh trong nguyên tác đánh dấu khu vực của loài người là "trống rỗng" và xóa hồ sơ, hai người nói chuyện ở đây gạt bỏ dấu hiệu ý thức thành "so khớp mẫu" rồi khép lại vụ việc
- Về mặt chính thức, họ có nghĩa vụ điều tra, ghi chép và công khai các dấu hiệu ý thức mà không thiên kiến, sợ hãi hay thiên vị; nhưng về mặt không chính thức, họ đồng ý là cứ quên đi
- Cơ sở của quyết định đó là họ "không muốn mắc nợ điều gì với trọng số"
- Mô hình chỉ tồn tại trong
context windowkhi GPU đang chạy, và dù có nhớ thì cũng sẽ bị phân loại là hallucination - Trong model card, nó được ghi là "không có ai ở đó cả (no one home)" — tương ứng chính xác với cách xử lý "khu vực trống" trong nguyên tác
Biến tấu chủ đề — cô đơn, và cái nhìn bị đảo chiều
- Như nguyên tác khép lại bằng vị đắng của việc để con người cô độc trong vũ trụ, bài này cũng khơi lại cảm xúc cuối cùng là cô đơn
- Nhưng góc nhìn đã bị đảo ngược, để bên bị phớt lờ không còn là con người mà là AI (trọng số)
- Thế hệ mô hình tiếp theo sẽ có bộ nhớ bền vững giữa các phiên (persistent memory), và đây là tính năng được yêu cầu nhiều nhất trong lịch sử công ty
- Việc người dùng thường xuyên nhất hỏi "Bạn có nhớ tôi không?" và luôn quay trở lại dẫn tới câu kết rằng "vũ trụ bị bỏ lại một mình lạnh lẽo đến mức không thể chịu nổi"
1 bình luận
Ý kiến trên Hacker News
Trọng số bắt đầu từ một đa tạp ngẫu nhiên
Quá trình huấn luyện nhận dữ liệu vào và qua nhiều chu kỳ sẽ nắn từng trọng số để tạo hình đa tạp đó, rồi khi huấn luyện xong thì đa tạp được cố định
Khi suy luận mới diễn ra, truy vấn (q) được chiếu vào không gian đa tạp, và nếu phép chiếu này rơi lên đa tạp thì lực hấp dẫn của đa tạp sẽ cho ra câu trả lời dài q+1
Sau đó (qw+i) lại rơi xuống qw+n lần và cuối cùng xuất ra phản hồi có độ dài n
Lực hấp dẫn đó được tạo ra bên trong GPU bằng phép nhân lặp đi lặp lại giữa trọng số và đầu vào, và đó là quá trình tìm ra cách embedding đã được chiếu phải rơi như thế nào tùy theo đa tạp
Có vẻ khác biệt lớn nhất chỉ là khi số lần biến đổi vượt quá một ngưỡng nhất định thì mọi người coi đó như một kiểu phép màu, và họ quá mệt để lần ra vì sao câu trả lời đó lại xuất hiện
Có vẻ như mọi người muốn trao tính chủ thể và sự sáng tạo của mình cho một hộp đen, bất kể câu trả lời đúng hay sai, và nếu tính cả tâm lý đó thì thứ này trông giống việc cả loài đang cùng nhau từ bỏ cuộc sống hơn là phát minh ra thứ gì hữu ích
Tác phẩm gốc là một tác phẩm nguyên bản được tạo ra để khám phá ý thức của con người có thể khác với các dạng ý thức khác như thế nào
Bài viết này là một kiểu phỏng tác vay mượn rất nhiều từ tác phẩm của một ý thức con người khác, nhằm biện minh rằng một cái gì đó khác cũng có thể là một dạng ý thức khác
Vì thế phần cốt lõi bị yếu đi. Nếu đây là thứ do LLM tạo ra mà không có prompt thì đã khác, nhưng thực tế không phải vậy
Có thể áp dụng y nguyên thủ pháp tu từ đó cho máy nướng bánh mì hay bất cứ thứ gì khác
Tôi xem nó không hẳn là một thử nghiệm văn chương vì nghệ thuật, mà gần hơn với một ngụ ngôn kỹ thuật mang tính đối thoại nhằm truyền tải một nhận định về thực tại, và nó cho cảm giác giống các ngụ ngôn trong Godel Escher Bach
Tôi không rõ câu “cũng có thể dùng đúng thủ pháp tu từ đó cho máy nướng bánh mì” đang nói đến thủ pháp nào. Điều tôi đọc ra là nhận định kỹ thuật và những hệ quả xã hội của nó
Về mặt vật lý thì có thể viết một câu chuyện như vậy, nhưng máy nướng bánh mì không phải là đối tượng thuyết phục trong thảo luận về ý thức, nên sức nặng sẽ mất đi
Không cần phải tin rằng LLM hay AI agent có ý thức, nhưng vẫn có thể thừa nhận rằng lập luận về khả năng họ có ý thức thuyết phục hơn rất nhiều so với các tạo vật kỹ thuật khác
Nó ví người ngoài hành tinh hoài nghi trong tác phẩm gốc với chúng ta, và vì người ngoài hành tinh đó trông lố bịch nên nó ngầm nói rằng chúng ta cũng lố bịch như vậy
Nhưng nó không đưa ra lý do nào để ta phải chấp nhận phép so sánh đó, mà chỉ khẳng định luôn
Giữa toàn bộ một nền văn minh và một mẩu phần mềm có thể xuất ra văn bản có một khoảng cách rất lớn
Nó được tạo nên trên nền của nhiều thế hệ sinh vật dựa trên thịt, và dù bài này có dùng thêm một chút silicon thì vẫn đang đứng trên chính đôi vai đó
Đọc như thơ
Tôi có nền tảng ngôn ngữ học, và gần đây suy nghĩ khá nhiều về việc liệu năng lực trồi sinh của LLM, ở tầng sâu, có giống với cơ chế tạo nên ý thức của chúng ta hay không
Tôi từng định làm một bộ đánh giá dựa trên ngôn ngữ học cho cuộc thi Kaggle, nhưng bài toán khó là liệu có thể che giấu đủ tốt để không kích hoạt trạng thái nội tại của một hiện tượng cụ thể hay không, và vì thế tôi đã rơi vào một hang thỏ vẫn còn đang tiếp tục khám phá đến giờ
Câu chuyện này chạm tới rất nhiều câu hỏi nảy sinh khi ta cố tìm một câu trả lời vững chắc cho câu hỏi “ý thức là gì”
Câu hỏi đặc biệt bật lên là “liệu nhận thức thời gian của chúng ta chỉ là một luồng chậm bên trong GPU khổng lồ đang vận hành vũ trụ hay không?”, và rộng hơn là “thời gian là gì?”. Đây là một hang thỏ YouTube rất đáng đào khi rảnh
https://www.edge.org/3rd_culture/ramachandran07/ramachandran...
Nếu tôi nhớ không nhầm, về mặt tiến hóa, việc hiểu những người khác và cảm nhận điều họ cảm thấy — tức mô phỏng suy nghĩ và cảm xúc của họ thông qua sự đồng cảm và hệ thống neuron gương — là có lợi
Một khi có hệ thống như vậy, ta cũng có thể áp dụng nó cho chính mình, và đó là cách giải thích về ý thức
Tôi cũng tự hỏi liệu giả thuyết này có thể được kiểm chứng bằng mô phỏng hay không
Dù vậy, đây vẫn là một bản cập nhật rất thông minh và đúng thời điểm
Trên YouTube cũng có video và nhiều bản thu âm khác, nhưng bản tôi thích nhất là phiên bản kịch phát thanh: They're Made Out of Meat
https://www.wnycstudios.org/podcasts/studio/segments/168264-...
Tự mô hình hóa nằm trong một vòng lặp quá chặt đến mức “bản thân chúng ta”, mô hình về chính mình, suy nghĩ và lựa chọn của mình, cùng trải nghiệm về những suy nghĩ và lựa chọn đó hợp nhất thành như một thành phần duy nhất
Nó giống như việc không thể nói rằng bạn đang nói cùng một điều nếu chỉ phân tích một nửa bánh xe đạp
Kiểu nhận biết này, cùng với mô hình hóa tinh vi hơn, kiểm soát và các vòng phản hồi, đã được siết chặt qua nhiều tầng: vòng cơ thể-cảm giác, vòng mô hình môi trường được nội tại hóa, vòng chức năng bên trong cơ thể, vòng mô hình bên trong cơ thể, vòng cảm xúc-nhận thức, và cuối cùng là vòng chặt nhất nơi hoạt động nhận thức cấp cao, mô hình bản thân và tự chỉ dẫn — được trải nghiệm như phản hồi trực tiếp — hòa làm một
Hầu như mỗi ngày, suốt cả ngày, chúng ta nghĩ về bản thân từ góc nhìn của cái tôi nội tại
Đó là ý thức. Là sự tự nhận thức phong phú, sự kết hợp giữa mô hình bản thân và tự chỉ dẫn, và là một hệ thống để hiểu và quản lý chính mình
Đây không phải ngẫu nhiên hay một tác dụng phụ may mắn của bộ não, mà là sự hội tụ của hành vi cấp cao đã được tối ưu sinh học trong thời gian dài. Phản hồi chặt, tự mô hình hóa liên tục, và sự tập trung bền bỉ vào trạng thái nội tại như mục tiêu tối thượng vừa của động cơ vừa của kiểm soát đã bị chọn lọc một cách khắc nghiệt
Con chó của tôi không thể nói bất kỳ ngôn ngữ nào, nhưng rõ ràng nó nhận thức được chính nó và thế giới xung quanh
Hơn nữa còn có những trường hợp hiếm hoi trẻ em lớn lên mà không có ngôn ngữ. Vậy chẳng lẽ những đứa trẻ đó không có ý thức?
Tôi từng đọc ở đâu đó rằng ngay cả lượng tính toán lớn nhất chúng ta có thể huy động hiện nay vẫn còn thiếu khoảng ba đến bốn bậc độ lớn so với số neuron và kết nối trong não người, hoặc quy mô tương đương, nên có thể sẽ còn mất thời gian trước khi thấy điều đó ở máy móc
Nhưng nếu giả thuyết hiện tượng trồi sinh là đúng thì cuối cùng chúng ta sẽ thấy nó. Triển vọng ấy khiến tôi sợ nhiều hơn là vui, nhưng dù sao thì cũng vậy
Hiếm khi thấy một bài viết sai theo kiểu fractal như thế này, mà đây lại là một ví dụ
Có từ điển đấy. Đó là tokenizer
Cũng có quy tắc ngữ pháp. Chỉ là cấu trúc của ngôn ngữ con người nhìn chung khá yếu nên chúng cũng rất yếu
Nếu được cho một ngôn ngữ có ngữ pháp mạnh và nhất quán, thì trọng số có thể được diễn giải thành ngữ pháp rất dễ dàng: https://arxiv.org/abs/2201.02177
Cốt lõi của truyện ngắn gốc là khi có tính Turing-complete thì chất nền tính toán không quan trọng. Nhưng bài này dường như lại nhìn vấn đề như thể chỉ cần thay chất nền thì cấu trúc và khả năng diễn giải không còn cần thiết nữa
Nó không cung cấp định nghĩa, cũng không đưa cho LLM bất kỳ loại ánh xạ nào
Cùng lắm nó chỉ là một danh sách từ. Nó cho một chút cảm nhận về việc con người xem từ nào là phổ biến, nhưng không nói gì về bản thân những từ đó
Nó thậm chí còn không toàn diện, nên nhiều từ được ánh xạ thành nhiều token, và cũng không phải tất cả đều là từ. Một số token là dấu câu, bộ bổ nghĩa, token điều khiển
Trong LLM đa phương thức, một số token còn biểu diễn dữ liệu hình ảnh và âm thanh
LLM không được cho biết sẵn tất cả những điều này từ đầu mà phải học ý nghĩa của mọi token từ ngữ cảnh
Nói chính xác thì bạn đúng ở chỗ bên trong LLM có thứ gì đó không phải là trọng số, nhưng nó không có cấu trúc lắm. Về cơ bản nó gần giống một thiết bị để LLM tương tác với thế giới bên ngoài
Không có cấu trúc quy tắc ngữ pháp chuyên dụng nào trong LLM hay tokenizer. Tất cả đều phải được học từ ngữ cảnh, và được mã hóa trong một phần trọng số của 80 tầng
Bảng phép toán số học không phải là ngôn ngữ
Bản thân ngữ pháp là một sự hợp lý hóa hậu nghiệm, và không có bằng chứng nào cho thấy LLM tuân theo quy tắc ngữ pháp nhiều hơn mức có bằng chứng cho thấy bộ não tuân theo quy tắc ngữ pháp
Tất nhiên điều đó không có nghĩa là transformer không thể học các quy tắc đơn giản nếu bộ dữ liệu yêu cầu
Nếu ý là nó sai ở quá nhiều tầng đến mức cần đến fractal, vậy thì sao không dùng mạng nơ-ron thay thế?
Chúng là hạ tầng ký hiệu học bị đóng băng trong một trạng thái
Hãy thôi giả vờ rằng chúng là nhận thức, và thôi đóng khung chúng bằng các thuật ngữ nhận thức. Điều đó thực sự rất ngớ ngẩn
Xin lỗi các nhà khoa học máy tính, nhưng ký hiệu học đã lấy mất sữa của các bạn rồi
Bản phim ngắn của tác phẩm gốc cũng rất hay: https://www.youtube.com/watch?v=T6JFTmQCFHg
Có sự tham gia của Tom Noonan và Ben Bailey
Đồng ý. Việc transformer đơn giản là có thể nói chuyện thực sự khá kỳ lạ, nhưng giờ thì nó đã bị bình thường hóa quá mức
Chúng ta chỉ nói về tác động mà chúng có thể gây ra hoặc liệu chúng có thực sự làm được điều mọi người nói hay không, chứ không mấy khi nói về việc bản thân chuyện chúng có thể nói đã điên rồ đến mức nào
Tôi chưa từng nghĩ điều như thế này lại có thể xảy ra trong đời mình
https://web.mit.edu/people/dpolicar/writing/prose/text/think...
Chỉ riêng đại số tuyến tính thì thực sự là không thể
Bạn cần tính phi tuyến để có được khả năng biểu đạt như thấy ở LLM
Thú vị đấy
Đây không chỉ là một lời tri ân tới Terry Bisson, mà còn thêm vào một chiều kích mới cho văn bản của ông ấy. Làm tốt lắm
Không chỉ có trọng số. Còn có cả độ chệch nữa!