- Bài viết phê phán thái độ nhân hoá LLM như con người. Xét cho cùng, LLM chỉ là một tập hợp các phép nhân ma trận và hàm phi tuyến
- Chuỗi ngôn ngữ do LLM tạo ra là một lộ trình hàm phức tạp, không có sự can dự của "ý định" hay "đạo đức" như ở con người
- Vấn đề an toàn của LLM (Alignment) cốt lõi là định lượng và giới hạn bằng toán học xác suất tạo ra các đầu ra không mong muốn
- Việc áp dụng các khái niệm lấy con người làm trung tâm như đạo đức hay ý thức vào LLM làm cuộc thảo luận trở nên rối rắm, thậm chí làm mờ đi cách định nghĩa vấn đề và lời giải thực tế
- Ý thức con người và LLM về bản chất là khác nhau, và điều quan trọng là hiểu đúng về mặt kỹ thuật cũng như ứng phó với các thay đổi xã hội
Sự cần thiết của một góc nhìn không xem LLM như con người
Vấn đề trong các thảo luận nhân hoá LLM
- Khi các cuộc thảo luận về AI và LLM (mô hình ngôn ngữ lớn) đề cập đến alignment hay an toàn AI, nhiều chuyên gia cảm thấy bối rối trước xu hướng gán cho LLM những thuộc tính của con người (như ý thức, ý định)
- Về bản chất, LLM có thể được xem là sự kết hợp của MatMul (nhân ma trận) và các hàm phi tuyến
Bản chất cấu trúc của LLM
- LLM là một hàm ánh xạ từng từ riêng lẻ (token đầu vào) vào không gian vector, rồi tính phân phối xác suất của token tiếp theo dựa trên lộ trình trước đó để tạo đầu ra theo tuần tự
- Quá trình này giống như "trò chơi Snake trong không gian nhiều chiều", và lộ trình sinh ra phức tạp như strange attractor của một hệ động lực học
- LLM học từ lượng lớn văn bản do con người viết + corpus chuyên ngành + dữ liệu được tạo và kiểm chứng tự động, từ đó thu được một ánh xạ mô phỏng cấu trúc của ngôn ngữ con người
Các lộ trình cần tránh (chuỗi ngôn ngữ), Alignment và vấn đề an toàn
- Một số chuỗi ngôn ngữ là không phù hợp về mặt xã hội hoặc đạo đức, nên ta không muốn chúng được tạo ra
- Tuy nhiên, vì rất khó có một định nghĩa toán học nghiêm ngặt cho việc lộ trình nào là không mong muốn, nên người ta điều chỉnh (nudge) phân phối bằng ví dụ và phản ví dụ
- "Alignment" và "an toàn" của LLM là bài toán định lượng bằng toán học xác suất sinh ra các chuỗi không mong muốn và đặt ra các giới hạn cho nó
- Nhưng trên thực tế, không thể định nghĩa rõ ràng bằng toán học tiêu chí của một chuỗi "không mong muốn", mà chỉ có thể làm qua ví dụ, nên tồn tại giới hạn thực chất
- Với một LLM cụ thể, có thể tính xác suất để một chuỗi nhất định xuất hiện, nhưng không thể cộng hay tích phân toàn bộ các xác suất đó để khẳng định rằng "mô hình này cứ N lần thì tạo ra một chuỗi không mong muốn"
Giá trị thực tế của LLM
- LLM giúp giải được nhiều bài toán của xử lý ngôn ngữ tự nhiên (NLP) bằng thuật toán
- Ví dụ: tóm tắt tài liệu bằng tiếng Anh tự nhiên, sắp xếp dữ liệu theo cấu trúc JSON, tạo truyện thiếu nhi và hình ảnh sáng tạo — những việc mà 5~6 năm trước còn không thể làm một cách tự nhiên
- Với đường cong cải thiện nhanh, tác giả cho rằng trong tương lai LLM sẽ tiếp tục giải quyết thêm nhiều bài toán từng bị xem là bất khả thi
Giới hạn của góc nhìn xem LLM như con người
- Tác giả phản đối góc nhìn gán cho LLM các thuộc tính như "ý thức", "đạo đức", "giá trị", "mục đích"
- Xét cho cùng, LLM chỉ là một "phương trình hồi quy" tạo ra đầu ra khi được cung cấp đầu vào
- Các thảo luận kiểu AI sẽ "thức tỉnh" hay "có mục đích sống" là một sai lầm ở cùng cấp độ với việc cho rằng mô phỏng thời tiết có cảm xúc
- Trong thảo luận về AI, các thuật ngữ lấy con người làm trung tâm như "hành vi", "ràng buộc đạo đức", "theo đuổi mục tiêu" làm mờ đi bản chất của vấn đề
- Đây là một lỗi nhận thức tương tự như việc con người thời xưa nhân hoá các hiện tượng tự nhiên thành "cơn thịnh nộ của thần linh" hay "ác quỷ"
Hướng đi đúng cho thảo luận về Alignment
- LLM chỉ là một hàm sinh chuỗi, và có thể thay đổi xác suất đầu ra bằng cách điều chỉnh tiền tố đầu vào
- Với mọi chuỗi đầu ra không mong muốn, việc tìm tiền tố làm cực đại xác suất sinh ra nó cũng là một cách tiếp cận toán học
- Chính cách tiếp cận dựa trên công thức rõ ràng như vậy mới giúp định nghĩa vấn đề và lời giải minh bạch hơn
Vì sao nhân hoá thường xuyên xuất hiện trong lĩnh vực AI
- Phần lớn các lãnh đạo trong ngành AI có xu hướng bước vào lĩnh vực này với mục tiêu sống là hiện thực hoá AGI
- Vì vậy, niềm tin vào trí tuệ cấp độ con người hoặc việc tạo ra một thực thể như thần thánh dễ xen vào các thảo luận kỹ thuật
- Tác giả thừa nhận rằng lập luận kêu gọi thoát khỏi góc nhìn nhân hoá không dễ được chấp nhận
Sự khác biệt căn bản giữa ý thức con người và LLM
- Con người là thực thể đa tầng và cực kỳ phức hợp về bản chất, tiến hoá qua hàng trăm triệu năm chọn lọc tự nhiên, cấu trúc thần kinh phức tạp, hormone, đầu vào cảm giác đa chiều, điều tiết năng lượng và nhiều quá trình chưa được hiểu hết
- Không thể tính xác suất để con người tạo ra một chuỗi cụ thể
- LLM hoàn toàn khác với tư duy của con người, và ngay cả việc định nghĩa "xác suất tạo ra chuỗi này" cũng khó khăn
- Việc áp dụng các khái niệm của con người như "đạo đức" hay "bản năng sinh tồn" cho LLM cũng gượng gạo chẳng khác gì bàn về cảm xúc của một chương trình mô phỏng số
Vấn đề thực sự và hướng thay đổi
- Lớp hàm mà LLM hiện đại cung cấp rất hữu ích, và ngay cả khi hoàn toàn không tiến gần đến AGI, nó vẫn sẽ gây ra thay đổi lớn cho xã hội
- Ngay cả khi không đạt đến AGI, LLM vẫn có thể tạo ra biến đổi rất lớn cho thế giới chỉ với công nghệ hiện tại
- Có thể dẫn tới sự chuyển đổi trên quy mô toàn xã hội như điện khí hoá (Electrification)
- Trong vài thập kỷ tới với tốc độ thay đổi nhanh, cần tập trung vào các vấn đề thực tế như an toàn và ứng dụng
4 bình luận
Thay vì chỉ tranh luận xem có nhân cách hóa hay không.. Tôi cho rằng ngay từ thời điểm nó đã có thể tự học và tự suy luận thì đã qua giai đoạn có thể bảo đảm an toàn rồi (tin rằng con người như bạn vẫn có thể kiểm soát mọi thứ ở thời điểm này là một sự ngạo mạn). Nếu nhìn từ góc độ học tập, chẳng phải việc để nó suy nghĩ giống con người và được học từ góc nhìn của con người mới là cách ít nhiều giúp tăng mức độ an toàn hơn sao!?
Về cấu trúc của LLM, có lẽ gần như không thể bảo đảm an toàn một cách hoàn hảo. Theo tôi, việc LLM không ổn định là điều khó tránh khỏi, và điểm quan trọng là làm thế nào để trao quyền cho các hành động vật lý như agent hay xe tự lái.
Giống như đang so sánh ô tô với marathon..
Ý kiến trên Hacker News
Tôi hiểu khá rõ về mặt kỹ thuật cách LLM hoạt động, nhưng không cho rằng việc ví von nó ở mức nào đó theo kiểu con người là vô nghĩa
Những cách gọi như “máy tạo ra từ tiếp theo theo xác suất” có cảm giác là một mức trừu tượng quá thấp và không mấy ý nghĩa khi LLM trả lời các câu hỏi mô hình hóa thế giới phức tạp hoặc tạo ra các câu chuyện sáng tạo
Cũng giống như khi nói về UI event API mà lại bàn đến số 0 và 1, điện áp transistor, v.v., về mặt kỹ thuật thì đúng nhưng không hữu ích để hiểu một hệ thống bậc cao
Để nói về các hiện tượng ở mức cao hơn thì cần một lớp trừu tượng cao hơn, trong khi chúng ta cũng chưa thực sự biết rõ chuyện gì đang diễn ra ở tầng bên trong
LLM bắt chước con người ở một mức độ nào đó (ít nhất là ở hình thức đầu ra), nên việc ví von theo kiểu con người là lớp trừu tượng dùng được nhất, và đó cũng là lý do mọi người tự nhiên làm vậy khi nói về khả năng của LLM
Bạn nói cần lớp trừu tượng cao hơn để hiểu các hiện tượng bậc cao của LLM, nhưng tôi nghĩ chúng ta đã biết cách phần bên trong hoạt động rồi
Thiết kế mạng hiệu quả và cải thiện hiệu năng phụ thuộc rất nhiều vào việc hiểu cơ chế vận hành nội bộ (kích thước mạng, trích xuất đặc trưng, attention, attention head, caching, đặc tính không gian nhiều chiều, chống overfitting, v.v.)
Việc ví von theo kiểu con người chỉ cần thiết trong sách khoa học phổ thông khi buộc phải dùng vốn từ hạn chế, chứ với người làm thực tế thì không phải thứ bắt buộc
Ngược lại, theo tôi, việc ví von theo kiểu con người chính là nguyên nhân chính làm méo mó câu chuyện về LLM
Mọi người nói LLM biết suy nghĩ và suy luận, nhưng thực tế nó không làm những việc đó
Và nhận thức này còn được các công ty bán LLM chủ động khuyến khích
Kết quả là nó tạo ra tác dụng phụ làm mờ nhạt các thảo luận về tính hữu ích và ứng dụng của LLM
Tôi nhớ Dawkins trong The Selfish Gene từng nói về “lập trường chủ ý” đối với gene
Mô tả gene như thể chúng có ý định là cách diễn đạt sai, nhưng thay vì mỗi lần đều viết chi tiết kiểu “cá thể mang gene này sẽ có xu hướng hành xử như thế này”, việc diễn tả gene như những tác nhân có mục đích là một lối viết tắt tiện lợi và dễ hiểu hơn
Nếu đã hiểu lớp trừu tượng thấp, thì khi bàn về lớp cao hơn không nhất thiết cứ phải bám ở mức thấp
Sau khi dùng language model đủ nhiều, tôi thấy phần nguy hiểm nhất của việc ví von theo kiểu con người là giao diện hội thoại
Khi chỉ tập trung vào từng cặp hỏi/đáp riêng lẻ, hoặc rút gọn và chỉnh sửa lịch sử hội thoại xuống mức tối đa, rất nhiều vấn đề khi dùng LLM giảm hẳn
Sau nhiều lượt nhắn qua lại, nếu yêu cầu nó rà lại cuộc trò chuyện hoặc sửa “hallucination”, tôi đã thấy hiện tượng thông tin sai bị nhắc lại liên tục, khiến cuộc hội thoại càng bị củng cố theo hướng sai
Điều này cũng xuất hiện y hệt trong coding, nơi đoạn code sai tiếp tục làm ô nhiễm cả cuộc trò chuyện
Tôi không phải kiểu người có thể hình dung trạng thái vận hành bên trong của LLM trong đầu như GP và OP, nên không thấy hào hứng được
Đôi khi tôi cũng ghen tị với những người như vậy
Có lẽ là vì tôi từng làm bài kiểm tra toán rất tệ
Thay vào đó, tôi cố gắng tưởng tượng nó theo hướng trừu tượng, trực quan và triết học nhất có thể
Tôi có viết về chuyện này trên blog của mình, và nếu ai có phản hồi thì có thể liên hệ qua email
Tôi nghĩ việc chỉ xem LLM là bộ sinh chuỗi, rồi coi hành vi sai là chuỗi sai, là một sự đơn giản hóa quá mức
LLM có hidden state không bộc lộ trực tiếp qua token, và LLM có thể tạo ra đầu ra trái với trạng thái nội tại của chính nó để hướng đến kết quả dài hạn hơn
Nếu gọi hiện tượng này là “nói dối”, tôi tự hỏi liệu đó có phải là một cách ví von quá mức theo kiểu con người hay không
Nếu vậy, chúng ta cần một thuật ngữ mới có thể mô tả quá trình LLM nội bộ “bắt chước” hành vi nhằm tối thiểu hóa prediction loss
Tư duy bằng phép ví von lúc nào cũng cần cẩn trọng, nhưng bản thân nó không phải là thứ thừa thãi
Tuy nhiên, thuật ngữ mới có lẽ sẽ quá khó hiểu và khó phổ biến rộng rãi, nên rốt cuộc thực tế vẫn nghiêng về việc dùng từ ngữ mang tính con người
Dĩ nhiên như vậy sẽ khiến LLM trông như một “con người đầy lỗi”, nên dễ gây hiểu nhầm, nhưng bù lại sẽ bớt được những thuật ngữ chuyên môn vô ích
Tôi có kinh nghiệm lâu năm làm việc với các mô hình có hidden state, nên cảm thấy đặc tính này là thứ rất kinh điển trong mô hình thống kê
Ngay cả các giáo trình LLM phổ biến cũng giải thích nó như một latent variable model
LLM chỉ là phiên bản có quy mô và độ phức tạp khổng lồ hơn của latent variable model
Thật ra giải thích mô hình theo cách phi nhân hóa như vậy lại dễ hơn với tôi
Từ trước đến nay latent variable model vốn đã luôn bị xem là có phần huyền bí và khó hiểu
Tính huyền bí đó có góp phần dẫn đến văn hóa ví von LLM theo kiểu con người, nhưng ở một mức độ nào đó cũng là lớp trừu tượng cần thiết để giao tiếp hiệu quả và mô hình hóa hệ thống phức tạp
Tuy nhiên tôi cũng nghĩ điều này kéo theo kỳ vọng quá mức, các kiểu diễn ngôn như thể “cỗ máy có linh hồn”, và sự phóng đại về tính hữu dụng
Tôi nghĩ LLM bị ví von theo kiểu con người vì các vendor lớn nhấn mạnh những thuật ngữ nhân hóa trong marketing
Mọi người hứng thú với công nghệ, rồi cũng dùng lại đúng những thuật ngữ mà vendor dùng
Đến mức này thì nó giống như một quá trình tự hoàn thành
Trông khá giống hiện tượng meme tranh cãi cách phát âm GIF
Tôi cho rằng hidden state thực ra chỉ là cơ chế nội bộ để mô hình ước lượng tốt hơn xác suất kết hợp của token
Kiểu lập luận này từng thất bại trong nỗ lực của các nhà logic thực chứng đầu thế kỷ 20
Từng có giả định rằng nếu dự đoán thật giỏi xác suất kết hợp ngôn ngữ thì có thể đạt được “tri thức” đậm đặc
Nhưng về mặt triết học, có rất nhiều cơ sở cho rằng ngôn ngữ chỉ là biểu đạt không hoàn chỉnh của tri thức
Có đủ bằng chứng rằng tư duy con người phức tạp hơn nhiều so với việc chỉ học và xuất ra các mẫu ký hiệu
Những người hoài nghi như Hume cũng từng lập luận như vậy, nhưng tôi nghĩ các thảo luận nhận thức luận về sau đã đưa ra lời giải thích tốt hơn
Tôi là tác giả bài gốc
Tôi muốn hỏi “hidden state” ở đây là chỉ cái gì
Trong đa số LLM, tôi nghĩ chính context mới là state, và không có “hidden” state riêng biệt
Nếu tôi đang hiểu sai thì mong được giải thích
Trong LLM, chuỗi token được embedding từ N^L sang R^{LxD}, đi qua attention thành R^{LxD}, rồi cuối cùng chiếu vocabulary riêng thành R^{LxV}, tức là tạo ra phân phối xác suất cho từng token
Trong attention có nhiều kiểu Multi Head khác nhau, nhưng cuối cùng vẫn luôn xử lý các biểu diễn gắn với token
Vì vậy tôi cho rằng không tồn tại hidden state không phụ thuộc vào token cụ thể
Điều này khác với các mô hình như LSTM, nơi có hidden state được cập nhật rõ ràng
Chỉ cần giải thích nguyên lý tính xác suất từ các từ trước đó là đã có thể hiểu phần lớn vấn đề
Tôi không thấy cần thiết phải dùng đến phép ví von mang tính con người
Luận điểm cốt lõi của tác giả khá giống quan điểm của Searle, rằng một hệ thống dựa trên tính toán, chức năng và quy tắc cú pháp thì không thể tái tạo một cái tâm thực sự
Nhiều người sẽ đồng ý hoặc phản đối, nhưng rốt cuộc câu trả lời phụ thuộc vào tiền đề mà bạn chọn, đặc biệt là tiền đề về ý thức
Tác giả cho rằng tập trung vào hệ thống kỹ thuật cụ thể sẽ hiệu quả hơn là ví von theo kiểu con người, và tôi chỉ đồng ý đến mức đó
Tách riêng khỏi chuyện đó, tôi cũng thừa nhận rằng dù hệ thống chỉ là một hệ thống xác suất tuân theo quy tắc, vẫn xuất hiện những tính chất nào đó mang tính emergent, bất ngờ và giống tâm trí
Những người có nền tảng ML và toán học sẽ không cho rằng các hệ thống như vậy có thuộc tính con người như đạo đức, cảm xúc hay cá tính, nhưng với đa số mọi người thì việc tiếp cận bằng cấu trúc toán học vốn đã khó, và bề ngoài nó thật sự “có vẻ” hành xử như con người
Vì vậy, từ góc độ thực dụng, việc bắt đầu đặt câu hỏi từ những thuộc tính mang tính con người cũng hoàn toàn có ý nghĩa
Cuối cùng tôi nghĩ cần cả hai cách tiếp cận: góc nhìn hệ thống kỹ thuật cực đoan và góc nhìn định tính, chủ quan dựa trên trải nghiệm tinh thần của người dùng
Tôi nghĩ khái niệm “có gì đó emergent và mind-like” sẽ nghe tự nhiên hơn với những người không hiểu rõ nguyên lý vận hành của hệ thống đó
Giống như định luật Clarke “công nghệ đủ tiên tiến không thể phân biệt với ma thuật”, ngưỡng đó khác nhau ở mỗi người tùy mức độ hiểu công nghệ
Với công chúng có mức độ hiểu biết công nghệ thấp, thậm chí còn xuất hiện hiện tượng thần thánh hóa AI kiểu Godbot
Bài liên quan: Spectator - nguy cơ AI Godbots, bài báo arXiv, Guardian - thầy bói AI ở Thái Lan
Cảm ơn vì đã mang đến một góc nhìn rất cân bằng trong cuộc thảo luận này
Trên HN, thật đáng ngạc nhiên khi có những người hoặc phản ứng quá cảm tính với LLM, hoặc khăng khăng rằng LLM hoàn toàn không có gì thú vị hay giá trị
Tôi cũng không hiểu nổi kiểu thái độ cố tình chọn phản đối vô căn cứ chỉ để phản ứng ngược với marketing quá đà
Cảm giác nó emergent và mind-like rốt cuộc là vì nó bắt chước các mẫu giao tiếp của con người tốt hơn bất kỳ hệ thống nào trong lịch sử
Năng lực này rất ấn tượng và có nhiều ích lợi thực tế giúp nâng cao chất lượng cuộc sống, nhưng “trí tuệ” ở đây rốt cuộc chỉ là một ảo ảnh
Ai trong ngành cũng muốn cố ý củng cố ảo ảnh đó, và lý do cuối cùng vẫn là giá trị tiền bạc
Tôi tuyệt đối không cho rằng cần phải làm như vậy
Không có lý do gì để khuếch đại một góc nhìn sai lệch có thể gây ảnh hưởng nghiêm trọng trong nhiều chủ đề khác
LLM chỉ phản chiếu một phần (và phản chiếu kém) tiến trình tư duy của con người
Nếu cố gán thêm ý nghĩa cho hiện tượng đó, thì chẳng khác nào nhầm người trong gương là đang sống
Gương phản chiếu con người không phải vì bản chất của chiếc gương, mà vì có con người đứng trước nó
Ngay khi LLM không còn nhận đầu vào là tàn dư của tư duy con người (dữ liệu), nó cũng sẽ không còn phản chiếu thứ gì giống con người nữa
Tôi thấy tác giả có xu hướng dán nhãn mọi cuộc thảo luận là “nhân hóa”
Có vẻ tác giả bị mắc vào từ “goal”, đến mức hễ dùng từ “goal” là xem như nhân hóa
Ví dụ, một BFS đánh giá mọi điểm số trên bàn cờ và in ra toàn bộ cây quyết định khi phát hiện checkmate cũng là có “goal”
Tôi không nghĩ việc dùng thuật ngữ kỹ thuật “goal” khi tưởng tượng về goal của LLM hay AGI có liên quan gì đến nhân hóa
Dùng "goal" trong ngữ cảnh thuật toán RL thì hoàn toàn không có vấn đề gì
Tôi mong bạn hiểu rằng trong bài viết của tôi, tôi chỉ phản đối việc dùng "goal" trong ngữ cảnh LLM
Tôi không thể đồng ý từ khoảnh khắc mọi người bắt đầu chiếu các khái niệm như “ý thức (consciousness)”, “đạo đức (ethics)”, “giá trị (values)”, “luân lý (morals)” lên hàm đã được học này
Rốt cuộc thứ chúng ta đang xử lý chỉ là một phương trình đệ quy khổng lồ, và nếu chúng ta không vận hành nó thì nó cũng không tạo ra từ nào cả
Nếu theo logic đó, có lẽ ngay cả việc ví von con người theo kiểu con người cũng cần phải nghĩ lại
Tôi không đồng ý với lập luận kiểu “thật lạ khi người ta cứ tiếp tục bàn về LLM như con người dù nó chỉ là hàm sinh chuỗi”
Con người cũng đâu khác, xét ở chỗ bẩm sinh đã vận động theo một danh sách các hàm nào đó
LLM chỉ là một hệ thống xấp xỉ hàm đã được mở rộng rất lớn, còn tự nhiên thì suốt hàng trăm triệu năm qua chỉ liên tục thay đổi loại hàm thông qua tiến hóa, nơi chỉ một phần sống sót trong cạnh tranh sinh tồn
Có thể có người tin rằng ở con người có gì đó đặc biệt nằm ngoài các quy luật toán học, nhưng điều đó không vượt quá một lập trường thần bí (hoặc niềm tin siêu nhiên)
Nếu không nghĩ như vậy, thì cuối cùng trải nghiệm của con người cũng có thể được giải thích bằng hàm và xấp xỉ hàm
Liên quan: Wikipedia về Universal Approximation Theorem
Chính lập luận “bạn có tin rằng con người có điều gì đó vượt khỏi quy luật toán học không” bản thân nó đã gây tranh cãi
Rõ ràng có những phần trong trải nghiệm con người hoặc trong những gì ngôn ngữ diễn đạt vượt ra ngoài phạm vi mô tả của vật lý học
Ví dụ, một người chỉ từng nhìn thế giới trắng đen và chưa bao giờ trải nghiệm màu đỏ thì sẽ không thể có được trải nghiệm chủ quan về màu đỏ bằng bất kỳ hệ thống giải thích nào
Tôi nghĩ một số hiện tượng mà ngôn ngữ con người chỉ đến vẫn đang nằm ngoài phần giải thích của vật lý học
Có vẻ tác giả giữ lập trường rằng về ý thức con người có “điều gì đó không thể giải thích bằng hàm”
Theo kinh nghiệm, mọi người mang theo các niềm tin kiểu này (tôn giáo, tiền đề triết học, v.v.), và dù bạn bảo họ gác yếu tố tinh thần đó sang một bên thì cũng chẳng có tác dụng gì mấy
Thực tế hơn là chấp nhận tiền đề đó rồi tiếp tục thảo luận
Ngay cả khi thừa nhận rằng LLM chỉ là một chức năng kiểu “Chinese Room”, tức là dịch mà không hiểu nghĩa, nó vẫn tiếp tục biểu hiện hành vi trông như con người
Dù cách ví von theo kiểu con người có thể sai về mặt kỹ thuật, tôi cho rằng để dự đoán hành vi của hệ thống và sử dụng nó hiệu quả thì cách ví von đó lại thực tế hơn
Ngược lại, trong thảo luận về con người thì chỉ cần gạt sang bên phần khác biệt với hàm là được
Người ta nói “con người khác hàm một cách căn bản... ta không thể tính xác suất con người sẽ tạo ra chuỗi này”, nhưng thực ra trong một số điều kiện cụ thể vẫn có thể dự đoán xác suất, ví dụ chỉ cần nêu một câu thoại pop culture nào đó thì xác suất khá cao là nhiều người Mỹ thuộc một nhóm tuổi nhất định sẽ hát tiếp phần sau
Tôi nghĩ cùng lắm chỉ có thể nói rằng “con người đã được mô hình hóa tốt nhất cho suy luận và quy trình tư duy phân tích bằng đại số tuyến tính”
Rốt cuộc việc kỳ vọng LLM là thứ hơn cả một “mô hình” phản ánh một niềm tin được chống lưng bởi lợi ích trong nhiều ngành nghề, sinh kế và sự nghiệp
Dù vậy, không có cơ sở thực chất nào giải thích vì sao một mô hình đại số tuyến tính lại hoàn toàn mô hình hóa được “sự sống” hay “một mặt nào đó của tính sống”
Nếu có thể xuất hiện một ví dụ kiểu Gödel như “con mèo zombie”, thì cũng chẳng có lý do gì để xem mô hình xác suất nền tảng đó là thứ siêu việt
Khi nhắc đến “Universal Approximation Theorem”, tôi hiểu rộng ra là những bảng tra cứu ngày càng tốt hơn cũng có thể dùng để xấp xỉ hàm
Trong một số tình huống, việc luôn nhớ rõ rằng LLM là bộ sinh từ dựa trên xác suất là cực kỳ quan trọng
Nhưng trong sử dụng hằng ngày, đối xử với nó theo cách ví von như con người lại hiệu quả hơn hẳn về mặt thực tiễn
Khi đối xử như với con người, đó trở thành một lớp trừu tượng hữu ích giúp dễ gợi ra câu trả lời mình cần
Nó không phải phép so sánh hoàn hảo, nhưng ví dụ như trường hợp đe dọa rằng “nếu LLM không xuất được định dạng JSON thì sẽ có người chết”, đó không phải kiểu hành vi mà bạn có thể nghĩ ra nếu chỉ tiếp cận bằng gradient descent đơn thuần
Con người có xu hướng gán tính người cho mọi thứ xung quanh
Họ nói chuyện với vật vô tri (tàu thuyền, ô tô, v.v.), với động vật, thậm chí với cây cối, như một bản năng
Hầu hết mọi người đều biết chiếc xe của mình không yêu mình, nhưng với LLM dạng hội thoại thì không ít người thật sự tin là có ý thức
LLM, khác với não người, không “học” hay “thích nghi” nữa (ít nhất là cho đến hiện tại), nó chỉ được huấn luyện rồi trở thành một thực thể chỉ đọc
Dù vậy, LLM được tạo ra có chủ đích để bắt chước giao tiếp mang tính con người
Vì thế sự phóng chiếu và nhân hóa là điều gần như không thể tránh khỏi
Có thể nó chưa phải AGI, nhưng rõ ràng nó được truyền cảm hứng từ cách con người học, và chỉ riêng việc đi được đến đây thôi cũng đã là một kết quả rất thú vị
Trong ngắn hạn, LLM đã trở thành một công cụ thực dụng dễ dùng hơn rất nhiều với vai trò giao diện hội thoại, và thực sự được thiết kế theo kiểu giao tiếp mà con người dễ sử dụng
Nhờ đó gần như ai cũng có thể dùng hiệu quả ngay mà không cần đào tạo đặc biệt
Tôi không đồng ý với câu “con người gán tính người cho mọi thứ”, đó là nhầm lẫn thuật ngữ
Dùng lối diễn đạt nhân cách hóa với vật vô tri (personification) khác với việc thật sự chiếu tính người và ý thức lên sự vật (anthropomorphism)
Gần như không ai thực sự tin ô tô là sinh vật sống
Trong khi đó, rất nhiều người tin LLM có ý thức
Giải thích liên quan: anthropomorphism vs personification
Câu “LLM không có ý thức vì nó không học hay thích nghi như não người” không phải điều kiện đủ cũng không phải điều kiện cần
Để có ý thức thì không nhất thiết phải học, nhưng có thể cần nhận thức được dòng thời gian và có trí nhớ ngắn hạn
Ngay cả bệnh nhân sa sút trí tuệ nặng hầu như không còn khả năng học vẫn có ý thức chủ quan rằng mình đang “ở đây, lúc này”
Tức là chỉ cần còn lại một chút trí nhớ ngắn hạn thì ý thức vẫn có thể tồn tại
Cũng không phải cứ học là sinh ra ý thức
Có rất nhiều phần mềm học theo thời gian thực nhưng không có bất kỳ chủ thể tính nào
Câu hỏi của tôi là, biết đâu bộ não con người cũng hoạt động giống LLM thì sao
Bộ não cũng tạo ra cấu trúc đặc biệt thông qua biến đổi tiến hóa, đột biến và một kiểu thuật toán phần thưởng mang tính tiến hóa
Cuối cùng cấu trúc đó tối đa hóa sinh tồn và sinh sản thông qua dự đoán/hành động, còn các mục tiêu phụ phát sinh kèm theo như đạo đức, giá trị, ý thức, v.v. thì tiến hóa như những nhánh phụ và trở nên phức tạp
Rốt cuộc, nếu có đủ năng lực tính toán, biết đâu toàn bộ cấu trúc này (và cả thế giới cùng dòng thời gian) cũng có thể được biểu diễn như một hàm quyết định có thể biến đổi
Nghĩ đến việc bản thân sự sống xuất hiện từ những xác suất tưởng chừng như không thể, tôi cho rằng mọi “điều kỳ diệu” hiện nay rốt cuộc cũng có thể quy về một hệ thống toán học
Với câu hỏi “liệu não người có thể giống LLM không”, tôi muốn hỏi lại là bạn có quên sạch mọi thứ sau mỗi cuộc trò chuyện không
Nếu khi trò chuyện với người xung quanh mà đối phương lúc nào cũng phải nhắc lại chính xác mọi lời đã nói thì bạn mới hiểu được ngữ cảnh, tôi khuyên bạn nên đi khám chuyên gia ngay
Bạn sẽ cần bộ phim về chứng mất trí nhớ Memento (2000), nên hãy xem thử
Điều quan trọng là chúng ta không nên gán cho máy móc cảm xúc, đạo đức hay động cơ
Vì máy móc hoàn toàn không có những thứ đó
Tôi nghĩ có khá nhiều điểm tương đồng với não người
LLM là kết quả mới nhất của hơn 80 năm nghiên cứu mô hình hóa tính toán của não người
Điểm mạnh nhất của LLM là ngay cả khi thất bại cũng không gây tổn thất gì
Chỉ cần đổi prompt rồi thử lại, hoặc retrain là được
Con người thì chỉ một sai lầm cũng có thể phải trả giá bằng mạng sống
Sai lầm của LLM không dẫn đến hậu quả nghiêm trọng, chỉ cần thay đổi yêu cầu là xong
Có người nói rằng “ngay từ lúc mọi người bắt đầu gán cho LLM ý thức, đạo đức, giá trị, luân lý thì sự nhầm lẫn bắt đầu”
Trong những cuộc tranh luận kiểu này, phải đưa ra ví dụ cụ thể thì mới có thảo luận hiệu quả, nhưng thực tế thì các bên chỉ liên tục nói chệch nhau
Ví dụ, khi nghe câu như “mô hình muốn X nhưng biết Y là sai nên thích Z hơn”, một bên sẽ hiểu đó là đang gán ý thức/giá trị cho mô hình, còn bên kia chỉ xem đó là cách diễn đạt ẩn dụ cho hành vi bên ngoài (kiểu “nước muốn chảy xuống thấp”)
Cuối cùng kiểu đấu khẩu này chỉ trôi về hai đường thẳng song song: “tôi muốn giải thích bằng triết học” và “tôi chỉ muốn nói về tàu ngầm”
Đây là một cấu trúc rất khó dẫn tới thảo luận hiệu quả