- Việc đánh giá nhân hoá trong nghiên cứu LLM đặt ra vấn đề rằng khi gán hoặc giả định các thuộc tính giống con người cho đầu ra của mô hình, cách diễn giải có thể bị chi phối bởi hình thức biểu đạt mà không có tiêu chí đo lường rõ ràng
- Trường hợp triển khai và huấn luyện một mạng nơ-ron đơn giản bên trong Age of Empires II là bằng chứng cho thấy nếu substrate (nền vật chất thực thi) đủ mạnh, có thể hiện thực các thực thể tương đương với LLM
- Lập luận cho rằng một số thuộc tính như sự tương ứng giữa prompt và đầu ra có thể được giữ nguyên, nhưng cách diễn giải hành vi được cảm nhận hay chất lượng phi nhân hoá có thể thay đổi theo substrate
- Nếu tiến hành thí nghiệm với tiền đề rằng các thuộc tính nhân hoá khái quát hoá là có hoặc không có, kết luận sẽ trở nên vòng tròn hoặc ít giá trị thông tin
- Để có thảo luận mang tính thực nghiệm, cần có tiêu chí đo lường minh thị và tuyên bố rõ đối tượng nào được khái quát hoá qua các substrate, với mặc định là giả định LLM không mang tính độc hữu
Tóm tắt
- Có nhiều nghiên cứu về LLM và các quy trình agent dựa trên LLM, nhưng một số nghiên cứu nói đến sự xuất hiện của các thuộc tính nhân hoá khái quát như đạo đức hay hiểu ngôn ngữ tự nhiên, hoặc gán cho chúng, hoặc giả định sự tồn tại của chúng
- Mục tiêu cốt lõi không phải là tranh luận ủng hộ hay phản đối việc LLM có các thuộc tính như vậy, mà là chỉ ra rằng các kết luận như thế có thể sai
- Sau khi tạo và huấn luyện một mạng nơ-ron đơn giản trong Age of Empires II, tác giả cho thấy bất kỳ thực thể nào trên một substrate đủ mạnh như LEGO hay Greater Boston Area cũng có thể biểu hiện các thuộc tính đó
- Các thuộc tính nhân hoá của LLM không độc hữu về mặt thực nghiệm; một số thuộc tính như phản hồi với prompt có thể giữ ổn định, nhưng các thuộc tính khác như cách diễn giải hành vi được cảm nhận có thể thay đổi theo substrate
- Thảo luận dựa trên kinh nghiệm cần có tiêu chí đo lường minh thị; nếu không, cách diễn giải sẽ bị giao cho hình thức biểu đạt quyết định
- Nếu giả định sự tồn tại hoặc vắng mặt của các thuộc tính khái quát hoá độc lập với substrate, thì kết luận sẽ rơi vào vòng tròn hoặc có ít thông tin, bất kể quan điểm của người làm thí nghiệm
- Giả định cơ bản là giả định ‘null’ về LLM không độc hữu, thay vì xây dựng thí nghiệm trên tiền đề có sẵn các thuộc tính nhân hoá
- Chứng minh rằng Age of Empires II là đầy đủ hàm và Turing-complete
Giới thiệu
- LLM là công nghệ tương đối mới nhưng đã được sử dụng rộng rãi, đồng thời vẫn chưa được hiểu đầy đủ
- Những năng lực và khả năng giao tiếp mang vẻ ngoài giống con người của LLM là các yếu tố khiến con người nhân hoá LLM
- Các hệ thống hội thoại thuyết phục như ELIZA đã tồn tại hơn nửa thế kỷ, nhưng chatbot dựa trên LLM là những thực thể có năng lực chưa từng có tiền lệ, cần được giải thích từ một điểm khởi đầu quen thuộc
- Trong bối cảnh đó, đã có các đánh giá trong những lĩnh vực như lý thuyết tâm trí, học tập và hiểu biết, hay tâm lý học, với kết quả rất đa dạng
- Một số nghiên cứu kiểm tra và gán cho LLM những thuộc tính giống con người mang tính bao quát như lo âu hay đạo đức, đồng thời đặt LLM vào vị trí đối tượng trung tâm của thí nghiệm
- Dù kết quả đánh giá là tích cực hay tiêu cực, giả định cốt lõi rằng LLM có các thuộc tính nhân hoá vẫn ảnh hưởng đến thiết kế bộ kiểm tra, cách diễn giải đầu ra ngôn ngữ tự nhiên, và cả giả thuyết không
- Những giả định như vậy có thể tác động trực tiếp đến kết luận và làm méo mó kết luận
- Cách tiếp cận trong nghiên cứu LLM mà coi sự tồn tại hoặc vắng mặt của các thuộc tính nhân hoá chung là một phần của phép đo là một cách tiếp cận có khiếm khuyết căn bản
Age of Empires II và tính không độc hữu của substrate
- Việc hiện thực và huấn luyện mạng nơ-ron bên trong Age of Empires II có thể trông như một bài tập thú vị không liên quan đến vấn đề nhân hoá LLM
- Việc hiện thực này ngay lập tức hàm ý rằng nếu substrate đủ mạnh thì có thể hiện thực những thực thể tương đương với LLM, và việc hiện thực đó có thể thay đổi biểu hiện của LLM, từ đó ảnh hưởng đến các thuộc tính được cảm nhận
- Nếu LLM đủ hiệu quả trong việc mô phỏng ở một mức độ nào đó các thuộc tính nhân hoá, thì sự mô phỏng đó, hoặc hành vi nhân hoá thực sự tùy theo lập trường quan sát, không phải là điều chỉ riêng thực thể LLM bên trong máy tính mới có
- LLM là không độc hữu; các hiện thực trên substrate khác có thể bảo toàn một số thuộc tính như ánh xạ prompt-đầu ra, nhưng có thể không bảo toàn chất lượng phi nhân hoá
- Kết quả là cách cảm nhận và diễn giải những phẩm chất đó cũng sẽ khác đi
- Thảo luận dựa trên quan sát thực nghiệm cần có tiêu chí đo lường minh thị và phát biểu rõ ràng về việc khía cạnh nào cần được khái quát hoá vượt qua substrate
Vấn đề của các giả định và giả định ‘null’
- Nếu một nhà khoa học chấp nhận một khung lý thuyết như lý thuyết tâm trí theo hướng tính toán luận như một lập trường diễn giải, và cho rằng thuộc tính đó có thể tồn tại trong hệ thống bất kể substrate, thì kết luận sẽ trở nên thiếu vững chắc
- Nếu chấp nhận khung lý thuyết đó để đưa ra các tuyên bố khái quát hoặc không khái quát về các thuộc tính nhân hoá, thì kết luận sẽ trở nên vòng tròn hoặc ít giá trị thông tin
- Kết quả tương tự cũng đúng ngay cả khi khung lý thuyết đó bị bác bỏ
- Việc kiểm định một giả thuyết nhằm chứng minh hoặc bác bỏ sự tồn tại hay vắng mặt của các thuộc tính nhân hoá khái quát, trong khi trước đó đã giả định chính sự tồn tại hoặc vắng mặt của thuộc tính đó, là một cách làm có vấn đề
- Những kết luận tích cực hoặc tiêu cực rút ra từ các thí nghiệm như vậy không thể hỗ trợ cho tuyên bố tương ứng
- Vấn đề này là độc lập với tính hợp lệ của khung lý thuyết, với việc chấp nhận hay bác bỏ nó, và với lựa chọn khung lý thuyết
- Những giả định như vậy có thể không được bộc lộ một cách minh thị; ví dụ, một bài báo cho rằng LLM không có khả năng “tự mô tả chính mình” một cách đúng thực tế đã ngầm giả định một mức độ tự nhận thức nào đó
- Nếu không đưa ra tuyên bố về khả năng khái quát hoá và không dùng các giả định như vậy, thì thuộc tính tương ứng có thể được đo lường gần đúng một cách trung thực
- Giả định ‘null’ phản ánh tính không độc hữu của LLM bằng cách không đưa ra bất kỳ phát biểu nào về sự tồn tại hay vắng mặt của các thuộc tính nhân hoá trong hệ thống
1.1 Đóng góp
- Mục tiêu không phải là bàn về việc các thuộc tính nhân hoá có tồn tại trong LLM hay không, tính hợp lệ của lý thuyết tâm trí, hay các hàm ý của ý thức và vấn đề tâm-thân liên quan đến AI
- Việc thảo luận về sự tồn tại của các thuộc tính nhân hoá đòi hỏi phép đo được định nghĩa rõ; còn với ý thức hay vấn đề tâm-thân thì không có giao thức thí nghiệm hay trường phái nào được chấp nhận rộng rãi
- Việc cung cấp một LLM hoạt động dựa trên Age of Empires II cũng nằm ngoài phạm vi
- Mục đích chính là thúc đẩy thảo luận về các giả định và độ chính xác của các kết quả liên quan đến việc nhân hoá LLM
- Đặc biệt, trọng tâm là các trường hợp mà kết quả thí nghiệm, vốn được dùng làm tiền đề để hỗ trợ cho các kết luận đó, lại xuất phát từ giả định về sự tồn tại hoặc vắng mặt của các thuộc tính tương ứng
- Bài viết cũng bao gồm các phản biện tiềm năng và phần trả lời, một meta review nhỏ về các lĩnh vực liên quan đến nhân hoá, cùng với chứng minh về tính đầy đủ hàm và Turing-completeness của Age of Empires II
- Mục tiêu sau cùng là cung cấp đầu mối để xây dựng các thí nghiệm nghiêm ngặt có thể ủng hộ hoặc bác bỏ một cách thuyết phục sự tồn tại của các thuộc tính nhân hoá trong LLM, bất kể người đọc chọn quan điểm nào về quan hệ giữa tâm trí và máy móc
1 bình luận
Ý kiến trên Lobste.rs
Có thể đây là ý kiến ngớ ngẩn, nhưng tôi thực sự không hiểu rõ luận điểm. Lập luận nền tảng khá tầm thường, và như FAQ cũng thừa nhận, chỉ cần là một môi trường tính toán Turing-complete thì có thể triển khai LLM ở bất kỳ đâu, kể cả trong các cơ chế tích hợp sẵn của trò chơi điện tử
Nhưng từ đó họ lại cho rằng cần có một sự chuyển đổi lớn trong cách chúng ta nghĩ về LLM. Ví dụ, nếu sao chép một LLM vào trong AoE II rồi nhập “cô đơn”, và nó trả lời “Tiếc quá, hay bạn thử gặp bạn bè xem? Trong tình huống như thế này, sự gần gũi có thể giúp ích”, thì điều đó khó có thể thuyết phục tôi rằng AoE II-LLM ấy biết điều gì là hữu ích, hay thực sự có khả năng đồng cảm, hay rằng đầu ra của nó là đáng tin bất kể bản chất mô phỏng của hệ thống
Có thể đây là thiên kiến của một người quen với kỹ nghệ phần mềm và phần cứng, nhưng tôi hoàn toàn không cảm thấy có “bước ngoặt nhận thức” nào ở đây. Với tôi, “các card đồ họa trong datacenter đã tạo ra token này” và “một máy Turing trong trò chơi điện tử đã tạo ra nó” không mang lại cảm giác khác nhau
Tôi đồng ý 100% rằng rất khó đặt LLM vào mô hình thế giới của chúng ta, và rằng chúng ta có xu hướng nhân cách hóa LLM quá mức, nhưng tôi không hiểu bài báo này đóng góp gì để giải quyết vấn đề đó
Họ dường như đang mắc cùng một sai lầm. Sau khi chỉ ra rằng hệ thống — như người ở trong căn phòng tiếng Trung hay game engine — “chỉ” là một thực thể làm theo quy tắc, họ kết luận rằng vì thế không thể gán cho nó trí thông minh hay các thuộc tính mang tính con người nói chung
Nhưng tôi không nghĩ có thể lập luận rằng chỉ vì bạn quy giản một thứ thành các bộ phận không thông minh hoặc các quy tắc, thì toàn thể của nó sẽ bằng cách kỳ diệu nào đó đánh mất những thuộc tính có thể quan sát được
Dù sao thì tôi cũng chưa đọc toàn bộ lập luận của bài báo, nên chỉ là một bình luận viên Internet mà thôi
Tiếc là bài này không nói về AI thực sự của AOE2. AI của AOE2 dựa trên CLIPS, tức một hệ chuyên gia s-expression chạy trên RETE engine, và một người quen của tôi đã đào khá sâu vào nó, viết bài giới thiệu, bài giảng, thậm chí cả máy chủ chat khai báo
Tài liệu về AI của AOE2 có tại https://www.scribd.com/document/348253/CPSB và https://userpatch.aiscripters.net/reference.html. Ví dụ thì là kiểu đặt điều kiện chiến lược và mục tiêu theo luật, như ở đây
Phần tóm tắt có một lỗi gõ làm đổi nghĩa. Phải là “Age of Empires II in” chứ không phải “Age of Empires II on”
Bài báo nói rằng họ đã tạo và huấn luyện một mạng nơ-ron trong AoE 2, rồi lập luận rằng Lego hay Boston cũng có thể là nền vật chất cho mạng nơ-ron. Ví dụ liên quan đến vế đầu là Wang tiling, còn ví dụ liên quan đến vế sau là billiard-ball computers. Ý tưởng này cũng từng được hiện thực bằng bầy cua lính M. guinotae còn sống trong một bài báo năm 2011, nên đôi khi còn được gọi là “crab computers”
Hôm nay tôi mới biết AOEII là Turing-complete
Lẽ ra đây có thể là một bài blog thú vị, nhưng rốt cuộc lại thành một bài báo khoa trương khó đọc, có lẽ còn được tài trợ bằng tiền thuế, và chẳng giúp ích cho ai
Đọc đoạn này xong, tôi hối hận vì đã không làm theo linh cảm ban đầu rằng có lẽ nó chẳng đáng đọc
Tôi có nền tảng về triết học tâm trí, và khi nhìn các trích dẫn ở chương 2 thì đã đoán được bài báo sẽ triển khai kiểu lập luận nào. Nhưng đọc xong toàn bộ rồi mà tôi vẫn hoàn toàn không hiểu rốt cuộc bài báo này đang lập luận điều gì