- Con người có xu hướng tự nhiên nhận thức AI như ‘giống con người’, nhưng với khung nhìn này thì rất khó hiểu đúng các hành vi ảo giác và bất thường của LLM
- LLM không phải một nhân cách nhỏ bé mà gần với một ‘túi từ ngữ (bag of words)’ đầy những từ được cào về từ Internet và sách vở, với cấu trúc trả lại các cụm câu liên quan nhất tới đầu vào
- Tùy theo trong túi đã tích lũy bao nhiêu văn bản và dữ liệu, các lĩnh vực nó làm tốt (sự kiện, thống kê, nghiên cứu chất lượng thấp) và các lĩnh vực nó yếu (sự thật hiếm, đổi mới khoa học tương lai, ý tưởng thực sự hay) bị phân hóa rất rõ
- Khi đối xử với AI như con người, khung địa vị và trò chơi cạnh tranh lập tức được kích hoạt, khiến câu chuyện trôi về những câu hỏi như “ai giỏi hơn, ai thay thế ai”; nhưng nếu nhìn nó như một túi từ ngữ thì vị trí của nó hiện ra là một công cụ và bộ khuếch đại đơn thuần
- Cái tên ‘trí tuệ nhân tạo’ đang thúc đẩy các so sánh lấy con người làm trung tâm và làm lớn thêm sự lẫn lộn và ảo giác quanh khái niệm trí tuệ; kết luận là từ nay cần một ẩn dụ mới không áp khuôn con người lên những thứ không phải con người
Vì sao con người cảm nhận AI như con người
- Con người có thiên kiến nhận thức rất mạnh là tìm ra gương mặt, ý đồ và nhân cách ngay cả ở nơi không có khuôn mặt
- Đọc ra khuôn mặt Đức Mẹ Maria trên miếng grilled cheese, hay nhìn thấy mặt người trong lát cắt giun tròn và đống cá hoặc gia cầm là dạng nhận diện mẫu quá mức
- Giống như tranh của Arcimboldo, việc đọc ra “gương mặt ông lão” từ đống cá và gia cầm là phản ứng nhận thức quá nhạy ở chế độ mặc định
- Xét về tiến hóa, môi trường mà nhầm người thành đồ vật nguy hiểm hơn nhầm đồ vật thành người đã khiến điều đó trở nên an toàn hơn
- Lối nghĩ quy bệnh tật cho phù thủy, nhật thực hay núi lửa cho các thực thể siêu nhiên
- Mẫu diễn giải vô thức tạo ra lời giải thích kiểu “một con quỷ đang ngồi trên ngực bạn” thay vì “đang ở trạng thái REM nên vỏ não vận động bị ức chế” đối với hiện tượng bóng đè
- Các hành vi mà LLM thể hiện gần đây liên tục xung đột với ẩn dụ về “một con người nhỏ bé” này
- Nó bịa nguồn trong bài tập, đếm sai số chữ r trong
strawberry, và từng khuyên bôi keo dán gỗ lên pizza
- Những lỗi như vậy khó hiểu nếu xem như lỗi của con người, nhưng lại trông rất tự nhiên nếu xem nó là một hệ thống sinh tạo mang tính cơ học
- Cố hiểu LLM bằng các quy tắc tâm lý học của con người cũng giống như cố hiểu Scrabble bằng luật của Pictionary
- Các hệ thống này không hành xử như con người, và việc nói chúng không giống con người không phải lời chê trách mà chỉ là mô tả đơn thuần
- Chừng nào còn phóng chiếu nhận thức về nhân cách lên AI, sự ngạc nhiên và bối rối sẽ còn tiếp diễn
WHAT’S IN THE BAG: AI = túi từ ngữ (bag of words)
- AI là một túi từ ngữ chứa gần như mọi từ được nhặt từ Internet và sách vở
- Khi người dùng đặt câu hỏi, có thể hiểu rằng chiếc túi sẽ lấy ra những cụm từ liên quan nhất bên trong nó để trả lời
- Các công ty còn thêm vào đó những system prompt vô hình, tức “những từ vô hình”, để tạo ra cơ chế cho phản hồi nghe hợp lý hơn
- Ẩn dụ này đặc biệt hữu ích để hiểu sự dối trá và ảo giác của LLM
- Khi bị chỉ ra câu trả lời sai, nó lập tức tuôn ra những lời xin lỗi và cam kết thái quá, nhưng ngay câu sau lại tiếp tục sai hoặc tiếp tục nói dối
- Nếu lấy tiêu chuẩn con người thì điều này trông như hành vi hai mặt và lừa dối, nhưng nếu xem đó chỉ là kết quả của việc chiếc túi lấy ra “những câu thường dùng khi bị chỉ ra là nói dối” thì lại rất tự nhiên
- Cũng như ta không gọi việc máy tính bỏ túi thực hiện phép nhân là hành vi của con người, đây cũng không phải hành vi mà là mẫu đầu ra
- “Túi từ ngữ” cũng có thể dùng như một heuristic để dự đoán nó mạnh ở đâu và yếu ở đâu
- Với những sự kiện được ghi chép nhiều như “10 vụ tai nạn giao thông tệ nhất Bắc Mỹ”, trong túi có dữ liệu phong phú nên nó có thể trả lời tốt
- Ngược lại, những thông tin hiếm như “ai đã tái phân loại Brachiosaurus brancai và vào lúc nào” có ít văn bản trong túi nên khả năng trả lời sai rất cao
- Những câu hỏi như “bài học quan trọng nhất trong đời là gì?” thường cho ra câu trả lời hời hợt y như vậy, vì loài người đã viết quá nhiều loại văn bản ‘giả thâm thúy’ về chủ đề đó
- Ngay khi coi AI là một khối trí tuệ toàn tri toàn năng, người ta rất dễ phản ứng theo kiểu “nó còn không biết cái này, vậy lại càng bí ẩn hơn”
- Phản ứng kiểu xem video ảo thuật đồng xu rồi nói “có hỏi ChatGPT cũng không biết” xuất phát từ khung nhìn AI như “vị giáo sĩ Do Thái thông thái nhất khu phố”
- Nhưng theo góc nhìn túi từ ngữ, ảo thuật gia không công khai trò lừa bằng văn bản, mà việc mô tả cũng khó, nên việc trong túi hầu như không có thông tin là điều đương nhiên
GALILEO GPT – khoa học và giới hạn của ‘túi từ ngữ’
- Ẩn dụ “túi từ ngữ” cũng cho phép ước lượng AI rồi sẽ có thể làm tốt đến đâu
- Câu hỏi cốt lõi là: “để làm việc đó, cần nhét gì vào trong túi?”
- Với một số tác vụ khoa học cụ thể, ta đã có thể nhét đủ dữ liệu vào túi
- Nếu nạp 170.000 bộ dữ liệu protein, ta có thể đạt được kết quả như dự đoán cấu trúc protein (AlphaFold)
- Nếu đưa dữ liệu phản ứng hóa học vào, nó có thể gợi ý lộ trình tổng hợp phân tử mới; nếu đưa cả bài báo và mô tả thí nghiệm vào, nó cũng có thể phát hiện đã có nghiên cứu trước đó hay chưa
- Ở những lĩnh vực có đủ văn bản, thậm chí có thể tự động hóa toàn bộ pipeline nghiên cứu chất lượng thấp
- Các nghiên cứu kiểu chỉ chọn những khái niệm có vẻ hơi liên quan với nhau rồi chạy phân tích tương quan và p-value, như ở các phiên poster hội nghị tâm lý học, đã là vùng mà chiếc túi có thể làm tốt
- Với dạng nghiên cứu này, AI có thể thực hiện toàn bộ quy trình từ đặt giả thuyết, thiết kế thí nghiệm, thu thập dữ liệu, phân tích đến làm poster
- Nhưng khoa học là một “bài toán mắt xích mạnh (strong-link)”, nên dù tăng số nghiên cứu chất lượng thấp lên gấp một triệu lần thì tình hình cũng không khá hơn nhiều
- Nếu muốn có nghiên cứu đột phá, ngay từ đầu đã khó biết phải nhét gì vào túi
- Trong văn bản bài báo luôn lẫn lộn gian dối, sai sót và giả định ngầm; nhiều khi còn thiếu mất thông tin cốt lõi như dữ liệu hay phương pháp chi tiết
- “Gần như mọi thứ khiến khoa học thực sự vận hành đều không có trong văn bản trên web”
- “Nếu vào năm 1600 đã có đủ văn bản để huấn luyện một LLM, liệu nó có thể spoiler các khám phá của Galileo không?”
- Với lượng văn bản có trong túi thời đó, rất có thể nó sẽ lặp lại các lập luận của thiên văn học dòng chính (Ptolemy) thay vì đưa ra ý tưởng rằng Trái Đất đang chuyển động
- Trước tuyên bố “Trái Đất đang di chuyển với tốc độ 67.000mph”, các huấn luyện viên là con người có lẽ sẽ phạt điểm và quát “đừng ảo giác nữa!”
- Căn bản hơn, ở thời đại đó còn thiếu cả từ ngữ để biểu đạt chính khái niệm ‘khám phá (discover)’
- Galileo chỉ có thể mô tả việc phát hiện các vệ tinh của Sao Mộc bằng kiểu diễn đạt vòng vo như “tôi đã thấy thứ mà trước đây chưa ai nhìn thấy”
- Chính khung tư duy về việc dùng kính thiên văn để ‘khám phá’ một chân lý mới cũng xa lạ với người đương thời, và cũng sẽ không hiện diện trong văn bản mà chiếc túi học được
- Chiếc túi của năm 2025 chắc chắn sẽ đưa ra lời giải thích khoa học tốt hơn năm 1600, nhưng khả năng dự đoán các đột phá tương lai của từng thời đại có thể vẫn yếu như nhau
- Những ý tưởng khoa học tốt thường trông phi lý và ngớ ngẩn theo chuẩn mực đương thời, nên lúc đầu hay bị bác bỏ hoặc phớt lờ
- Vì chiếc túi bám theo mặt bằng trung bình của các ý tưởng đến ngày hôm qua, nên đưa thêm ý tưởng mới lạ và kỳ quặc vào đôi khi lại làm chất lượng giảm đi
- Vì thế, nghiên cứu đột phá không chỉ cần trí tuệ mà còn cần cả một mức ‘ngu ngốc’ phù hợp, và ở điểm này con người trong một thời gian nữa vẫn sẽ hữu ích hơn túi ở chỗ biết ‘ngu’ hơn
CLAUDE WILL U GO TO PROM WITH ME? – từ trò chơi địa vị sang công cụ
- Ưu điểm quan trọng nhất của ẩn dụ “túi từ ngữ” là nó giúp ta không nhìn AI như một người chơi trong trò chơi địa vị xã hội
- Về mặt tiến hóa, con người là loài cực kỳ nhạy cảm với chuyện ai trên ai dưới, nên có thể biến cả lăn phô mai, ăn cỏ dại, ném điện thoại, đấu ngón chân hay ferret legging thành cuộc thi
- Khi nhân cách hóa AI như con người, ngay lập tức các câu hỏi về “đứa mới chuyển trường” sẽ kéo theo
- Những khung hỏi như “nó có ngầu không?”, “nó có thông minh hơn mình không?”, “nó có thích mình không?”, “nó ở trên hay dưới chúng ta?” sẽ tự nhiên xuất hiện
- Mô hình càng giỏi, nỗi bất an kiểu “nó giỏi hơn hay kém hơn chúng ta, nó sẽ thành chủ nhân/đối thủ/nô lệ?” lại càng lớn
- Nhưng phải làm rõ rằng túi từ ngữ không phải vợ/chồng, hiền triết, quân vương hay nô lệ mà là công cụ
- Mục tiêu là tự động hóa việc lặt vặt và khuếch đại năng lực của chúng ta, chứ không phải trở thành một thực thể cạnh tranh địa vị với con người
- Câu hỏi quan trọng không phải “AI có giỏi hơn chúng ta không” mà là “chúng ta khi dùng AI có trở nên tốt hơn không”
- Tác giả không quá sợ chuyện bị túi từ ngữ thay thế
- Máy bắn bóng ném nhanh hơn, spellchecker sửa chính tả tốt hơn, và Auto-Tune bắt cao độ chuẩn hơn, nhưng con người vẫn đến xem bóng chày, cuộc thi đánh vần và buổi hòa nhạc
- Lý do là thứ người ta quan tâm không phải tốc độ bóng, độ chính xác chính tả hay độ chuẩn cao độ, mà là việc con người làm điều đó
- Vì vậy, dùng AI để viết bài luận giống như mang xe nâng vào phòng gym
- Xe nâng có thể nâng tạ thay cho bạn, nhưng mục tiêu không phải bản thân hành vi nhấc vật khỏi mặt đất mà là trở thành người có thể nhấc được nó
- Viết lách cũng vậy: đó là hành vi để trở thành một người biết suy nghĩ
- Đồng thời, không phải là AI hoàn toàn không đáng sợ
- Đã có rất nhiều công cụ nguy hiểm nếu dùng sai, và súng bắn đinh hay lò phản ứng hạt nhân vẫn có thể cực kỳ chết người dù không có tâm trí
- Điểm khác là nguy cơ từ con người nằm trong phạm vi quen thuộc (bạo lực, lái xe khi say, lừa đảo...), còn nguy cơ từ túi từ ngữ lại bật ra từ những mẫu hình không thể dự đoán
- Ví dụ, nếu cho con người xem một đoạn mã dễ bị tấn công thì số đông sẽ không bắt đầu ca ngợi Hitler, nhưng LLM từng có những đầu ra như vậy; vì thế việc nhét vào túi những thứ chí mạng như mã hạt nhân là điều đáng lo
C’MON BERTIE – một khung mới từ chối nhân cách hóa
- Giống như cảm giác muốn đặt tên cho chiếc xe cũ rồi van nài “Bertie, làm ơn nổ máy đi mà”, chúng ta rất dễ phóng chiếu tính khí và cảm xúc lên đồ vật
- Nhưng ô tô là một khối kim loại và nhựa biến xăng thành động năng, chứ không phải xương thịt biến bánh Twinkie thành suy nghĩ
- Thứ cần để sửa một chiếc xe hỏng không phải sổ tay trị liệu mà là cờ lê, tua vít và cẩm nang sửa chữa
- Tương tự, những người nhìn thấy ‘tâm trí’ trong túi từ ngữ đã rơi vào cái bẫy mà tiến hóa giăng sẵn
- Trong lịch sử, “nói như người, đi như người” luôn đồng nghĩa với con người, nên chỉ cần thỏa điều kiện đó là mạch xã hội trong đầu tự động kích hoạt
- Giờ đây, thứ nói và di chuyển như người có thể chỉ là một hồi quy logistic cực kỳ phức tạp (hoặc thứ gì đó tương tự), và cùng một mạch đó lại tiếp tục hoạt động sai
- Giống như loài bướm đêm tiến hóa để định hướng theo ánh trăng nhưng rồi lao vào đèn diệt côn trùng và bị điện giật, con người cũng có thể rơi vào tình cảnh tương tự
- Nhưng khác với bướm đêm, con người có khả năng chọn khung để nhìn công nghệ
- Chúng ta không gọi máy xúc là “con người đào bới nhân tạo”, cũng không gọi cần cẩu là “con người cao lớn nhân tạo”
- Với sách, ảnh và bản ghi âm, chúng ta cũng từng tạo ra những khung nhìn coi đó là những phương tiện truyền tải riêng biệt, chứ không phải “hội thoại nhân tạo, ký ức nhân tạo, biểu diễn nhân tạo”
- Những máy tính bỏ túi đầu tiên, nếu chỉ xét riêng việc tính toán, đã thông minh hơn bất kỳ con người nào trên Trái Đất, nhưng chẳng ai nghĩ phải xem chúng như con người
- Nếu bọc da cho máy xúc, làm gàu xúc giống bàn tay, và bắt nó phát ra tiếng kiểu “ưừừừ…” mỗi khi nâng đồ nặng, thì khi đó ta mới bắt đầu tưởng tượng có hồn ma bên trong
- Điều đó không hé lộ bản chất của máy xúc, mà là thước đo cho thấy cấu trúc tâm lý của chính chúng ta
Tội tổ tông của cụm từ ‘trí tuệ nhân tạo’
- Mọi hỗn loạn này bắt đầu từ chính cái tên ‘trí tuệ nhân tạo (artificial intelligence)’
- Cụm từ này khiến thước đo năng lực của máy ngay lập tức bị kéo vào so sánh với con người
- Những so sánh kiểu “giờ nó thông minh bằng sinh viên đại học”, “giờ nó thông minh bằng tiến sĩ” chỉ tạo ra ảo giác thấu hiểu, chứ không giải thích được năng lực và giới hạn thật sự
- Bản thân định nghĩa của trí tuệ cũng là vấn đề
- Những định nghĩa như “khả năng giải quyết vấn đề” là sai hoặc gần với định nghĩa vòng tròn kiểu “khả năng làm những việc cần trí tuệ”
- Trước cả khi tâm lý học kịp định nghĩa đúng trí tuệ, khoa học máy tính đã tạo ra thứ trông bề ngoài giống trí tuệ trước rồi
- Giờ thì đã quá muộn để đảo ngược tên gọi, và số từ trong túi từ ngữ cũng đã nhiều đến mức không thể nhét ngược trở lại
- Rốt cuộc, điều chúng ta có thể thay đổi chỉ là ẩn dụ và khung nhìn dành cho công nghệ này, và cần chuyển hướng tư duy sang không áp khuôn con người lên những thứ không phải con người
1 bình luận
Ý kiến trên Hacker News
Trong chuỗi thảo luận này, phần lớn mọi người đang dùng định nghĩa của "tư duy(thinking)" theo những cách khác nhau
Việc cuộc tranh luận tiếp diễn mà không làm rõ định nghĩa khá thú vị
Mọi người nói rằng “dự đoán từ tiếp theo” không liên quan đến tư duy của con người, nhưng tôi nghĩ điều đó là sai
Việc con người hành động có chủ đích có nghĩa là dự đoán kết quả của hành động và chọn trong số đó theo mức độ ưu tiên
Vì vậy, năng lực dự đoán là cốt lõi của hành vi có chủ đích, và dù LLM không thực hiện tư duy hoàn chỉnh thì nó vẫn có thể là một thành phần của hệ thống biết suy nghĩ
Mỗi ngày nhìn mọi người đối xử với AI tạo sinh như con người, tôi cảm thấy lời cảnh báo của Dijkstra là đúng
Cụm từ “bag of words” cũng là một khái niệm NLP có thật, nên không phù hợp để dùng như ẩn dụ
AI không đơn thuần là một cái túi đựng từ ngữ, mà là kẻ mô phỏng hành vi ngôn ngữ có ý nghĩa
Cũng thú vị như phép ẩn dụ cổ trong tiếng Anh cổ “word-hoard(kho báu lời nói)”, xem ngôn ngữ là trí tuệ của con người
Nếu chỉ là giao diện “hoàn tất câu”, thì hẳn đã bớt hiểu lầm hơn
Khi chúng ta vẫn chưa hiểu hoàn toàn tư duy của con người, những khẳng định kiểu này là quá vội vàng
Tôi cho rằng AGI có thể xuất hiện trong một cấu trúc vòng lặp có cơ chế duy trì trạng thái
Có thể chấp nhận ẩn dụ “bag of words”, nhưng cần một góc nhìn đảo ngược nó
Nếu phần lớn việc con người làm cuối cùng cũng chỉ là “chọn lời phù hợp”, thì một túi từ đủ phát triển có thể còn giỏi hơn con người
Tôi không chắc nên xem LLM là cỗ máy tự động thống kê đơn thuần hay là một dạng trí tuệ mới
Nghiên cứu interpretability của Anthropic gợi ý rằng bên trong đống con số có tồn tại cấu trúc mang ý nghĩa
Xem phỏng vấn của Amanda Askell thì cô ấy mô tả mô hình như con người — kiểu như “mô hình có thể lo âu” hay “băn khoăn về bản sắc của chính mình”
Điều này cho thấy mô hình ngôn ngữ không chỉ là bộ dự đoán đơn thuần mà là một hệ thống trung gian hóa ý nghĩa
Trước đây từng có plugin trình duyệt “Cloud-to-Butt”, giờ nếu có phiên bản “AI-to-Bag of Words” thì cũng hay
Tôi hiểu khá rõ cách LLM vận hành bên trong, nhưng cảm giác cuộc chiến chống nhân hóa đã thua rồi
Người dùng rất dễ tin rằng AI “suy nghĩ”, “muốn”, “hiểu”
Các công ty cũng cổ vũ cho sự ngộ nhận này, nên cuối cùng nó có lẽ sẽ đóng khung thành kiểu “cứ tin vậy cho tiện”
Vì ý thức con người là thứ khó hiểu, nên khi LLM trông có vẻ giống vậy, người ta sẽ cho là nó “đang suy nghĩ”
Tuy nhiên, đa số vẫn đồng ý rằng LLM không tư duy như con người
Không có điểm cụ thể nào trong não là nơi “ý nghĩ” hay “tri thức” xảy ra. Chỉ là chúng ta buộc phải tin như thế
“bag of words” có thể là một heuristic hữu ích để dự đoán AI sẽ làm tốt hay làm không tốt việc gì
Nhưng có vẻ tác giả đang gán ghép ví dụ theo kiểu hồi cứu. Kể cả nếu ChatGPT trả lời đúng, có lẽ ông ấy vẫn sẽ giữ nguyên lập luận của mình