Vì sao chuỗi Markov buồn cười hơn LLM

(emnudge.dev)

5 điểm bởi GN⁺ 2024-08-19 | 1 bình luận | Chia sẻ qua WhatsApp

Chuỗi Markov là một mô hình thống kê đơn giản để chọn từ tiếp theo, nhưng chính sự lệch lạc do không nắm trọn ý nghĩa lại có thể tạo ra đầu ra buồn cười hơn LLM
Hài hước đến từ sự bất ngờ nhẹ nhàng và ngoài dự đoán, khi một khuôn mẫu quen thuộc được dựng lên rồi bị phá vỡ bằng một “cú bật” khiến câu đùa trở nên mạnh hơn
LLM dùng nhiều ngữ cảnh và tính toán xác suất để tìm token tiếp theo có vẻ hợp lý nhất, nên khi hiệu năng càng tốt thì càng tiến gần tới những câu văn trung bình và dễ đoán
Trong so sánh giữa ChatGPT 3.5 và một chuỗi Markov được huấn luyện bằng King James Bible cùng giáo trình khoa học máy tính, chuỗi Markov tạo ra những câu gần như có nghĩa rồi ở cuối lại chuyển nghĩa theo hướng kỳ quặc
LLM hiện nay không phù hợp lắm với viết sáng tạo hay tạo câu đùa, và mô hình ngôn ngữ cho những tác vụ này sẽ cần có hình thái khác về mặt phạm trù so với LLM hiện tại

Vì sao chuỗi Markov có vẻ buồn cười hơn

Ví dụ chuỗi Markov được huấn luyện bằng bộ dữ liệu King James Bible và giáo trình khoa học máy tính tạo ra những câu trộn phong cách Kinh Thánh với thuật ngữ lập trình, thành ra “gần như có nghĩa nhưng lại sụp đổ ở phần cuối”
ChatGPT 3.5 được yêu cầu tạo đầu ra tương tự, nhưng kết quả lại gần với những câu được sắp xếp gọn gàng hơn và có ý nghĩa ổn định hơn
Hai ví dụ này đều là trường hợp được chọn lọc, nhưng là sự so sánh được chọn từ những ứng viên tốt ở cả hai phía
Câu văn của chuỗi Markov mang ý nghĩa kỳ lạ, và càng về cuối câu càng gây ra sự rẽ hướng vô nghĩa

Chuỗi Markov gần với một “LLM cực kỳ ngốc”

Khi LLM mới được giải thích rộng rãi, người ta từng ví nó như “một chuỗi Markov rất thông minh”, nhưng giờ cũng có thể nhìn chuỗi Markov như “một LLM rất ngốc”
ChatGPT là một loại LLM, tức Large Language Model
- Có những mô hình rất lớn vượt 300GB, và cũng có mô hình nhỏ hơn 10GB
- Dù nhỏ, người ta thường vẫn gọi là LLM nhỏ chứ không phải “small language model”
Chuỗi Markov cũng dự đoán từ tiếp theo dựa trên ngữ cảnh hiện tại, nhưng là một mô hình thống kê đơn giản không xét tới ngữ nghĩa, tính nhiều chiều hay toán học vector chuyên biệt
Tính năng gợi ý từ tiếp theo ở hàng trên cùng của bàn phím điện thoại thường được xây bằng chuỗi Markov, vì chi phí chạy thấp và có thể dễ dàng cập nhật theo phong cách nhắn tin của người dùng
Nếu cần tạo ra câu văn phục vụ một mục tiêu cụ thể thì LLM thường làm tốt hơn, nhưng độ chính xác không đồng nghĩa với độ buồn cười

Hài hước là “sự bất ngờ nhẹ nhàng và ngoài dự đoán”

Hài hước có thể được tóm lại là unserious surprise, tức một sự bất ngờ không nghiêm trọng
Một câu đùa hay có một “cú bật” rõ ràng và thú vị
- “cú bật” được dùng để tránh gánh nặng ngữ nghĩa của từ punchline
- Càng ít bất ngờ thì càng kém buồn cười
Lý do cùng một câu đùa nghe nhiều lần sẽ bớt buồn cười là vì mức độ bất ngờ giảm đi
Lý do hài hước “ngẫu nhiên” có thể trở nên không vui là vì dù bản thân từ ngữ không thể đoán trước, kỳ vọng rằng nó sẽ không thể đoán trước lại đã là điều dễ đoán
Khi tái sử dụng một khuôn mẫu quen thuộc rồi phá vỡ kỳ vọng, cú bật sẽ mạnh hơn
- “banana, apple, orange, vehicular manslaughter” dựng lên mô thức một danh sách trái cây một từ, rồi phá vỡ kỳ vọng bằng một cách diễn đạt về tội phạm
Viết đùa nhìn chung khá gần với vi phạm khuôn mẫu

Cảnh tượng càng rõ thì cú bật càng mạnh

Dùng ngôn ngữ độc đáo hoặc giàu miêu tả hơn sẽ khiến cảnh tượng có cảm giác chân thực hơn, và cú bật cũng có thể mạnh hơn
Thay vì chỉ viết “he was shot”, viết “he was pierced by a 35mm” sẽ khiến cảnh rõ nét hơn
Thay vì “he fell”, cách diễn đạt như “his face met the ground” khiến hình ảnh sống động hơn
Cách bắt đầu từ giữa một tình huống cũng có hiệu quả
- “a urinal cake? I’m not falling for that one again” khiến người đọc tưởng tượng chuyện gì đã xảy ra trước đó, từ đó tăng cảm giác chân thực của cảnh
Viết đùa hay và viết hay nói chung có một phần mục tiêu trùng nhau
- Sáo ngữ làm cảnh tượng không được hiện thực hóa, nên trở thành sự lãng phí từ ngữ

Điều kiện để hài hước hoạt động

Điều gì được xem là “sự bất ngờ nhẹ nhàng và ngoài dự đoán” không mang tính phổ quát, nên hài hước là chủ quan
Hài tục có thể không buồn cười vì bị tiếp nhận quá nghiêm trọng, hoặc ngược lại thất bại vì quá dễ đoán
Anti-joke chỉ có thể buồn cười khi chính cấu trúc câu đùa là thứ có thể đoán trước
Chủ nghĩa phi lý chỉ hoạt động khi người nghe sẵn sàng đón nhận nó
Có thể vi phạm các chuẩn mực văn hóa, nhưng sự vi phạm đó phải được hiểu là không nghiêm trọng
Tác giả là người Mỹ chỉ dùng tiếng Anh, nhưng ngay cả trong môi trường không dùng tiếng Anh, vẫn có thể dùng từ “no” theo một cách lệch chuẩn văn hóa để tạo ra một câu đùa thành công

LLM được tối ưu hóa theo hướng dễ đoán

Để dự đoán câu thành công thì cần nhiều ngữ cảnh, và LLM tận dụng chính ngữ cảnh đó
Cách vận hành cơ bản của LLM là thông qua các phép tính phức tạp để tìm token tiếp theo có xác suất cao nhất
Nếu kho ngữ liệu được cấu thành từ những phát ngôn hợp lý, thì LLM càng tốt sẽ càng tạo ra đầu ra dễ đoán hơn
Vì đặc tính này, LLM có thể là lựa chọn không tốt cho viết sáng tạo
- Nếu không có nhiều prompt engineering, đoạn văn được tạo ra rất dễ trông như do LLM viết
- Thành phẩm tạo cảm giác như những câu trung bình nhất có thể trong ngữ cảnh đó
Yêu cầu LLM đưa ra “ý tưởng độc đáo” gần như là một mâu thuẫn, vì nó vốn không được tạo ra để làm điều đó

LLM hiện nay không hợp để tạo câu đùa

Để tạo câu đùa, cần bẻ một cách diễn đạt quen thuộc theo hướng bất ngờ để làm thay đổi ý nghĩa
Một LLM tốt lại chính là thứ được tối ưu để tránh kiểu lệch hướng đó
Tác giả không đồng ý với lập luận rằng hài kịch không thể được tạo bằng thuật toán
- Hài kịch có thể được phân tích và đo lường
- Nếu có đủ nguồn lực hỗ trợ, việc tạo hài theo yêu cầu cũng có thể khả thi
- Có thể làm được không có nghĩa là nên làm
LLM hiện tại không phải công cụ phù hợp cho việc này
LLM ở giai đoạn đầu buồn cười hơn, và tạo ảnh ở giai đoạn đầu cũng buồn cười hơn
- Có những ví dụ như ảnh “trail cam” của Dall-e mini
- Hệ thống càng tốt lên thì yếu tố hài hước càng biến mất

Căng thẳng giữa cỗ máy dự đoán tốt hơn và biểu đạt nghệ thuật

Một cỗ máy dự đoán cực kỳ xuất sắc có thể không giúp ích nhiều cho biểu đạt nghệ thuật
LLM vẫn có rất nhiều ứng dụng, nhưng không phải công cụ hoàn hảo cho công việc sáng tạo
LLM đôi khi bỏ lỡ những ý tưởng thú vị mà một đứa trẻ cũng có thể dễ dàng nảy ra
Nếu xét theo khung này, ta có thể tạo ra những loại mô hình ngôn ngữ khác
- Mô hình đó phải khác về mặt phạm trù so với LLM hiện tại
- Khác đến mức có thể sẽ không còn được gọi là LLM nữa

Sự rò rỉ trừu tượng bộc lộ trong đầu ra của LLM

Lập luận này không phải là cuộc tranh cãi kiểu “con người có linh hồn đối đầu máy móc”
Dù LLM tiếp tục tiến bộ, vẫn có những lỗi lặp đi lặp lại, và chúng giống một sự rò rỉ trừu tượng nơi cấu trúc bên trong lộ ra trong quá trình cố tỏ ra giống con người
Lý do mọi thông điệp của ChatGPT đều đọc như một bài luận trung học là vì nó tái tạo đầu ra trung bình nhất
Đầu ra của LLM có thể trông như một văn phong công ty nhạt nhẽo đã bị loại bỏ cá tính và làm cứng lại bằng sự nghiêm cẩn học thuật
Các đánh giá Amazon giả thường dễ nhận ra nếu nghĩ “liệu mình có viết kiểu này không?”
- Có thể sẽ thấy lạ khi thêm mở bài và kết bài cho trải nghiệm dùng Oxiclean dish wipes
- Những câu cảm ơn nhà sản xuất và ghi nhận cam kết dịch vụ khách hàng có thể không giống trải nghiệm thực của người dùng
Mô hình phát hiện LLM có thể sớm phải nhận diện cá tính, giống như CAPTCHA cho phần giao diện màn hình

Liên kết tham khảo

famous tumblr blog: nguồn của các ví dụ chuỗi Markov trộn Kinh Thánh King James với văn phong lập trình, và gần đây đã hoạt động trở lại

1 bình luận

GN⁺ 2024-08-19

Ý kiến trên Hacker News

Vài năm trước, khi làm một side project, tôi cũng đi đến đúng kết luận đó
Trước khi LLM xuất hiện, tôi đã làm trang https://totes-not-amazon.com/ để tạo các AWS Blog Posts giả, huấn luyện một bộ sinh Markov chain trên toàn bộ các bài thông báo của AWS tính đến thời điểm đó, rồi sao chép HTML/CSS của blog AWS và ghép lại bằng Python+JS
Ngay cả những người quen với blog AWS cũng phải đọc vài câu mới nhận ra đó chỉ là một mớ từ ngữ lộn xộn, nên khá buồn cười
Khi GPT vừa mới ra mắt, tôi đã thử nâng cấp nó bằng cách dùng gpt-2-simple của Minimaxir để tạo các bài blog dựa trên nội dung AWS, nhưng kết quả lại quá giống thật nên mất vui hẳn. Nó đọc như một bài blog thật, chỉ là sai sự thật
Rốt cuộc, cái hài của các sản phẩm Markov đời đầu nằm ở sự phi lý khi vài từ hay vài câu sau mới nhận ra toàn bộ đều vô nghĩa; còn LLM ngày nay thì làm tốt quá mức đó rồi. Chúng vẫn có thể sai, nhưng hiếm khi sai theo kiểu vô lý đến mức buồn cười
Nội dung từ Markov chain sai kiểu “trẻ con nói linh tinh”, còn LLM hiện đại sai kiểu “ông chú không biết cả địa lý cơ bản”
- https://cemulate.github.io/the-mlab/#y3Bt-co-extensional+limit
  https://github.com/cemulate/the-mlab
  Đây là bản parody của nLab, một wiki cộng tác về lý thuyết phạm trù và lý thuyết phạm trù bậc cao. Ai từng xem nLab thì sẽ hiểu, nhưng với người mới thì thuật ngữ chuyên môn gần như không thể giải mã, nên mới nảy ra ý tưởng cho dự án này
  Dự án này dùng gói nearley-generator, vốn biến ngữ pháp Nearley thành một bộ sinh văn bản giả hiệu quả và có thể kiểm soát được; tệp ngữ pháp nằm ở /src/grammar/nlab.ne
- Tôi cũng đi đến kết luận tương tự theo cách gần giống vậy. Trước đây tôi từng tạo Markov chain từ patch note game rồi gửi vào cộng đồng, và các bản patch Dota giả đặc biệt rất được ưa chuộng vì patch gốc vốn đã quá dài
  Phần lớn đều vô nghĩa hoặc là kiểu cường điệu không vui (“hero này giờ có 500 giáp”), nhưng thường ít nhất 5–6 dòng đầu rất buồn cười, và đôi khi còn đúng như tiên tri. Ví dụ như “Fiend's Grip tạo thêm 1/2/3 ảo ảnh”
  Nhưng rồi LLM làm mọi thứ hỏng hết. Các subreddit lớn cấm toàn bộ nội dung AI vì có quá nhiều nội dung Midjourney nhàm chán do người dùng ngây thơ và bot đăng lên. Khi mất độ phủ thì hứng thú cũng mất theo, nên tôi không còn làm Markov chain nữa
- “Ông chú không biết gì nhưng vẫn thích tỏ ra chuyên gia và nói quan điểm của mình” có lẽ là phép so sánh hay nhất để mô tả LLM. Không biết gì cả nhưng vẫn tự tin nói về mọi thứ
- Tôi khó mà đồng ý với nhận xét rằng LLM hiện đại sai kiểu “ông chú không biết địa lý cơ bản”
  Tuần này tôi dùng LLM chatbot khá nhiều, và nếu ông chú đó không chỉ tự tin nói dối mà còn không có cả khả năng tự đánh giá, thì hẳn ông ấy đã bị giết từ lâu rồi
- Trang đó rất buồn cười. Và phép so sánh trẻ con với ông chú cũng khớp chính xác với trải nghiệm của tôi, đồng thời cho thấy các mô hình ngôn ngữ này đã tiến xa đến mức nào
Tôi đã đưa prompt cho Claude 3.5 Sonnet: “Dựa trên bài tiểu luận gần đây và cuộc thảo luận trên Hacker News, hãy viết 10 câu đùa ngắn hài hước theo đúng kiểu tác giả bài viết mô tả”
Claude trả lời rằng nó sẽ tạo các câu đùa về việc Markov chain hài hơn LLM, nhắm vào sự “bất ngờ không nghiêm túc” và việc phá vỡ các khuôn mẫu được kỳ vọng
Ví dụ như: “LLM và Markov chain bước vào quán bar. LLM gọi một đồ uống có vẻ hợp lý về mặt thống kê, còn Markov chain gọi một cái chao đèn làm bằng phô mai”, “Cần bao nhiêu LLM để thay một bóng đèn? Một là đủ, nhưng trước tiên nó sẽ giải thích quy trình thay bóng đèn tối ưu trong 20 phút”, “Tại sao Markov chain không thể là nhà tư vấn giỏi? Vì lời khuyên của nó luôn là ‘rồi sau đó hãy banana hóa cảm xúc cho đến khi nó thành cái mũ’”
- “LLM, Markov chain và GPT-4 bước vào quán bar. Bartender nói ‘không tiếp loại như các anh’, GPT-4 bỏ đi, LLM ở lại để tranh luận về đạo đức, còn Markov chain gọi một chiếc xe đạp làm bằng mì spaghetti” là khá xuất sắc
- Những câu tạm ổn có thể còn buồn cười hơn nếu thay phần nhảm nhí ngẫu nhiên ở lõi bằng cú bẻ lái kiểu Markov chain thật sự, tức “đúng về mặt câu cú nhưng đi chệch sang một liên tưởng kỳ quặc”
  Không phải chỉ là gắn đại thứ gì ngẫu nhiên vào. Markov chain có xu hướng tạo ra một kiểu ý nghĩa nào đó nhiều hơn, chỉ là đó là loại ý nghĩa sai
  Ví dụ, “LLM, Markov chain và GPT-4 bước vào quán bar. Bartender nói ‘không tiếp loại như các anh’, GPT-4 bỏ đi, LLM ở lại để tranh luận về đạo đức, còn Markov chain gọi một cuộc đảo chính” sẽ đúng chất hơn
- “LLM và Markov chain bước vào quán bar. LLM gọi một đồ uống có vẻ hợp lý về mặt thống kê, còn Markov chain gọi một cái chao đèn làm bằng phô mai” là khá ổn
- “Cần bao nhiêu LLM để thay một bóng đèn? Một là đủ, nhưng trước tiên nó sẽ giải thích quy trình thay bóng đèn tối ưu trong 20 phút” không phải buồn cười mà là đau đớn một cách chính xác
- Claude 3.5 Sonnet là mô hình LLM hiện đại đầu tiên tôi từng dùng mà thực sự giỏi tạo mấy câu đùa sáng tạo. Các LLM dòng GPT thì đều bị RLHF nhồi quá nhiều nên không thể bật ra kiểu quái dị được
Hồi đại học, bạn tôi từng chạy bộ sinh Markov chain trên mục “police report” của báo trường
Trong các kết quả từ bộ sinh 3 token, khoảng 10% tốt nhất nằm trong số những văn bản máy tạo hài nhất tôi từng thấy, vì chúng có kiểu phi lý mà LLM hiện đại né tránh khi cố tạo ra sự nhất quán ngữ nghĩa ở mức cao
Có lẽ việc lúc đó thư viện đang có một kẻ phơi bày thân thể cũng là nguyên liệu đầu vào tốt
Tờ báo là The Daily Utah Chronicle, và nếu nhớ không nhầm thì bạn tôi cũng chạy Markov chain trên mục quảng cáo cá nhân và ra được khá nhiều kết quả hay
- LLM thì “cố trở nên hài hước” nhưng không đủ thông minh để thực sự hài, còn lỗi của chúng thì nhàm chán
  Trong khi đó, Markov chain nhờ những mối nối kiểu nói nhịu dựa trên từ đồng âm mà kéo mỗi câu rẽ ngẫu nhiên, vô tình chạm đến hài phi lý
Nếu muốn có bằng chứng thực nghiệm thì /r/SubredditSimulator là bản nhại Reddit dựa trên Markov, còn /r/SubSimulatorGPT2 là “anh em họ” dựa trên LLM
Bản Markov nhận được nhiều upvote hơn hẳn và đơn giản là buồn cười hơn
1. https://www.reddit.com/r/SubredditSimulator/top/?t=all
2. https://www.reddit.com/r/SubSimulatorGPT2/top/?t=all
- Tôi nghĩ chỉ là vì cái đầu tiên cũ hơn nhiều và nổi tiếng hơn thôi. Cá nhân tôi thì lúc nào cũng thích cái sau hơn nhiều
Trong vài năm qua tôi đã đăng mấy lần kiểu “XYZ giả do AI viết” lên Reddit, và mô hình có phản hồi tốt nhất là GPT-2
Markov chain không đủ sức giữ được sự thú vị quá một hai câu, còn từ GPT-3 trở đi thì quá trơn tru và nhàm chán
GPT-2 là điểm cân bằng hoàn hảo ở giữa: nó vẫn thường tạo đúng ngữ pháp và giữ được ý tưởng tương đối mạch lạc, nhưng vẫn chưa biết đủ chi tiết của nhiều chủ đề khác nhau để tạo ra kết quả thật sự hợp lý theo ngữ cảnh
- Tôi từng thử fine-tune mô hình GPT-2 trên hơn 15 năm log IRC tích lũy để nó bắt chước tôi
  Tôi định triển khai bot vào kênh IRC thường dùng và xem mất bao lâu để mọi người nhận ra đó là bot. Cách làm là mỗi khi ai đó gửi tin nhắn, tôi sẽ gửi 10 tin nhắn gần nhất cho LLM, rồi nếu kết quả bắt đầu bằng một tiền tố nhất định thì sẽ đăng tin nhắn đó vào kênh
  Đáng tiếc là GPT-2 chưa đủ tốt, và nó tạo ra nội dung hơi nhất quán, đúng chủ đề nhưng vô nghĩa
  Sau khi sửa lại hệ thống thì tôi định thử fine-tune một mô hình 7B
- Có thể chia sẻ ví dụ hay nhất không?
Blog AI Weirdness(https://www.aiweirdness.com/) trong vài năm qua phần nào ủng hộ ý này
Tuy vậy tác giả cũng lấy được nhiều kết quả hài hước từ LLM, nhưng chủ yếu là các mô hình đời đầu đến GPT-3 và các biến thể nhỏ hơn của GPT-3
Ví dụ, tên ngũ cốc do bản Ada của GPT tạo ra buồn cười hơn nhiều so với bản Da Vinci: https://www.aiweirdness.com/new-breakfast-cereals-from-ai/
Chẳng phải chỉ cần tăng temperature lên sao?
Markov chain hiểu ngôn ngữ kém tinh vi hơn. Nếu tăng temperature, tức độ ngẫu nhiên, của LLM thì có thể đạt tới một xấp xỉ kém tinh vi tương tự
Hơn nữa, tác giả đã dùng ChatGPT-3.5. ChatGPT được RLHF để nghe có vẻ phổ thông nhất có thể, và 3.5 cũng kém hiểu hài hước hơn 4
Tôi không bị thuyết phục bởi luận điểm của bài này
- Viết cho những ai không biết các từ viết tắt học máy, RLHF là Reinforcement Learning from Human Feedback, tức học tăng cường từ phản hồi của con người
- Tôi ước là có một phiên bản ChatGPT cố định dành cho nhà nghiên cứu
Tiếc là tài khoản đó không còn nữa, nhưng khoảng 10 năm trước khi còn đi học tôi đã tạo một bot Twitter Markov được huấn luyện trên hai nguồn sau
Một là toàn bộ email Linus Torvalds gửi lên LKML trong 1 năm ngay trước đó, hai là toàn bộ lời dẫn trực tiếp của Jesus trong King James Bible
Nó thật sự rất buồn cười. Vì hai tập dữ liệu huấn luyện gần như không chồng lấn lên nhau, tôi phải thêm một heuristic sao cho chain càng bị “mắc kẹt” lâu ở một tập thì càng tăng trọng số lựa chọn từ tập còn lại
- Một bot rất giống như vậy vẫn còn tồn tại, và còn được Unsong trích vài lần
  https://www.tumblr.com/kingjamesprogramming
- Nghe tuyệt đấy. Bạn có lưu lại ví dụ nào không?
Tôi đã vận hành một bot Markov chain trên IRC suốt khoảng 20 năm
Vài năm gần đây tôi cũng chạy thêm LLM cục bộ. Vẫn có người thích bot Markov chain hơn, nhưng đa số gọi LLM
Tuy vậy có thể là vì tôi chọn những mô hình nhiều ảo giác, ít từ chối và hài hước hơn, như Mistral-7B fine-tune, thay vì loại LLM dạng dịch vụ như ChatGPT vốn thông minh hơn, bị khóa kỹ hơn và có temperature thấp
Khi nhìn LLM và bot Markov đặt cạnh nhau, tôi càng cảm thấy “sự hài hước” của bot Markov phần lớn là do đầu ra ngẫu nhiên mà con người tự gán nghĩa vào. Dù vậy, khả năng “học” của Markov vẫn vượt trội hơn nhiều
- Vận hành bot Markov chain trên IRC suốt 20 năm đúng là anh hùng
  Bot của tôi chưa từng sống lâu đến vậy. Có lần tôi từng cào LiveJournal của người dùng để tạo văn bản ngẫu nhiên: https://hewgill.com/journal/entries/68-new-lj-toy.html
- Tôi tò mò bạn dùng loại prompt nào cho LLM
  Tôi đang chạy một bot Markov chain trong chat Twitch và thỉnh thoảng nó có những khoảnh khắc xuất thần. Tôi cũng từng thử dùng LLM một thời gian và đưa chat gần đây vào prompt, nhưng hiếm khi ra kết quả thấy thật sự hài hước
  Tôi cũng đã thử prompt engineering để chỉ định cụ thể kiểu trò đùa cần tạo, nhưng LLM luôn có xu hướng đi theo cùng một khuôn mẫu
- Tại sao bạn lại làm vậy? Chỉ vì vui thôi à, hay còn lý do nào khác mà tôi bỏ sót?
Có hai bot trong một server Discord riêng tư
Một con là bot Markov chain cơ bản được huấn luyện trên toàn bộ lịch sử chat, còn con kia là một LLM đúng nghĩa chỉ được huấn luyện trên một lượng token ở phần cuối nhất định. Cả hai thỉnh thoảng ngẫu nhiên chen vào cuộc trò chuyện
Bot Markov chain lúc nào cũng buồn cười hơn hẳn
- Tôi tò mò bạn dùng cửa sổ ngữ cảnh nào. Theo tôi biết thì cửa sổ ngắn cỡ 1–2 từ sẽ tạo ra lảm nhảm, còn cửa sổ dài lại có xu hướng lặp nguyên các tin nhắn cũ
  Tôi cũng muốn biết lúc quyết định chen vào thì bạn làm theo xác suất đơn giản sau mỗi tin nhắn khác (ví dụ 25%) hay chạy bằng timer

Vì sao chuỗi Markov buồn cười hơn LLM

Vì sao chuỗi Markov có vẻ buồn cười hơn

Chuỗi Markov gần với một “LLM cực kỳ ngốc”

Hài hước là “sự bất ngờ nhẹ nhàng và ngoài dự đoán”

Cảnh tượng càng rõ thì cú bật càng mạnh

Điều kiện để hài hước hoạt động

LLM được tối ưu hóa theo hướng dễ đoán

LLM hiện nay không hợp để tạo câu đùa

Căng thẳng giữa cỗ máy dự đoán tốt hơn và biểu đạt nghệ thuật

Sự rò rỉ trừu tượng bộc lộ trong đầu ra của LLM

Liên kết tham khảo

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News