Chuỗi Markov là gì
- Khi LLMs (mô hình ngôn ngữ lớn) mới xuất hiện, người ta từng mô tả chúng như những chuỗi Markov cực kỳ thông minh
- Ngày nay, mọi người quen thuộc với LLMs hơn là với chuỗi Markov
- Có thể xem chuỗi Markov như một LLM cực nhỏ, cực đơn giản và cực ngây thơ
- Chuỗi Markov dự đoán từ tiếp theo dựa trên ngữ cảnh hiện tại, nhưng không xét đến ngữ nghĩa, tính đa chiều hay các phép toán vector phức tạp khác
- Chuỗi Markov là một mô hình thống kê nguyên thủy
- Tính năng "gợi ý từ tiếp theo" trên bàn phím điện thoại thường sử dụng chuỗi Markov
- Chuỗi Markov có chi phí vận hành thấp và có thể dễ dàng cập nhật để phù hợp với phong cách viết của người dùng
- Có thể giải thích sâu về cách LLMs và chuỗi Markov hoạt động, nhưng ở đây chỉ cần biết rằng chuỗi Markov kém hơn LLMs trong khả năng thực hiện tác vụ
Sự hài hước là gì
- Hài hước xoay quanh sự bất ngờ không nghiêm túc
- Những câu đùa hay nhất chứa một cú "bật" vừa thú vị vừa quan trọng
- "Bật" ở đây là cú sốc đến từ sự bất ngờ
- Càng ít bất ngờ thì càng ít buồn cười
- Đó là lý do nghe một câu đùa nhiều lần sẽ thấy kém vui hơn
- Hài hước kiểu "ngẫu nhiên" không buồn cười vì chính tính khó đoán của nó lại trở nên dễ đoán
- Viết truyện cười là chuyện phá vỡ khuôn mẫu
- Có thể tăng cường cú bật thông qua "hiện thực hóa khung cảnh"
- Dùng ngôn ngữ độc đáo hơn hoặc giàu hình ảnh hơn sẽ khiến khung cảnh trông chân thực hơn
- Truyện cười thì đa dạng và cảm nhận hài hước mang tính chủ quan
Tính dễ đoán của LLMs
- Để dự đoán thành công một câu, cần rất nhiều ngữ cảnh
- LLMs có rất nhiều ngữ cảnh
- LLMs dùng rất nhiều phép tính toán học để tìm ra token tiếp theo có xác suất cao nhất
- LLM "tốt hơn" thì càng dễ đoán hơn
- LLMs không phù hợp với viết sáng tạo
- LLMs tạo ra kết quả mang tính trung bình
- Muốn tạo ra truyện cười thì LLM phải tạo được sự bất ngờ
- LLM tốt lại không làm điều đó giỏi
- LLMs không phù hợp với biểu đạt nghệ thuật
- LLMs có thể bỏ lỡ những ý tưởng thú vị
- Từ khuôn khổ này, có thể tạo ra những mô hình ngôn ngữ mới
Vì sao điều này thú vị
- Điều này cho thấy một thứ gì đó sâu xa hơn
- Đây không phải là cuộc tranh luận giữa linh hồn và cỗ máy
- Nó cho thấy những khiếm khuyết nội tại của mô hình
- Các thông điệp của ChatGPT trông như bài luận trung học
- Đây là sự tái tạo của đầu ra mang tính trung bình
- Nó bị loại bỏ cá tính và được củng cố bằng sự nghiêm ngặt học thuật
- Giọng điệu của nó nhạt nhẽo và đậm chất công ty
- Có thể dễ dàng nhận ra các bài đánh giá Amazon giả
- Các mô hình phát hiện LLM rồi sẽ phải kiểm tra cả cá tính
Tóm tắt của GN⁺
- Bài viết này giải thích sự khác biệt giữa chuỗi Markov và LLMs, đồng thời khám phá bản chất của sự hài hước
- Chuỗi Markov là một mô hình thống kê đơn giản, có khả năng dự đoán kém hơn LLMs
- Hài hước dựa trên sự bất ngờ không nghiêm túc, và viết truyện cười là chuyện phá vỡ khuôn mẫu
- LLMs có tính dễ đoán cao nên không phù hợp với viết sáng tạo
- Bài viết này cho thấy giới hạn của LLMs và gợi mở khả năng về những mô hình ngôn ngữ mới
1 bình luận
Ý kiến trên Hacker News
Vài năm trước, khi làm một dự án phụ, tôi đã đi đến cùng một kết luận
Tôi đã nhờ Claude 3.5 Sonnet viết 10 câu đùa ngắn về chủ đề chuỗi Markov vui hơn LLM
Không phải là chuỗi Markov tốt hơn
Hồi đại học, bạn tôi đã dùng trình tạo chuỗi Markov cho mục "police report" của tờ báo trường
Tôi thấy không thoải mái khi dùng Kinh Thánh cho các thí nghiệm kiểu này
Như một bằng chứng thực nghiệm, /r/subreddit simulator là bản nhại Reddit dựa trên Markov
Tôi đã vài lần đăng lên Reddit kiểu "XYZ giả do AI viết"
Khoảng 10 năm trước, khi còn đi học, tôi đã làm một bot Twitter Markov
Sự phát triển của blog AI weirdness ủng hộ ý tưởng này
Tôi có hai bot trên máy chủ Discord cá nhân