5 điểm bởi GN⁺ 2024-08-19 | 1 bình luận | Chia sẻ qua WhatsApp

Chuỗi Markov là gì

  • Khi LLMs (mô hình ngôn ngữ lớn) mới xuất hiện, người ta từng mô tả chúng như những chuỗi Markov cực kỳ thông minh
  • Ngày nay, mọi người quen thuộc với LLMs hơn là với chuỗi Markov
  • Có thể xem chuỗi Markov như một LLM cực nhỏ, cực đơn giản và cực ngây thơ
  • Chuỗi Markov dự đoán từ tiếp theo dựa trên ngữ cảnh hiện tại, nhưng không xét đến ngữ nghĩa, tính đa chiều hay các phép toán vector phức tạp khác
  • Chuỗi Markov là một mô hình thống kê nguyên thủy
  • Tính năng "gợi ý từ tiếp theo" trên bàn phím điện thoại thường sử dụng chuỗi Markov
  • Chuỗi Markov có chi phí vận hành thấp và có thể dễ dàng cập nhật để phù hợp với phong cách viết của người dùng
  • Có thể giải thích sâu về cách LLMs và chuỗi Markov hoạt động, nhưng ở đây chỉ cần biết rằng chuỗi Markov kém hơn LLMs trong khả năng thực hiện tác vụ

Sự hài hước là gì

  • Hài hước xoay quanh sự bất ngờ không nghiêm túc
  • Những câu đùa hay nhất chứa một cú "bật" vừa thú vị vừa quan trọng
  • "Bật" ở đây là cú sốc đến từ sự bất ngờ
  • Càng ít bất ngờ thì càng ít buồn cười
  • Đó là lý do nghe một câu đùa nhiều lần sẽ thấy kém vui hơn
  • Hài hước kiểu "ngẫu nhiên" không buồn cười vì chính tính khó đoán của nó lại trở nên dễ đoán
  • Viết truyện cười là chuyện phá vỡ khuôn mẫu
  • Có thể tăng cường cú bật thông qua "hiện thực hóa khung cảnh"
  • Dùng ngôn ngữ độc đáo hơn hoặc giàu hình ảnh hơn sẽ khiến khung cảnh trông chân thực hơn
  • Truyện cười thì đa dạng và cảm nhận hài hước mang tính chủ quan

Tính dễ đoán của LLMs

  • Để dự đoán thành công một câu, cần rất nhiều ngữ cảnh
  • LLMs có rất nhiều ngữ cảnh
  • LLMs dùng rất nhiều phép tính toán học để tìm ra token tiếp theo có xác suất cao nhất
  • LLM "tốt hơn" thì càng dễ đoán hơn
  • LLMs không phù hợp với viết sáng tạo
  • LLMs tạo ra kết quả mang tính trung bình
  • Muốn tạo ra truyện cười thì LLM phải tạo được sự bất ngờ
  • LLM tốt lại không làm điều đó giỏi
  • LLMs không phù hợp với biểu đạt nghệ thuật
  • LLMs có thể bỏ lỡ những ý tưởng thú vị
  • Từ khuôn khổ này, có thể tạo ra những mô hình ngôn ngữ mới

Vì sao điều này thú vị

  • Điều này cho thấy một thứ gì đó sâu xa hơn
  • Đây không phải là cuộc tranh luận giữa linh hồn và cỗ máy
  • Nó cho thấy những khiếm khuyết nội tại của mô hình
  • Các thông điệp của ChatGPT trông như bài luận trung học
  • Đây là sự tái tạo của đầu ra mang tính trung bình
  • Nó bị loại bỏ cá tính và được củng cố bằng sự nghiêm ngặt học thuật
  • Giọng điệu của nó nhạt nhẽo và đậm chất công ty
  • Có thể dễ dàng nhận ra các bài đánh giá Amazon giả
  • Các mô hình phát hiện LLM rồi sẽ phải kiểm tra cả cá tính

Tóm tắt của GN⁺

  • Bài viết này giải thích sự khác biệt giữa chuỗi Markov và LLMs, đồng thời khám phá bản chất của sự hài hước
  • Chuỗi Markov là một mô hình thống kê đơn giản, có khả năng dự đoán kém hơn LLMs
  • Hài hước dựa trên sự bất ngờ không nghiêm túc, và viết truyện cười là chuyện phá vỡ khuôn mẫu
  • LLMs có tính dễ đoán cao nên không phù hợp với viết sáng tạo
  • Bài viết này cho thấy giới hạn của LLMs và gợi mở khả năng về những mô hình ngôn ngữ mới

1 bình luận

 
GN⁺ 2024-08-19
Ý kiến trên Hacker News
  • Vài năm trước, khi làm một dự án phụ, tôi đã đi đến cùng một kết luận

    • Tôi đã tạo một trang web sinh ra các bài đăng blog của AWS
    • Tôi dùng trình tạo chuỗi Markov để học từ các bài đăng thông báo của AWS
    • Tôi sao chép HTML và CSS rồi ghép chúng lại bằng Python và JS
    • Kết quả khá buồn cười
    • Tôi đã thử nâng cấp bằng GPT nhưng lại kém vui hơn
    • LLM hiện đại quá giống thật nên bớt buồn cười
    • Sự hài hước của các trình tạo Markov đời đầu đến từ tính phi lý
    • LLM hiện đại đôi khi sai, nhưng không phi lý
  • Tôi đã nhờ Claude 3.5 Sonnet viết 10 câu đùa ngắn về chủ đề chuỗi Markov vui hơn LLM

    • Vì sao chuỗi Markov băng qua đường? Để sang phía bên kia của tính không thể dự đoán
    • Khi một LLM và một chuỗi Markov bước vào quán bar, LLM gọi một món uống có xác suất hợp lý còn chuỗi Markov gọi một cái chụp đèn làm bằng phô mai
    • Khi chuỗi Markov kể dad joke, người ta gọi đó là "Mark-ov Twain"
    • LLM mất 20 phút để giải thích cách tối ưu nhất để thay một bóng đèn
    • Chuỗi Markov nói: "Markov chain reaction of nonsensical hilarity"
    • Khi một LLM, một chuỗi Markov và GPT-4 bước vào quán bar, GPT-4 bỏ đi, LLM thảo luận các vấn đề đạo đức, còn chuỗi Markov gọi một chiếc xe đạp làm bằng mì spaghetti
    • Bộ phim yêu thích của LLM là "Predictable and Furious 17: The Safest Driving Yet"
    • Chuỗi Markov kể một câu chuyện về "một công chúa sống trong lâu đài bằng chuối và một vương quốc máy nướng bánh mì có tri giác"
    • Chuỗi Markov nói với LLM: "Mẹ ngươi là một cái bàn tính và cha ngươi có mùi silicon"
    • Lý do chuỗi Markov không phải là một nhà tư vấn giỏi là vì nó khuyên rằng "hãy biến cảm xúc của bạn thành chuối rồi đội chúng như mũ"
  • Không phải là chuỗi Markov tốt hơn

    • Một mô hình được huấn luyện để dự đoán hẳn không nên quá khác với bộ máy dự đoán bên trong của chúng ta
    • Vấn đề là nó đang tiến gần đến uncanny valley của văn bản
  • Hồi đại học, bạn tôi đã dùng trình tạo chuỗi Markov cho mục "police report" của tờ báo trường

    • 10% kết quả là buồn cười nhất
    • LLM hiện đại tránh kiểu phi lý này vì chúng cố giữ ngữ nghĩa ở mức cao
  • Tôi thấy không thoải mái khi dùng Kinh Thánh cho các thí nghiệm kiểu này

    • Nó giống như dùng hình ảnh Chúa Jesus trên thập giá cho một mô hình AI chỉnh sửa ảnh
  • Như một bằng chứng thực nghiệm, /r/subreddit simulator là bản nhại Reddit dựa trên Markov

    • /r/SubSimulatorGPT2 là phiên bản dựa trên LLM
    • Bản Markov nhận được nhiều upvote hơn và vui hơn
  • Tôi đã vài lần đăng lên Reddit kiểu "XYZ giả do AI viết"

    • Mô hình nhận phản hồi tốt nhất là GPT-2
    • Chuỗi Markov không thú vị quá một hoặc hai câu
    • Các mô hình từ sau GPT-3 trở đi quá trau chuốt và nhàm chán
    • GPT-2 phần lớn vẫn đúng ngữ pháp và giữ được ý tưởng nhất quán, nhưng lại thiếu kiến thức về các chủ đề cụ thể nên buồn cười hơn
  • Khoảng 10 năm trước, khi còn đi học, tôi đã làm một bot Twitter Markov

    • Tôi cho nó học email LKML của Linus Torvalds và các câu trích Kinh Thánh King James của Chúa Jesus
    • Hai tập dữ liệu huấn luyện gần như không chồng lấp nên tôi phải thêm hysteresis
  • Sự phát triển của blog AI weirdness ủng hộ ý tưởng này

    • Các LLM đời đầu, đặc biệt là trước GPT-3, buồn cười hơn
    • Ví dụ, tên ngũ cốc do bản GPT Ada tạo ra buồn cười hơn bản Da Vinci
  • Tôi có hai bot trên máy chủ Discord cá nhân

    • Một bot là chuỗi Markov cơ bản được huấn luyện trên toàn bộ lịch sử chat
    • Bot còn lại là một bot LLM đúng nghĩa
    • Bot chuỗi Markov lúc nào cũng buồn cười hơn