40 điểm bởi GN⁺ 2026-03-09 | 6 bình luận | Chia sẻ qua WhatsApp
  • Một tệp Markdown duy nhất phân loại theo từng danh mục các mẫu viết lặp đi lặp lại (trope) thường xuất hiện trong văn bản do AI tạo ra
  • Nếu thêm tệp này vào system prompt của AI, có thể định hướng để tránh lối văn đậm chất AI thường gặp
  • Hơn 30 mẫu cụ thể được sắp xếp kèm ví dụ dưới 6 nhóm lớn: lựa chọn từ ngữ, cấu trúc câu, cấu trúc đoạn, giọng điệu, định dạng và bố cục
  • Bao quát từ vốn từ vựng quá đà đặc trưng của AI như "delve", "tapestry", "landscape" đến các cấu trúc câu tạo cảm giác sâu sắc giả tạo như "It's not X -- it's Y"
  • Mỗi mẫu nếu chỉ dùng một hai lần thì không sao, nhưng khi nhiều mẫu cùng xuất hiện hoặc lặp lại nhiều lần thì đó là tín hiệu rất mạnh của văn bản do AI tạo ra
  • Chính tệp này cũng được viết với sự hỗ trợ của AI, và có kèm tuyên bố miễn trừ trách nhiệm: "AI cho AI, con người cho con người"

Lựa chọn từ ngữ (Word Choice)

  • "Quietly" và các trạng từ ma thuật: mẫu lạm dụng các trạng từ như "quietly", "deeply", "fundamentally", "remarkably", "arguably" để gán một tầm quan trọng tinh tế cho mô tả vốn rất bình thường
    • Ví dụ: "quietly orchestrating workflows", "a quiet intelligence behind it"
  • "Delve" và các từ tương tự: từng là dấu hiệu AI nổi tiếng nhất, xuất hiện với tần suất bất thường cao trong văn bản do AI tạo
    • "certainly", "utilize", "leverage" (động từ), "robust", "streamline", "harness" cũng cùng nhóm này
  • "Tapestry" và "Landscape": mẫu dùng danh từ khoa trương ở những nơi chỉ cần từ đơn giản là đủ
    • "tapestry" bị lạm dụng cho mọi thứ có tính liên kết, còn "landscape" bị lạm dụng cho mọi lĩnh vực hay miền ứng dụng
    • "paradigm", "synergy", "ecosystem", "framework" cũng là cùng một kiểu
  • Né tránh "Serves As": thay vì dùng "is/are" đơn giản thì dùng các từ nối cường điệu như "serves as", "stands as", "marks", "represents"
    • Điều này xảy ra vì hình phạt lặp lại của AI đẩy mô hình ra khỏi các động từ nối cơ bản (copula) sang những cụm bóng bẩy hơn

Cấu trúc câu (Sentence Structure)

  • Cấu trúc song song phủ định (Negative Parallelism): mẫu "It's not X -- it's Y", là dấu hiệu dễ nhận ra nhất trong văn viết của AI
    • Gói mọi thứ thành một màn tái khung (reframe) đầy bất ngờ để tạo ra chiều sâu giả
    • Trước thời LLM không hề tồn tại kiểu viết hàng loạt như vậy
    • Cũng bao gồm biến thể nhân quả "not because X, but because Y"
  • "Not X. Not Y. Just Z.": mẫu đếm ngược kịch tính phủ định hai hay nhiều khả năng rồi mới hé lộ ý chính
    • Tạo cảm giác giả rằng chân lý đang được thu hẹp dần
  • "The X? A Y.": mẫu tự đặt câu hỏi tu từ rồi tự trả lời ngay cho một câu hỏi mà không ai hỏi
    • Dùng để tạo hiệu ứng kịch tính, và AI xem đó như tinh hoa của lối viết hay
  • Lạm dụng điệp ngữ đầu câu (Anaphora): lặp nhanh nhiều lần cùng một mở đầu câu
    • Ví dụ: "They assume that... They assume that... They assume that..."
  • Lạm dụng cấu trúc ba vế (Tricolon): lạm dụng quy tắc bộ ba, thậm chí còn kéo dài thành bốn hoặc năm vế
    • Một cấu trúc ba vế thì thanh nhã, nhưng ba cấu trúc liên tiếp là thất bại trong nhận diện mẫu
  • "It's Worth Noting": cụm chuyển ý đệm không phát đi tín hiệu gì cả
    • "It bears mentioning", "Importantly", "Interestingly", "Notably" cũng thuộc cùng loại
    • Được dùng để mở ra một luận điểm mới mà không thực sự nối nó với lập luận trước đó
  • Phân tích hời hợt (Superficial Analyses): gắn thêm cụm hiện tại phân từ ("-ing") ở cuối câu để bơm vào một lớp phân tích nông
    • Các cách diễn đạt như "highlighting its importance", "reflecting broader trends", "contributing to the development of..."
    • Gán cho sự thật bình thường một tầm quan trọng, di sản hay ý nghĩa rộng lớn
  • Dải giá trị giả (False Ranges): cấu trúc "from X to Y" trong đó X và Y thực ra không nằm trên cùng một thang đo nào
    • Cách dùng hợp lệ ngụ ý một phổ có các điểm trung gian có ý nghĩa, nhưng AI lại dùng nó để liệt kê hai thứ chỉ liên quan lỏng lẻo
  • Liệt kê mảnh gerund rời rạc (Gerund Fragment Litany): sau khi nêu luận điểm thì liệt kê liên tiếp các mảnh gerund không có chủ ngữ
    • "Fixing small bugs. Writing straightforward features. Implementing well-defined tickets."
    • Câu đầu đã nói hết ý, còn các mảnh phía sau chỉ thêm số chữ và nhịp điệu đặc trưng của AI
    • Con người không viết bản nháp theo kiểu này; đây thuần túy là một tật cấu trúc

Cấu trúc đoạn văn (Paragraph Structure)

  • Các mảnh ngắn đanh gọn (Short Punchy Fragments): dùng những câu hay mảnh câu cực ngắn làm thành các đoạn độc lập để tạo sự nhấn mạnh nhân tạo
    • Kết quả của huấn luyện RLHF đẩy mô hình về phía kiểu "viết để dễ đọc" cho nhóm độc giả ở mức thấp nhất
    • Một câu một ý, không cần duy trì trạng thái tinh thần, một phong cách phi con người
  • Listicle trá hình (Listicle in a Trench Coat): ngụy trang các ý đánh số hoặc gắn nhãn thành văn xuôi liền mạch
    • Mẫu giấu hình thức danh sách trong các đoạn mở đầu bằng "The first... The second... The third..."
    • Thường được chọn làm giải pháp thay thế sau khi bị yêu cầu ngừng tạo danh sách

Giọng điệu (Tone)

  • "Here's the Kicker": chuyển ý tạo hồi hộp giả khi hứa hẹn một phát hiện lớn nhưng thực ra đang dẫn đến một ý không cần màn dọn đường đó
    • "Here's the thing", "Here's where it gets interesting", "Here's what most people miss" cũng cùng loại
  • "Think of It As...": mặc định vào chế độ thầy giáo, giả định người đọc cần một phép so sánh mới hiểu được bất kỳ thứ gì
    • AI thường tạo ra các phép ví von còn kém rõ ràng hơn chính khái niệm gốc
  • "Imagine a World Where...": lời mời gọi kiểu vị lai học điển hình của AI; sau "Imagine" là một danh sách những điều tuyệt vời sẽ xảy ra nếu bạn đồng ý với tiền đề
  • Sự mong manh giả tạo (False Vulnerability): tự nhận thức mang tính trình diễn, như phá vỡ bức tường thứ tư hoặc giả vờ thừa nhận thiên kiến
    • Sự mong manh thật thì cụ thể và khó chịu, còn sự mong manh của AI thì trau chuốt và không rủi ro
  • "The Truth Is Simple": mẫu khẳng định một điều là hiển nhiên hay đơn giản thay vì thật sự chứng minh
  • Thổi phồng mức độ hệ trọng (Grandiose Stakes Inflation): phóng to mức độ liên quan của mọi luận điểm thành tầm vóc lịch sử thế giới
    • Một bài blog về giá API biến thành suy tư về số phận của nền văn minh
  • "Let's Break This Down": giọng giảng bài mặc định đặt cả với độc giả chuyên môn vào quan hệ thầy - trò
    • "Let's unpack this", "Let's explore", "Let's dive in" cũng cùng loại
  • Quy gán mơ hồ (Vague Attributions): quy cho các thẩm quyền vô danh như "experts", "observers", "industry reports" mà không có nguồn cụ thể
    • Cũng bao gồm việc nâng một ý kiến của một người thành quan điểm phổ biến, hoặc thổi phồng hai nguồn thành "several publications"
  • Nhãn khái niệm bịa ra (Invented Concept Labels): gắn các danh từ vấn đề trừu tượng (paradox, trap, creep, divide, vacuum, inversion) vào từ ngữ của lĩnh vực để tạo ra nhãn ghép nghe có vẻ phân tích nhưng không có nền tảng
    • Như "supervision paradox", "acceleration trap", "workload creep"
    • Nó hoạt động như một lối tắt tu từ: đặt tên rồi bỏ qua phần lập luận; nếu xuất hiện nhiều cái trong cùng một bài thì đó là dấu hiệu rất mạnh của AI slop

Định dạng (Formatting)

  • Nghiện em dash (Em-Dash Addiction): lạm dụng ám ảnh dấu em dash cho các khoảng dừng kịch tính, cụm chen ngang và điểm chuyển ý
    • Người viết thật thường dùng tự nhiên 2-3 lần trong một bài, còn AI có thể dùng hơn 20 lần
  • Bullet mở đầu bằng chữ đậm (Bold-First Bullets): mẫu mọi bullet point đều bắt đầu bằng một cụm in đậm
    • Rất phổ biến trong đầu ra Markdown của Claude và ChatGPT, trong khi gần như không ai định dạng thủ công như vậy
    • Là dấu hiệu rõ ràng của tài liệu, bài blog và tệp README do AI tạo ra, đặc biệt khi có emoji
  • Trang trí Unicode (Unicode Decoration): dùng các ký tự đặc biệt như mũi tên Unicode (→), dấu ngoặc kép thông minh/cong mà bàn phím chuẩn không dễ nhập
    • Người viết thật thường dùng ngoặc kép thẳng và ->, => trong trình soạn thảo văn bản
    • Claude đặc biệt ưa chuộng mũi tên →

Bố cục (Composition)

  • Tóm tắt phân dạng fractal (Fractal Summaries): áp dụng kiểu "nói trước điều sắp nói, nói điều đang nói, nhắc lại điều vừa nói" ở mọi cấp độ của tài liệu
    • Mỗi tiểu mục, mục lớn và cả tài liệu đều có phần tóm tắt riêng
  • Ẩn dụ chết (The Dead Metaphor): bám vào một ẩn dụ và lặp lại nó xuyên suốt cả bài
    • Người viết thường giới thiệu ẩn dụ, dùng xong rồi chuyển tiếp; còn AI lặp lại 5-10 lần
  • Chồng lớp ví dụ lịch sử (Historical Analogy Stacking): đặc biệt phổ biến trong viết lách về công nghệ, nơi các công ty lịch sử hay các cuộc cách mạng công nghệ được liệt kê nhanh liên tiếp để xây dựng thẩm quyền giả
    • Các mẫu kiểu "Apple didn't build Uber. Facebook didn't build Spotify..."
  • Pha loãng một ý chính (One-Point Dilution): diễn đạt lại một luận điểm duy nhất thành 10 cách khác nhau qua hàng nghìn từ
    • Dùng các ẩn dụ, ví dụ và khung diễn giải khác nhau để đệm thêm cho cùng một ý tưởng nhằm trông "toàn diện"
  • Lặp nội dung (Content Duplication): lặp nguyên xi cả mục hay đoạn trong cùng một bài
    • Xảy ra khi mô hình không theo dõi được những gì đã viết, đặc biệt trong bài dài
    • Là dấu hiệu rõ ràng của đầu ra AI chưa biên tập, dù gần đây ít gặp hơn
  • Kết luận có biển chỉ đường (The Signposted Conclusion): thông báo rõ ràng phần kết bằng "In conclusion", "To sum up", "In summary"
    • Viết tốt là để người đọc tự cảm nhận đoạn kết, không cần báo trước
    • AI phát tín hiệu cho các bước cấu trúc vì nó làm theo khuôn mẫu
  • "Despite Its Challenges...": công thức cứng nhắc trong đó AI thừa nhận vấn đề rồi lập tức gạt nó đi
    • "Despite its [từ tích cực], [chủ ngữ] faces challenges..." rồi luôn theo cùng một nhịp: "Despite these challenges, [kết luận lạc quan]"

Nguyên tắc cốt lõi

  • Các mẫu trên có thể không sao nếu chỉ dùng một lần, nhưng sẽ thành vấn đề khi nhiều mẫu cùng xuất hiện hoặc một mẫu bị lặp đi lặp lại
  • Hãy viết như con người: đa dạng, không hoàn hảo và cụ thể

6 bình luận

 
geekygeek 2026-03-09

"Trong bài viết này, tác giả mổ xẻ văn bản do AI tạo ra rồi phơi bày 6 dấu hiệu lớn của 'AI slop' cùng cấu trúc ẩn phía sau chúng. Đây không chỉ là việc liệt kê từ ngữ đơn thuần. Từ những từ vựng bị lạm dụng như "delve" hay "tapestry" đến các mẫu câu tạo cảm giác sâu sắc giả tạo, bài viết bàn về lý do chúng không viết như con người. Điểm cốt lõi là khôi phục lối viết đa dạng và không hoàn hảo."

 
y15un 2026-03-10

Từ thời còn viết luận văn thạc sĩ bằng LaTeX, sau khi lần đầu học được sự khác biệt giữa em dash (---) và en dash (--), cho đến nay tôi đã dùng chúng khá thường xuyên trong gần như mọi bài viết tiếng Anh của mình. (Tôi gán phím tắt bằng Espanso để dùng.)
Cho đến giờ tôi vẫn chưa từng bị ai hỏi kiểu như “Bạn viết bài này bằng AI à?”, nhưng việc dấu câu tôi hay dùng lại được xem như một chỉ dấu của AI vẫn khiến tôi có cảm giác thật khó tả.

Bài liên quan đáng đọc: https://marcusolang.substack.com/p/im-kenyan-i-dont-write-like-chatgpt

 
y15un 2026-03-10

Tìm lại thì đây là bài mình đã thấy trên GeekNews: 나는 케냐인이다. 나는 ChatGPT처럼 쓰지 않는다. ChatGPT가 나처럼 쓴다

 
savvykang 2026-03-09

Wow... bạn thật sự, **đã nói trúng tim đen.**

 
hmmhmmhm 2026-03-09

Ồ, sẽ rất tuyệt nếu có cả phiên bản tiếng Hàn nữa.

 
GN⁺ 2026-03-09
Ý kiến trên Hacker News
  • Nếu muốn chia sẻ bài viết một cách nghiêm túc thì nên tránh dùng những prompt kiểu này
    Tôi đã thử viết bài blog bằng LLM, lúc đầu trông ổn nhưng chỉ sau vài lần lặp lại thì mọi bài đều nghe như cùng một giọng
    Cùng một văn phong đó cũng lặp lại ở các blog, bài báo và whitepaper khác
    Độc giả không chỉ muốn đọc nội dung văn bản mà còn muốn nghe giọng điệu riêng của tác giả
    Bài liên quan: Why We Hate LLM Articles

  • Lý do bài viết do AI tạo ra dở là vì nó không có “giọng”
    Tác giả con người đưa ra góc nhìn xuất phát từ trải nghiệm của mình, còn AI thì không hề có chủ đích “muốn” nói điều gì
    Nó cũng không duy trì được tính nhất quán sâu. Có vẻ đây là vấn đề nảy sinh vì nó không có mục tiêu mang tính con người, ký ức hay cảm giác về bản ngã

  • Những nỗ lực như vậy tạo cảm giác khó chịu
    Thay vì cố che giấu câu văn do AI viết một cách khéo léo, tốt hơn là đừng lãng phí thời gian
    Nếu không thấy xấu hổ khi dùng AI để viết thì không cần phải giấu, còn nếu thấy xấu hổ thì nên dừng lại
    Bị phản đối vì đầu độc cái giếng không có nghĩa là nên dùng chất độc tinh vi hơn

  • Tôi đang nghiên cứu phong cách viết của LLM, và trong số các cách diễn đạt ở thread này, “tapestry” khá thú vị
    Đây là từ GPT-4o dùng thường xuyên thứ hai sau “camaraderie”
    Mô hình gốc ít có kiểu văn phong kỳ lạ này hơn, nhưng sau khi qua instruction tuning thì nó xuất hiện
    Tôi tò mò không biết họ có để người đánh giá chấm phong cách hay có rubric nào không
    Bài báo liên quan: bài PNAS, bản preprint trên arXiv

    • Kiểu văn phong kỳ lạ này bắt nguồn từ RLHF
      Nghiên cứu ở Kenya và Nigeria cho thấy perplexity là mục tiêu tối ưu hóa, nên mô hình tiền huấn luyện phản ánh đầu ra “dễ đoán” nhất
    • Tôi có gom các liên kết về phong cách viết của AI ở đây: AI Writing Style
      Trong đó cũng có bài “Hydrogen Jukeboxes”
      Sự thay đổi phong cách cũng được bàn trong phân tích mode collapse của Gwern Branwen
    • Theo trực giác của tôi, mode collapse mới là nguyên nhân lớn hơn RLHF
      Ngay cả các mô hình gần như không có ưu tiên của con người như DeepSeek R1 Zero cuối cùng cũng hội tụ về những mẫu ổn định
      Hiện tượng này lặp lại qua từng thế hệ, và web bị ô nhiễm bởi đầu ra của các mô hình thế hệ trước nên tạo thành vòng luẩn quẩn
    • Có thể điều này cũng liên quan đến cách ý nghĩa gắn với token
      Ví dụ, cách token hóa của “camaraderie”, hay việc trong tiếng Anh emoji là loại chữ tượng hình duy nhất nên có tỷ trọng lớn, đều khá thú vị
    • Tôi cũng nghĩ sự thay đổi phong cách này có thể là do chat fine-tuning
  • Những danh sách như thế này có nguy cơ càng ngày càng dài ra
    Vì AI liên tục tạo ra những cliché mới

  • Tệp này khiến tôi thấy giống một tài liệu dành cho người dùng như tôi hơn là cho LLM
    Câu “hãy thêm tệp này vào system prompt của AI” rốt cuộc thành ra là AI đang chỉ thị cho AI của nó
    Nó lẫn cả giải thích vào nên khá rối. Những cách diễn đạt kiểu “đừng làm” lại gây tác dụng ngược khiến từ đó xuất hiện thường xuyên hơn
    Nên tách riêng phần giải thích cho người dùng và phần chỉ dẫn cho AI
    Tôi đã nhờ Claude viết lại và sắp xếp vào gist này

    • Trong bản gốc và gist, các tên mẫu như “Negative Parallelism”, “Gerund Fragment Litany” xuất hiện lặp lại
      Với LLM thì tránh các tên gọi như vậy và mô tả dạng tích cực của câu hay sẽ hiệu quả hơn
      Phiên bản Claude viết lại nằm ở đây
    • Tôi cũng đồng ý. Đây là một danh sách tốt nhưng không phù hợp để dùng làm prompt
      Càng bảo “đừng làm” thì lại càng làm nhiều hơn, đúng kiểu hiệu ứng Streisand
      Nếu yêu cầu viết theo phong cách của một tác giả cụ thể thì sẽ tự nhiên hơn và bớt chung chung hơn
      Sau đó thêm một “agent biên tập” để loại bỏ cliché thì kết quả sẽ tốt hơn nhiều
  • Tôi đã thử dùng Gemini để nghiên cứu lịch sử, nhưng nó không thể ngừng dùng ẩn dụ công nghệ
    Nó ví lãnh chúa như CEO, giáo hoàng như influencer, và các cuộc nổi dậy phong kiến như phỏng vấn xin việc, nên gần như thành hài

    • Có lẽ Gemini đang cố cá nhân hóa câu trả lời cho phù hợp với tôi
      Trong phần cài đặt có thể thêm chỉ dẫn bổ sung, nhưng khi tôi đưa tech stack của mình vào thì cuối mọi câu trả lời đều có câu “JVM và v8 sẽ xử lý chuyện đó”
      Thế là tôi bảo nó bỏ qua đi, thì lần này nó lại thêm một đoạn mở đầu bằng giọng mỉa mai: “Với bộ não thạc sĩ của bạn thì…”
  • Dạo này Claude và ChatGPT hay dùng các từ như “genuine”, “real”, “honest”
    Những cách diễn đạt kiểu “no <thing you told me not to do>” cũng xuất hiện thường xuyên. Có vẻ như để xác nhận việc tuân thủ prompt

    • Tôi cũng thấy trên Reddit, đặc biệt là subreddit NBA, từ “honestly” bị dùng quá nhiều
    • Các trạng từ như “genuinely” cũng có cảm giác đang tăng lên cả trong văn bản do người thật viết. Có thể đây là sự thay đổi xu hướng ngôn ngữ sau đại dịch
    • Một cách diễn đạt mới tôi thấy ở Claude là “Fair enough, …
    • “X that actually works” cũng xuất hiện thường xuyên
    • Cũng hay gặp kiểu đưa nguyên câu chỉ dẫn vào văn bản như “no react hooks”. Cảm giác hơi bị động-gây hấn
  • Wikipedia cũng có tài liệu liên quan: Signs of AI Writing
    Nhưng đọc một lúc lại thấy cả những thói quen viết của chính mình nên cũng hơi ngượng
    Đặc biệt là tôi hay dùng những cách diễn đạt phạm vi giả như “from X to Y”
    Ngoài ra, LLM dường như không bao giờ bỏ được thói quen tách tiêu đề và phụ đề bằng dấu hai chấm

    • Con người cũng dùng những cliché này, nhưng AI thì lặp lại ở mọi đoạn văn
    • Tài liệu prompt liên quan: LLM_PROSE_TELLS.md
  • Tôi muốn giới thiệu một tài liệu hữu ích do con người tự viết: Wikipedia: Signs of AI Writing