1 điểm bởi GN⁺ 2 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Viết có trợ giúp bằng LLM lúc đầu cải thiện từ vựng và cấu trúc câu nên không tạo cảm giác như bài AI chất lượng thấp, nhưng vài tháng sau những dấu vết tương tự bắt đầu lặp lại trên khắp Internet
  • Trong văn viết, các câu kết luận mạnh và chuỗi câu ngắn xuất hiện thường xuyên, với những khẳng định cô đọng như “Symmetry becomes a trap.” lặp lại thành một mẫu quen thuộc
  • Cấu trúc “X is the Y of Z” và các cách diễn đạt tương phản gần với “không chỉ X mà còn Y” cũng được xem là những “mùi câu văn” có thể nhận ra trong nội dung do LLM tạo ra
  • Trên các website do AI tạo ra, phông chữ JetBrains Mono, bố cục theo step, các gạch đầu dòng tương tự nhau, cùng chấm nhấp nháy trong một số kiểu nút, thẻ và badge xuất hiện lặp đi lặp lại
  • Điểm cốt lõi không phải là phản đối bản thân việc dùng LLM/AI trong sáng tạo, mà là tập hợp và quan sát các mẫu lặp lại thường được phát hiện trong văn viết và website

Những “mùi” lặp đi lặp lại khi dùng LLM

  • Cuối năm ngoái, khi dùng LLM để gọt giũa một bài blog toán học, từ vựng và cấu trúc câu được cải thiện nên không tạo cảm giác như nội dung AI chất lượng thấp
  • Khoảng 3 tháng sau, những cấu trúc câu tương tự bắt đầu xuất hiện lặp đi lặp lại trên khắp Internet, và được cảm nhận như những dấu vết có thể nhận ra trong các công việc có AI hỗ trợ nói chung
  • Các ví dụ trong HN Thread cho thấy những “mùi AI” lặp lại trong hai lĩnh vực: văn viết và website

Các mẫu lặp lại xuất hiện trong văn viết và website

  • Văn viết do LLM tạo ra

    • Các câu kết luận mạnh xuất hiện quá thường xuyên
      • “Humans trust symmetry because it feels like intelligence made visible.”
      • “The Tiger fit the story. Jin-yong fit the physics.”
      • “Symmetry becomes a trap.”
    • Chuỗi câu ngắn được dùng lặp đi lặp lại
      • “Yet the tilt is not an accident. It is the shape of the optimum.”
      • “Then AlphaEvolve arrived. It had no preference for symmetry. No aesthetic prior. No instinct to preserve harmony.”
      • “These examples are not decorative. They form a distributed argument.”
    • Cấu trúc câu dạng “X is the Y of Z” xuất hiện thường xuyên
      • “Cringe is the visible signature of moving along a gradient you chose.”
    • Các cách diễn đạt tương phản gần với “không chỉ X mà còn Y” cũng lặp lại
      • “solutions that do not merely satisfy the constraint but satisfy the aesthetic instincts”
  • Website do AI tạo ra

    • Phông chữ JetBrains Mono xuất hiện lặp đi lặp lại
    • Bố cục “step” dùng cùng một phông chữ và các gạch đầu dòng tương tự xuất hiện trên nhiều trang web
    • Một số kiểu nút, thẻ và chấm nhấp nháy trong badge cũng có vẻ là các yếu tố lặp lại của website do AI tạo ra
  • Điểm cần lưu ý

    • Không phản đối bản thân việc dùng LLM/AI trong công việc sáng tạo; đây gần hơn với một quan sát tổng hợp các mẫu được phát hiện lặp đi lặp lại

1 bình luận

 
Ý kiến trên Hacker News
  • LLM có xu hướng trông đặc biệt ấn tượng khi làm những việc mà tôi không làm được. Nếu bạn cảm thấy đầu ra của LLM tốt hơn hẳn của mình trong một lĩnh vực cụ thể, rất có thể bạn không đủ năng lực để đánh giá đúng chất lượng đó

    • Điều này cũng đúng nguyên vẹn với lập trình, và phần nào giải thích vì sao trên HN các đánh giá về chất lượng mã do LLM tạo ra lại phân cực đến vậy
      Một bên nói “AI tạo ra thứ mã mà tôi hoàn toàn không thể tự viết, hoàn thành ngay những việc vốn phải mất vài ngày, và tăng năng suất của tôi lên 10 lần”, còn bên kia nói “AI cứ liên tục tạo ra mã tệ hại, cần làm lại, hay mắc lỗi nên phải giám sát, và rốt cuộc chỉ tốn thêm thời gian”. Nếu đầu ra của cùng một sản phẩm lại bị nhìn nhận khác nhau đến thế, thì đó là tin không mấy tốt lành cho phe thứ nhất
    • Tôi kiếm sống phần nào bằng viết lách, và văn xuôi của Claude dở đến mức khiến tôi thật sự thấy phát ói
      Ngược lại, tôi hầu như không viết code và trong công việc cũng chỉ từng làm đúng một lần, nhưng mỗi khi Claude nhả ra code chỉ trong vài giây, tôi lại có cảm giác mình là siêu nhân và sắp thành tỷ phú đến nơi. Rồi tôi nhớ ra rằng Claude còn không viết nổi thứ văn bản dễ đọc, còn tôi thì viết khá nhưng không biết code, thế là tôi xóa đoạn code đi và quay lại làm thứ kiếm ra nhiều tiền hơn
    • Tôi đồng ý với khả năng đó, nhưng các mô hình tuyến đầu hiện nay cũng không hoàn toàn vô dụng cả trong việc viết về những lĩnh vực mà tôi hiểu khá rõ
      Có lẽ một năm trước tôi sẽ không nói vậy. Chúng vẫn tạo ra những lời nhảm nghe có vẻ hợp lý đến mức ngay cả chuyên gia cũng khó phát hiện nếu không canh chừng như diều hâu, nhưng những con xúc xắc bên trong ngày càng nghiêng về phía đúng và hữu ích nhiều hơn là sai hoặc vô dụng
    • Thành thật mà nói, tôi khó hiểu nổi việc ai đó lại nghĩ văn do LLM viết dù chỉ hơi tạm chấp nhận được. Nếu bạn thấy vậy thì nên đọc sách nhiều hơn
      Một tháng một cuốn đâu phải mục tiêu cao xa gì. Chẳng cần phải đọc tới Melville, Hemingway, Chaucer hay Shakespeare, chỉ cần cầm đại một cuốn NYT bestseller cũng đã hay hơn rất nhiều so với bất kỳ thứ gì LLM có thể tạo ra
    • Tôi không đồng ý với ý rằng LLM trông giỏi ở những việc tôi không làm được. LLM rất giỏi trong việc khiến người ta tin rằng chỉ có một dạng duy nhất của văn viết hay
      LLM ưa chuộng kiểu văn đã được mã hóa như “sách giáo khoa/sổ tay kỹ thuật”, có lẽ vì như thế sẽ hữu ích hơn cho con người. Nhưng viết lách của con người không chỉ là tạo ra những câu văn thanh nhã nhất, và đôi khi văn hay cũng có thể là kiểu meme hình chó này: https://knowyourmeme.com/photos/2160304-the-winner-of-this-c...
  • Những cụm như “honest caveat:”, “genuine caveat:”, “honest answer:”, “The thing to internalize:”, “The smoking gun:” trông rất giống mùi LLM
    Đặc biệt là những câu mở đầu bằng “The ___:”, rồi cách dùng “load bearing” khi không nói về kiến trúc, “blast radius” khi không nói về vụ nổ thật, dùng “smoke test” khi lẽ ra “sanity check” mới đúng, cấu trúc liệt kê ba ý mà ý thứ ba chỉ là sự gộp lại của hai ý trước, cách gọi sự vật là “shape” theo nghĩa bóng, các bài đăng mạng xã hội kết thúc bằng “Curious if anyone…”, và cả việc dùng “Oh. Oh.” trong giai thoại với chữ Oh thứ hai được in nghiêng. Những thứ đó xuất hiện khá thường xuyên
    Một phần là thuật ngữ mà lập trình viên thật sự có dùng, nhưng vẫn đáng xem lại tần suất sử dụng thực tế, và trong văn xuôi của các mô hình mới nhất vẫn còn lưu lại các dấu vết như vậy

    • Những thành ngữ LLM kiểu này đang được tiêu thụ mỗi ngày, nên có vẻ chúng sớm muộn cũng sẽ đi vào ngôn ngữ thường nhật của thế hệ sau, thậm chí của cả thế hệ hiện tại. Nghe như sẽ rất khó chịu
    • Nếu bạn đang nói tới “load bearing” và “blast radius”, thì tôi đã thấy chúng cực kỳ thường xuyên trong các thảo luận online từ trước cả thời LLM, và bản thân tôi cũng dùng khá nhiều
      Đặc biệt load bearing từng là cách nói khá bình thường trong các cuộc trò chuyện thường ngày bên vận hành. Còn “smoke test” thì tôi chưa từng thấy ai dùng trong đời thực
    • Tôi đã bảo GPT khảo sát kiểu diễn đạt theo phong cách Claude 4.7: https://chatgpt.com/share/6a18e3b4-1308-832a-9263-bed823de3f...
      Các mẫu được Wikipedia tổng hợp cũng đã được tài liệu hóa khá tốt: https://en.wikipedia.org/wiki/Wikipedia:Signs_of_AI_writing
    • Thứ buồn cười nhất trong số những cái xuất hiện đều đặn, với tôi, là belt-and-suspenders/belt-and-braces, vì tôi chưa từng thấy người thật nào dùng cách nói đó cả. Nó khó chịu đến mức tôi phải bảo AI ngừng dùng nó
    • Thứ khiến tôi bực nhất, cá nhân mà nói, là “escape hatch”
      Cái gì rồi cũng thành escape hatch. try/catch cũng là escape hatch, cờ CLI cũng là escape hatch. Chẳng có nghĩa lý gì cả, và cuối cùng nó bị đưa vào file Markdown “từ và cụm từ bị cấm” của tôi
  • Tính đồng nhất trong viết lách bằng LLM là điều tệ. Dùng LLM để hỗ trợ viết thì tốt, nhưng tốt nhất là đừng đưa nguyên cả từ ngữ do LLM tạo ra vào bản cuối dù chỉ là một lựa chọn từ vựng
    Hãy để nó phê bình cấu trúc và mạch chảy, đồng thời tìm ra những từ bị lặp quá mức, thể bị động và các câu chủ đề ngớ ngẩn. Những việc này giúp cải thiện bài viết một cách khách quan mà không phá hỏng phong cách
    Ngược lại, tính đồng nhất của LLM trong thiết kế web lại là điều tốt. Phần lớn website không cần phải cố trở nên khác biệt. Thiết kế tốt cho một website thực dụng là khả năng dễ đọc, và LLM làm việc đó tốt hơn nhà phát triển trung bình. Cứ tiếp tục dùng cùng một cách bố trí nút và cùng một hệ thống cỡ chữ cũng không sao. Nếu theo mắt tôi mà thấy đẹp thì rất có thể nó đã tốt hơn so với lúc tôi tự làm một mình, và nếu tự làm thì khả năng cao còn tệ hơn

    • Điều tôi không thích ở thiết kế web bằng LLM là nó thêm quá nhiều thành phần vô dụng khắp nơi
      GPT-5.x đặc biệt nặng bệnh này. Ví dụ khi làm dashboard, nó nhét vô số con số và mảnh văn bản vào khắp nơi, mà phần lớn chỉ là lặp lại cùng một ý hai lần. Tất nhiên đây có lẽ không phải vấn đề bản chất của cấu trúc mà nhiều khả năng sẽ sớm được dọn dẹp, và nếu chuẩn bị toàn bộ nội dung trước rồi mới bảo nó dựng site thì có thể cho ra kết quả tốt
    • Tôi đang dùng Claude để làm trang cá nhân mới, và thấy thích ở chỗ chỉ cần nói kiểu “tôi muốn một menu đẹp mắt có link sang các trang khác” là nó nhả ra thứ đủ ổn
      Dùng LLM cho viết lách thì lại thấy rất kỳ. Viết mấy mẫu đơn ngớ ngẩn thì có thể là ngoại lệ. Tôi đã thấy cộng tác viên dùng LLM cho tài liệu kỹ thuật, và gần như lúc nào cũng là thứ nhảm nhí ở ranh giới, chỉ mang cái vẻ bề ngoài như thể đúng. Nếu dùng LLM nhiều cho viết sáng tạo thì cảm giác như chính mục đích của việc đó biến mất
    • Dù là LLM hay SaaS do một người sáng lập, cũng khó mà nói tính đồng nhất trong thiết kế web là tốt
    • Tôi dùng LLM như một công cụ tra cứu phép ẩn dụ và một cuốn từ điển cao cấp. Mọi từ đều là do tôi viết, nhưng tôi nhận trợ giúp để cải thiện tiếng Anh và có được những cách diễn đạt mà tôi chưa quen
      Tôi vẫn chưa thử dùng nó để rà soát bài viết của mình, nên cũng tò mò không biết nó có tốt đến thế không
    • Hoàn toàn đồng ý. Gần đây tôi viết một bài phát biểu, và không thể tưởng tượng nổi nó sẽ sáo mòn đến mức nào nếu tôi bê câu chữ của LLM rồi xem như của mình
      Nghĩ đến cảnh ai đó viết điều quan trọng cho, hoặc về, người mình yêu mà lại chèn vào những câu chữ ngọt ngào rác rưởi được gợi ý sẵn, tôi thấy xấu hổ thay. Đó hoàn toàn là nhảm nhí, và là một tín hiệu khổng lồ cho thấy họ còn chẳng đủ quan tâm để tự mang lời của chính mình đến với khán giả
  • Cũng không thể bỏ qua phủ định đối lập
    Đó là một cấu trúc tu từ trong đó nửa đầu câu phủ định một ý cụ thể, còn nửa sau khẳng định một phương án thay thế. Thường xuất hiện theo công thức như “không phải X mà là Y” hoặc “không chỉ là X mà là Y”
    Wikipedia cũng có một tài liệu hay về các mẫu LLM phổ biến: https://en.wikipedia.org/wiki/Wikipedia:Signs_of_AI_writing

    • Với tư cách là người mà bài viết thường xuyên bị nhận nhầm là do AI viết, tôi biết ơn phần miễn trừ trách nhiệm ở đầu tài liệu đó
      Tôi đặc biệt thích quan điểm rằng bản thân các mẫu này không phải là vấn đề. Không phải cứ sửa cái mẫu là xong; vấn đề là các mẫu này thường chỉ ra nội dung được viết qua loa hoặc cẩu thả
    • Nội dung đó có trong bài rồi
    • Sẽ mất bao lâu trước khi LLM được huấn luyện để né các mẫu trên trang wiki đó nhỉ
  • Các cấu trúc như “No ___, no ____. Just _____” hoặc việc dùng từ “honest” khi mô tả một cách tiếp cận cũng rất dễ lộ

    • “honest”, “straight”, “genuine”, “actual”, “real” đều cho cảm giác như những từ dùng để phủ lên một lập luận yếu
      Nó nghiêm trọng đến mức tôi đang nghĩ tới một cái hook để một tác tử con chen vào bước kiểm chứng kiểu “có thật sự chắc không?”. Kiểu phân biệt giả như “không phải X mà là Y” cũng được dùng tương tự. Ví dụ như mấy người tự nhận là công dân có chủ quyền nói rằng họ “không lái xe mà đang di chuyển bằng ô tô”
    • Tôi nghĩ mẫu đó là kiểu jab, jab, thrust. Nếu muốn thì cũng có thể gọi là “tap tap whack”
      Nó cũng xuất hiện ở dạng khẳng định. Kiểu như “Smooth. Effortless. A perfect fit for your needs.”. Trong các bài viết không trang trọng hoặc mang tính thuyết phục, nó cứ lặp đi lặp lại như thể phải đóng một cú chốt vào luận điểm
      Tôi hơi tiếc khi người ta cứ công khai nói mãi những dấu hiệu này là gì. Trước đây khá hay ở chỗ có thể nhận ra tương đối chính xác, nhưng chắc cũng không thể kéo dài mãi mãi được
    • Đó đã là một sáo ngữ marketing gây ngán từ rất lâu trước cả LLM, và có vẻ mô hình chỉ nhặt lại từ dữ liệu huấn luyện
    • Cũng đừng quên “the uncomfortable truth”
  • Điều thú vị là tôi không thấy văn phong của LLM đã khá lên nhiều trong thời gian gần đây
    Cách đây không lâu nó đã đạt đến mức “ổn”, nhưng các mô hình mới nhất vẫn chưa mang lại kiểu cải thiện khiến người ta thích chúng hơn các cây bút chuyên nghiệp là con người. Tôi tự hỏi liệu trong quá trình theo đuổi siêu trí tuệ, các lĩnh vực khác rồi cũng sẽ như vậy không

  • Giờ đây, trong hầu hết mọi dạng bài viết như bài blog hay tin nhắn Slack, tôi muốn thấy thứ văn bản thô, gần với con người ngay cả khi có đôi chút lỗi chính tả và sai ngữ pháp
    LLM rất tuyệt cho việc nảy ý tưởng, viết code, và có lẽ là cả biên tập câu chữ, nhưng xin đừng để nó viết thay toàn bộ. Với kiểu bài viết đó, tôi muốn nghe bạn đang nói gì chứ không phải AI

    • Tôi hay nói thế này: nếu bạn còn không buồn tự viết, thì chẳng có lý do gì để người khác muốn đọc nó cả
  • Nếu ở công ty bạn có thể dùng Claude và việc cho nó xem email của bạn là chấp nhận được, thì nên thử bảo nó kiểu “hãy đọc toàn bộ email tôi đã gửi và tạo một skill viết nháp email bằng giọng văn của tôi”
    Kể cả không dùng skill đó thật, chỉ riêng việc đọc file skill được tạo ra cũng đã thú vị. Nó cho cảm giác kỳ quái như đang hỏi Claude rằng “tôi là ai?”
    Tôi chưa thử với tin nhắn Slack, vì đọc chắc hơi đáng sợ. Nhưng cùng một ý tưởng hẳn vẫn áp dụng được
    Ở công ty tôi có vài người tích cực dùng Claude để viết tin nhắn Slack, và rất dễ lộ: cho đến một ngày họ còn viết thứ tiếng Anh barely hiểu được qua nhiều tin nhắn, rồi ngay hôm sau lại gửi một đoạn văn hoàn hảo, nhất quán trong chỉ một tin nhắn

  • Dạo này lướt feed LinkedIn thấy buồn cười
    Câu tôi thích nhất hôm nay là “Không phải thuế là vấn đề. Mà là tư duy.”

    • Kiểu tự sướng phong cách LinkedIn đã có từ trước khi LLM xuất hiện rồi
  • Thấy nhắc đến phông chữ “JetBrains Mono”, tôi đã nghĩ kiểu gì cũng sẽ có lời chê về việc lạm dụng Inter. Dù vậy, JetBrains Mono vẫn là một phông rất đẹp

    • Tôi lo là mọi chuyện sẽ thành kiểu như cái bẫy mà các đảng phái chính trị hay rơi vào: cứ thứ gì phe kia nghĩ ra thì theo định nghĩa đều là xấu
      Nếu JetBrains Mono phù hợp với công việc thì cứ dùng thôi, không cần phải tránh chỉ vì AI hay dùng nó
    • Ngoài lề một chút, nếu tên là JetBrains Mono thì đó có phải là tài sản trí tuệ của JetBrains không
      Tôi tò mò không biết dùng nó trên bất kỳ website nào có ổn về mặt pháp lý không
    • Cái này hơi làm tôi chạnh lòng
    • Đây là phông tôi dùng hằng ngày nên khi thấy nó trong danh sách đó tôi đã hơi giật mình. Chắc vì vốn đã dùng sẵn rồi nên trước giờ không nhận ra