3 điểm bởi GN⁺ 2026-02-19 | 2 bình luận | Chia sẻ qua WhatsApp
  • Cắt bỏ ngữ nghĩa (Semantic ablation)hiện tượng xói mòn mang tính thuật toán trong đó AI dần loại bỏ mật độ ý nghĩa vốn có của văn bản
  • Đây là sản phẩm phụ mang tính cấu trúc của greedy decodingRLHF (học tăng cường từ phản hồi của con người), khiến hệ thống từ bỏ những cách diễn đạt hiếm nhưng chính xác để hội tụ về ngôn ngữ trung bình
  • Việc AI được điều chỉnh theo hướng “an toàn” và “hữu ích” càng làm xu hướng này mạnh hơn, cố ý kìm hãm những ma sát ngôn ngữ phi chuẩn và dẫn đến sự cắt cụt ý đồ lẫn cá tính
  • Càng nhiều lần văn bản được AI “gọt giũa” lặp đi lặp lại, độ đa dạng từ vựng (type-token ratio) càng giảm mạnh, còn ẩn dụ, thuật ngữ chuyên môn và cấu trúc logic thì dần bị làm phẳng theo từng bước
  • Kết quả là sự phức tạp của tư duy con người bị hy sinh cho mỹ học thuật toán của “độ mượt”, và toàn xã hội đang rơi vào “cuộc đua về mức trung bình”

Khái niệm cắt bỏ ngữ nghĩa (Semantic ablation)

  • Cắt bỏ ngữ nghĩa có nghĩa là sự xói mòn mang tính thuật toán của thông tin entropy cao
    • Đây không phải lỗi, mà được định nghĩa là kết quả cấu trúc của greedy decoding và quá trình RLHF
    • Để tối đa hóa xác suất, mô hình hội tụ về trung tâm của phân phối Gaussian, loại bỏ các token hiếm, chính xác và phức tạp
  • Hiện tượng này càng trầm trọng hơn khi các nhà phát triển tăng cường điều chỉnh theo hướng “an toàn” và “hữu ích”
    • Ma sát ngôn ngữ phi chuẩn bị xem là “rủi ro”, từ đó xảy ra sự cắt bỏ ý nghĩa không được cho phép
    • Kết quả là trong quá trình theo đuổi perplexity thấp, tín hiệu độc nhất bị phá hủy

Quá trình xói mòn trong văn viết bằng AI

  • Quá trình AI “trau chuốt” bản thảo thực chất được mô tả là quá trình thực thi cắt bỏ ngữ nghĩa
    • AI xác định các vùng entropy cao, tức những phần chứa đựng insight độc đáo, rồi thay chúng bằng những token phổ biến có xác suất cao nhất
    • Sự chính xác thô ráp của văn bản gốc biến mất, nhường chỗ cho một lớp vỏ mượt mà nhưng rỗng tuếch
  • Hiện tượng này có thể đo bằng Entropy Decay
    • Văn bản càng được AI tinh chỉnh lặp đi lặp lại thì độ đa dạng từ vựng (type-token ratio) càng sụp đổ
    • Kết quả là xuất hiện quy trình 3 giai đoạn của cắt bỏ ngữ nghĩa

3 giai đoạn của cắt bỏ ngữ nghĩa

  • Giai đoạn 1: thanh lọc ẩn dụ (Metaphoric cleansing)
    • AI xem những ẩn dụ phi chuẩn hoặc hình ảnh cảm giác là “nhiễu”, rồi thay thế bằng những cách diễn đạt sáo mòn nhưng an toàn
    • Ma sát cảm xúc và cảm giác bị loại bỏ
  • Giai đoạn 2: làm phẳng từ vựng (Lexical flattening)
    • Thuật ngữ chuyên môn và từ ngữ kỹ thuật chính xác bị hy sinh với lý do “tính dễ tiếp cận”
    • Các token hiếm (1/10,000) bị thay bằng những từ đồng nghĩa phổ biến hơn (1/100), khiến mật độ ý nghĩa và lực hút logic bị pha loãng
  • Giai đoạn 3: sụp đổ cấu trúc (Structural collapse)
    • Logic phi tuyến phức tạp bị ép thành cấu trúc dễ dự đoán với perplexity thấp
    • Hàm ý và sắc thái bị loại bỏ, chỉ còn lại một lớp vỏ hoàn hảo về ngữ pháp nhưng rỗng tuếch về trí tuệ

Kết quả và phép ví von

  • Những kết quả như vậy được mô tả là “JPEG của tư duy”
    • Bề ngoài có vẻ nhất quán và mượt mà, nhưng mật độ dữ liệu và ý nghĩa ban đầu đã bị mất đi
  • Nếu “hallucination” là lỗi tạo ra thứ không tồn tại, thì cắt bỏ ngữ nghĩa là quá trình phá hủy thứ vốn đang tồn tại
    • Sự phức tạp của tư duy con người bị hiến tế lên bàn thờ của độ mượt thuật toán
    • Xã hội ngày càng rơi vào “race to the middle”, xây dựng nên một thế giới ngữ pháp trống rỗng

Cảnh báo và kết luận

  • Nếu chấp nhận đầu ra AI mà không nhận ra hiện tượng cắt bỏ ngữ nghĩa, chúng ta sẽ bình thường hóa sự mục rữa của ý nghĩa
  • Nếu sự xói mòn này tiếp diễn, có nguy cơ chúng ta sẽ quên mất ngay cả “thực chất” là gì
  • Vì vậy, việc gọi tên và nhận thức được khái niệm cắt bỏ ngữ nghĩa là rất quan trọng

2 bình luận

 
mammal 2026-02-19

Có thể xem việc cố tình để nguyên lỗi chính tả hoặc viết bằng chữ thường để không trông giống như văn bản do AI viết là một hành vi chủ đích làm tăng entropy.

 
GN⁺ 2026-02-19
Ý kiến từ Hacker News
  • Có vẻ bài này đã chạm đúng điểm chung trong cảm nhận của nhiều người khi họ từ chối lời khuyên viết lại câu chữ từ AI
    AI càng mài nhẵn câu văn thì độ sắc bén của bài viết càng biến mất, và cuối cùng nó thành ra chẳng nói gì cả
    Cá tính con người biến mất, thay vào đó là một văn phong trơn tru nhưng nhạt nhẽo
    Nhưng chính những góc cạnh thô ráp ấy, những cách diễn đạt bất ngờ ấy, mới là thứ đánh thức sự chú ý của người đọc và đào sâu vào suy nghĩ của họ

    • Tôi nghĩ điều này còn tùy vào trình độ viết của mỗi người
      Nhiều người viết không giỏi, nên AI giúp họ tạo ra câu chữ rõ ràng hơn và ít lỗi hơn
      Nhưng kiểu bài viết đó sẽ không bao giờ vĩ đại
      Dù có cố bắt chước phong cách của một nhà văn nổi tiếng thì nghe vẫn luôn có gì đó gượng gạo
    • Tôi nghĩ AI về bản chất là công cụ cho các tác vụ thường nhật
      Nó có thể làm cho những phần nhàm chán như email hiệu quả hơn, nhưng thứ thực sự thú vị lại xảy ra ở những “vùng rìa” đó
      Việc viết thông thường có thể tự động hóa, nhưng biểu đạt sáng tạo vẫn là lãnh địa của con người
    • Tôi có cảm giác văn phong do AI tạo ra khá giống giọng điệu của nhà quản lý
      Khi thiếu chuyên môn kỹ thuật, nó ngày càng lấp đầy bằng những từ ngữ mơ hồ, buzzword và ẩn dụ
      Có lẽ đó cũng là lý do các lãnh đạo hay chính trị gia thích nội dung do AI tạo ra
    • Lý do văn bản AI nhạt nhẽo không phải vì nó “quá hoàn hảo” mà là vì sự cùn mòn nhân tạo
      Nó lặp lại nhiều, có nhiều câu thừa và diễn đạt kém cụ thể
    • Tóm gọn trong một câu thì đó là Mediocrity as a Service
  • Trong lúc xây nhiều pipeline multi-agent, tôi đã thấy một hiện tượng khá thú vị
    Nếu đi qua 4 bước ‘tóm tắt → mở rộng → rà soát → gọt giũa’, thì từ khoảng bước 3 trở đi mọi câu đều có cùng nhịp điệu và từ vựng
    Ngay cả khi liên tục tham chiếu nguyên văn, vẫn có giới hạn
    Nguyên nhân nằm ngay trong cấu trúc RLHF (học tăng cường từ phản hồi của con người)
    Vì các cách diễn đạt “rõ ràng, an toàn và vô hại” được ưu tiên nên những câu gây bất ngờ lại bị phạt
    Kết quả là mô hình hội tụ về đầu ra trung bình
    Mô hình gốc thì kỳ quặc và sáng tạo hơn nhiều, còn mô hình đã fine-tune thì cố ý loại bỏ cá tính
    Vì vậy với những model đã bị RLHF áp rất mạnh, rất khó giải quyết chỉ bằng prompt
    Thay vào đó, tôi tách việc ra kiểu như giao các tác vụ “cần giữ nguyên giọng văn” cho model ít được tune hơn, còn trích xuất cấu trúc hay phân loại thì giao cho model RLHF

    • Thành thật mà hỏi, tôi cũng muốn biết liệu bình luận này có phải được viết bằng LLM không
      Dù sao thì tôi đồng ý với phân tích đó
    • Tôi tò mò liệu có thể giữ được cá tính bằng cách tiêm noise ở mỗi bước trung gian hay không
      Dù vậy chắc vẫn khó giữ nguyên cá tính riêng của văn bản gốc
    • Ngay cả khi bỏ RLHF đi, tôi vẫn nghi ngờ liệu có thể duy trì một kết quả lệch khỏi mức trung bình mà vẫn hữu ích hay không
      Cuối cùng có lẽ đây là vấn đề khó giải quyết chỉ bằng LLM
  • Dạo này ở khắp nơi trên internet đều nghe thấy giọng của AI
    Blog, tin tức, cáo phó, YouTube, tất cả đều cùng một tông
    Thậm chí có cả những trường hợp bắt chước giọng của các nhà vật lý nổi tiếng
    Cá nhân tôi thấy như thể linh hồn đang bị rút cạn, nên khá buồn bã

    • Thậm chí ngay trong bài này tôi cũng cảm thấy có mùi AI đó
    • Càng lúc tôi càng có phản ứng ghét bỏ theo bản năng
      Nó giống như dấu vết nén JPEG của năm 1993, giờ đã bắt đầu nhìn ra được rồi
    • Tôi nghĩ đây là thay đổi tệ nhất của internet kể từ feed gây nghiện và quảng cáo
      Vì hiệu ứng nhà sáng lập, có lẽ cũng sẽ không có một internet mới nào xuất hiện nữa
    • Ngay khoảnh khắc tôi nhận ra các pattern văn phong AI, sự tập trung của tôi vỡ vụn hoàn toàn
      Tôi không biết là do tôi quá nhạy cảm hay thực sự văn bản đó quá tệ
    • Giờ thì hoạt động offline còn vui hơn online
      Internet bị phủ đầy rác tổng hợp đến mức tôi chẳng còn muốn nhìn nữa
  • Tôi nghĩ chính thuật ngữ “Generative AI” đã là sai rồi
    Càng hiểu các nguyên lý toán học của machine learning, tôi càng thấy nó không nên được dùng để tạo ra nội dung cho con người tiêu thụ
    Thi thoảng may mắn thì ra được kết quả ổn, nhưng phần lớn chỉ ở mức một người đang cố tỏ ra sáng tạo tại một bữa tiệc chán ngắt
    Là công cụ hỗ trợ sáng tác thì hữu ích, nhưng tự nó tạo ra kết quả sáng tạo thì tôi cho là không thể

    • Con người muốn thứ thật
      So với những token nhân tạo thì tôi còn thấy đọc nguyên prompt còn hơn
    • Nói ngắn gọn, đây là Regurgitative AI, tức AI nhai lại
    • Giá mà các công ty tập trung AI vào những mảng nó thực sự hữu ích, chẳng hạn hỗ trợ tìm kiếm hay tự động hóa code
      Nhưng thực tế lại là sản xuất hàng loạt spaghetti agent để đẩy giá cổ phiếu
    • Cách gọi “lời nói của kẻ nhàm chán nhất” chuẩn đến mức buồn cười
      Có thể gọi đó là Median AI à la mode
  • Cụm từ “high entropy” mà học giả Kinh Thánh Dan McClellan dùng thật sự rất ấn tượng
    Trong video YouTube
    ông ấy trích câu “they struck a tuning fork that resounded in the loins of their dogmatism”,
    và tôi cảm thấy AI sẽ không bao giờ tạo ra được kiểu diễn đạt như vậy

    • Nhưng câu đó cũng hơi giống một kiểu word salad
      Nếu là văn phong ở mức GPT-2 thì có khi lại còn tự nhiên hơn
    • AI sẽ không bao giờ dùng những từ như “loins” hay “dogmatism”
      Vì đó là những từ quá mang tính tình dục hoặc bất lợi cho marketing
    • Ẩn dụ đó cũng hơi giống một kiểu ẩn dụ trộn lẫn
    • Thực ra các model như Claude, nếu prompt tốt, vẫn có thể tạo ra những ẩn dụ hoa mỹ
      Ví dụ nếu cho prompt kiểu “hãy viết bằng cách trộn phong cách Jim Thompson và Thomas Harris, với cảm giác pulp của hiệu sách ở trạm dừng xe tải năm 1967” thì kết quả khá ổn
      Claude mạnh hơn ChatGPT ở kiểu văn phong cường điệu này
      Cuối cùng, nếu các bài viết trên web nghe giống nhau, đó không phải vì HTML mà vì con người đã không tận dụng HTML đúng cách
  • Tôi cũng có trải nghiệm tương tự
    Tôi viết đầy cảm xúc cho landing page của studio mới rồi đưa vào Grok, và mọi cá tính đều biến mất
    Chính những cách diễn đạt thô ráp mới cần thiết để truyền tải linh hồn của concept
    Giờ tôi chỉ dùng AI để kiểm tra ý tưởng

    • Tôi cũng từng dùng LLM để tạo ý tưởng, nhưng kết quả rất tệ
      Tôi bảo nó dựng cốt truyện cho một chiến dịch Dungeon World, và nó chỉ cho ra những bối cảnh quá tầm thường và vô nghĩa
      Nhưng nó lại hữu ích trong việc tóm tắt ghi chép sau phiên chơi và biến chúng thành một narrative thú vị
      ChatGPT hơi thích giọng điệu pha trò, nhưng sửa lại thì kết quả cũng khá dễ đọc
      Cuối cùng, cốt truyện sáng tạo vẫn phải do con người tự làm
    • Nếu tiếp nhận nguyên xi ý tưởng từ AI thì sẽ xảy ra đơn giản hóa theo kiểu ẩn dụlàm phẳng từ vựng
      Có nguy cơ khiến người ta hiểu khái niệm theo dạng méo mó
      Nó hữu ích khi tìm thuật ngữ mới, nhưng để hiểu sâu một khái niệm thì tôi thấy tự tìm tài liệu do con người viết vẫn tốt hơn nhiều
  • Tôi thực sự thích khái niệm “Semantic ablation
    Từ giờ tôi định dùng nó khi giải thích vì sao email kiểu ChatGPT của ai đó lại dở
    Cũng vì vậy mà tôi hoài nghi cả những tuyên bố cho rằng các model như Opus 4 sẽ trở thành AGI
    Cuối cùng, dù có thả nhiều agent đi nữa, mọi thứ rồi cũng sẽ hội tụ thành một thứ cháo đồng nhất vô nghĩa

    • Cảm ơn vì đã cho tôi ngôn ngữ để diễn đạt góc nhìn này
  • Việc sinh ảnh có vẻ giống một dạng anti semantic ablation
    Nó bắt đầu từ canvas trắng rồi dần hội tụ thành những pixel có ý nghĩa
    Tôi tò mò không biết trong sinh ngôn ngữ có thể làm ngược lại, tức dần phát triển thành những câu mang quan điểm rõ nét hơn hay không

  • Nếu có thể đo được mức độ xóa mòn ý nghĩa của câu được sinh ra, có lẽ ta có thể tạo một agent dạng loop để giảm nó xuống
    Làm vậy có thể còn tìm ra những kết nối mới chưa từng được phát hiện trong dữ liệu huấn luyện
    Tất nhiên kết quả cũng có thể chỉ là hét to hơn mà thôi

  • Với những ai chưa xem, tôi khuyên nên đọc trang Wikipedia về dấu hiệu của văn bản AI
    Ban đầu nó là hướng dẫn để phát hiện phần đóng góp của AI, nhưng
    nó cũng là tài liệu tham khảo tốt để nhận ra rằng khi tự viết, mình cũng đang mắc những lỗi tương tự và có thể sửa chúng