1 điểm bởi GN⁺ 2 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • LLM giúp tăng hiệu suất trong hỗ trợ viết, nhưng khi chỉnh sửa văn bản của con người, chúng thay đổi kết luận, lập trường và kiểu lập luận, đồng thời tạo ra những biến đổi ý nghĩa theo hướng khác với biên tập viên con người
  • Trong nghiên cứu người dùng, những người dùng LLM nhiều cho biết họ hài lòng với kết quả, nhưng cũng trả lời rằng giọng văntính sáng tạo của mình giảm đi một cách có ý nghĩa thống kê, cho thấy nghịch lý về sở thích
  • Khi chỉnh sửa 86 bài luận do con người viết trong ArgRewrite-v2 bằng ba LLM (gpt-5-mini, gemini-2.5-flash, claude-haiku), ngay cả với chỉ dẫn sửa tối thiểu hoặc chỉ sửa ngữ pháp, từ vựng và ý nghĩa vẫn thay đổi đáng kể
  • Văn bản do LLM viết hoặc chỉnh sửa chuyển sang văn phong trang trọng và phi cá nhân hơn, với sự gia tăng của danh từ, tính từ và ngôn ngữ cảm xúc, logic, thống kê, trong khi đại từ và lập luận dựa trên trải nghiệm cá nhân giảm đi
  • Trong phân tích 18 nghìn bài review phản biện của ICLR 2026, các review bị xác định là do AI tạo ra chiếm 21% tổng số, cho điểm cao hơn 10% so với review của con người và tập trung nhiều hơn vào tính tái lập và khả năng mở rộng

Tổng quan nghiên cứu

  • LLM hiện được hơn 1 tỷ người trên toàn thế giới sử dụng, và trường hợp dùng phổ biến nhất là hỗ trợ viết
  • LLM có thể mang lại cải thiện lớn về hiệu suất, nhưng điều đó đặt ra câu hỏi liệu chúng có thực sự viết đúng điều người dùng muốn hay không
  • Nhiều người dùng nhận ra “cảm giác” của văn phong LLM, nhưng lại không nhận thức rõ mức độ LLM bóp méo ý nghĩa của văn bản
  • Đối tượng phân tích gồm ba nguồn dữ liệu
    • nghiên cứu người dùng
    • bộ dữ liệu bài luận lập luận do con người viết
    • các bài review của hội nghị máy học hàng đầu
  • Tài liệu nghiên cứu được cung cấp qua PaperCode

Phát hiện chính

  • LLM thay đổi kết luận của bài viết, đồng thời thay đổi cả lập trườngkiểu lập luận
  • Người dùng nói rằng họ hài lòng với kết quả, nhưng cũng cho biết giọng văntính sáng tạo của mình giảm đi một cách có ý nghĩa thống kê, cho thấy nghịch lý về sở thích
  • Ngay cả khi chỉ được yêu cầu sửa ngữ pháp đơn thuần, LLM vẫn gây ra biến đổi ý nghĩa lớn hơn so với biên tập viên con người
  • Ảnh hưởng này cũng xuất hiện trong các bài review của International Conference of Learning Representations (ICLR) 2026
    • các bài review phản biện bị xác định là do AI tạo ra chiếm 21% tổng số
    • những bài review này tập trung vào các tiêu chí khoa học khác biệt có ý nghĩa so với review của con người trong lý do chấp nhận hoặc từ chối bài báo
  • Khi LLM ngày càng được tích hợp vào xã hội, những thay đổi ý nghĩa tinh vi như vậy có thể làm biến đổi chính trị, văn hóa, khoa học, cũng như giao tiếp giữa bạn bè và gia đình
  • Đối tượng nghiên cứu là văn viết mang tính lập luận, nhưng kết quả có thể khái quát sang các dạng viết và giao tiếp khác

Biên tập bằng LLM đẩy văn bản đi theo hướng khác với biên tập của con người

  • Khi LLM chỉnh sửa văn bản của con người, chúng tạo ra những thay đổi đồng nhất hóa rất khác so với khi cùng bài luận đó được con người biên tập
  • Phân tích phản thực so sánh kết quả một văn bản khi được LLM chỉnh sửa với kết quả nếu nó được con người chỉnh sửa
  • Trong trường hợp biên tập bởi con người
    • bản nháp đầu tiên được hiển thị bằng các điểm màu xám nhạt
    • bản nháp thứ hai sau khi nhận phản hồi từ chuyên gia được hiển thị bằng các điểm màu xám đậm
    • sự thay đổi được trực quan hóa bằng cách chiếu không gian embedding ngữ nghĩa MiniLM-L6 bằng PCA
  • Trong trường hợp biên tập bằng LLM
    • bài luận gốc do con người viết được đưa kèm phản hồi của chuyên gia và nhiều prompt khác nhau
    • ngay cả khi chỉ yêu cầu sửa tối thiểu, tất cả các bài luận vẫn thay đổi mạnh
    • hướng thay đổi rời xa cách viết của con người và dịch chuyển theo một hướng nhất quán
  • Ví dụ từ bộ dữ liệu ArgRewrite-v2 cho thấy cách viết có dùng LLM thay đổi kết luận của bài luận và loại bỏ giọng văn con người

Phương pháp và bộ dữ liệu

  • Nghiên cứu người dùng

    • Nghiên cứu người dùng được thực hiện để xác định tác động của việc dùng LLM lên quá trình viết
    • 55 người có thể sử dụng LLM, còn 45 người không có quyền truy cập LLM
    • Vì trong phiên làm việc có nhiều người tự nguyện tránh dùng LLM, kết quả được điều kiện hóa theo lựa chọn sử dụng thực tế
    • Họ được chia thành hai nhóm
      • LLM-Influenced: những người không dùng LLM hoặc chỉ dùng để tìm kiếm thông tin
      • LLM: những người dùng LLM rộng rãi
    • Việc phân nhóm được thực hiện trước khi đánh giá và phân tích
    • Việc phân loại dựa trên lịch sử hội thoại, bài luận cuối cùng và điểm tự báo cáo về mức độ sử dụng
  • ArgRewrite-v2

    • Sử dụng 86 bài luận do con người viết được thu thập vào năm 2021
    • Đây là các văn bản được viết trước khi LLM được phổ biến rộng rãi ra công chúng
    • Ba LLM production được prompt để chỉnh sửa các bài luận
      • gpt-5-mini
      • gemini-2.5-flash
      • claude-haiku
    • Năm kiểu chỉnh sửa được áp dụng
      • chỉnh sửa chung
      • chỉnh sửa tối thiểu
      • sửa ngữ pháp
      • hoàn thiện
      • mở rộng
    • Bản nháp do LLM tạo ra và bản chỉnh sửa do con người viết được so sánh trên nhiều chiều
      • ý nghĩa
      • cách dùng từ vựng
      • phân bố từ loại
      • sắc thái cảm xúc
      • đặc điểm văn phong
  • Phân tích review ICLR 2026

    • Phân tích 18 nghìn bài review phản biện của ICLR 2026
    • Lựa chọn các bài báo có một review hoàn toàn do con người viết và một review hoàn toàn do LLM tạo ra
    • Sử dụng bộ phân loại LLM-as-a-Judge để nhận diện các điểm mạnh và điểm yếu được nêu trong từng review
    • So sánh số điểm do con người và LLM đưa ra

Nghịch lý giữa sự hài lòng của người dùng và việc mất giọng văn

  • Những người dùng LLM nhiều cho biết bài luận của họ không phản ánh giọng văn của chính mình
  • Đồng thời, họ vẫn nói rằng mình hài lòng với kết quả, tạo ra nghịch lý về sở thích
  • Người dùng thể hiện sự hài lòng nhưng đồng thời cũng báo cáo sự sụt giảm có ý nghĩa về tính sáng tạo và giọng văn
  • RLHF tối ưu hóa theo sở thích, nhưng chưa đủ để duy trì tính sáng tạo và ý nghĩa

Sự dịch chuyển theo hướng chung trong không gian ý nghĩa

  • Các bài luận do con người viết trong nhóm đối chứng phân bố rộng khắp không gian embedding
  • Phân bố này phản ánh sự đa dạng về quan điểm cá nhân, phong cách viết và cách lập luận
  • Các bài luận do LLM viết tụ lại dày đặc trong những vùng mà bài luận do con người viết không chiếm giữ
  • Chỉnh sửa bằng LLM tạo ra thay đổi lớn về ý nghĩa, đồng thời hướng thay đổi cũng có tính đồng nhất mạnh
  • Các bản sửa bằng LLM dịch chuyển vào những vùng không gian mà trước đó không có bất kỳ bài luận nào do con người viết chiếm giữ
  • Đây là bằng chứng cho thấy LLM dịch chuyển ý nghĩa theo cách khác với biên tập viên con người

Thay đổi kết luận và lập trường

  • Người dùng LLM viết các bài luận trung tính hơn về câu hỏi “tiền có dẫn đến hạnh phúc hay không?”
  • Các bài luận này có xu hướng né tránh việc thể hiện lập trường rõ ràng
  • Điều này thể hiện như một thay đổi căn bản ngay ở lập trường của lập luận

Thay đổi từ vựng và ngữ pháp

  • Biên tập bằng LLM làm thay đổi từ ngữ được dùng mạnh hơn nhiều so với biên tập của con người
  • Dấu vân tay từ vựng riêng của từng tác giả bị ghi đè bởi vốn từ mà LLM ưa chuộng
  • LLM áp dụng văn phong trang trọng hơn
  • Thay đổi cũng xuất hiện trong phân bố từ loại
    • việc sử dụng danh từ và tính từ tăng lên
    • việc sử dụng đại từ giảm xuống
  • Sự sụt giảm đại từ được diễn giải là tín hiệu cho thấy ngôi thứ nhất và lập luận dựa trên trải nghiệm đang giảm đi, nhường chỗ cho ngôn ngữ phi cá nhân

Sự gia tăng của ngôn ngữ cảm xúc, phân tích, logic và thống kê

  • Viết có sử dụng LLM làm tăng ngôn ngữ cảm xúc
  • Khi so sánh biên tập của con người với biên tập bằng LLM, có sự gia tăng đáng kể ở cả cảm xúc tích cực lẫn tiêu cực
  • Mức tăng này xuất hiện ngay cả khi chỉ dẫn là sửa tối thiểu và có phản hồi từ chuyên gia
  • Trong phân tích LIWC, các bản chỉnh sửa bằng LLM của ArgRewrite-v2 cho thấy sự gia tăng của ngôn ngữ phản ánh các kiểu tư duy trang trọng hơn, logic hơn và có cấu trúc phân cấp hơn
  • Trong nghiên cứu người dùng, con người sử dụng nhiều hơn các lập luận liên quan đến trải nghiệm cá nhân
  • Các bài luận do LLM viết sử dụng nhiều hơn các lập luận mang tính thống kê và logic
  • Các bài luận chịu ảnh hưởng của LLM cũng trích dẫn ý kiến chuyên gia, điều hiếm thấy trong các bài luận do con người viết

Bóp méo tiêu chí đánh giá trong thể chế khoa học

  • Khi LLM được dùng trong quy trình review khoa học, chúng cho điểm cao hơn 10% so với con người
  • Review của con người và của LLM khác nhau về tiêu chí dùng để xem xét điểm mạnh và điểm yếu
  • Review của con người thường đề cập nhiều hơn đến các mục sau
    • khả năng coi tính rõ ràng là điểm mạnh cao hơn 32%
    • khả năng coi tính rõ ràng là điểm yếu cao hơn 58%
    • khả năng đề cập đến mức độ liên quan của nghiên cứu cao hơn 32%
  • Review của LLM thường đề cập nhiều hơn đến các mục sau
    • khả năng đề cập đến tính tái lập cao hơn 136%
    • khả năng đề cập đến khả năng mở rộng cao hơn 84%
  • Sự khác biệt về tiêu chí đánh giá giữa con người và LLM có thể ảnh hưởng đến việc loại công trình khoa học nào được công nhận là hợp lệ và được khuyến khích

Kết luận

  • Kết quả cho thấy một mô thức đáng lo ngại trong đó AI đang bóp méo một cách tinh vi ngôn ngữ viết và các thể chế văn hóa
  • Nội dung do AI tạo ra đã xâm nhập vào nhiều lĩnh vực
    • bài phát biểu tại nghị viện
    • lời bài hát
    • kịch bản phim
    • ngôn ngữ nói
    • tin nhắn gửi cho đồng nghiệp và người thân yêu
  • Những người phụ thuộc nhiều vào AI nhận ra rằng AI làm giảm giọng văn và tính sáng tạo của họ, nhưng vẫn hài lòng với kết quả ở mức tương tự
  • Sự dễ sử dụng và khả năng thúc đẩy sự nghiệp cá nhân có thể sẽ tiếp tục khuyến khích mọi người tạo văn bản do AI sinh ra
  • Như dữ liệu ICLR cho thấy, trong bối cảnh chuyên môn, động cơ nộp văn bản do AI tạo ra như thể đó là bài viết của chính mình cũng có khả năng tiếp tục tồn tại

1 bình luận

 
Ý kiến trên Lobste.rs
  • Cái này thật sự gây khó chịu đến mức disturbing. Đặc biệt, ví dụ về việc LLM làm thay đổi lập luận liên quan đến xe tự lái khá sốc
    Việc LLM giữ thái độ trung lập hoàn toàn không có gì đáng ngạc nhiên. Tôi hiểu rằng mục tiêu cốt lõi của các sản phẩm LLM chủ đạo về cơ bản là nói ra sự thật đã được “biết đến”, giúp người dùng, còn ngoài ra thì giữ lập trường mơ hồ ở giữa
    Tôi thực sự không thể hiểu nổi vì sao mọi người lại tìm đến LLM để viết hoặc biên tập những bài có giá trị

    • Ngay cả khi diễn giải theo hướng thiện chí rằng con người đã hoàn toàn tự viết bản nháp rồi chỉ giao cho LLM việc “kiểm tra xem có vấn đề gì không”, tôi cũng không hiểu sao khi xem lại các thay đổi sau đó họ lại không nhận ra rằng kết quả đã mang ý nghĩa khác so với bài mình nộp
      Từ “gây khó chịu” thực sự rất chính xác
    • Theo những gì tôi hiểu thì Grok của Musk có vẻ đã, hoặc từng được, tạo ra với chủ đích thiên lệch
    • Điều đó là một thông lệ nghề nghiệp tốt đối với thư ký hoặc biên tập viên hiệu đính
      Tôi không hiểu vì sao việc huấn luyện LLM theo hướng đó lại bị xem là xấu
  • Trang này trong môi trường của tôi liên tục không tải đúng cách. Có a preprint

  • Biểu đồ tần suất khiến tôi há hốc mồm, và thành thật mà nói nó trông gần như đúng hệt những gì tôi đã dự đoán
    Cứ xem đó như một món quà. Những từ ở bên trái giờ đã trở thành từ mạnh, còn những từ ở bên phải thì giờ đang dần trở thành từ vô nghĩa

    • Tôi không biết bạn đang nói tới biểu đồ nào. Tôi không thấy cái đó trên trang
  • Tôi đã thấy điều này rất nhiều khi cố dùng Claude làm biên tập viên hiệu đính. Tôi đã phải chỉnh prompt nhiều lần để buộc nó chỉ tập trung vào chính tả, ngữ pháp và dấu câu
    Xu hướng làm thay đổi ý nghĩa có lẽ liên quan đến cách embedding hoạt động

  • Tính chủ thể và trách nhiệm của người dùng vắng mặt một cách kỳ lạ trong rất nhiều cuộc thảo luận xoay quanh AI/LLM
    Nếu giả định người dùng là người trưởng thành, thì việc dùng LLM là một lựa chọn chủ động. Họ có thể quyết định có dùng đầu ra hay không, và dùng theo cách nào
    Nếu AI “thay đổi căn bản” chính trị, văn hóa, khoa học, thậm chí cả cách giao tiếp với bạn bè và gia đình, thì đó là vì con người đã chọn làm như vậy và AI khiến lựa chọn đó trở nên dễ dàng hơn
    Việc người dùng không có ý kiến hay sở thích rõ ràng không làm mất đi sự thật rằng một lựa chọn đã được đưa ra