3 điểm bởi GN⁺ 22 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Cấu trúc "It's not X, it's Y" đối chiếu phủ định mà LLM ưa dùng vốn là một biện pháp tu từ hữu ích để tạo tương phản và tái cấu trúc giả định sẵn có
  • Gần đây do các mô hình lạm dụng, cấu trúc này bị đóng dấu là lối viết tệ, nhưng giá trị của biện pháp tu từ thay đổi theo nội dung mà nó chuyên chở
  • Các công cụ như trình phát hiện AI và Grammarly lùng ra những mẫu này, gây ra nghịch lý con người phải viết lại để máy nghe giống con người
  • RLVR (học tăng cường với phần thưởng có thể xác minh) được chỉ ra là một nguyên nhân khiến cấu trúc này lan rộng, gắn với cách ngôn ngữ được dùng khi mô hình đi đến đáp án đúng sẽ được củng cố
  • Nếu chính các mẫu ngôn ngữ trở thành đối tượng đánh giá thì giống như định luật Goodhart, ngôn ngữ sẽ thôi không còn là ngôn ngữ tốt nữa; thay vì dựa vào phán đoán của máy, cần tư duy phản biện

Cấu trúc đối chiếu phủ định và phản ứng chống lại nó

  • Cấu trúc negative parallelism (đối chiếu phủ định) mà LLM bị hút vào có chức năng tạo tương phản, đặc biệt hữu ích khi tái cấu trúc giả định theo kiểu "bạn nghĩ là thế này, nhưng thật ra là thế kia"
  • Cấu trúc này tràn lan trên mạng xã hội, đặc biệt là LinkedIn, và đã châm ngòi phản ứng ngược trong cuộc chiến chống lại sản xuất ngôn ngữ tự động
    • Việc dùng em-dash, các từ như delve, quietly, genuinely, hay kiểu liệt kê 3 mục đều bị nghi là dấu hiệu của bot
  • Gần đây vì các mô hình lạm dụng quá mức, nhiều người coi đây là lối viết tệ; nhưng câu nói của JFK "Đừng hỏi Tổ quốc có thể làm gì cho bạn, hãy hỏi bạn có thể làm gì cho Tổ quốc" cũng dùng chính kỹ thuật này, và chẳng ai gọi đó là lối viết lười biếng
    • Biện pháp tu từ chỉ trở thành lười biếng hay truyền cảm hứng tùy vào nội dung mà nó chứa đựng

Nghịch lý của sản xuất ngôn ngữ tự động và công cụ phát hiện

  • Trình phát hiện AI tuyên bố tìm ra những mẫu này để bảo vệ người dùng khỏi các cuộc săn phù thủy, nhưng nếu đưa bài viết của mình vào Grammarly, nó sẽ phân tích các mẫu từ ngữ dễ bị trình phát hiện AI đánh dấu rồi đưa ra gợi ý sửa
    • Điều đó đồng nghĩa giao quyền viết thay cho Grammarly, đồng thời làm mất nhịp điệu và chủ ý của bài viết
  • Grammarly trong một phần đã chỉ ra 27 biểu đạt cần sửa
    • Nó đánh dấu "automated language production" là có khả năng do AI tạo cao hơn 11 lần, và đề xuất thay bằng "against mechanized language synthesis"
    • "align with" bị đánh dấu là có xác suất do AI tạo cao hơn 43 lần, và gợi ý rằng con người sẽ dùng "corresponds"
    • Những gợi ý nhỏ tích lại khiến kết quả thành một bài viết mà chính tác giả không chọn, khi cỗ máy muốn nghe giống con người lại thay thế luôn giọng người
  • Tác giả còn trả $20 cho một công ty phát hiện AI khác là Pangram để xác nhận bài báo trước khi gửi không phải do AI tạo
    • Không phải để biết mình có viết hay không, mà để nhận được thông báo rằng mình sẽ không bị gắn cờ; tác giả xem đây thực chất là sự tống tiền (extortion)
    • Pangram phân loại tính xác thực theo 4 mức: high, very likely, somewhat likely, human

Văn hóa thù địch với suy luận và hậu huấn luyện

  • Bản năng muốn hiểu máy móc thường khiến ta nhìn vào dữ liệu huấn luyện, nhưng dữ liệu đó không còn là "chỉ là web" nữa; web chỉ là nguyên liệu thô và đã bị gia công nặng
  • Hậu huấn luyện (Post-training) tối ưu mô hình theo mục tiêu thiết kế
    • RLHF (học tăng cường từ phản hồi con người): con người xếp hạng câu trả lời, rồi hệ thống nhấn mạnh các kiểu phản hồi như vậy
    • RLVR (học tăng cường với phần thưởng có thể xác minh): còn kỳ lạ hơn, và bị nghi là nguyên nhân khiến cấu trúc "It's not X, it's Y" xuất hiện thường xuyên
  • Nếu gạt thứ ngôn ngữ này đi như lối viết lười biếng thì sẽ cản trở việc hiểu vì sao nó lại xuất hiện khắp nơi, đồng thời dễ nhầm một khuôn suy nghĩ mạnh mẽ với năng lực tư duy của mô hình
    • Tức là quy công cho tính toán một việc vốn do ngôn ngữ thực hiện

RLVR hoạt động như thế nào

  • RLVR không phải cấu trúc giám sát từng từ để kích hoạt các tiến trình con, mà sau khi được huấn luyện thì cũng dự đoán token như các mô hình thông thường
    • Dự đoán token là quá trình lập danh sách ứng viên theo phân bố toán học của dữ liệu huấn luyện rồi xếp hạng chúng theo khả năng phù hợp với các từ đi trước
  • RLVR khiến mô hình viết ra bằng lời quá trình giải toán để đi đến lời giải, tái hiện kiểu ngôn ngữ ta dùng khi nghĩ thành tiếng
    • Khi đi đến đáp án đúng, kiểu ngôn ngữ được dùng thường xuyên nhất trong quá trình đó sẽ được nhấn mạnh trong mô hình hoàn chỉnh; đây là một phần của cái mà ngành gọi là reasoning (suy luận)
  • Phép ví von "con chó kỳ lạ"

    • Đặt ra tình huống điện thoại đang tắt, một người bạn hỏi: "Hôm đó là thứ mấy khi tụi mình thấy con chó kỳ lạ ấy nhỉ?"
      • "Là thứ Năm" → bạn đáp: "Không, thứ Năm thì tớ đi công tác mà" → "Vậy thì thứ Tư, trên đường đi dự tiệc sinh nhật của bạn ấy tụi mình thấy nó mà" → bạn đáp: "Đúng, nhưng bữa tiệc là thứ Sáu, nên là tụi mình thấy nó vào thứ Sáu"
    • Hai người đi đến đáp án đúng có thể kiểm chứng bằng ảnh thông qua ngôn ngữ; trực giác đầu tiên ("thứ Năm") tương ứng với phỏng đoán đầu tiên nơi các mô hình từng dừng lại
    • Không giống hai con người có ký ức và trải nghiệm thực, mô hình chỉ kéo dài ngôn ngữ ngày càng hơn để sao chép mẫu hình của suy luận; nó không suy ngẫm thông qua ngôn ngữ mà tái diễn việc cân nhắc ngay bên trong ngôn ngữ
  • Những từ entropy cao (high-entropy) như "suppose…", "because", "consider", "alternatively", "wait" dễ kích hoạt các đoạn suy đoán dài hơn
    • Chúng dẫn sang kiểu ngôn ngữ kéo theo đối chiếu, ngoại lệ và trừu tượng; khi giúp đi đến đáp án đúng trong bài toán, chúng sẽ được củng cố để xuất hiện thường xuyên hơn

Vì sao chúng ta suy luận

  • Điểm cốt lõi của các cuộc trò chuyện kiểu "con chó kỳ lạ" không phải là xác định ngày trên lịch mà là mở ra sự hồi tưởng, tái cấu trúc ký ức, thưởng thức bối cảnh và đào sâu kết nối giữa bạn bè
  • Định nghĩa về suy luận đang được dùng trong LLM giả định rằng trọng tâm của câu hỏi là lấy được đáp án, đáp án đó có thể xác minh, và không có gì mất mát khi đi đến kết thúc ngay lập tức
    • Điều này thực sự ảnh hưởng đến việc viết lách, vì khi dùng mô hình ngôn ngữ để tạo mẫu suy nghĩ nhanh, ta sẽ mất đi sự cởi mở với hoài nghi
    • Mơ hồ, nghi ngờ và bất định trong nhiều kiểu tư duy còn quan trọng hơn cả đáp án tức thời
  • Có thể đặt câu hỏi liệu trình phát hiện AI có gắn cờ văn bản là do AI tạo vì nó đi theo các mẫu cấu trúc của suy luận hay không; cả Pangram lẫn các mô hình suy luận đều phát hiện những mẫu cấu trúc mà con người dùng khi viết và suy luận
    • Mô hình Pangram được huấn luyện trên dữ liệu trước năm 2021 rồi chèn vào tập huấn luyện các phiên bản cùng văn bản nhưng do AI tạo ra
  • Khi ai đó bị bêu riếu công khai vì trông giống máy, nỗi sợ sẽ khiến mọi người né tránh những cấu trúc mà họ đã nội tâm hóa thành "lối viết AI", từ đó phát đi tín hiệu rằng ngôn ngữ phục vụ suy luận là thứ cần bị giám sát
    • Cuối cùng điều này khiến ta tránh né chính những cấu trúc mà mô hình học từ chúng ta, tức những công cụ hiệu quả cho lập luận, và làm ta buông bỏ công cụ tư duy phản biện đúng vào lúc cần nhất

Khi phép đo trở thành mục tiêu

  • Tại Anh, công cụ chấm luận văn bằng AI đã được thử nghiệm so sánh với người chấm
    • Hệ thống này chấm điểm cao dựa trên độ dài bài luận, độ rộng từ vựng và độ phức tạp câu, những thứ nhiều khi không liên quan đến chuẩn mực học thuật
    • Những đặc tính này giống với suy luận AI kiểu RLVR, tức là LLM đang chấm con người theo các tiêu chí mà kỹ sư dùng để chấm LLM
  • Định luật Goodhart trong kinh tế học: "Một quy luật thống kê được quan sát có xu hướng sụp đổ khi bị gây áp lực nhằm phục vụ mục đích kiểm soát"; tức là khi thước đo trở thành mục tiêu thì nó không còn là thước đo tốt nữa
    • Áp vào LLM có thể thành: "khi phép đo ngôn ngữ trở thành mục tiêu, nó sẽ thôi không còn là ngôn ngữ tốt"
  • Đánh giá các mẫu ngôn ngữ thay vì nội dung là điều nguy hiểm, và cả tạo sinh lẫn phát hiện đều đang thúc đẩy điều này; chấm điểm tự động nằm ở khoảng giữa
    • Nếu thưởng cho hình thức của suy luận thay vì hành vi suy luận, ta sẽ khiến nó hấp dẫn hơn và phổ biến hơn; nếu trừng phạt hình thức ấy, ta có nguy cơ trừng phạt cả suy luận, vì thế không nên giao cho máy phán xét mà phải tư duy phản biện trong mọi trường hợp

Phản đối tư duy tự động hóa

  • Tác giả không đồng ý với lập luận lâu đời rằng "nếu bạn không làm gì sai thì không có gì phải lo"
    • Từ năm 2018, độ chính xác 99,8% của các hệ thống giám sát tự động thường được viện dẫn, nhưng theo Arvind Narayanan, con số này sẽ cộng dồn mỗi lần dùng ở cấp độ từng bài báo hay bài làm
    • Kết quả là tối đa 10% sinh viên đại học có thể bị tố cáo oan; nếu mọi văn bản đều bị đưa qua kiểm tra AI thì số dương tính giả sẽ xảy ra ở quy mô lớn hơn nhiều
  • Những mô hình này tập trung quyền lực thực chất, còn các công ty thì hứa sẽ suy luận thay chúng ta
    • Khi ai đó ném một đoạn văn hai dòng vào công cụ diễn giải AI, đăng kết quả lên mạng rồi nói "thấy chưa, đồ đạo văn", thì một điều nguy hiểm đang bị bình thường hóa
  • Văn hóa viết lại và tự kiểm duyệt dưới áp lực phát hiện AI là điều hoàn toàn trái ngược với việc bảo vệ biểu đạt của con người; cần chống lại sự bình thường hóa niềm tin rằng máy có thể tuyên án có tội
    • Nếu viết bằng AI trong trường hợp tệ nhất là sự công nghiệp hóa tinh thần, thì phát hiện AI trong trường hợp tệ nhất sẽ trở thành hệ thống giám sát tư duy

1 bình luận

 
Ý kiến trên Lobste.rs
  • Nếu chỉ vì một hệ thống tự động nào đó đánh giá bài viết là trông giống AI mà bài báo bị loại tự động thì đúng là ác mộng, may là công việc của tôi không có kiểu vấn đề này
    Tôi thích ý này: ngôn ngữ suy luận không chỉ khiến đầu ra của LLM trông trôi chảy và thuyết phục hơn, mà còn làm cho nó hoạt động được ngay từ đầu, hoặc ít nhất là hoạt động tốt hơn. Những kỹ thuật như vậy cũng hiệu quả với con người, nên các phương pháp như phân tích 5 Whys mới có tác dụng
    Mặt khác, tôi vẫn nghĩ cần phải chỉ ra những bài viết lười biếng, chất lượng thấp. Việc đó vẫn làm được mà không cần chỉ tập trung vào cấu trúc hay các thủ pháp văn phong. Với tôi, thường thì tôi bắt đầu đọc với thiện chí, và nếu sau vài đoạn mà vẫn khó nắm được ý chính của tác giả, lúc đó tôi mới bắt đầu tìm những dấu hiệu điển hình, và khá thường xuyên là tôi thấy chúng

  • Đây là một bài viết thú vị, nhưng trên thực tế tôi sẽ phân biệt giữa văn bản dùng để suy luận nhằm nghĩ ra điều gì đó, và văn bản hoàn chỉnh được viết ra để truyền đạt sau khi quá trình suy luận đã kết thúc
    Trong ví dụ, khi đang suy nghĩ bạn có thể nói “Không phải thứ Năm mà là thứ Tư”, nhưng khi gửi tin nhắn cho người khác thì bạn chỉ viết “Là thứ Năm”
    Vì vậy, các sản phẩm thực tế trong học thuật hay công việc như báo cáo hoặc email sẽ không dùng thứ ngôn ngữ được dùng khi suy luận về chủ đề, và nếu viết đúng thì chúng không nên trông giống LLM. Bản nháp hay ghi chú cá nhân thì có thể, nhưng bản gửi đi cuối cùng thì không

    • Nhưng nếu chính sản phẩm chính thức đó lại là quá trình suy luận thì sao? Tôi đã nhiều lần viết những tài liệu mà quá trình suy luận là một phần cốt lõi, hoặc thậm chí là toàn bộ nội dung của bài viết
  • Tôi thuộc phe chỉ trích generative AI khá mạnh, nhưng vẫn cho rằng trong viết học thuật, nó có ích cho việc trau chuốt câu chữ đối với các nhà nghiên cứu không dùng tiếng Anh làm tiếng mẹ đẻ
    Tuy nhiên, bạn cần một bản nháp gần như hoàn chỉnh và có cấu trúc tốt; nếu chỉ đưa vào vài gạch đầu dòng thì sẽ ra ảo giác hoặc cách diễn đạt cứng nhắc, thiếu tự nhiên
    Trong vài năm gần đây tôi đã phản biện khá nhiều bài báo chất lượng thấp đến từ các nước như Trung Quốc hay Ấn Độ, nên tôi cũng cảm thấy mình đã hình thành một chút thiên kiến với những cách diễn đạt tiếng Anh kiểu người không bản ngữ mà tác giả từ các nước này thường dùng. Điều đáng tiếc là một số bài báo xuất sắc nhất mà tôi từng phản biện cũng đến từ những nước đó
    Theo nghĩa đó, khi tiếng Anh đã trở thành ngôn ngữ chuẩn của giới học thuật, LLM cũng có thể giúp chuẩn hóa trình độ ngôn ngữ cao và giảm thiên kiến trong quá trình phản biện

    • Tôi hoàn toàn không chấp nhận lập luận rằng người dùng tiếng Anh không phải bản ngữ có thể dùng LLM để trau chuốt bài viết. Bài báo phải chính xác và phản ánh đúng ý định của tác giả
      Ở những tổ chức có nhiều nhân sự không dùng tiếng Anh làm tiếng mẹ đẻ, thường sẽ có người phụ trách tư vấn viết lách; họ không chỉ tạo ra câu chữ tốt mà quan trọng hơn là xác nhận nội dung được viết có đúng với ý tác giả hay không. Nếu giao việc này cho LLM thì ý nghĩa có thể bị thay đổi một cách tinh vi, và do lỗi thực tế hoặc cách diễn đạt khẳng định thiếu chính xác, cuối cùng còn có thể gây kết quả tệ hơn cho tác giả
      Những tổ chức không cung cấp tư vấn ngôn ngữ như vậy về cơ bản đang đặt nhân viên vào thế bất lợi, còn các nhà nghiên cứu độc lập thì thường đã ở thế bất lợi hơn vì nhiều lý do khác
      Thiên kiến vô thức với những cách diễn đạt đặc trưng của người không bản ngữ ở một mức nào đó là điều khó tránh, nhưng trong phản biện bài báo, nếu vấn đề ngôn ngữ là rõ ràng thì tôi thường dành khá nhiều thiện chí, và những chỗ tôi cho là không rõ vì vấn đề ngôn ngữ thì tôi sẽ để lại dưới dạng yêu cầu chỉnh sửa. Đây là điều cần tự kiểm tra và quản lý
      Cách dùng ngôn ngữ còn vụng có thể phần nào làm mờ ý tưởng, phương pháp và kết quả, nhưng LLM thì như tôi đã thấy trong các bài báo mình phản biện, có thể làm hỏng chúng thành nội dung sai sự thật, và rốt cuộc sẽ cần phản bác, chỉnh sửa hoặc thậm chí khiến bài báo bị từ chối ngay. Có những cách tốt hơn để xử lý vấn đề này, nên không nên khuyến khích dùng LLM
      Hơn nữa, đây có phải là đạo văn hay không vẫn còn là vấn đề bỏ ngỏ. Đó là một cuộc tranh luận lớn hơn nhiều, và trong nhiều trường hợp ngay cả các dữ kiện nền tảng cũng chưa có đồng thuận. Một số hội nghị hoặc tạp chí cấm việc dùng LLM hỗ trợ vì lý do này, nên những quy định đó cũng cần được tôn trọng
    • Vấn đề lớn hơn là giờ đây, vì cơn cuồng loạn xoay quanh chuyện một bài viết có phải do LLM viết hay không, mọi người đang bị ép một cách thực tế phải tránh văn phong tự nhiên
      Trớ trêu thay, các công ty cũng không mất nhiều thời gian để kiếm tiền từ cơn cuồng loạn này; họ dùng LLM để phán định liệu một bài viết có thật sự do con người viết hay không rồi thu tiền, và trở thành trọng tài quyết định thế nào là cách viết được chấp nhận
      Tác giả nói đúng khi cho rằng nếu mọi người thôi lười biếng, ngừng chỉ nhìn văn phong mà bắt đầu thực sự tương tác với nội dung, thì toàn bộ vấn đề này sẽ biến mất