1 điểm bởi GN⁺ 2026-02-26 | 1 bình luận | Chia sẻ qua WhatsApp
  • Kết quả phân tích gần đây về mẫu bình luận của các tài khoản mới trên Hacker News cho thấy sự khác biệt rõ rệt so với người dùng hiện có
  • Trong số các bình luận của tài khoản mới, 17,47% sử dụng dấu gạch ngang dài (—), mũi tên và các ký hiệu đặc biệt khác, cao hơn khoảng 10 lần so với mức 1,83% của các tài khoản cũ
  • Ngoài ra, xác suất các tài khoản mới nhắc đến các từ liên quan đến AI và LLM là 18,67%, cũng cao hơn mức 11,8% của các tài khoản cũ
  • Phân tích này là kết quả so sánh khoảng 700 mẫu dữ liệu mỗi bên, dựa trên dữ liệu từ /newcomments/noobcomments
  • Những thống kê này cho thấy khả năng các tài khoản tự động (bot) đang gia tăng trong cộng đồng HN

Quan sát các dấu hiệu bất thường trong bình luận HN

  • Trong vài tháng gần đây, đã xuất hiện hiện tượng có vẻ như bot tăng mạnh trên HN
    • Một số tài khoản chỉ đăng chuỗi ký tự vô nghĩa hoặc số
    • Ví dụ gồm các đoạn văn bản khó hiểu như “13 60 well and t6ctctfuvuh7hguhuig8h88gd…” hoặc các bình luận chỉ có một ký tự như “1662476506”, “Аё”
  • Ngoài các tài khoản như vậy, còn có nhiều bình luận trông bình thường nhưng gượng gạo hoặc không đúng chủ đề

Cách thu thập và phân tích dữ liệu

  • Thu thập dữ liệu bằng cách scrape và đối chiếu từ các trang /newcomments (bình luận gần đây) và /noobcomments (bình luận của tài khoản mới)
  • Thu thập khoảng 700 mẫu bình luận từ mỗi nhóm rồi thực hiện các phép thống kê đơn giản

Kết quả thống kê chính

  • 17,47% bình luận của tài khoản mới chứa dấu gạch ngang dài, mũi tên hoặc ký hiệu đặc biệt khác, chênh lệch khoảng 10 lần so với 1,83% ở tài khoản cũ
    • Ý nghĩa thống kê p = 7e-20
  • 18,67% bình luận của tài khoản mới có nhắc đến AI hoặc LLM, cao hơn mức 11,8% của tài khoản cũ
    • Ý nghĩa thống kê p = 0.0018

Diễn giải và điểm đáng nghi

  • Người dùng thật cũng có thể dùng dấu gạch ngang dài, nhưng tỷ lệ sử dụng quá cao ở các tài khoản mới là điều khó giải thích
  • Sự khác biệt này gợi ý có khả năng tồn tại các tài khoản được tạo tự động trong nhóm tài khoản HN mới

Tài liệu tham khảo

  • Mã nguồn và dữ liệu dùng trong phân tích được công khai trên kho GitHub(vlofgren/hn-green-clankers)
  • Marginalia.nu đã đăng nghiên cứu này như một phần của series “Weird AI Crap”

1 bình luận

 
GN⁺ 2026-02-26
Ý kiến Hacker News
  • Trước đây trên HN, em dashen dash được dùng khá thường xuyên
    Đơn giản là tôi thích typography nên có thói quen dùng dash thay cho dấu chấm phẩy
    Tôi đã đặt phím tắt bằng AHK, nhưng giờ chính điều đó lại khiến bài viết của tôi bị hiểu nhầm là do LLM viết
    Tôi đã vài lần bị nhầm là AI, nên thật tiếc khi sở thích typography từng mang lại niềm vui giờ lại bị nhìn theo hướng tiêu cực

    • Cả đứa con tuổi teen của tôi cũng hỏi vì sao tôi lại viết như chatbot
      Thực ra chỉ là có những người quan tâm đến câu văn hoàn chỉnh, chính tả, ngữ pháp và chữ viết hoa, nhưng giờ thế giới lại coi đó là giống AI
      Dạo này có cảm giác viết hơi bừa bộn một chút lại trở thành tín hiệu của con người. Rồi chatbot tương lai chắc cũng sẽ học theo điều đó
    • Nếu việc cố tình bỏ Oxford comma là một trò đùa thì xin gửi cả lời khen lẫn lời nguyền
    • Tôi trước đây cũng là người rất chuộng em-dash, nhưng dạo này thay bằng dấu phẩy
      Câu văn có hơi gượng gạo hơn, nhưng ngược lại tôi lại thích vì nó tạo cảm giác chân thực kiểu thủ công
      Tuy vậy, tôi tuyệt đối không thể từ bỏ hai khoảng trắng ở cuối câu. Cô giáo dạy đánh máy năm 1993 từng bảo rằng câu văn cũng cần chỗ để thở
    • Thật buồn khi khủng hoảng năng lực đọc viết lại nghiêm trọng đến mức này, và chatbot lại trở thành người dạy viết duy nhất
    • Tôi cũng gặp vấn đề tương tự, nhưng trong trường hợp của tôi là vì bullet point
      Đây là thói quen từ lâu trên Mac với option+8, nhưng giờ nó cũng trông như phong cách của LLM
  • Có người đã so sánh thống kê các từ thường xuất hiện trong bình luận của người dùng mới trên HN
    Những từ như “ai”, “actually”, “code”, “real”, “built” xuất hiện thường xuyên hơn hẳn ở tài khoản mới
    Bảng dữ liệu được sắp xếp chi tiết ở đây

    • Chỉ nhìn p-value từ nhiều chỉ số khác nhau rồi kết luận là có ý nghĩa thì là p-hacking
      Về mặt học thuật thì không phù hợp, nhưng ở đây có thể xem như một góc nhìn thú vị
      Thay vào đó, nếu tính kích thước hiệu ứng như Cohen’s d thì sẽ biết được độ lớn thực sự của khác biệt
    • Cũng có bình luận đùa kiểu nối các từ lại như “actually building full, real AI app project code…”
    • Bản thân tôi cũng dùng từ “actually” quá nhiều nên đang cố giảm bớt
      Phần lớn đó là từ đệm vô nghĩa, làm giảm độ rõ ràng của bài viết
    • Từ “ai” có thể đã làm méo kết quả vì thiên lệch chủ đề gần đây trên HN
    • Những p-value thấp như vậy có vẻ là dấu hiệu cho thấy có gì đó bất thường
      Có người đưa ra giả thuyết rằng có lẽ một số bot đang đẩy các chủ đề liên quan đến AI lên một cách nhân tạo
  • Tôi vốn đã thích dùng em-dash từ lâu, nên thấy tiếc khi giờ không dùng được vì sợ bị nhầm là AI
    Trên Mac có thể gõ dễ dàng bằng alt+shift+-, nên có cảm giác như một thói quen typography tốt đã bị làm ô nhiễm

    • Sự mệt mỏi với LLM là có thật. Điều quan trọng không phải văn phong mà là góc nhìn và cá tính riêng của con người
      Nếu có điều đó thì dùng dấu câu nào bài viết cũng vẫn trông như do con người viết
    • Cứ tiếp tục dùng thôi. Tôi đã làm vậy suốt 20 năm rồi
    • Dạo này tôi thay bằng dấu chấm phẩy. Sợ rằng đến một ngày nào đó nó cũng sẽ trở thành biểu tượng của AI
    • Tôi đã dùng em-dash từ năm 2010, và cũng thích curly quotes với ellipsis
      Với ý nghĩa giành lại typography, có người chia sẻ hướng dẫn Alt code cho Mac
    • Mặc kệ người khác nói gì. Biết đâu LLM đã học từ chính bài viết của tôi
      Cuối cùng thì cách biểu đạt riêng có của con người vẫn sẽ lộ ra thôi
  • Dữ liệu được công khai dưới dạng SQLite DB trong kho GitHub
    Có thể chạy truy vấn SQL trực tiếp trên trình duyệt bằng Datasette Lite
    Nếu xem danh sách người dùng dùng em-dash nhiều thì phần lớn có vẻ là tài khoản bình thường

    • Nếu thêm source vào truy vấn thì sẽ thấy nổi bật các tài khoản green dùng em-dash nhiều
    • Tính năng tự động sửa trên iPhone, iPad và Mac đôi khi tự chèn em-dash hoặc ellipsis, nên dữ liệu có thể bị méo
    • Cũng có người đùa rằng “bình luận HN có được cấp phép không chỉ cho HN mà cả cho ai đó ở Thụy Điển nữa à”
    • Cũng có một lời khen ngắn: “great repo name!”
  • Có cảm giác đây không chỉ là vấn đề của HN mà là khủng hoảng của toàn bộ diễn ngôn trực tuyến ẩn danh
    Khi niềm tin sụp đổ thì chính nền tảng cũng sụp theo
    Xác minh danh tính có vẻ là cách giải duy nhất, nhưng ngay cả nó cũng không hoàn hảo

    • Tôi cũng nghĩ vậy. Có thể xây dựng một hệ thống vừa giữ được tính ẩn danh vừa đảm bảo được niềm tin
      Tôi đã giới thiệu ý tưởng đó trong bài blog của mình
      Có vẻ cuối cùng chúng ta sẽ bước vào thời đại phải chứng minh mình là con người
    • Loại bỏ tính ẩn danh không phải là giải pháp mà là khởi đầu của một vấn đề khác
    • Thay vì danh tính, cũng có thể xác minh độ tin cậy bằng proof-of-work hay hashcash
      Nếu giá trị của bình luận được chứng minh bằng lượng phép băm đã tính, thì vẫn có thể tạo niềm tin mà không cần danh tính
    • Dạo này tôi không còn muốn dùng HN nữa. Giá mà nó chuyển sang chế độ mời tham gia. HN từng là một không gian rất riêng của HN, thật đáng tiếc
    • Hệ thống karma của HN cũng là một dạng proof-of-work
      Nếu bot không duy trì được karma tích cực thì sẽ không có quyền lực, nên ngay cả khi không xác minh danh tính hoàn toàn thì vẫn có thể phòng thủ
  • Dạo này trên HN nổi lên kiểu bình luận trang trọng nhưng nhạt nhẽo
    Nó lặp đi lặp lại theo cấu trúc kiểu “this is [tóm tắt] / not just x, it’s y / punchy ending”
    Nhìn vào tài khoản snowhale là thấy rất rõ

    • Người dùng đó chỉ với 4 bài nhạt nhẽo đã kiếm được 160 điểm
      Có thể đó là chiến lược nhằm dàn dựng mạng lưới bỏ phiếu để thao túng câu chuyện
    • Cụm “is real” cũng trông giống như dấu vết của LLM
      Trong kết quả tìm kiếm, nhiều tài khoản lặp lại cùng một câu
    • Dạo này tôi cũng hay thấy kiểu bình luận tóm tắt như vậy
      Nhiều câu trả lời không đọc được ngữ cảnh cuộc trò chuyện và tạo cảm giác tách rời rất lạ
    • AI rốt cuộc cũng đưa ra phán đoán giá trị mang tính thiên lệch
      Nó giả vờ trung lập như con người, nhưng bên trong vẫn thấm đẫm thiên lệch từ dữ liệu huấn luyện
      Có lẽ sự trung lập tuyệt đối chỉ là ảo tưởng
    • Thực ra tránh kiểu mẫu đó cũng đơn giản
      Chỉ cần thêm vào prompt kiểu “Hãy nói như tôi, đừng viết như AI, hãy viết ngắn gọn” là giải quyết được một nửa
  • Trớ trêu là nhờ tranh cãi lần này mà nhiều người lần đầu biết đến sự tồn tại của em-dash
    Giờ đây cũng có khá nhiều người dùng mới thật sự là con người bắt đầu thêm em-dash vào mọi câu

  • Phần lớn các tài khoản bot mà tôi bắt được hầu như không dùng em-dash
    Ví dụ, aplomb1026 đăng hai bình luận dài cách nhau 30 giây
    Nhìn bình luận đầubình luận thứ hai là thấy rõ
    Nếu không phải do cấu hình bị lỗi kiểu này thì có lẽ phần lớn mọi người đã không nhận ra
    Một số bot khác là dirtytoken7, fdefitte

  • Những người học văn Anh vốn đã dùng em-dash từ lâu, nhưng giờ đang tiết chế vì sợ trông giống AI
    Nếu AI bắt đầu dùng cả dấu tách âm kiểu New Yorker (diaeresis) nữa thì chắc tôi phát điên mất

    • Khi làm ở GitHub, công ty cấm diaeresis vì cho rằng nó không thân thiện với độc giả và mang tính tinh hoa
      Dù vậy tôi vẫn tiếp tục dùng nội bộ
    • Có người đề nghị cùng nhau giữ gìn vẻ đẹp gõ tay thủ công bằng double-dash
    • Tôi cũng từng hay dùng em-dash trong email và bài viết, nhưng đã dừng vì nó trông như dấu vết của AI
    • Tôi trước đây còn không biết có ký hiệu đó, nhưng giờ định sẽ thêm nó vào kho biểu đạt của mình
    • Cũng có ý kiến muốn xem histogram trực quan hóa tần suất dùng em-dash của tôi
  • Nếu thay vì “không trông như AI” thì chọn “hòa vào cuộc nổi dậy của robot” thì sao?
    Tôi đề xuất ⸻ (U+2E3B dash)

    • Có người báo rằng bình luận này làm hỏng chức năng điều hướng trước/sau của HN
    • Cũng có người đùa gọi nó là “Big Chungus of dashes”, và bảo có lẽ đây là ký tự rộng nhất
    • Một câu trả lời hài hước khác là: “Không có gì phải sợ đâu, người bạn loài người của tôi!
    • Kiểu châm biếm như “Chúng ta nên dùng ⸻ thường xuyên hơn để nói về ⸻” cũng xuất hiện tiếp theo