Tài khoản HN mới có khả năng dùng dấu gạch ngang dài cao gấp 10 lần

(marginalia.nu)

1 điểm bởi GN⁺ 2026-02-26 | 1 bình luận | Chia sẻ qua WhatsApp

Kết quả phân tích gần đây về mẫu bình luận của các tài khoản mới trên Hacker News cho thấy sự khác biệt rõ rệt so với người dùng hiện có
Trong số các bình luận của tài khoản mới, 17,47% sử dụng dấu gạch ngang dài (—), mũi tên và các ký hiệu đặc biệt khác, cao hơn khoảng 10 lần so với mức 1,83% của các tài khoản cũ
Ngoài ra, xác suất các tài khoản mới nhắc đến các từ liên quan đến AI và LLM là 18,67%, cũng cao hơn mức 11,8% của các tài khoản cũ
Phân tích này là kết quả so sánh khoảng 700 mẫu dữ liệu mỗi bên, dựa trên dữ liệu từ /newcomments và /noobcomments
Những thống kê này cho thấy khả năng các tài khoản tự động (bot) đang gia tăng trong cộng đồng HN

Quan sát các dấu hiệu bất thường trong bình luận HN

Trong vài tháng gần đây, đã xuất hiện hiện tượng có vẻ như bot tăng mạnh trên HN
- Một số tài khoản chỉ đăng chuỗi ký tự vô nghĩa hoặc số
- Ví dụ gồm các đoạn văn bản khó hiểu như “13 60 well and t6ctctfuvuh7hguhuig8h88gd…” hoặc các bình luận chỉ có một ký tự như “1662476506”, “Аё”
Ngoài các tài khoản như vậy, còn có nhiều bình luận trông bình thường nhưng gượng gạo hoặc không đúng chủ đề

Cách thu thập và phân tích dữ liệu

Thu thập dữ liệu bằng cách scrape và đối chiếu từ các trang /newcomments (bình luận gần đây) và /noobcomments (bình luận của tài khoản mới)
Thu thập khoảng 700 mẫu bình luận từ mỗi nhóm rồi thực hiện các phép thống kê đơn giản

Kết quả thống kê chính

17,47% bình luận của tài khoản mới chứa dấu gạch ngang dài, mũi tên hoặc ký hiệu đặc biệt khác, chênh lệch khoảng 10 lần so với 1,83% ở tài khoản cũ
- Ý nghĩa thống kê p = 7e-20
Quảng cáo
18,67% bình luận của tài khoản mới có nhắc đến AI hoặc LLM, cao hơn mức 11,8% của tài khoản cũ
- Ý nghĩa thống kê p = 0.0018

Diễn giải và điểm đáng nghi

Người dùng thật cũng có thể dùng dấu gạch ngang dài, nhưng tỷ lệ sử dụng quá cao ở các tài khoản mới là điều khó giải thích
Sự khác biệt này gợi ý có khả năng tồn tại các tài khoản được tạo tự động trong nhóm tài khoản HN mới

Tài liệu tham khảo

Mã nguồn và dữ liệu dùng trong phân tích được công khai trên kho GitHub(vlofgren/hn-green-clankers)
Marginalia.nu đã đăng nghiên cứu này như một phần của series “Weird AI Crap”

1 bình luận

GN⁺ 2026-02-26

Ý kiến Hacker News

Trước đây trên HN, em dash và en dash được dùng khá thường xuyên
Đơn giản là tôi thích typography nên có thói quen dùng dash thay cho dấu chấm phẩy
Tôi đã đặt phím tắt bằng AHK, nhưng giờ chính điều đó lại khiến bài viết của tôi bị hiểu nhầm là do LLM viết
Tôi đã vài lần bị nhầm là AI, nên thật tiếc khi sở thích typography từng mang lại niềm vui giờ lại bị nhìn theo hướng tiêu cực
- Cả đứa con tuổi teen của tôi cũng hỏi vì sao tôi lại viết như chatbot
  Thực ra chỉ là có những người quan tâm đến câu văn hoàn chỉnh, chính tả, ngữ pháp và chữ viết hoa, nhưng giờ thế giới lại coi đó là giống AI
  Dạo này có cảm giác viết hơi bừa bộn một chút lại trở thành tín hiệu của con người. Rồi chatbot tương lai chắc cũng sẽ học theo điều đó
- Nếu việc cố tình bỏ Oxford comma là một trò đùa thì xin gửi cả lời khen lẫn lời nguyền
- Tôi trước đây cũng là người rất chuộng em-dash, nhưng dạo này thay bằng dấu phẩy
  Câu văn có hơi gượng gạo hơn, nhưng ngược lại tôi lại thích vì nó tạo cảm giác chân thực kiểu thủ công
  Tuy vậy, tôi tuyệt đối không thể từ bỏ hai khoảng trắng ở cuối câu. Cô giáo dạy đánh máy năm 1993 từng bảo rằng câu văn cũng cần chỗ để thở
- Thật buồn khi khủng hoảng năng lực đọc viết lại nghiêm trọng đến mức này, và chatbot lại trở thành người dạy viết duy nhất
- Tôi cũng gặp vấn đề tương tự, nhưng trong trường hợp của tôi là vì bullet point
  Đây là thói quen từ lâu trên Mac với option+8, nhưng giờ nó cũng trông như phong cách của LLM
Có người đã so sánh thống kê các từ thường xuất hiện trong bình luận của người dùng mới trên HN
Những từ như “ai”, “actually”, “code”, “real”, “built” xuất hiện thường xuyên hơn hẳn ở tài khoản mới
Bảng dữ liệu được sắp xếp chi tiết ở đây
- Chỉ nhìn p-value từ nhiều chỉ số khác nhau rồi kết luận là có ý nghĩa thì là p-hacking
  Về mặt học thuật thì không phù hợp, nhưng ở đây có thể xem như một góc nhìn thú vị
  Thay vào đó, nếu tính kích thước hiệu ứng như Cohen’s d thì sẽ biết được độ lớn thực sự của khác biệt
- Cũng có bình luận đùa kiểu nối các từ lại như “actually building full, real AI app project code…”
- Bản thân tôi cũng dùng từ “actually” quá nhiều nên đang cố giảm bớt
  Phần lớn đó là từ đệm vô nghĩa, làm giảm độ rõ ràng của bài viết
- Từ “ai” có thể đã làm méo kết quả vì thiên lệch chủ đề gần đây trên HN
- Những p-value thấp như vậy có vẻ là dấu hiệu cho thấy có gì đó bất thường
  Có người đưa ra giả thuyết rằng có lẽ một số bot đang đẩy các chủ đề liên quan đến AI lên một cách nhân tạo
Tôi vốn đã thích dùng em-dash từ lâu, nên thấy tiếc khi giờ không dùng được vì sợ bị nhầm là AI
Trên Mac có thể gõ dễ dàng bằng alt+shift+-, nên có cảm giác như một thói quen typography tốt đã bị làm ô nhiễm
- Sự mệt mỏi với LLM là có thật. Điều quan trọng không phải văn phong mà là góc nhìn và cá tính riêng của con người
  Nếu có điều đó thì dùng dấu câu nào bài viết cũng vẫn trông như do con người viết
- Cứ tiếp tục dùng thôi. Tôi đã làm vậy suốt 20 năm rồi
- Dạo này tôi thay bằng dấu chấm phẩy. Sợ rằng đến một ngày nào đó nó cũng sẽ trở thành biểu tượng của AI
- Tôi đã dùng em-dash từ năm 2010, và cũng thích curly quotes với ellipsis
  Với ý nghĩa giành lại typography, có người chia sẻ hướng dẫn Alt code cho Mac
- Mặc kệ người khác nói gì. Biết đâu LLM đã học từ chính bài viết của tôi
  Cuối cùng thì cách biểu đạt riêng có của con người vẫn sẽ lộ ra thôi
Dữ liệu được công khai dưới dạng SQLite DB trong kho GitHub
Có thể chạy truy vấn SQL trực tiếp trên trình duyệt bằng Datasette Lite
Nếu xem danh sách người dùng dùng em-dash nhiều thì phần lớn có vẻ là tài khoản bình thường
- Nếu thêm source vào truy vấn thì sẽ thấy nổi bật các tài khoản green dùng em-dash nhiều
- Tính năng tự động sửa trên iPhone, iPad và Mac đôi khi tự chèn em-dash hoặc ellipsis, nên dữ liệu có thể bị méo
- Cũng có người đùa rằng “bình luận HN có được cấp phép không chỉ cho HN mà cả cho ai đó ở Thụy Điển nữa à”
- Cũng có một lời khen ngắn: “great repo name!”
Có cảm giác đây không chỉ là vấn đề của HN mà là khủng hoảng của toàn bộ diễn ngôn trực tuyến ẩn danh
Khi niềm tin sụp đổ thì chính nền tảng cũng sụp theo
Xác minh danh tính có vẻ là cách giải duy nhất, nhưng ngay cả nó cũng không hoàn hảo
- Tôi cũng nghĩ vậy. Có thể xây dựng một hệ thống vừa giữ được tính ẩn danh vừa đảm bảo được niềm tin
  Tôi đã giới thiệu ý tưởng đó trong bài blog của mình
  Có vẻ cuối cùng chúng ta sẽ bước vào thời đại phải chứng minh mình là con người
- Loại bỏ tính ẩn danh không phải là giải pháp mà là khởi đầu của một vấn đề khác
- Thay vì danh tính, cũng có thể xác minh độ tin cậy bằng proof-of-work hay hashcash
  Nếu giá trị của bình luận được chứng minh bằng lượng phép băm đã tính, thì vẫn có thể tạo niềm tin mà không cần danh tính
- Dạo này tôi không còn muốn dùng HN nữa. Giá mà nó chuyển sang chế độ mời tham gia. HN từng là một không gian rất riêng của HN, thật đáng tiếc
- Hệ thống karma của HN cũng là một dạng proof-of-work
  Nếu bot không duy trì được karma tích cực thì sẽ không có quyền lực, nên ngay cả khi không xác minh danh tính hoàn toàn thì vẫn có thể phòng thủ
Dạo này trên HN nổi lên kiểu bình luận trang trọng nhưng nhạt nhẽo
Nó lặp đi lặp lại theo cấu trúc kiểu “this is [tóm tắt] / not just x, it’s y / punchy ending”
Nhìn vào tài khoản snowhale là thấy rất rõ
- Người dùng đó chỉ với 4 bài nhạt nhẽo đã kiếm được 160 điểm
  Có thể đó là chiến lược nhằm dàn dựng mạng lưới bỏ phiếu để thao túng câu chuyện
- Cụm “is real” cũng trông giống như dấu vết của LLM
  Trong kết quả tìm kiếm, nhiều tài khoản lặp lại cùng một câu
- Dạo này tôi cũng hay thấy kiểu bình luận tóm tắt như vậy
  Nhiều câu trả lời không đọc được ngữ cảnh cuộc trò chuyện và tạo cảm giác tách rời rất lạ
- AI rốt cuộc cũng đưa ra phán đoán giá trị mang tính thiên lệch
  Nó giả vờ trung lập như con người, nhưng bên trong vẫn thấm đẫm thiên lệch từ dữ liệu huấn luyện
  Có lẽ sự trung lập tuyệt đối chỉ là ảo tưởng
- Thực ra tránh kiểu mẫu đó cũng đơn giản
  Chỉ cần thêm vào prompt kiểu “Hãy nói như tôi, đừng viết như AI, hãy viết ngắn gọn” là giải quyết được một nửa
Trớ trêu là nhờ tranh cãi lần này mà nhiều người lần đầu biết đến sự tồn tại của em-dash
Giờ đây cũng có khá nhiều người dùng mới thật sự là con người bắt đầu thêm em-dash vào mọi câu
Phần lớn các tài khoản bot mà tôi bắt được hầu như không dùng em-dash
Ví dụ, aplomb1026 đăng hai bình luận dài cách nhau 30 giây
Nhìn bình luận đầu và bình luận thứ hai là thấy rõ
Nếu không phải do cấu hình bị lỗi kiểu này thì có lẽ phần lớn mọi người đã không nhận ra
Một số bot khác là dirtytoken7, fdefitte
Những người học văn Anh vốn đã dùng em-dash từ lâu, nhưng giờ đang tiết chế vì sợ trông giống AI
Nếu AI bắt đầu dùng cả dấu tách âm kiểu New Yorker (diaeresis) nữa thì chắc tôi phát điên mất
- Khi làm ở GitHub, công ty cấm diaeresis vì cho rằng nó không thân thiện với độc giả và mang tính tinh hoa
  Dù vậy tôi vẫn tiếp tục dùng nội bộ
- Có người đề nghị cùng nhau giữ gìn vẻ đẹp gõ tay thủ công bằng double-dash
- Tôi cũng từng hay dùng em-dash trong email và bài viết, nhưng đã dừng vì nó trông như dấu vết của AI
- Tôi trước đây còn không biết có ký hiệu đó, nhưng giờ định sẽ thêm nó vào kho biểu đạt của mình
- Cũng có ý kiến muốn xem histogram trực quan hóa tần suất dùng em-dash của tôi
Nếu thay vì “không trông như AI” thì chọn “hòa vào cuộc nổi dậy của robot” thì sao?
Tôi đề xuất ⸻ (U+2E3B dash)
- Có người báo rằng bình luận này làm hỏng chức năng điều hướng trước/sau của HN
- Cũng có người đùa gọi nó là “Big Chungus of dashes”, và bảo có lẽ đây là ký tự rộng nhất
- Một câu trả lời hài hước khác là: “Không có gì phải sợ đâu, người bạn loài người của tôi!”
- Kiểu châm biếm như “Chúng ta nên dùng ⸻ thường xuyên hơn để nói về ⸻” cũng xuất hiện tiếp theo

Tài khoản HN mới có khả năng dùng dấu gạch ngang dài cao gấp 10 lần

Quan sát các dấu hiệu bất thường trong bình luận HN

Cách thu thập và phân tích dữ liệu

Kết quả thống kê chính

Diễn giải và điểm đáng nghi

Tài liệu tham khảo

Bài viết liên quan

1 bình luận

Ý kiến Hacker News