- Kết quả phân tích gần đây về mẫu bình luận của các tài khoản mới trên Hacker News cho thấy sự khác biệt rõ rệt so với người dùng hiện có
- Trong số các bình luận của tài khoản mới, 17,47% sử dụng dấu gạch ngang dài (—), mũi tên và các ký hiệu đặc biệt khác, cao hơn khoảng 10 lần so với mức 1,83% của các tài khoản cũ
- Ngoài ra, xác suất các tài khoản mới nhắc đến các từ liên quan đến AI và LLM là 18,67%, cũng cao hơn mức 11,8% của các tài khoản cũ
- Phân tích này là kết quả so sánh khoảng 700 mẫu dữ liệu mỗi bên, dựa trên dữ liệu từ
/newcomments và /noobcomments
- Những thống kê này cho thấy khả năng các tài khoản tự động (bot) đang gia tăng trong cộng đồng HN
Quan sát các dấu hiệu bất thường trong bình luận HN
- Trong vài tháng gần đây, đã xuất hiện hiện tượng có vẻ như bot tăng mạnh trên HN
- Một số tài khoản chỉ đăng chuỗi ký tự vô nghĩa hoặc số
- Ví dụ gồm các đoạn văn bản khó hiểu như “13 60 well and t6ctctfuvuh7hguhuig8h88gd…” hoặc các bình luận chỉ có một ký tự như “1662476506”, “Аё”
- Ngoài các tài khoản như vậy, còn có nhiều bình luận trông bình thường nhưng gượng gạo hoặc không đúng chủ đề
Cách thu thập và phân tích dữ liệu
- Thu thập dữ liệu bằng cách scrape và đối chiếu từ các trang
/newcomments (bình luận gần đây) và /noobcomments (bình luận của tài khoản mới)
- Thu thập khoảng 700 mẫu bình luận từ mỗi nhóm rồi thực hiện các phép thống kê đơn giản
Kết quả thống kê chính
- 17,47% bình luận của tài khoản mới chứa dấu gạch ngang dài, mũi tên hoặc ký hiệu đặc biệt khác, chênh lệch khoảng 10 lần so với 1,83% ở tài khoản cũ
- Ý nghĩa thống kê p = 7e-20
- 18,67% bình luận của tài khoản mới có nhắc đến AI hoặc LLM, cao hơn mức 11,8% của tài khoản cũ
- Ý nghĩa thống kê p = 0.0018
Diễn giải và điểm đáng nghi
- Người dùng thật cũng có thể dùng dấu gạch ngang dài, nhưng tỷ lệ sử dụng quá cao ở các tài khoản mới là điều khó giải thích
- Sự khác biệt này gợi ý có khả năng tồn tại các tài khoản được tạo tự động trong nhóm tài khoản HN mới
Tài liệu tham khảo
- Mã nguồn và dữ liệu dùng trong phân tích được công khai trên kho GitHub(vlofgren/hn-green-clankers)
- Marginalia.nu đã đăng nghiên cứu này như một phần của series “Weird AI Crap”
1 bình luận
Ý kiến Hacker News
Trước đây trên HN, em dash và en dash được dùng khá thường xuyên
Đơn giản là tôi thích typography nên có thói quen dùng dash thay cho dấu chấm phẩy
Tôi đã đặt phím tắt bằng AHK, nhưng giờ chính điều đó lại khiến bài viết của tôi bị hiểu nhầm là do LLM viết
Tôi đã vài lần bị nhầm là AI, nên thật tiếc khi sở thích typography từng mang lại niềm vui giờ lại bị nhìn theo hướng tiêu cực
Thực ra chỉ là có những người quan tâm đến câu văn hoàn chỉnh, chính tả, ngữ pháp và chữ viết hoa, nhưng giờ thế giới lại coi đó là giống AI
Dạo này có cảm giác viết hơi bừa bộn một chút lại trở thành tín hiệu của con người. Rồi chatbot tương lai chắc cũng sẽ học theo điều đó
Câu văn có hơi gượng gạo hơn, nhưng ngược lại tôi lại thích vì nó tạo cảm giác chân thực kiểu thủ công
Tuy vậy, tôi tuyệt đối không thể từ bỏ hai khoảng trắng ở cuối câu. Cô giáo dạy đánh máy năm 1993 từng bảo rằng câu văn cũng cần chỗ để thở
Đây là thói quen từ lâu trên Mac với option+8, nhưng giờ nó cũng trông như phong cách của LLM
Có người đã so sánh thống kê các từ thường xuất hiện trong bình luận của người dùng mới trên HN
Những từ như “ai”, “actually”, “code”, “real”, “built” xuất hiện thường xuyên hơn hẳn ở tài khoản mới
Bảng dữ liệu được sắp xếp chi tiết ở đây
Về mặt học thuật thì không phù hợp, nhưng ở đây có thể xem như một góc nhìn thú vị
Thay vào đó, nếu tính kích thước hiệu ứng như Cohen’s d thì sẽ biết được độ lớn thực sự của khác biệt
Phần lớn đó là từ đệm vô nghĩa, làm giảm độ rõ ràng của bài viết
Có người đưa ra giả thuyết rằng có lẽ một số bot đang đẩy các chủ đề liên quan đến AI lên một cách nhân tạo
Tôi vốn đã thích dùng em-dash từ lâu, nên thấy tiếc khi giờ không dùng được vì sợ bị nhầm là AI
Trên Mac có thể gõ dễ dàng bằng
alt+shift+-, nên có cảm giác như một thói quen typography tốt đã bị làm ô nhiễmNếu có điều đó thì dùng dấu câu nào bài viết cũng vẫn trông như do con người viết
Với ý nghĩa giành lại typography, có người chia sẻ hướng dẫn Alt code cho Mac
Cuối cùng thì cách biểu đạt riêng có của con người vẫn sẽ lộ ra thôi
Dữ liệu được công khai dưới dạng SQLite DB trong kho GitHub
Có thể chạy truy vấn SQL trực tiếp trên trình duyệt bằng Datasette Lite
Nếu xem danh sách người dùng dùng em-dash nhiều thì phần lớn có vẻ là tài khoản bình thường
sourcevào truy vấn thì sẽ thấy nổi bật các tài khoản green dùng em-dash nhiềuCó cảm giác đây không chỉ là vấn đề của HN mà là khủng hoảng của toàn bộ diễn ngôn trực tuyến ẩn danh
Khi niềm tin sụp đổ thì chính nền tảng cũng sụp theo
Xác minh danh tính có vẻ là cách giải duy nhất, nhưng ngay cả nó cũng không hoàn hảo
Tôi đã giới thiệu ý tưởng đó trong bài blog của mình
Có vẻ cuối cùng chúng ta sẽ bước vào thời đại phải chứng minh mình là con người
Nếu giá trị của bình luận được chứng minh bằng lượng phép băm đã tính, thì vẫn có thể tạo niềm tin mà không cần danh tính
Nếu bot không duy trì được karma tích cực thì sẽ không có quyền lực, nên ngay cả khi không xác minh danh tính hoàn toàn thì vẫn có thể phòng thủ
Dạo này trên HN nổi lên kiểu bình luận trang trọng nhưng nhạt nhẽo
Nó lặp đi lặp lại theo cấu trúc kiểu “this is [tóm tắt] / not just x, it’s y / punchy ending”
Nhìn vào tài khoản snowhale là thấy rất rõ
Có thể đó là chiến lược nhằm dàn dựng mạng lưới bỏ phiếu để thao túng câu chuyện
Trong kết quả tìm kiếm, nhiều tài khoản lặp lại cùng một câu
Nhiều câu trả lời không đọc được ngữ cảnh cuộc trò chuyện và tạo cảm giác tách rời rất lạ
Nó giả vờ trung lập như con người, nhưng bên trong vẫn thấm đẫm thiên lệch từ dữ liệu huấn luyện
Có lẽ sự trung lập tuyệt đối chỉ là ảo tưởng
Chỉ cần thêm vào prompt kiểu “Hãy nói như tôi, đừng viết như AI, hãy viết ngắn gọn” là giải quyết được một nửa
Trớ trêu là nhờ tranh cãi lần này mà nhiều người lần đầu biết đến sự tồn tại của em-dash
Giờ đây cũng có khá nhiều người dùng mới thật sự là con người bắt đầu thêm em-dash vào mọi câu
Phần lớn các tài khoản bot mà tôi bắt được hầu như không dùng em-dash
Ví dụ, aplomb1026 đăng hai bình luận dài cách nhau 30 giây
Nhìn bình luận đầu và bình luận thứ hai là thấy rõ
Nếu không phải do cấu hình bị lỗi kiểu này thì có lẽ phần lớn mọi người đã không nhận ra
Một số bot khác là dirtytoken7, fdefitte
Những người học văn Anh vốn đã dùng em-dash từ lâu, nhưng giờ đang tiết chế vì sợ trông giống AI
Nếu AI bắt đầu dùng cả dấu tách âm kiểu New Yorker (diaeresis) nữa thì chắc tôi phát điên mất
Dù vậy tôi vẫn tiếp tục dùng nội bộ
Nếu thay vì “không trông như AI” thì chọn “hòa vào cuộc nổi dậy của robot” thì sao?
Tôi đề xuất ⸻ (U+2E3B dash)