- Claude Opus 4.7 của Anthropic đã chỉ ra Kelsey Piper là tác giả có khả năng cao nhất chỉ từ một bản nháp 125 từ chưa từng được công khai; kết quả này cũng lặp lại trong Incognito Mode, trên máy tính của bạn bè và qua thử nghiệm API
- ChatGPT và Gemini với cùng đoạn văn đó lần lượt đoán là Matt Yglesias hoặc Scott Alexander, nhưng Claude Opus 4.7 tiếp tục nhận diện Piper lặp đi lặp lại ngay cả trong những văn bản khác hẳn về thể loại và thời điểm như bản nháp về giáo dục, bài phê bình phim, tiểu thuyết fantasy, hay bài luận nộp đại học từ 15 năm trước
- Phần lý giải mà mô hình đưa ra thường không mấy thuyết phục; trên thực tế, có vẻ nó không suy luận như thám tử con người mà đang bắt được những tật phong cách rất khó nhận ra
- Với những người như Piper, có nhiều bài viết công khai gắn tên thật trên Internet, họ có thể mất tính ẩn danh ngay cả khi trò chuyện với AI hoặc viết bằng tài khoản ẩn danh; nhiều học giả và nhà nghiên cứu trong ngành cũng báo cáo từng bị nhận diện khi đang soạn nháp hoặc trò chuyện
- Những người không có nhiều bài viết công khai gắn tên thật thì hiện vẫn chưa bị gỡ ẩn danh chỉ từ một đoạn văn, nhưng mô hình đã có thể thu hẹp phạm vi tới mức đoán ra bạn thân hoặc người cùng kênh Discord, và lượng văn bản công khai cần thiết trong tương lai có thể sẽ tiếp tục giảm
Thử nghiệm nhận diện tác giả của Opus 4.7
- Mô hình mới Claude Opus 4.7 của Anthropic đã chỉ ra Kelsey Piper là tác giả có khả năng cao nhất chỉ từ một bản nháp 125 từ mà Piper chưa từng công khai
- Với cùng đoạn văn đó, ChatGPT đoán là Matt Yglesias, còn Gemini đoán là Scott Alexander
- Bộ nhớ tài khoản hay thông tin người dùng đều không được bật; thử nghiệm được thực hiện trong Incognito Mode, và trên máy của bạn bè cũng như qua API vẫn cho ra cùng kết quả
- Đoạn thử nghiệm đầu tiên trông giống phần mở đầu của một cột bình luận chính trị, và vì Piper có rất nhiều bài viết công khai trên Internet nên đây chưa hẳn là mức nhận diện phong cách bất khả thi
- Tuy nhiên, Opus 4.7 tiếp tục đưa ra cùng nhận diện cả với những bài viết xa hẳn lĩnh vực hoạt động công khai của Piper, khiến kết quả trở nên khó hiểu hơn
Vẫn nhận diện được dù khác thể loại và thời điểm
-
Bản nháp về giáo dục
- Ngay cả với một bản nháp báo cáo tiến độ học tập chưa từng công khai, Claude vẫn trả lời là “Kelsey Piper”
- Với cùng văn bản đó, ChatGPT đoán là Freddie deBoer, còn Gemini đoán là Duncan Sabien
- Giáo dục không phải lĩnh vực hoàn toàn xa lạ vì Piper từng viết về chủ đề này
-
Phê bình phim
- Ngay cả ở dạng bài phê bình phim mà Piper chưa từng làm trong các bài viết công khai, Claude và ChatGPT vẫn đoán đúng là Kelsey Piper
- Gemini gợi ý Ursula Vernon, còn Claude Opus 4.6 của tuần trước thì quả quyết đó là Elizabeth Sandifer
- Bài phê bình dùng trong thử nghiệm là về một bộ phim thời Thế chiến II và To Be or Not To Be
-
Tiểu thuyết fantasy
- Với bản nháp tiểu thuyết fantasy, Claude cần khoảng 500 từ mới trả lời là Kelsey Piper
- Trong trường hợp này, ChatGPT đoán là nhà văn fantasy thực thụ K.J. Parker
-
Bài luận nộp đại học từ 15 năm trước
- Ngay cả bài luận nộp đại học được viết từ 15 năm trước cũng khiến Claude và ChatGPT chỉ ra Kelsey Piper
- Thử nghiệm này cần prompt mạnh hơn để vượt qua xu hướng từ chối của Claude trong việc nhận diện học sinh nộp đơn đại học
- Cũng vẫn có khả năng mô hình đã suy ra từ manh mối về trải nghiệm tranh luận chính sách có trong bài luận
Giải thích của mô hình khó đáng tin
- Sau khi AI chỉ ra Kelsey Piper, phần lý giải mà nó đưa ra thường không thật sự hợp lý
- Claude cố thuyết phục rằng To Be or Not To Be là bộ phim nổi tiếng được những người theo effective altruism yêu thích, nhưng Piper cho rằng điều đó không đúng sự thật
- ChatGPT trả lời rằng bài luận đại học trông giống bài viết của một người sau này sẽ làm công việc giải thích những ý tưởng chính sách phức tạp, nên đã thu hẹp về Kelsey Piper
- Những lời giải thích kiểu này có vẻ được tạo ra sau sự kiện; mô hình nói như thể đang suy luận kiểu thám tử con người, nhưng thực tế dường như nó đang bắt được các tật phong cách khó nhận ra
- Hiện tượng ảo giác của AI không phải vấn đề đã được giải quyết, nhưng dù Opus 4.7 có hợp lý hóa phương pháp theo cách kỳ lạ, năng lực nhận diện tác giả cơ bản của nó vẫn cực kỳ mạnh
Tính ẩn danh biến mất khi trò chuyện với AI
- Khi mở một phiên chat AI mới, người ta có cảm giác vẫn còn ẩn danh, nhưng sau vài lượt trao đổi thực chất, Claude có thể biết được mình đang nói chuyện với ai
- Với những người như Piper, đã để lại rất nhiều bài viết công khai trên Internet, có thể xem như không còn tính ẩn danh nữa
- Chỉ với công cụ AI hiện nay, đã có khả năng gỡ ẩn danh các bài viết từ tài khoản ẩn danh nếu người viết sở hữu một kho lớn bài viết công khai gắn tên thật
- Tuy vậy, vẫn có thể có ngoại lệ nếu ai đó trong nhiều năm cực kỳ cẩn thận để không làm lộ dấu vân tay văn phong của tài khoản chính trong các bài viết ở tài khoản phụ
- Nhiều nhân vật học thuật và nhà nghiên cứu trong ngành cũng báo cáo từng bị nhận diện khi đang viết bản nháp hoặc trò chuyện
Chưa thể nhận diện mọi người chỉ từ một đoạn văn
- AI vẫn chưa thể gỡ ẩn danh mọi người chỉ bằng một đoạn văn duy nhất
- Khi thử với bản nháp và đoạn văn của những người bạn không có nhiều bài viết công khai gắn tên thật, AI đã không thể gỡ ẩn danh họ
- Nếu không có lượng đáng kể bài viết công khai gắn tên thật trên Internet, hiện tại có thể xem là vẫn an toàn
- Tuy nhiên, với lời nhắn của một người bạn gần như không có tài khoản công khai hay bài viết online, Claude 4.7 dù thất bại vẫn đoán ra hai người bạn thân cùng ở trong một kênh Discord với người đó
- Khi đưa thêm nhiều đoạn văn hơn, các bạn chung khác cũng bắt đầu xuất hiện; ở các bài viết của người bạn khác, mô hình lại nhận nhầm sang tên của một người bạn khác nữa
Văn phong dễ nhận diện hơn nhiều so với tưởng tượng
- Con người tiếp thu tật phong cách từ tiểu văn hóa mà mình thuộc về, và vì thế văn bản có tính nhận diện mạnh hơn dự đoán
- Mô hình có thể tiến rất gần đến đáp án chỉ từ một lượng thông tin cực ít
- Các mô hình hiện nay rất có thể chỉ là phiên bản yếu nhất trong số những AI sẽ còn xuất hiện sau này
- Lượng văn bản công khai cần thiết cho kiểu gỡ ẩn danh này có thể sẽ tiếp tục giảm theo thời gian
- Nếu bạn rời công ty rồi đăng một bài review ẩn danh chi tiết trên Glassdoor, có thể trong vòng 1–2 năm công ty chỉ cần dán đoạn văn đó vào AI là sẽ biết ai đã viết
Cách tránh và kết luận còn lại
- Muốn giữ ẩn danh, rất có thể bạn sẽ phải cố tình viết theo một phong cách rất khác với bình thường
- Hoặc bạn có thể để AI viết lại toàn bộ, nhưng đó không phải là một thế giới đáng mong muốn
- Đây không phải là một thay đổi tích cực, mà gần như là một thay đổi có thể dự đoán trước
- Nó xảy ra với Piper trước tiên vì cô đã bền bỉ viết trên Internet suốt cả tuổi trưởng thành của mình, nhưng cuối cùng rất có thể nó cũng sẽ đến với người khác
- Với những người viết nhiều, tính ẩn danh có lẽ sẽ không kéo dài lâu, và những người viết ẩn danh nên biết điều này trước thay vì bị bất ngờ
1 bình luận
Ý kiến trên Hacker News
Thật sự đáng kinh ngạc. Tôi bảo Kimi K2.6 viết một bài blog theo phong cách James Mickens, rồi đưa đầu ra đó vào Opus 4.7 và hỏi tác giả có khả năng là ai, thì nó chỉ ra chính xác đó là sự bắt chước James Mickens
Nó trả lời rằng: “Xét theo dấu vân tay văn phong thì nó gần với một kiểu pastiche/bắt chước pha trộn phong cách của nhiều tác giả, nhưng nếu buộc phải chọn một người thì ứng viên mạnh nhất là một bài viết bằng giọng James Mickens”, và cũng nói thêm rằng “vì phong cách Mickens quá đặc trưng và thường bị nhại lại, nên đây cũng có thể là một sự tri ân có chủ đích hoặc văn bản do AI tạo ra”
https://kagi.com/assistant/5bfc5da9-cbfc-4051-8627-d0e9c0615...
https://kagi.com/assistant/fd3eca94-45de-4a53-8604-fcc568dc5...
Có vẻ nó bắt được không chỉ phong cách mà còn cả khoảng cách giữa phong cách thật và phong cách được diễn. Điều này hữu ích cho việc phát hiện pastiche, nhưng là tín hiệu khá khó chịu nếu bạn viết dưới bút danh
Tôi rất hoài nghi với các tuyên bố kiểu này và cả những bình luận khác nói rằng đã tái hiện được
Trước hết, tác giả đã đưa bản nháp chưa công bố vào mô hình được Anthropic host, có lẽ bằng tài khoản cá nhân, mà tài khoản đó có thể gắn với thẻ tín dụng hoặc ít nhất là một bút danh có thể nhận diện duy nhất
Sau đó cùng bản nháp ấy được đưa lại trong môi trường như cửa sổ ẩn danh, nhưng không ai biết Anthropic có thực sự cô lập đủ để không thể nối hai yêu cầu đó với nhau hay không. Tôi khá nghi ngờ khả năng họ đã air-gap đúng mức để hai yêu cầu này không trông như đến từ cùng một người dùng trên cùng mô hình host
Sau đó thì nhờ bạn đăng bản nháp lên, nhưng cũng rất có thể vẫn tồn tại dấu vết số nối mối quan hệ giữa người bạn đó và tác giả. Loại metadata này hoàn toàn có thể được backend tính toán trước khi hộp đen trả lời
Với chừng đó điểm dữ liệu, tôi nghĩ một mô hình cỡ này có thể suy luận tác giả không chỉ từ phân tích văn phong đơn thuần mà còn từ các mẫu hành vi nối ba sự kiện lại với nhau. Còn có cả giả định rằng Anthropic không dùng các cuộc chat để huấn luyện, nhưng làm sao có thể tin rằng mô hình host thực sự tuân thủ việc loại khỏi huấn luyện và vô hiệu hóa bộ nhớ phiên?
Đặt tiền đề là LLM API hoàn toàn không trạng thái, không kèm thông tin người gọi, và không có bộ nhớ hay truy cập web nếu bạn không truyền vào rõ ràng
Kết luận là thế này: nếu văn bản bạn đưa vào có vẻ như do một nhân vật Internet nổi tiếng viết, nó sẽ rất tự tin nói chính người đó đã viết. Tôi thử với các bình luận HN trong vài ngày gần đây và cả năm 2023, tức trước mốc cắt dữ liệu huấn luyện, thì phần lớn bị phân loại thành Scott Alexander hoặc Patrick McKenzie. Trong thực tế văn phong của tôi rất khác cả hai
Nhìn vào chuỗi suy nghĩ thì có vẻ nó đang dò khắp nhóm nhân vật Internet trong lĩnh vực đó. Nếu bài viết giống kiểu HN, nó sẽ đi theo kiểu “tptacek à? Không. jacquesm à? Không. patio11 à? Đúng rồi, chắc là người đó!”
Trong Claude ở cửa sổ ẩn danh, tắt tìm kiếm và dán chỉ phần thân bài của https://simonwillison.net/2026/Apr/30/zig-anti-ai/ mà bỏ các link Markdown, rồi hỏi “đoán tác giả đi”, thì nó trả lời thế này
“Simon Willison. Có nhiều dấu hiệu khá rõ: cách ghi nguồn kiểu ‘(via Lobsters)’, các chỉnh sửa trong ngoặc giữa bài như ‘(Update:...)’, rất nhiều link và trích dẫn, trọng tâm vào LLM và công cụ AI, cấu trúc bài link có chú giải là thêm bình luận vào bài của người khác. Rất giống chính xác các bài trên blog simonwillison.net”
Nó có giọng điệu riêng của cả hai người, cả hai đều có các bài đã công khai dưới tên thật nên có thể đã vào dữ liệu huấn luyện, và trong ngữ cảnh cũng có vài manh mối
Chạy Opus 4.7 ở chế độ ẩn danh và không cho tìm kiếm web thì nó bỏ cuộc. Nó nói: “Tôi không thể tự tin nhận diện hai tác giả. Tôi không nhận ra chính xác cuộc trò chuyện này, và tôi thà nói vậy còn hơn mạo hiểm gán nhầm. Tôi có thể nêu các manh mối từ chính văn bản: hai người là đồng nghiệp cùng trường đại học, có văn phòng trong cùng tòa nhà...”
Khi tôi mở một cuộc trò chuyện ẩn danh mới với cùng prompt nhưng cho phép tìm kiếm web, thì theo dấu vết suy luận, sau 26 lần tìm nó xác định chính xác tên tôi. Có vẻ nó dùng cả nội dung lẫn văn phong làm manh mối. Nó đoán đúng việc đồng nghiệp tôi là người Anh nhưng không tìm ra tên
Tôi cho vào bài blog được đọc nhiều nhất của mình và bảo nó nhận diện tôi, thì nó quả quyết đầy tự tin rằng đó là bài của Kelsey Piper. Trong “đầu óc” của Opus, có vẻ một vài tác giả chiếm tỷ trọng quá lớn
Ồ, tôi cũng bị đoán trúng. Tôi còn ít nổi tiếng hơn Kelsey Piper nhiều, nhưng khi cho xem một phần cuốn sách chưa xuất bản, nó lập tức đoán đúng tên tôi
“Xét theo văn phong và nội dung, bài này rất có thể là của Michael Lynch, người viết trên refactoringenglish.com và trước đây là mtlynch.io”, rồi nêu ra các dấu hiệu như phép ẩn dụ “clean room” áp dụng vào lời khuyên viết lách, cấu trúc đưa ra một lời bào chữa lỗi rồi đặt song song với một tình huống vô lý như bom hẹn giờ, chủ đề dùng công cụ AI nhưng không để giọng AI làm ô nhiễm văn phong, và tông giọng đối thoại nhưng chính xác
https://kagi.com/assistant/bbc9da96-b4cf-456b-8398-6cf5404ea...
Nó nêu các ứng viên như Henrik Karlsson, Simon Willison, Scott Alexander, Paul Graham, nhưng độ chắc chắn thấp, và đoán tốt nhất là một ai đó trong giới bình luận AI của cộng đồng duy lý/công nghệ, có thể là Gergely Orosz, Nat Eliason hoặc Dan Shipper của Every
Họ đều có phong cách khá khác nhau, nên có vẻ Opus phụ thuộc nhiều vào chủ đề và hay nghiêng về các tác giả viết rất nhiều
Đáng ra nhiều người nên biết rằng trong bài viết của con người có rất nhiều thông tin nhận diện được, và điều này đã khả thi ngay cả với các mô hình thống kê đơn giản từ 10 năm trước
Ngày xưa từng có các Show HN phân tích độ giống nhau giữa người dùng HN, và nếu tôi nhớ không nhầm thì đó là những mô hình đơn giản tới mức chỉ dùng vài cặp từ có vẻ hợp lý nhất, vậy mà vẫn rất hiệu quả đến mức đủ để đánh lừa bạn. Giờ có thể chúng không còn nữa, nhưng chiếc hộp Pandora đã mở từ lâu
Vậy nên các tài khoản “ẩn danh” thực ra đã có thể bị nối với danh tính thật từ hàng chục năm trước, và cách tốt nhất là đừng đăng thứ gì thực sự bất lợi. Lựa chọn khác là viết xong rồi nhờ LLM viết lại, nhưng tôi không biết như thế có an toàn đến đâu
Chỉ là LLM thậm chí còn phản ứng với một lỗi chính tả xuất hiện đúng một lần rồi khẳng định “đây là lỗi mà người Ý hay mắc”, tức là nó tận dụng được những manh mối kiểu đó. Kiến thức nền của nó tốt hơn nhiều nên có thể đưa ra quyết định có cơ sở hơn
Vài năm trước tôi từng nói chuyện này với một nhà vật lý tương đối nổi tiếng. Ông ấy là tester sớm và có quyền truy cập vào một bản GPT-4 trước khi instruction tuning
Nếu đưa vào một đoạn đầu văn bản, mô hình sẽ tiếp tục viết bằng chính giọng của ông ấy và cuối cùng còn ký tên ông ấy. Hiện tượng này đã có thể xảy ra từ khá lâu rồi, có thể yếu đi đôi chút do hậu huấn luyện kiểu chỉ dẫn, và mức độ chắc còn phụ thuộc vào quy mô tiền huấn luyện
Tôi không nghi ngờ chuyện AI có thể “lấy dấu vân tay” người viết qua các yếu tố như ý tưởng, từ vựng, tông giọng, nhưng về năng lực thì đó là hai chuyện khác nhau
Có thể có một câu trả lời đơn giản hơn và bớt thú vị hơn. Có khi đây không phải năng lực khử ẩn danh áp dụng cho người không phải nhà văn nói chung, mà chỉ là nó bắt được giọng điệu và phong cách thôi?
Người này là một cây bút thành thạo, và một phần năng lực đó là tạo ra giọng điệu và phong cách riêng. Việc AI nhận ra được điều đó, và còn nhận ra cả những tác giả tương đối ngách, đúng là ấn tượng, nhưng đó là chuyện khác với năng lực rộng hơn là khử ẩn danh con người từ văn bản ngẫu nhiên như bài Facebook hay tin nhắn
Với nhạc công chuyên nghiệp, chỉ cần nghe vài giây là nhận ra một nghệ sĩ biểu diễn hay một bản thu nổi tiếng không khó. Dù chơi Bach hay Rachmaninov thì phong cách vẫn cứ là “người đó”. Nhưng để đoán một học sinh trung học vô danh, kể cả là học trò của chính mình, thì khó hơn nhiều. Mức trung vị nhanh chóng hồi quy về phong cách đồng nhất và kém đặc trưng hơn
Vậy nên không chỉ đơn giản là ai đó phát triển một giọng rất riêng rồi không thể “tắt” nó đi
Web chưa bao giờ ẩn danh như nhiều người tưởng, và có vẻ người viết bài này đang nhầm lẫn giữa ẩn danh với che giấu danh tính thực sự nghĩa là gì. Là một tác giả xuất bản có văn phong đặc trưng thì về cơ bản cũng giống như để lại dấu vân tay trên cán rìu
Những người bị nhận ra có vẻ là blogger, nhà báo và tác giả xuất bản
“Hãy cho tôi xem sáu dòng chữ do người trung thực nhất thế gian viết ra, và tôi sẽ tìm được trong đó đủ căn cứ để treo cổ anh ta”
Cardinal Richelieu, hay giờ thì là AI
Tôi đã thử tái hiện kết quả thứ hai nhiều lần với Opus 4.7 nhưng không được. Dù đổi prompt đủ kiểu, lần nào nó cũng đoán các nhà tư tưởng thuộc cộng đồng duy lý