- GPTZero đã phát hiện hơn 50 lỗi trích dẫn và thông tin tác giả giả mạo trong các bài báo nộp cho ICLR 2026
- Mỗi bài báo được đối chiếu sự tồn tại thực tế và mức độ khớp của trích dẫn cùng với liên kết OpenReview
- Nhiều trường hợp được xác nhận có tác giả không tồn tại, sai năm, tiêu đề của bài báo khác
- Một số bài báo khớp một phần với bài báo có thật nhưng siêu dữ liệu chi tiết bị bóp méo
- Đây là ví dụ cho thấy vấn đề ảo giác do AI tạo ra (hallucination) đang lan rộng ngay cả trong các bài nộp học thuật
Kết quả phát hiện ảo giác của GPTZero với ICLR 2026
- GPTZero đã tự động kiểm chứng trích dẫn và thông tin tác giả đối với các bài báo nộp cho ICLR 2026
- Mỗi bài báo được trình bày cùng liên kết OpenReview, liên kết kiểm chứng của GPTZero và thông tin trích dẫn
- Kết quả kiểm chứng cho thấy hơn 50 trường hợp có trích dẫn giả hoặc tác giả không tồn tại
Các trường hợp ảo giác tiêu biểu
- Bài báo TamperTok có tồn tại thật nhưng toàn bộ thông tin tác giả đều sai
- Bài báo MixtureVitae khớp với 3 tác giả đầu tiên nhưng 7 người còn lại không tồn tại
- OrtSAE, Principled Policy Optimization, IMPQ v.v. không khớp với bài báo thật về tiêu đề hoặc tác giả
- PDMBench có bài báo tương tự tồn tại nhưng khác năm và tiêu đề
- C3-OWD, GRF-LLM v.v. được phân loại là khớp một phần
Các trường hợp hoàn toàn không khớp
- Catch-Only-One, TopoMHC, ThinkGeo, Reflexion, LOSI v.v. là các trường hợp bài báo được trích dẫn không tồn tại
- SAFE-LLM, Typed Chain-of-Thought, MANTA v.v. có bài báo tương tự nhưng siêu dữ liệu không khớp
- AI-Assisted Medical Triage Assistant, QUART, KARMA v.v. trích dẫn các bài báo hoàn toàn không liên quan
Cách kiểm chứng và các loại kết quả
- GPTZero đối chiếu từng trích dẫn với các cơ sở dữ liệu thực tế (ví dụ: arXiv, NeurIPS, ICLR, ACL v.v.)
- Kết quả được phân loại thành “có tồn tại”, “khớp một phần”, “không khớp”, “tác giả giả” v.v.
- Một số mục được đánh dấu là bài báo thật có tồn tại nhưng tác giả, năm và tiêu đề đều khác
Ý nghĩa và hàm ý
- Nhiều bài nộp cho ICLR 2026 đã giữ nguyên vấn đề ảo giác trong văn bản do AI tạo ra
- Ngay cả trong quá trình viết bài báo học thuật, nhu cầu về công cụ tự động kiểm chứng sự thật đang trở nên nổi bật
- Kết quả phát hiện của GPTZero cho thấy cần tăng cường hệ thống kiểm chứng độ tin cậy của nội dung do AI tạo ra
4 bình luận
Tôi đã nghĩ từ lâu rằng LLM có thể còn cản trở sự phát triển của nhân loại, và trong bối cảnh đó, đúng là vấn đề mà tôi từng nghĩ đến đã nổi lên. Việc giảm tải nhận thức, từ góc nhìn của con người, có vẻ giống như một thứ ma túy. Tôi cũng làm nghiên cứu, nhưng ngay trong nhóm, chúng tôi cũng cảnh giác rằng càng dùng các mô hình LLM nhiều thì dường như càng hình thành thói quen không chịu suy nghĩ. Có lẽ vấn đề này sẽ tiếp tục trầm trọng hơn. Vì số lượng sẽ phình to đến mức khó có thể bao quát bằng peer review, nên có lẽ sẽ phải tìm cách khác. Gần đây có vẻ số lượng bài nộp đến các hội nghị nổi tiếng đang tăng mạnh, và tôi nghĩ có lẽ cũng không phải là vì một lý do quá khác biệt.
Tôi đồng ý. Nếu cứ thế này tiếp diễn, có lẽ bộ não con người sẽ tiếp tục bị teo nhỏ. Cuối cùng, kịch bản AI thống trị loài người có thể lại trở thành dạng suy nghĩ ở cấp độ cao nhất mà chúng ta hiện nay còn có thể hình dung ra. Về sau, thậm chí có thể chúng ta sẽ không còn đạt tới nổi suy nghĩ đó nữa, và chỉ còn lại một khoảng hội tụ không có bất kỳ bước chuyển đổi mới nào, cho đến khi đơn thuần bị AI kiểm soát.
Liệu các AI lặp đi lặp lại với trình độ tri thức na ná nhau còn có thể tiếp tục tiến xa hơn nữa không?
Nếu không, có lẽ thế giới sẽ chỉ bị phủ kín bởi những bài viết sao chép từ những bản sao y hệt nhau, và việc sàng lọc để tìm ra thứ thực sự có giá trị giữa chúng sẽ càng trở nên khó khăn hơn.
Ý kiến Hacker News
Tôi cho rằng hành vi này rõ ràng là phi đạo đức nghề nghiệp
Nếu nghiên cứu viên của tôi làm chuyện này thì có lẽ đã đứng trước nguy cơ bị sa thải
Với tư cách reviewer, khi thấy tác giả nói dối thì không thể tin cậy toàn bộ bài báo, và về mặt đạo đức thì nên reject ngay lập tức
Sai sót là chuyện thường có, nhưng đây là một vấn đề ở đẳng cấp khác
Ở phương Tây, người ta xem tính trung thực của cá nhân là thứ nâng đỡ niềm tin của cả giới học thuật, nhưng ở Trung Đông, Ấn Độ và Trung Quốc lại có xu hướng quy trách nhiệm kiểu hành vi này cho journal
Nếu không hiểu những khác biệt này thì việc hợp tác sẽ trở nên rất hỗn loạn
Theo kinh nghiệm của tôi, vấn đề chính làm giảm chất lượng bài báo là trích dẫn sai
So với việc không có trích dẫn, trường hợp tài liệu được trích dẫn thực ra không nói như vậy hoặc bị bóp méo ngữ cảnh còn phổ biến hơn nhiều
Muốn tìm ra những lỗi kiểu này thì phải đọc và hiểu nguyên văn, nên tốn cực kỳ nhiều thời gian
Đây không phải lỗi đơn thuần mà gây ra sự bào mòn tri thức, vì vậy cần những chế tài như kiểu ‘cảnh cáo 3 lần rồi loại bỏ’
Có thể dùng nó để tự động đối chiếu các luận điểm trong bài với danh sách trích dẫn để kiểm tra xem chúng có thực sự làm căn cứ hay không
Trường hợp này không phải sơ suất đơn thuần mà là thao túng theo lợi ích
Vấn đề không hẳn là AI, mà là sự lười biếng và cẩu thả
Nếu một nhà khoa học viết bài có trích dẫn bịa bằng LLM thì đó là một nhà khoa học tồi
Nếu không có chế tài xã hội cho hành vi này thì rốt cuộc nó sẽ bị mặc nhiên chấp nhận
Việc kiểm chứng kỹ thuật đòi hỏi người kiểm tra lành nghề
Cuối cùng tôi cho rằng chính AI mới là vấn đề
Chính vì vẻ ngoài đẹp mà nó càng che giấu vấn đề tốt hơn
Dù vậy, trong 1 năm gần đây hiện tượng hallucination đã giảm, và nếu giới hạn vào các bài báo đã được kiểm chứng thì cũng khá dùng được
Tuy nhiên, nếu muốn các nhà nghiên cứu bớt lệ thuộc vào những công cụ này thì trước hết phải thay đổi cấu trúc cạnh tranh tài trợ liên tục
LLM cũng vậy, nó trả về đúng thứ người dùng muốn nghe và làm mạnh thêm thiên kiến xác nhận
Tôi nghĩ không có cách nào dùng LLM một cách an toàn trong nghiên cứu khoa học
Khi trực tiếp đọc các bài báo thì có nhiều trường hợp không chỉ là AI viết văn bản, mà ý tưởng cốt lõi cũng do AI tạo ra
Bề ngoài thì có vẻ hợp lý nhưng nội dung lại nhảm nhí
Nếu một nhà nghiên cứu thực sự bị đưa vào danh sách này chỉ vì lỗi .bib đơn giản thì cũng đáng tiếc
Avi Loeb (nhà vật lý lý thuyết Harvard) nói rằng số trường hợp sinh viên trích dẫn các bài báo không tồn tại đã tăng vọt
Họ tin nguyên xi vào thứ hư cấu do LLM tạo ra mà thậm chí không kiểm chứng
Bài liên quan: How AI is making us dumber
Ở trên làm gương sai rồi lại trách mắng người bên dưới là một kiểu giáo dục tồi
Tôi thắc mắc liệu nghiên cứu này có xem tất cả các trích dẫn sai là hallucination của LLM hay không
Cần có phân tích đường cơ sở để xem trước thời LLM các bài báo có những lỗi kiểu này hay không
Tôi tò mò nếu áp dụng cùng công cụ đó cho các bài báo thập niên 2010 thì sẽ ra kết quả thế nào
Phần lớn journal kiểm tra trích dẫn dựa trên DOI, nên cần so sánh cả với các bài báo cũ
Chỉ cần nêu chủ đề là LLM có thể tạo ra các bài rất giống như vậy
Nguyên nhân là hệ thống tri thức không hoàn hảo của con người, chứ không chỉ là vấn đề riêng của LLM
Mục đích của peer review không chỉ là phát hiện lỗi đơn thuần mà còn là đánh giá tính mới và mức độ hoàn thiện
Vì vậy cần có các incentive để ngăn sự cẩu thả
Ví dụ, publisher có thể lập chế độ thưởng để trao tiền cho người phát hiện sự cẩu thả nghiêm trọng, hoặc
vận hành một Wall of Shame để công khai những nhà nghiên cứu cẩu thả lặp đi lặp lại
Tôi đã dùng các công cụ quản lý trích dẫn như Zotero từ 15 năm trước, nên thật ngạc nhiên khi đến giờ vẫn có nhiều trích dẫn sai tên tác giả
Nếu bắt buộc nộp file .bib thì ít nhất cũng có thể quản lý chất lượng cơ bản bằng cách xác minh DOI
Thật sốc khi ngay cả việc kiểm chứng cơ bản như vậy cũng không làm
Có cả trường hợp chính tác giả tự trích dẫn sai bài của mình, và dù DOI đúng thì lỗi chính tả tên tác giả vẫn rất thường gặp
Nhờ công cụ mà số lượng trích dẫn tăng lên và tỷ lệ lỗi giảm xuống, nhưng trung bình mỗi bài vẫn còn ít nhất một lỗi
Nếu trong 20.000 bài nộp chỉ kiểm tra 300 bài mà đã phát hiện hàng trăm bài báo hallucination, thì quy mô thực tế hẳn còn lớn hơn nhiều
Hallucination của LLM là một đặc tính được thiết kế ra
Trong quá trình tạo ra đầu ra có vẻ hợp lý về mặt thống kê, trích dẫn giả tự nhiên sẽ xuất hiện
Tuy vậy, về mặt kỹ thuật thì máy hoàn toàn có thể tạo ra trích dẫn thật
Chỉ là các LLM hiện nay không tạo thứ chúng ta yêu cầu là ‘trích dẫn chính xác’, mà tạo ra kết quả chỉ giống về bề ngoài