Phát hiện hơn 50 trường hợp ảo giác trong các bài báo nộp cho ICLR 2026

(gptzero.me)

3 điểm bởi GN⁺ 2025-12-08 | 4 bình luận | Chia sẻ qua WhatsApp

GPTZero đã phát hiện hơn 50 lỗi trích dẫn và thông tin tác giả giả mạo trong các bài báo nộp cho ICLR 2026
Mỗi bài báo được đối chiếu sự tồn tại thực tế và mức độ khớp của trích dẫn cùng với liên kết OpenReview
Nhiều trường hợp được xác nhận có tác giả không tồn tại, sai năm, tiêu đề của bài báo khác
Một số bài báo khớp một phần với bài báo có thật nhưng siêu dữ liệu chi tiết bị bóp méo
Đây là ví dụ cho thấy vấn đề ảo giác do AI tạo ra (hallucination) đang lan rộng ngay cả trong các bài nộp học thuật

Kết quả phát hiện ảo giác của GPTZero với ICLR 2026

GPTZero đã tự động kiểm chứng trích dẫn và thông tin tác giả đối với các bài báo nộp cho ICLR 2026
- Mỗi bài báo được trình bày cùng liên kết OpenReview, liên kết kiểm chứng của GPTZero và thông tin trích dẫn
- Kết quả kiểm chứng cho thấy hơn 50 trường hợp có trích dẫn giả hoặc tác giả không tồn tại

Các trường hợp ảo giác tiêu biểu

Bài báo TamperTok có tồn tại thật nhưng toàn bộ thông tin tác giả đều sai
Bài báo MixtureVitae khớp với 3 tác giả đầu tiên nhưng 7 người còn lại không tồn tại
OrtSAE, Principled Policy Optimization, IMPQ v.v. không khớp với bài báo thật về tiêu đề hoặc tác giả
PDMBench có bài báo tương tự tồn tại nhưng khác năm và tiêu đề
C3-OWD, GRF-LLM v.v. được phân loại là khớp một phần

Các trường hợp hoàn toàn không khớp

Catch-Only-One, TopoMHC, ThinkGeo, Reflexion, LOSI v.v. là các trường hợp bài báo được trích dẫn không tồn tại
SAFE-LLM, Typed Chain-of-Thought, MANTA v.v. có bài báo tương tự nhưng siêu dữ liệu không khớp
AI-Assisted Medical Triage Assistant, QUART, KARMA v.v. trích dẫn các bài báo hoàn toàn không liên quan

Cách kiểm chứng và các loại kết quả

GPTZero đối chiếu từng trích dẫn với các cơ sở dữ liệu thực tế (ví dụ: arXiv, NeurIPS, ICLR, ACL v.v.)
- Kết quả được phân loại thành “có tồn tại”, “khớp một phần”, “không khớp”, “tác giả giả” v.v.
- Một số mục được đánh dấu là bài báo thật có tồn tại nhưng tác giả, năm và tiêu đề đều khác

Ý nghĩa và hàm ý

Nhiều bài nộp cho ICLR 2026 đã giữ nguyên vấn đề ảo giác trong văn bản do AI tạo ra
Ngay cả trong quá trình viết bài báo học thuật, nhu cầu về công cụ tự động kiểm chứng sự thật đang trở nên nổi bật
Kết quả phát hiện của GPTZero cho thấy cần tăng cường hệ thống kiểm chứng độ tin cậy của nội dung do AI tạo ra

4 bình luận

dbs0829 2025-12-08

Tôi đã nghĩ từ lâu rằng LLM có thể còn cản trở sự phát triển của nhân loại, và trong bối cảnh đó, đúng là vấn đề mà tôi từng nghĩ đến đã nổi lên. Việc giảm tải nhận thức, từ góc nhìn của con người, có vẻ giống như một thứ ma túy. Tôi cũng làm nghiên cứu, nhưng ngay trong nhóm, chúng tôi cũng cảnh giác rằng càng dùng các mô hình LLM nhiều thì dường như càng hình thành thói quen không chịu suy nghĩ. Có lẽ vấn đề này sẽ tiếp tục trầm trọng hơn. Vì số lượng sẽ phình to đến mức khó có thể bao quát bằng peer review, nên có lẽ sẽ phải tìm cách khác. Gần đây có vẻ số lượng bài nộp đến các hội nghị nổi tiếng đang tăng mạnh, và tôi nghĩ có lẽ cũng không phải là vì một lý do quá khác biệt.

shakespeares 2025-12-09

Tôi đồng ý. Nếu cứ thế này tiếp diễn, có lẽ bộ não con người sẽ tiếp tục bị teo nhỏ. Cuối cùng, kịch bản AI thống trị loài người có thể lại trở thành dạng suy nghĩ ở cấp độ cao nhất mà chúng ta hiện nay còn có thể hình dung ra. Về sau, thậm chí có thể chúng ta sẽ không còn đạt tới nổi suy nghĩ đó nữa, và chỉ còn lại một khoảng hội tụ không có bất kỳ bước chuyển đổi mới nào, cho đến khi đơn thuần bị AI kiểm soát.

shakespeares 2025-12-09

Liệu các AI lặp đi lặp lại với trình độ tri thức na ná nhau còn có thể tiếp tục tiến xa hơn nữa không?
Nếu không, có lẽ thế giới sẽ chỉ bị phủ kín bởi những bài viết sao chép từ những bản sao y hệt nhau, và việc sàng lọc để tìm ra thứ thực sự có giá trị giữa chúng sẽ càng trở nên khó khăn hơn.

GN⁺ 2025-12-08

Ý kiến Hacker News

Tôi cho rằng hành vi này rõ ràng là phi đạo đức nghề nghiệp
Nếu nghiên cứu viên của tôi làm chuyện này thì có lẽ đã đứng trước nguy cơ bị sa thải
Với tư cách reviewer, khi thấy tác giả nói dối thì không thể tin cậy toàn bộ bài báo, và về mặt đạo đức thì nên reject ngay lập tức
Sai sót là chuyện thường có, nhưng đây là một vấn đề ở đẳng cấp khác
- Đây dường như cũng là vấn đề về khác biệt văn hóa
  Ở phương Tây, người ta xem tính trung thực của cá nhân là thứ nâng đỡ niềm tin của cả giới học thuật, nhưng ở Trung Đông, Ấn Độ và Trung Quốc lại có xu hướng quy trách nhiệm kiểu hành vi này cho journal
  Nếu không hiểu những khác biệt này thì việc hợp tác sẽ trở nên rất hỗn loạn
Theo kinh nghiệm của tôi, vấn đề chính làm giảm chất lượng bài báo là trích dẫn sai
So với việc không có trích dẫn, trường hợp tài liệu được trích dẫn thực ra không nói như vậy hoặc bị bóp méo ngữ cảnh còn phổ biến hơn nhiều
Muốn tìm ra những lỗi kiểu này thì phải đọc và hiểu nguyên văn, nên tốn cực kỳ nhiều thời gian
Đây không phải lỗi đơn thuần mà gây ra sự bào mòn tri thức, vì vậy cần những chế tài như kiểu ‘cảnh cáo 3 lần rồi loại bỏ’
- Kiểu xác minh này trái lại có thể là lĩnh vực LLM làm tốt
  Có thể dùng nó để tự động đối chiếu các luận điểm trong bài với danh sách trích dẫn để kiểm tra xem chúng có thực sự làm căn cứ hay không
- Nhưng một số nhà nghiên cứu cố tình bóp méo để đưa ra kết quả hợp ý bên tài trợ (Exxon, Meta, Pfizer, v.v.)
  Trường hợp này không phải sơ suất đơn thuần mà là thao túng theo lợi ích
- Trích dẫn giả chỉ là phần nổi của tảng băng chìm, còn việc lạm dụng trích dẫn là vấn đề lâu đời hơn và nghiêm trọng hơn nhiều
Vấn đề không hẳn là AI, mà là sự lười biếng và cẩu thả
Nếu một nhà khoa học viết bài có trích dẫn bịa bằng LLM thì đó là một nhà khoa học tồi
Nếu không có chế tài xã hội cho hành vi này thì rốt cuộc nó sẽ bị mặc nhiên chấp nhận
- Tôi là thợ điện công nghiệp, và chỉ chuyên gia mới nhận ra được công việc điện kém chất lượng
  Việc kiểm chứng kỹ thuật đòi hỏi người kiểm tra lành nghề
- Nhưng câu “AI không phải vấn đề” nghe giống kiểu né tránh trong tranh luận súng đạn rằng “vấn đề không phải khẩu súng mà là con người”
  Cuối cùng tôi cho rằng chính AI mới là vấn đề
- Tiếp tục phép so sánh với nghề mộc, cái kệ do LLM làm ra nhìn bề ngoài có vẻ ổn nhưng kết cấu thì yếu
  Chính vì vẻ ngoài đẹp mà nó càng che giấu vấn đề tốt hơn
- Tôi cũng dùng Gemini Pro để tìm bài báo, nhưng trích dẫn của nó vẫn rất lộn xộn
  Dù vậy, trong 1 năm gần đây hiện tượng hallucination đã giảm, và nếu giới hạn vào các bài báo đã được kiểm chứng thì cũng khá dùng được
  Tuy nhiên, nếu muốn các nhà nghiên cứu bớt lệ thuộc vào những công cụ này thì trước hết phải thay đổi cấu trúc cạnh tranh tài trợ liên tục
- Như Bruce Schneier từng nói, ai cũng có thể tạo ra một thuật toán mà chính họ không thể kiểm chứng
  LLM cũng vậy, nó trả về đúng thứ người dùng muốn nghe và làm mạnh thêm thiên kiến xác nhận
  Tôi nghĩ không có cách nào dùng LLM một cách an toàn trong nghiên cứu khoa học
Khi trực tiếp đọc các bài báo thì có nhiều trường hợp không chỉ là AI viết văn bản, mà ý tưởng cốt lõi cũng do AI tạo ra
Bề ngoài thì có vẻ hợp lý nhưng nội dung lại nhảm nhí
Nếu một nhà nghiên cứu thực sự bị đưa vào danh sách này chỉ vì lỗi .bib đơn giản thì cũng đáng tiếc
Avi Loeb (nhà vật lý lý thuyết Harvard) nói rằng số trường hợp sinh viên trích dẫn các bài báo không tồn tại đã tăng vọt
Họ tin nguyên xi vào thứ hư cấu do LLM tạo ra mà thậm chí không kiểm chứng
Bài liên quan: How AI is making us dumber
- Tuy vậy, Loeb cũng nổi tiếng với các tuyên bố về UFO, nên độ tin cậy của ông có tranh cãi
- Có người xem ông là nhân vật không đáng tin cậy
- Tôi nghĩ hiện tượng này bắt nguồn từ văn hóa thoái thác trách nhiệm trong lãnh đạo
  Ở trên làm gương sai rồi lại trách mắng người bên dưới là một kiểu giáo dục tồi
Tôi thắc mắc liệu nghiên cứu này có xem tất cả các trích dẫn sai là hallucination của LLM hay không
Cần có phân tích đường cơ sở để xem trước thời LLM các bài báo có những lỗi kiểu này hay không
- Trong bài có mục ‘Defining Hallucitations’, ở đó giải thích định nghĩa trích dẫn giả và vấn đề dương tính giả
  Tôi tò mò nếu áp dụng cùng công cụ đó cho các bài báo thập niên 2010 thì sẽ ra kết quả thế nào
- Hồi học cao học tôi cũng từng có lỗi nhỏ trong file .bib
  Phần lớn journal kiểm tra trích dẫn dựa trên DOI, nên cần so sánh cả với các bài báo cũ
- Nhìn vào các bài báo công khai thì thực sự thấy rất rõ dấu vết AI tạo sinh
  Chỉ cần nêu chủ đề là LLM có thể tạo ra các bài rất giống như vậy
- Thật ra trước cả thời LLM, con người đã mắc lỗi, và sách cùng bài báo cũng vốn đầy lỗi
  Nguyên nhân là hệ thống tri thức không hoàn hảo của con người, chứ không chỉ là vấn đề riêng của LLM
- Tóm lại, công cụ của họ đúng là đang thực hiện kiểu xác minh này
Mục đích của peer review không chỉ là phát hiện lỗi đơn thuần mà còn là đánh giá tính mới và mức độ hoàn thiện
Vì vậy cần có các incentive để ngăn sự cẩu thả
Ví dụ, publisher có thể lập chế độ thưởng để trao tiền cho người phát hiện sự cẩu thả nghiêm trọng, hoặc
vận hành một Wall of Shame để công khai những nhà nghiên cứu cẩu thả lặp đi lặp lại
- Hoặc cũng có thể áp dụng hệ thống tự động kiểm tra trích dẫn khi nộp bài và báo lỗi trong vòng một hai ngày
Tôi đã dùng các công cụ quản lý trích dẫn như Zotero từ 15 năm trước, nên thật ngạc nhiên khi đến giờ vẫn có nhiều trích dẫn sai tên tác giả
Nếu bắt buộc nộp file .bib thì ít nhất cũng có thể quản lý chất lượng cơ bản bằng cách xác minh DOI
Thật sốc khi ngay cả việc kiểm chứng cơ bản như vậy cũng không làm
- Nhưng Zotero cũng không hoàn hảo
  Có cả trường hợp chính tác giả tự trích dẫn sai bài của mình, và dù DOI đúng thì lỗi chính tả tên tác giả vẫn rất thường gặp
  Nhờ công cụ mà số lượng trích dẫn tăng lên và tỷ lệ lỗi giảm xuống, nhưng trung bình mỗi bài vẫn còn ít nhất một lỗi
Nếu trong 20.000 bài nộp chỉ kiểm tra 300 bài mà đã phát hiện hàng trăm bài báo hallucination, thì quy mô thực tế hẳn còn lớn hơn nhiều
- Một hội nghị mà có tới 20.000 bài nộp thì bản thân nó đã là quy mô bất thường rồi
Hallucination của LLM là một đặc tính được thiết kế ra
Trong quá trình tạo ra đầu ra có vẻ hợp lý về mặt thống kê, trích dẫn giả tự nhiên sẽ xuất hiện
Tuy vậy, về mặt kỹ thuật thì máy hoàn toàn có thể tạo ra trích dẫn thật
Chỉ là các LLM hiện nay không tạo thứ chúng ta yêu cầu là ‘trích dẫn chính xác’, mà tạo ra kết quả chỉ giống về bề ngoài