- arXiv Code of Conduct quy định rằng người đứng tên tác giả phải chịu trách nhiệm cho toàn bộ bài báo, bất kể nội dung được tạo ra bằng cách nào
- Ngay cả khi ngôn ngữ không phù hợp, đạo văn, thiên lệch, lỗi sai hoặc tài liệu tham khảo sai do AI tạo sinh tạo ra xuất hiện trong bài báo, trách nhiệm vẫn thuộc về tác giả
- arXiv cho rằng nếu có bằng chứng rõ ràng cho thấy tác giả không kiểm chứng đầu ra do LLM tạo ra, thì toàn bộ bài báo không còn đáng tin cậy
- Chế tài là cấm sử dụng arXiv trong 1 năm, và sau đó các bài nộp mới trước tiên phải được chấp nhận tại một venue học thuật phản biện đồng cấp có uy tín
- Tài liệu tham khảo bịa đặt hoặc các meta comment của LLM như “hãy điền bằng các con số thực tế của thí nghiệm” được xem là bằng chứng rõ ràng
Trách nhiệm và chế tài đối với tác giả arXiv
- arXiv Code of Conduct quy định rằng việc đứng tên là tác giả của một bài báo đồng nghĩa với việc chịu trách nhiệm cho toàn bộ bài báo, bất kể cách nội dung được tạo ra
- Nếu trong một công trình khoa học có chứa ngôn ngữ không phù hợp, nội dung đạo văn, nội dung thiên lệch, lỗi, sai sót, tài liệu tham khảo sai hoặc nội dung gây hiểu lầm do công cụ AI tạo sinh tạo ra, trách nhiệm vẫn thuộc về tác giả
- arXiv cho rằng nếu trong bài nộp có bằng chứng rõ ràng cho thấy tác giả không kiểm tra đầu ra do LLM tạo ra, thì không thể tin cậy bất kỳ phần nào của bài báo đó
- Chế tài là cấm sử dụng arXiv trong 1 năm, và để tiếp tục nộp lên arXiv sau đó, trước tiên bài viết phải được chấp nhận tại một venue học thuật phản biện đồng cấp có uy tín
- Bằng chứng rõ ràng bao gồm tài liệu tham khảo bịa đặt và các meta comment của LLM
- Ví dụ: “here is a 200 word summary; would you like me to make any changes?”
- Ví dụ: “the data in this table is illustrative, fill it in with the real numbers from your experiments”
1 bình luận
Ý kiến trên Hacker News
Nếu hình phạt là cấm dùng arXiv trong 1 năm, rồi sau đó các bài nộp tiếp theo phải được chấp nhận trước ở một nơi xuất bản có phản biện đồng cấp uy tín, thì đó sẽ thực sự là điều rất tốt cho khoa học
arXiv là miễn phí, nhưng gần với một đặc quyền hơn là một quyền lợi
Tuy vậy, điều đó không thấy hiện rõ trong https://info.arxiv.org/help/policies/index.html, nên có thể vẫn mới ở giai đoạn kế hoạch, hoặc cũng có thể là tôi chưa tìm kỹ đủ
Như một vị tiến sĩ từng nói, điểm cốt lõi của một cỗ máy tận thế là nếu giấu nó đi thì chẳng còn ý nghĩa gì nữa
Nó có thể tốt cho việc đối chiếu tài liệu tham khảo, nhưng có lẽ sẽ không giảm được bao nhiêu bản thân thứ khoa học cẩu thả đi kèm với các tài liệu tham khảo bị hallucination đó
arXiv đâu có kiểm tra bài nộp kỹ đến mức đó, vậy làm sao họ biết được?
Người ta nói là “lỗi, sai sót”, nhưng việc kiểm tra xem có đáp ứng yêu cầu cơ bản hay không chỉ là bằng hệ thống tự động và đôi khi chuyển qua một vòng rà soát hời hợt của con người; gần như không thể kiểm tra toàn bộ tài liệu tham khảo ở quy mô lớn
Chẳng khác nào đang cố làm một thứ giống phản biện đồng cấp trong một kho preprint nhận lượng bài nhiều hơn tạp chí dễ đến 100 lần
Hơn nữa, giữa việc đưa lên arXiv và vượt qua phản biện đồng cấp là một khoảng cách rất lớn
Cá nhân tôi trong lĩnh vực toán học có lẽ đã bị từ chối phản biện hơn mười lần, nhưng vẫn đưa bài lên arXiv math bình thường không vấn đề gì
Phản biện đồng cấp không chỉ xem có mới và đúng hay không, mà còn xem “có thú vị với cộng đồng toán học hay không”, mà điều này vốn dĩ mang tính chủ quan và khó hơn nhiều so với việc được đăng trên arXiv
Một giáo sư nổi tiếng về lý thuyết số đã khen bài khi bảo trợ, và một giáo sư khác cũng khuyên qua email rằng nên xuất bản, vậy mà vẫn bị từ chối 3 lần và tôi vẫn đang chờ
Nếu yêu cầu phải đăng trên tạp chí có phản biện đồng cấp, arXiv có thể vĩnh viễn khép lại với nhiều nhà nghiên cứu, và điều đó cũng đi ngược lại tinh thần của preprint
Rốt cuộc chỉ là một trích dẫn bị hallucination thôi, chứ không phải gian lận
Nó hoàn toàn không phản ánh nội dung hay chất lượng nghiên cứu của người đó
Với một sai sót đầu tiên nhỏ như vậy, cấm 1 năm thôi có lẽ đã là đủ
Con người thì mắc sai lầm, và khá nhiều người có thể học được từ sai lầm đó
Không cần phải vĩnh viễn phá hỏng sự tiến bộ trong cuộc đời hay khả năng đóng góp cho nhân loại của ai đó chỉ vì một lần AI bịa ra tài liệu tham khảo
Cách này mang tính trừng phạt hơn là phục hồi
Đây là biện pháp đáng hoan nghênh, nhưng về gốc rễ tôi vẫn mong vấn đề dễ tạo mục BibTeX chính xác cho bài báo được trích dẫn sẽ được giải quyết tốt hơn
Thông tin trích dẫn của một bài cụ thể có thể đến từ nhiều nguồn khác nhau như tạp chí của nhà xuất bản, hội nghị, preprint, v.v.
Cùng một bài cũng có thể xuất hiện ở nhiều nơi như arXiv và website hội nghị, với chi tiết hơi khác nhau
Nhờ các công cụ như Zotero mà việc lấy trích dẫn từ trang web xuất bản đã dễ hơn rất nhiều, nhưng chi tiết BibTeX được trích xuất vẫn còn có vấn đề
Tên tác giả và tiêu đề thường được lấy khá ổn, nhưng nhà xuất bản, năm, số tập/số kỳ, trang, URL v.v. có được trích xuất chính xác hay không và có hiển thị đúng trong định dạng LaTeX hay không thì vẫn phải kiểm tra thủ công
Mỗi ấn phẩm còn có thể dùng một kiểu trích dẫn khác nhau
Vì chưa có một cách thống nhất để dễ dàng lấy ra dữ liệu trích dẫn nhất quán, nên đáng tiếc là người ta có thể chọn lối tắt bằng dữ liệu trích dẫn do AI tạo ra
Cũng không rõ trích dẫn hallucination phát sinh trong phần thân bài hay trong file BibTeX riêng, nên có thể tôi đang hiểu lệch đôi chút
https://zbib.org/
https://xcancel.com/tdietterich/status/2055000956144935055
Vấn đề là phát hiện tài liệu tham khảo bị hallucination ở quy mô lớn bằng cách nào
Không rõ là kiểm tra mẫu thủ công hay xác thực DOI tự động
Hướng chính sách thì có vẻ đúng, nhưng thực thi sẽ khó
Tốt
Nếu bạn không có thời gian kiểm tra kỹ đầu ra của LLM, thì tôi cũng không có thời gian đọc nó
Bạn đã bao giờ chọn ngẫu nhiên một bài rồi thực sự đào sâu vào nó chưa?
Tôi vẫn chưa thấy ở đây nói gì về điều kiện “uy tín”
Phản biện uy tín được xác định theo tiêu chí nào?
Trước những biện pháp bất lợi kiểu này, cần có xác minh cẩn trọng
Nếu ai đó đưa tên người khác vào bài nộp mà không được cho phép rõ ràng, thì tất cả đều bị cấm sao?
Tôi đồng ý là nếu triển khai đúng thì đây là hướng tốt
Vậy thì chỉ với một bài báo một câu thôi cũng có thể khiến tất cả mọi người trên arXiv bị cấm
Việc những người ủng hộ LLM quá khích vốn lúc nào cũng thấy trên Twitter nổi giận và trả lời dưới biện pháp này là một tín hiệu khá rõ
Cũng giống như trong phần bình luận dưới các bài viết về ô nhiễm do LLM, một số người không chấp nhận nổi việc có người ghét LLM, và hễ có bất kỳ trở ngại nhỏ nào với việc chấp nhận thật nhanh là họ nổi cáu
Thành ra tôi tự hỏi liệu đồng thuận của HN có phải là ở đâu cũng phải quá khích thúc đẩy và tăng tốc việc triển khai LLM hay không
Vô lý thật, nhưng đồng thời cũng rất đúng kiểu HN
Tốt. Tài liệu học thuật đang trong tình trạng khủng hoảng vì đủ loại rác chất lượng thấp
Bắt chịu trách nhiệm với những hallucination dễ phát hiện chỉ có thể là điều tốt
Tôi học tiến sĩ vật lý cách đây khoảng 40 năm rồi, và ngay cả hồi đó tài liệu tham khảo sai cũng đã là vấn đề
Một đồng nghiệp đã nộp bài mà trong phần thân vẫn còn nguyên câu chữ rác của AI, rồi bị yêu cầu sửa rất nặng
Phải kiểm tra bản nháp trước khi nộp
Người phản biện sẽ phát hiện ra
Tôi là người dùng trình đọc màn hình nên thường đọc bài báo dưới dạng TeX thô, và tôi đã thấy đủ thứ
Từ lời lẽ miệt thị, xúc phạm người phản biện và giáo sư, thú nhận gian lận, cho tới chỉ đạo đồng tác giả tiếp tục gian lận trước khi nộp để che đậy một vụ gian lận trước đó
Dù ít hơn nhiều so với tưởng tượng, dưới 1% bài báo, nhưng chúng thực sự tồn tại
Có lẽ sẽ hữu ích nếu chạy một lượt phát hiện gian lận dựa trên LLM trên mã nguồn TeX của các bài arXiv mới
Nó sẽ không bắt được hết, nhưng có thể tóm được một số kẻ gian ngốc nghếch nhất
Cũng có mặt tích cực nữa: có thể tìm thấy các khẳng định mạnh hơn không vượt qua phản biện, phần giải thích bổ sung bị bỏ do giới hạn trang hội nghị, hoặc kết quả thí nghiệm mà tác giả không thấy đủ giá trị để đưa vào
Những thứ đó phải được nhìn nhận hết sức thận trọng, nhưng đôi khi thực sự hữu ích