1 điểm bởi GN⁺ 5 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • arXiv Code of Conduct quy định rằng người đứng tên tác giả phải chịu trách nhiệm cho toàn bộ bài báo, bất kể nội dung được tạo ra bằng cách nào
  • Ngay cả khi ngôn ngữ không phù hợp, đạo văn, thiên lệch, lỗi sai hoặc tài liệu tham khảo sai do AI tạo sinh tạo ra xuất hiện trong bài báo, trách nhiệm vẫn thuộc về tác giả
  • arXiv cho rằng nếu có bằng chứng rõ ràng cho thấy tác giả không kiểm chứng đầu ra do LLM tạo ra, thì toàn bộ bài báo không còn đáng tin cậy
  • Chế tài là cấm sử dụng arXiv trong 1 năm, và sau đó các bài nộp mới trước tiên phải được chấp nhận tại một venue học thuật phản biện đồng cấp có uy tín
  • Tài liệu tham khảo bịa đặt hoặc các meta comment của LLM như “hãy điền bằng các con số thực tế của thí nghiệm” được xem là bằng chứng rõ ràng

Trách nhiệm và chế tài đối với tác giả arXiv

  • arXiv Code of Conduct quy định rằng việc đứng tên là tác giả của một bài báo đồng nghĩa với việc chịu trách nhiệm cho toàn bộ bài báo, bất kể cách nội dung được tạo ra
  • Nếu trong một công trình khoa học có chứa ngôn ngữ không phù hợp, nội dung đạo văn, nội dung thiên lệch, lỗi, sai sót, tài liệu tham khảo sai hoặc nội dung gây hiểu lầm do công cụ AI tạo sinh tạo ra, trách nhiệm vẫn thuộc về tác giả
  • arXiv cho rằng nếu trong bài nộp có bằng chứng rõ ràng cho thấy tác giả không kiểm tra đầu ra do LLM tạo ra, thì không thể tin cậy bất kỳ phần nào của bài báo đó
  • Chế tài là cấm sử dụng arXiv trong 1 năm, và để tiếp tục nộp lên arXiv sau đó, trước tiên bài viết phải được chấp nhận tại một venue học thuật phản biện đồng cấp có uy tín
  • Bằng chứng rõ ràng bao gồm tài liệu tham khảo bịa đặt và các meta comment của LLM
    • Ví dụ: “here is a 200 word summary; would you like me to make any changes?”
    • Ví dụ: “the data in this table is illustrative, fill it in with the real numbers from your experiments”

1 bình luận

 
Ý kiến trên Hacker News
  • Nếu hình phạt là cấm dùng arXiv trong 1 năm, rồi sau đó các bài nộp tiếp theo phải được chấp nhận trước ở một nơi xuất bản có phản biện đồng cấp uy tín, thì đó sẽ thực sự là điều rất tốt cho khoa học
    arXiv là miễn phí, nhưng gần với một đặc quyền hơn là một quyền lợi
    Tuy vậy, điều đó không thấy hiện rõ trong https://info.arxiv.org/help/policies/index.html, nên có thể vẫn mới ở giai đoạn kế hoạch, hoặc cũng có thể là tôi chưa tìm kỹ đủ
    Như một vị tiến sĩ từng nói, điểm cốt lõi của một cỗ máy tận thế là nếu giấu nó đi thì chẳng còn ý nghĩa gì nữa

    • Sau khi bài này được đăng, chắc hẳn đã có ai đó vội vàng làm một trình kiểm tra tài liệu tham khảo rồi tính bán theo dạng thuê bao
      Nó có thể tốt cho việc đối chiếu tài liệu tham khảo, nhưng có lẽ sẽ không giảm được bao nhiêu bản thân thứ khoa học cẩu thả đi kèm với các tài liệu tham khảo bị hallucination đó
    • Theo tôi thì việc này có vẻ quá tay
      arXiv đâu có kiểm tra bài nộp kỹ đến mức đó, vậy làm sao họ biết được?
      Người ta nói là “lỗi, sai sót”, nhưng việc kiểm tra xem có đáp ứng yêu cầu cơ bản hay không chỉ là bằng hệ thống tự động và đôi khi chuyển qua một vòng rà soát hời hợt của con người; gần như không thể kiểm tra toàn bộ tài liệu tham khảo ở quy mô lớn
      Chẳng khác nào đang cố làm một thứ giống phản biện đồng cấp trong một kho preprint nhận lượng bài nhiều hơn tạp chí dễ đến 100 lần
      Hơn nữa, giữa việc đưa lên arXiv và vượt qua phản biện đồng cấp là một khoảng cách rất lớn
      Cá nhân tôi trong lĩnh vực toán học có lẽ đã bị từ chối phản biện hơn mười lần, nhưng vẫn đưa bài lên arXiv math bình thường không vấn đề gì
      Phản biện đồng cấp không chỉ xem có mới và đúng hay không, mà còn xem “có thú vị với cộng đồng toán học hay không”, mà điều này vốn dĩ mang tính chủ quan và khó hơn nhiều so với việc được đăng trên arXiv
      Một giáo sư nổi tiếng về lý thuyết số đã khen bài khi bảo trợ, và một giáo sư khác cũng khuyên qua email rằng nên xuất bản, vậy mà vẫn bị từ chối 3 lần và tôi vẫn đang chờ
      Nếu yêu cầu phải đăng trên tạp chí có phản biện đồng cấp, arXiv có thể vĩnh viễn khép lại với nhiều nhà nghiên cứu, và điều đó cũng đi ngược lại tinh thần của preprint
    • Tôi không đồng ý với ý “rất tốt cho khoa học”
      Rốt cuộc chỉ là một trích dẫn bị hallucination thôi, chứ không phải gian lận
      Nó hoàn toàn không phản ánh nội dung hay chất lượng nghiên cứu của người đó
      Với một sai sót đầu tiên nhỏ như vậy, cấm 1 năm thôi có lẽ đã là đủ
      Con người thì mắc sai lầm, và khá nhiều người có thể học được từ sai lầm đó
      Không cần phải vĩnh viễn phá hỏng sự tiến bộ trong cuộc đời hay khả năng đóng góp cho nhân loại của ai đó chỉ vì một lần AI bịa ra tài liệu tham khảo
      Cách này mang tính trừng phạt hơn là phục hồi
  • Đây là biện pháp đáng hoan nghênh, nhưng về gốc rễ tôi vẫn mong vấn đề dễ tạo mục BibTeX chính xác cho bài báo được trích dẫn sẽ được giải quyết tốt hơn
    Thông tin trích dẫn của một bài cụ thể có thể đến từ nhiều nguồn khác nhau như tạp chí của nhà xuất bản, hội nghị, preprint, v.v.
    Cùng một bài cũng có thể xuất hiện ở nhiều nơi như arXiv và website hội nghị, với chi tiết hơi khác nhau
    Nhờ các công cụ như Zotero mà việc lấy trích dẫn từ trang web xuất bản đã dễ hơn rất nhiều, nhưng chi tiết BibTeX được trích xuất vẫn còn có vấn đề
    Tên tác giả và tiêu đề thường được lấy khá ổn, nhưng nhà xuất bản, năm, số tập/số kỳ, trang, URL v.v. có được trích xuất chính xác hay không và có hiển thị đúng trong định dạng LaTeX hay không thì vẫn phải kiểm tra thủ công
    Mỗi ấn phẩm còn có thể dùng một kiểu trích dẫn khác nhau
    Vì chưa có một cách thống nhất để dễ dàng lấy ra dữ liệu trích dẫn nhất quán, nên đáng tiếc là người ta có thể chọn lối tắt bằng dữ liệu trích dẫn do AI tạo ra
    Cũng không rõ trích dẫn hallucination phát sinh trong phần thân bài hay trong file BibTeX riêng, nên có thể tôi đang hiểu lệch đôi chút

    • Zotero cũng có một công cụ trực tuyến miễn phí để tạo trích dẫn hoặc file BibTeX theo định dạng mong muốn từ URL/DOI/ISBN v.v.
      https://zbib.org/
  • https://xcancel.com/tdietterich/status/2055000956144935055

    • Theo quy tắc ứng xử, việc đứng tên là tác giả bài báo có nghĩa là, bất kể nội dung được tạo ra bằng cách nào, mỗi tác giả đều chịu trách nhiệm hoàn toàn cho toàn bộ nội dung đó
  • Vấn đề là phát hiện tài liệu tham khảo bị hallucination ở quy mô lớn bằng cách nào
    Không rõ là kiểm tra mẫu thủ công hay xác thực DOI tự động
    Hướng chính sách thì có vẻ đúng, nhưng thực thi sẽ khó

  • Tốt
    Nếu bạn không có thời gian kiểm tra kỹ đầu ra của LLM, thì tôi cũng không có thời gian đọc nó

    • Đáng buồn là ngay cả không liên quan đến việc có phải nội dung do LLM tạo ra hay không, 99% bài trên arXiv có lẽ cũng không đáng đọc
      Bạn đã bao giờ chọn ngẫu nhiên một bài rồi thực sự đào sâu vào nó chưa?
  • Tôi vẫn chưa thấy ở đây nói gì về điều kiện “uy tín
    Phản biện uy tín được xác định theo tiêu chí nào?

  • Trước những biện pháp bất lợi kiểu này, cần có xác minh cẩn trọng
    Nếu ai đó đưa tên người khác vào bài nộp mà không được cho phép rõ ràng, thì tất cả đều bị cấm sao?
    Tôi đồng ý là nếu triển khai đúng thì đây là hướng tốt

    • Hơn nữa, theo tôi biết thì có thể thêm bất kỳ đồng tác giả nào mình muốn mà không cần xác minh
      Vậy thì chỉ với một bài báo một câu thôi cũng có thể khiến tất cả mọi người trên arXiv bị cấm
  • Việc những người ủng hộ LLM quá khích vốn lúc nào cũng thấy trên Twitter nổi giận và trả lời dưới biện pháp này là một tín hiệu khá rõ
    Cũng giống như trong phần bình luận dưới các bài viết về ô nhiễm do LLM, một số người không chấp nhận nổi việc có người ghét LLM, và hễ có bất kỳ trở ngại nhỏ nào với việc chấp nhận thật nhanh là họ nổi cáu

    • Việc cái này bị làm mờ đi thật kỳ lạ
      Thành ra tôi tự hỏi liệu đồng thuận của HN có phải là ở đâu cũng phải quá khích thúc đẩy và tăng tốc việc triển khai LLM hay không
      Vô lý thật, nhưng đồng thời cũng rất đúng kiểu HN
  • Tốt. Tài liệu học thuật đang trong tình trạng khủng hoảng vì đủ loại rác chất lượng thấp
    Bắt chịu trách nhiệm với những hallucination dễ phát hiện chỉ có thể là điều tốt

    • Đây không chỉ là vấn đề của AI
      Tôi học tiến sĩ vật lý cách đây khoảng 40 năm rồi, và ngay cả hồi đó tài liệu tham khảo sai cũng đã là vấn đề
  • Một đồng nghiệp đã nộp bài mà trong phần thân vẫn còn nguyên câu chữ rác của AI, rồi bị yêu cầu sửa rất nặng
    Phải kiểm tra bản nháp trước khi nộp
    Người phản biện sẽ phát hiện ra

    • Cũng phải kiểm tra cả chú thích LaTeX. arXiv hiển thị chúng công khai
      Tôi là người dùng trình đọc màn hình nên thường đọc bài báo dưới dạng TeX thô, và tôi đã thấy đủ thứ
      Từ lời lẽ miệt thị, xúc phạm người phản biện và giáo sư, thú nhận gian lận, cho tới chỉ đạo đồng tác giả tiếp tục gian lận trước khi nộp để che đậy một vụ gian lận trước đó
      Dù ít hơn nhiều so với tưởng tượng, dưới 1% bài báo, nhưng chúng thực sự tồn tại
      Có lẽ sẽ hữu ích nếu chạy một lượt phát hiện gian lận dựa trên LLM trên mã nguồn TeX của các bài arXiv mới
      Nó sẽ không bắt được hết, nhưng có thể tóm được một số kẻ gian ngốc nghếch nhất
      Cũng có mặt tích cực nữa: có thể tìm thấy các khẳng định mạnh hơn không vượt qua phản biện, phần giải thích bổ sung bị bỏ do giới hạn trang hội nghị, hoặc kết quả thí nghiệm mà tác giả không thấy đủ giá trị để đưa vào
      Những thứ đó phải được nhìn nhận hết sức thận trọng, nhưng đôi khi thực sự hữu ích
    • Nghe buồn vì đề xuất ở đây dường như không phải là đừng nộp rác ngay từ đầu, mà là ngụy trang rác để người phản biện khó phát hiện hơn