Các bài báo giả trên Google Scholar được tạo bằng GPT: đặc điểm chính, mức độ lan truyền và hàm ý cho việc ngăn chặn thao túng bằng chứng

(misinforeview.hks.harvard.edu)

7 điểm bởi GN⁺ 2024-09-09 | 2 bình luận | Chia sẻ qua WhatsApp

Có thể dễ dàng tìm thấy nhiều bài báo đáng ngờ trên Google Scholar dường như được tạo ra bằng các mô hình GPT phổ biến hiện nay
Những bài báo này chủ yếu được tạo bằng các ứng dụng AI đa dụng được dùng rộng rãi, đặc biệt là ChatGPT, và bắt chước lối viết khoa học
Google Scholar liệt kê các bài báo đáng ngờ này cùng với các công trình nghiên cứu có uy tín và được kiểm soát chất lượng
Phân tích một mẫu các bài báo khoa học đáng ngờ do GPT tạo ra được tìm thấy trên Google Scholar cho thấy nhiều bài viết đề cập đến các lĩnh vực ứng dụng dễ bị tổn thương trước thông tin sai lệch số như môi trường, sức khỏe và điện toán
Khả năng thao túng bằng chứng có chủ đích trong các lĩnh vực có xung đột chính trị cao đang trở thành một mối lo ngày càng nghiêm trọng

Phát hiện

Phát hiện 1: 139 bài báo đáng ngờ do GPT tạo ra được liệt kê như bài báo bình thường trong kết quả tìm kiếm của Google Scholar. Nhiều bài thuộc các tạp chí không được lập chỉ mục

Phần lớn các bài báo đáng ngờ nằm trong các tạp chí không được lập chỉ mục hoặc working paper, nhưng một số cũng được tìm thấy trong các tạp chí, ấn phẩm, hội nghị và kho lưu trữ có danh tiếng
Tổng cộng đã tìm thấy 139 bài báo bị nghi sử dụng ChatGPT hoặc các ứng dụng LLM tương tự một cách đánh lừa
Trong số này, 19 bài thuộc tạp chí được lập chỉ mục, 89 bài thuộc tạp chí không được lập chỉ mục, 19 bài là luận văn sinh viên trong cơ sở dữ liệu đại học, và 12 bài là working paper (phần lớn trong các cơ sở dữ liệu preprint)
Các bài báo liên quan đến môi trường và sức khỏe chiếm khoảng 34% mẫu, trong đó 66% được đăng trên các tạp chí không được lập chỉ mục

Phát hiện 2: Các bài báo đáng ngờ do GPT tạo ra được phát tán trực tuyến và lan rộng khắp hạ tầng truyền thông học thuật, thường tồn tại dưới nhiều bản sao. Các lĩnh vực ứng dụng có hàm ý thực tiễn chiếm ưu thế

27 bài báo về các vấn đề môi trường được phát hiện tại 56 URL trên 26 tên miền duy nhất
20 bài báo về các vấn đề sức khỏe được phát hiện tại 46 URL trên 20 tên miền duy nhất
Phần lớn các bài báo được xác định tồn tại dưới nhiều bản sao và đã lan sang nhiều kho lưu trữ, repository và mạng xã hội
Việc loại bỏ chúng khỏi hồ sơ học thuật sẽ khó khăn hoặc gần như không thể

Phát hiện 3: Google Scholar trình bày kết quả từ các cơ sở dữ liệu trích dẫn được kiểm soát chất lượng và không được kiểm soát chất lượng trên cùng một giao diện, vì vậy có thể truy cập không hạn chế vào các bài báo đáng ngờ do GPT tạo ra

Vị thế trung tâm của Google Scholar trong hạ tầng truyền thông học thuật truy cập công khai, cùng với sự thiếu vắng tiêu chuẩn, tính minh bạch và trách nhiệm giải trình trong tiêu chí đưa vào, có thể gây tác động nghiêm trọng đến niềm tin của công chúng đối với khoa học
Điều này làm tăng khả năng Google Scholar bị khai thác cho việc evidence hacking, đồng thời ảnh hưởng đến các nỗ lực rút lại hoặc xóa các bài báo giả khỏi nguồn gốc ban đầu
Bất kỳ giải pháp nào cũng phải xem xét toàn bộ hạ tầng truyền thông học thuật và sự tương tác giữa các tác nhân, lợi ích và động cơ khác nhau

Ý kiến của GN⁺

Vấn đề này đáng lo ngại vì những lý do sau:

Các bài báo do GPT tạo ra có thể lấn át hệ thống truyền thông học thuật và đe dọa tính toàn vẹn của hồ sơ khoa học. Điều này sẽ làm trầm trọng thêm vấn đề paper mill vốn đã tồn tại.
Nội dung do AI tạo ra trông có vẻ thuyết phục về mặt khoa học nhưng thực chất có thể đã được tạo ra một cách đánh lừa. Điều này có thể làm suy yếu niềm tin của công chúng vào tri thức khoa học và gây ra những rủi ro xã hội nghiêm trọng.
Tiêu chí đưa vào của Google Scholar thiếu minh bạch và trách nhiệm giải trình. Điều này gắn với vấn đề hiển thị trong kết quả tìm kiếm mà không phân biệt giữa các cơ sở dữ liệu trích dẫn đáp ứng tiêu chuẩn và các cơ sở dữ liệu không đáp ứng tiêu chuẩn.
Vì các bài báo giả lan sang nhiều nền tảng khác nhau, nên ngay cả khi rút lại bản gốc cũng khó theo dõi và gỡ bỏ. Điều này có thể để lại ảnh hưởng tiêu cực lâu dài đối với lĩnh vực nghiên cứu liên quan.
Nhiều bài báo do GPT tạo ra được tìm thấy trong các chủ đề nhạy cảm và quan trọng về mặt xã hội như sức khỏe và môi trường. Điều này có thể gây ra sự hỗn loạn nghiêm trọng trong quá trình hoạch định chính sách và có nguy cơ bị lợi dụng về mặt chính trị.

Để ứng phó với vấn đề này, cần đồng thời xem xét các cách tiếp cận về kỹ thuật, giáo dục và thể chế. Ví dụ:

Cung cấp tùy chọn lọc trong các công cụ tìm kiếm học thuật theo tiêu chí như có peer-review hay không
Tích hợp các công cụ đánh giá vào giao diện và crawler của công cụ tìm kiếm học thuật
Xây dựng công cụ tìm kiếm học thuật miễn phí vận hành vì lợi ích công thay vì lý do thương mại
Các sáng kiến giáo dục dành cho nhà hoạch định chính sách, nhà truyền thông khoa học, nhà báo và các đối tượng liên quan

Về căn bản, cần tiếp cận vấn đề này trong bối cảnh rộng hơn như các vấn đề của hệ thống xuất bản học thuật, văn hóa "publish or perish", thế độc quyền của Google và xung đột ý thức hệ xoay quanh việc kiểm soát thông tin. Chỉ giải pháp kỹ thuật thôi là không đủ.

2 bình luận

xguru 2024-09-09

alphaXiv - Thảo luận công khai về các bài báo trên arXiv

Nhìn nền tảng này và bài viết này xuất hiện cùng nhau nên có cảm giác như chúng có liên hệ gì đó

GN⁺ 2024-09-09

Ý kiến trên Hacker News

Tại APS March Meeting, các biên tập viên tạp chí khoa học lo ngại về các bài phản biện do LLM tạo ra hơn là các bài báo do LLM tạo ra
- LLM giỏi tóm tắt nội dung hơn là suy luận logic dài hơi
- Phản biện không được công khai nên khiến người ta ít cảm thấy xấu hổ hơn
Script Python của các tác giả có thể có lỗi
- Nếu khóa bib không có trong phản hồi API, các cột của data frame có thể bị lệch nhau
- Có thể dùng mảng cờ để loại bỏ kết quả xấu, nhưng đoạn mã này không được sử dụng
GPT có thể khiến việc thao túng bài báo khoa học trở nên dễ dàng hơn, nhưng con người cũng đã làm điều đó rất tốt ngay cả khi chưa có AI
- Chia sẻ một liên kết video thú vị liên quan
Mong rằng phương pháp thu thập dữ liệu trong các bài báo liên quan đến LLM sẽ tinh vi hơn
- Việc sử dụng LLM có tác động đến khoa học và xã hội lớn hơn nhiều so với chỉ việc hiệu đính
- Phạm vi của việc hiệu đính khác nhau tùy từng người
Các chuyên gia trong lĩnh vực liên quan có thể dễ dàng phân biệt kết quả giả
- Nội dung không có tính mới thì khó phân biệt hơn
- Vấn đề về sự trung thực của nhà nghiên cứu đã tồn tại từ trước thời AI
- Người không chuyên khó phân biệt tính xác thực của thông tin
Trong các cuộc thảo luận trước đó, những bài báo bị nghi là dùng GPT thực ra đã được viết trước thời OpenAI
ChatGPT không hiểu sự thật
- Khi dùng ChatGPT trong một dự án nghiên cứu liên quan đến data lake, có rất nhiều liên kết giả và các bản tóm tắt tài liệu marketing
Đánh giá cao việc hình ảnh trong bài không phải do AI tạo ra
Các bài báo do GPT tạo ra có thể là những bản được viết để người không nói tiếng Anh bản ngữ cải thiện tiếng Anh của mình
Có cảm giác như chúng ta đang bước vào một thời kỳ tăm tối