- Gần đây, các công cụ AI đang tìm ra lỗi về tính toán, phương pháp luận và tài liệu tham khảo trong các bài báo nghiên cứu
- Năm ngoái, một nghiên cứu cho biết dụng cụ nấu ăn bằng nhựa màu đen có chứa hóa chất gây ung thư đã được đưa tin rộng rãi
- Tuy nhiên, do lỗi toán học trong nghiên cứu, người ta phát hiện nồng độ hóa chất thực tế thấp hơn ngưỡng an toàn tới 10 lần
- Một mô hình trí tuệ nhân tạo (AI) có thể phát hiện lỗi này chỉ trong vài giây
Dự án phát hiện lỗi bài báo nghiên cứu dựa trên AI
Black Spatula Project
- Công cụ AI mã nguồn mở phân tích khoảng 500 bài báo để phát hiện lỗi
- Nhà nghiên cứu AI độc lập người Colombia Joaquin Gulloso đang điều phối dự án, với 8 nhà phát triển và hàng trăm cố vấn tham gia
- Danh sách lỗi không được công khai; khi phát hiện lỗi, nhóm đang liên hệ trực tiếp với các nhà nghiên cứu để thúc đẩy chỉnh sửa
YesNoError
- Dự án được khởi động với cảm hứng từ Black Spatula Project
- Do nhà sáng lập kiêm doanh nhân AI Matt Schlicht dẫn dắt
- Vận hành bằng nguồn tài trợ từ tiền mã hóa riêng
- Đến nay đã hoàn tất phân tích khoảng 37.000 bài báo chỉ trong hai tháng
- Các bài báo phát hiện có lỗi được hiển thị trên website, nhưng phần lớn vẫn chưa được chuyên gia xác minh
- Về dài hạn, dự án có kế hoạch phối hợp với ResearchHub (thưởng cho các nhà nghiên cứu có bằng tiến sĩ bằng tiền mã hóa) để xác minh lỗi
Khuyến khích nhà nghiên cứu và tạp chí sử dụng công cụ AI
- Khuyến khích nhà nghiên cứu dùng công cụ AI trước khi nộp bài, và các tạp chí dùng trước khi đăng để phát hiện lỗi từ sớm
- Kỳ vọng tăng cường độ tin cậy khoa học thông qua việc ngăn chặn lỗi và gian lận nghiên cứu
Phản ứng và lo ngại trong giới học thuật
- Các chuyên gia về liêm chính nghiên cứu phản hồi tích cực nhưng thận trọng với các dự án này
- Nhà nghiên cứu Michèle Nuijten của Đại học Tilburg nêu ra lo ngại sau:
- Nếu độ chính xác của công cụ AI chưa được kiểm chứng rõ ràng, việc chỉ ra lỗi sai có thể gây tổn hại danh tiếng
- Nhà khoa học pháp y về metascience James Heathers của Đại học Linnaeus bày tỏ sự ủng hộ như sau:
- "Viết ra một bài báo tồi còn dễ hơn rất nhiều so với việc rút lại nó"
- AI có thể hữu ích trong việc sàng lọc bài báo và thúc đẩy rà soát bổ sung
Cách các công cụ AI hoạt động
- Sử dụng mô hình ngôn ngữ lớn (LLM) để phát hiện lỗi trong bài báo
- Trích xuất thông tin như bảng biểu, hình ảnh... từ bài báo rồi tạo các câu lệnh phức tạp (prompt)
- Mô hình AI phân tích bài báo nhiều lần để tìm các loại lỗi khác nhau và đối chiếu chéo kết quả
- Chi phí phân tích bài báo: từ 15 xu đến vài USD tùy theo độ dài bài và độ phức tạp của prompt
Vấn đề dương tính giả (False Positive)
- Black Spatula Project → phát sinh khoảng 10% dương tính giả
- Mọi lỗi đều cần chuyên gia xác minh → thiếu chuyên gia là điểm nghẽn lớn nhất
- YesNoError → trong 10.000 bài báo, khi xác minh 100 lỗi toán học thì hơn 90% được xác nhận là lỗi thật
- YesNoError đang giảm tỷ lệ dương tính giả và liên tục tiếp nhận phản hồi từ giới học thuật
Chỉ trích về vấn đề dương tính giả
- Nhà nghiên cứu Nick Brown của Đại học Linnaeus:
- Trong 40 bài báo do YesNoError phân tích, ông xác nhận có dương tính giả ở 14 bài → chủ yếu là vấn đề về cách viết
- Những lỗi nhỏ nhặt có thể gây thêm gánh nặng không cần thiết cho giới học thuật
- "Trừ khi công nghệ được cải thiện đáng kể, sẽ cần rất nhiều công việc mà không mang lại lợi ích rõ ràng"
Thách thức và kỳ vọng trong tương lai của công cụ AI
- YesNoError có kế hoạch áp dụng cách để người nắm giữ tiền mã hóa quyết định ưu tiên bài báo nào sẽ được rà soát
- Có khả năng các bài báo về những chủ đề nhạy cảm về chính trị (ví dụ: khoa học khí hậu) sẽ trở thành mục tiêu
- Nhà nghiên cứu Brown: "Nếu công cụ AI thực sự chứng minh được hiệu quả, những thay đổi lớn có thể xảy ra trong một số lĩnh vực nghiên cứu cụ thể"
5 bình luận
Các bài báo chất lượng thấp có lẽ sẽ bị sàng lọc, nhưng ngược lại tôi cũng lo rằng ngay cả những bài tốt cũng sẽ gặp rào cản cao hơn và vì thế trở nên kém sáng tạo hơn một cách tương đối. Ngay cả khi có những lỗ hổng về mặt logic, đôi khi chính từ đó lại nảy sinh các ý tưởng mới, nên cá nhân tôi không thấy điều này đáng hoan nghênh lắm.
AI cũng có thể sai, nên tôi tò mò không biết sẽ xác minh thế nào để đảm bảo những điểm mà AI chỉ ra không phải là sai.
Khi LLM trở nên phổ biến, những nơi mà phần lớn nhu cầu trước đây xuất phát từ sự bất cân xứng thông tin đang chứng kiến những thay đổi vô cùng lớn.
Không biết nếu đem cho nó phân tích đủ loại kinh điển của nhân loại thì sẽ thế nào nhỉ haha
Ý kiến trên Hacker News
Nếu AI có thể phát hiện những lỗi rõ ràng trong các bài báo đã xuất bản, thì nó có thể được dùng như một phần của quy trình phản biện. Các tác giả có thể áp dụng nó cho công trình của mình trước khi nộp, từ đó nâng cao đáng kể chất lượng bài báo
Hiện tại, trang web YesNoError chứa nhiều kết quả dương tính giả. Nick Brown, nhà nghiên cứu tại Linnaeus University, cho biết 14 trong số 40 bài báo có vấn đề thực ra là dương tính giả
Vì hiện tại AI là bên dẫn dắt, mọi người có thể nghĩ rằng nó đang kiểm tra gian lận hay lập luận sai. Thực tế, nó đang kiểm tra tính nhất quán nội tại và sự nhất quán với dữ liệu huấn luyện
Đề xuất ý tưởng dùng AI để lập bản đồ ảnh hưởng của các bài báo đã bị rút lại. Có thể xác định những kết luận không còn được bài báo bị rút lại hỗ trợ nữa, rồi kiểm tra chúng xuất hiện ở đâu trong các bài báo tuyến sau
Có phải ký ức tập thể của chúng ta quá ngắn? Chúng ta đã quên những vấn đề do các báo cáo lỗi do AI tạo ra gây nên rồi sao?
Đưa ra hai ví dụ trong dự án Black Spatula về việc phát hiện các lỗi nghiêm trọng
Ý tưởng này là tốt, và tôi muốn áp dụng nó vào các báo cáo trong công ty mình để phát hiện những lỗi hiển nhiên trước khi gửi cho sếp
YesNoError đang lên kế hoạch để những người nắm giữ tiền mã hóa quyết định bài báo nào sẽ được xem xét trước
Đây là một ý tưởng cực kỳ tệ. Nên bỏ qua phần đầu và đọc phần "kết quả dương tính giả"
Tôi rất hoài nghi về giá trị của việc này. Đã có thời gian bị lãng phí để phản hồi những tuyên bố vô căn cứ do AI "phản biện" tạo ra. Có lẽ những kiểu tuyên bố này trước đây cũng từng tồn tại, nhưng các trình tạo văn bản biết cách bịa ra bằng đúng thuật ngữ để thuyết phục người bình thường và dân nghiệp dư, khiến việc xử lý chúng phiền toái hơn nhiều