- Các bài báo về dự đoán chức năng enzyme bằng mô hình deep learning nhận được nhiều chú ý và trích dẫn, trong khi các bài báo fact-check chỉ ra sai sót lại hầu như không được quan tâm
- Một nghiên cứu dùng mô hình dựa trên Transformer để học từ 22 triệu dữ liệu enzyme và dự đoán 450 chức năng enzyme chưa được xác nhận đã được đăng trên Nature Communications
- Tuy nhiên, một bài báo tiếp theo đã chỉ ra hàng trăm dự đoán sai, dữ liệu trùng lặp và các kết luận không thể xảy ra về mặt sinh học
- Nếu không có phân tích chuyên sâu từ chuyên gia, rất khó đánh giá độ tin cậy của kết quả AI, và nguy cơ dữ liệu sai tiếp tục lan truyền sẽ tăng cao
- Tầm quan trọng của kiểm chứng dữ liệu nền tảng và tích hợp tri thức miền được nhìn nhận lại, thay vì chỉ tập trung vào các mô hình AI hào nhoáng
Deep learning gets the glory, deep fact checking gets ignored
- Bài báo về dự đoán chức năng enzyme bằng deep learning đã huấn luyện trên 22 triệu dữ liệu enzyme, dùng mô hình Transformer để dự đoán 450 chức năng enzyme chưa được xác nhận, được đăng trên Nature Communications và thu hút nhiều chú ý
- Tuy nhiên, bài báo tiếp theo phát hiện hàng trăm dự đoán sai, sự trùng lặp với cơ sở dữ liệu hiện có, các kết quả không thể xảy ra về mặt sinh học và nhiều lỗi lặp lại
- Ví dụ, AI đã dự đoán sai chức năng của một gene cụ thể ở E. coli, dù các nghiên cứu trước đó đã cho thấy gene này không có chức năng như vậy
- Bài báo vạch ra các lỗi này được đăng trên bioRxiv nhưng có lượt xem và trích dẫn rất ít, qua đó bộc lộ vấn đề trong cấu trúc khuyến khích xuất bản
- Các chuyên gia nhấn mạnh nhu cầu về kiểm chứng dữ liệu và chuyên môn miền hơn là chỉ mô hình hóa AI, đồng thời cảnh báo nguy cơ thông tin sai bị phát tán lại qua các cơ sở dữ liệu
The Problem of Determining Enzyme Function
- Enzyme đóng vai trò thúc đẩy các phản ứng quan trọng trong cơ thể sống, và nhiều chức năng khác nhau được phân loại bằng mã số Enzyme Commission (EC)
- Việc dự đoán mã số EC từ trình tự amino acid được xem là phù hợp với machine learning vì đầu vào và đầu ra khá rõ ràng
- Cơ sở dữ liệu UniProt đã sắp xếp hơn 22 triệu enzyme cùng mã số EC, nên dữ liệu huấn luyện rất dồi dào
An Approach with Transformers (AI model)
- Nhóm nghiên cứu đã dùng một mô hình gồm Transformer, lớp tích chập và lớp tuyến tính để dự đoán chức năng của các enzyme chưa được xác nhận
- Điểm đáng chú ý là họ còn phân tích xem high attention region có mang ý nghĩa sinh học hay không để tăng khả năng diễn giải của mô hình
- Trong số 450 enzyme chưa được xác nhận, họ chỉ kiểm chứng 3 trường hợp bằng thí nghiệm (in vitro) và tuyên bố điều đó chứng minh độ chính xác
The Errors
- Trong 450 kết quả “mới” được công bố trong bài báo trên Nature, 135 kết quả thực ra đã tồn tại trong các cơ sở dữ liệu trước đó
- 148 kết quả có tính lặp lại rất cao, như việc cùng một chức năng enzyme được dự đoán nhiều lần, cho thấy nhiều lỗi không thể xảy ra về mặt sinh học
- Cũng có nhiều trường hợp dự đoán sai enzyme tổng hợp các chất mà E. coli không tạo ra, hoặc mâu thuẫn với các kết quả thí nghiệm sẵn có
- Khả năng rò rỉ dữ liệu (data leakage) cũng được nêu ra, và lỗi xuất hiện thường xuyên ở các vùng dự đoán không có ground truth thực tế
The Microbiology Detective
- Trong bài báo tiếp theo, Dr. de Crécy-Lagard xác nhận rằng một enzyme (yciO) trong các kết quả dự đoán của bài báo Nature mâu thuẫn rõ ràng với các nghiên cứu trước đây
- Dù yciO và TsaC có liên hệ về mặt tiến hóa, các thí nghiệm thực tế đã nhiều lần chứng minh rằng yciO không thể thay thế chức năng của TsaC
- Điều này cho thấy giới hạn của thuật toán khi coi chức năng là tương đương chỉ dựa trên sự tương đồng cấu trúc đơn thuần
- Để xác định chức năng enzyme, cần xem xét tổng hợp nhiều loại bằng chứng như bối cảnh xung quanh gene, liên kết cơ chất và con đường chuyển hóa
Hundreds of Likely Erroneous Results
- Nhóm tác giả của bài báo tiếp theo xác nhận rằng trong 450 kết quả dự đoán của bài báo Nature, có 135 kết quả đã được đăng ký trong cơ sở dữ liệu từ trước
- 148 trường hợp được phân tích là phát sinh do các vấn đề như dự đoán lặp lại cùng chức năng, thiên lệch dữ liệu, thiếu đặc trưng và giới hạn kiến trúc
- Nhiều kết quả khác đã được chứng minh là sai khi đối chiếu với bối cảnh sinh học hoặc khảo sát tài liệu hiện có
Rethinking Enzyme Classification and “True Unknowns”
- Trong dự đoán chức năng enzyme, hai bài toán lan truyền chức năng đã biết (propagation) và phát hiện chức năng thực sự chưa biết (discovery) đang bị trộn lẫn với nhau
- Supervised ML vốn có giới hạn bản chất trong việc dự đoán các chức năng thực sự chưa biết
- Các dự đoán sai có thể được đưa vào những cơ sở dữ liệu như UniProt, rồi tiếp tục được dùng để huấn luyện mô hình, tạo thành vòng lặp lan truyền lỗi
Need for Domain Expertise
- Không giống như nghiên cứu AI, việc kiểm chứng dữ liệu và phân tích chuyên sâu của chuyên gia miền thiếu động lực khuyến khích nên ít thu hút sự quan tâm của các nhà nghiên cứu hơn
- Trên thực tế, bài báo cho thấy một trong những nguyên nhân khiến các dự án AI rủi ro cao thất bại là việc áp dụng tri thức miền không đầy đủ
- Phần lớn các bài báo deep learning không trải qua quá trình kiểm chứng tỉ mỉ từ chuyên gia miền, nên những bài báo trông có vẻ ấn tượng cũng có thể chứa nhiều sai sót trong thực tế
Kết luận và đề xuất
- Tầm quan trọng của kiểm chứng dữ liệu nền tảng và tích hợp tri thức miền được nhấn mạnh hơn là phát triển các mô hình AI hào nhoáng
- Bài viết cho rằng các cơ chế khuyến khích và hỗ trợ nghiên cứu cần tập trung nhiều hơn vào các nghiên cứu kiểm chứng thực chất
- Điều này gợi ý rằng việc xác minh lỗi và nâng cao chất lượng dữ liệu có thể đóng góp lớn hơn cho sự phát triển AI về lâu dài
1 bình luận
Ý kiến trên Hacker News
Có ý kiến cho rằng mọi người thường quên mất khả năng rò rỉ dữ liệu. Luôn phải giả định là có rò rỉ dữ liệu cho đến khi có bằng chứng mạnh mẽ cho thấy không phải vậy, và trách nhiệm chứng minh không có rò rỉ thuộc về các tác giả. Với các bộ dữ liệu nhỏ, rò rỉ thậm chí còn dễ xảy ra hơn vì người ta có thể xem trực tiếp toàn bộ dữ liệu, nên lại càng dễ phát sinh. Những lỗi tinh vi làm hỏng dữ liệu là chuyện cực kỳ phổ biến. Giờ đây các bộ dữ liệu đã lớn đến mức con người không thể rà soát hết, ai cũng biết việc lọc là không hoàn hảo, nên không thể thực sự tin rằng không có rò rỉ. Có thể nói là đã lọc, nhưng không thể nói chắc là thật sự không có rò rỉ. Ngay cả với những bộ dữ liệu mà chúng ta thực sự tiếp cận được, vẫn thường xuyên phát hiện vấn đề. Trải qua ngần ấy chuyện như vậy mà vẫn tiếp tục giả định dữ liệu là ổn thì thật khó hiểu. Có lẽ đó là một dạng tự lừa dối do kỳ vọng quá mức. Muốn sửa vấn đề thì trước hết phải nhìn thẳng đúng thực tế
Mọi hệ thống đều có khiếm khuyết. Vấn đề thật sự là chấp nhận mức khiếm khuyết đến đâu. Ví dụ, trong Medicare và Medicaid, tỷ lệ gian lận là 7,66%; số tiền thì rất lớn, nhưng điều đó không có nghĩa là toàn bộ hệ thống thất bại, vì 93% còn lại vẫn hoạt động đúng. Với mô hình AI cũng vậy: nếu tỷ lệ lỗi là 10% thì không có nghĩa cả hệ thống là tệ, mà cần bàn xem mức đó có chấp nhận được hay không. Xem tài liệu dẫn chứng
Có ý kiến cho rằng tranh luận về gánh nặng chứng minh không thực sự đóng vai trò định hướng niềm tin như nhiều người nghĩ
Có ý kiến rằng trước khi để AI làm nghiên cứu, trước hết nó phải tái lập thành công các nghiên cứu hiện có. Ví dụ, nếu đưa cho AI một bài báo deep learning và yêu cầu nó hiện thực hóa, ta có thể đánh giá năng lực thật sự của nó. Nếu ngay cả nền tảng này còn không làm được thì khó có thể kỳ vọng vào ý tưởng mới
Ban đầu tôi cứ tưởng sẽ có người đề xuất kiểu “chỉ đưa phần đầu bài báo cho AI rồi để nó tự hoàn thiện phần còn lại”. Nếu đến mức kiểm chứng như vậy mà vẫn chưa làm được thì tôi không nghĩ AI có thể tạo ra những khám phá mang tính đột phá
OpenAI đã tạo một benchmark liên quan đến việc này: liên kết paperbench
Cần có một hệ thống ghi nhận hoàn toàn minh bạch và có thể kiểm chứng, đồng thời phải bảo đảm rằng bài báo chưa từng bị lộ trước vào bộ dữ liệu. Gian lận học thuật trong bài báo tuy hiếm nhưng vẫn có, còn LLM thì có thể tạo ra thông tin sai mà không hề ngập ngừng
Ví dụ, có thể đưa cho AI dữ liệu thống kê thực nghiệm của một bài báo rồi yêu cầu nó tái tạo dữ liệu gốc
Ý tưởng này không chỉ đủ thú vị mà còn có thể phần nào giải quyết vấn đề kiểm chứng tính tái lập. Tuy vậy, nghiên cứu do AI tái tạo cuối cùng vẫn cần con người rà soát kỹ lưỡng. Trên thực tế, hiện nay có nhiều vai trò mà LLM có thể đảm nhiệm, chẳng hạn hỗ trợ kiểm tra mã xử lý dữ liệu trong quy trình phản biện, giúp khảo cứu tài liệu, hoặc dùng để brainstorming ý tưởng
"Nature Communications" và "Nature" có vị thế hoàn toàn khác nhau. Không nên gọi hay đối xử hai bên như nhau. Và altmetrics là một con số không có nhiều ý nghĩa. Trừ khi muốn đo mức độ ồn ào của công chúng, nó gần như không liên quan gì mấy đến trích dẫn khoa học
Khi nhìn vào phần lớn các bài báo deep learning, hiếm khi thấy chuyên gia miền ứng dụng kiểm chứng kết quả thật sự tỉ mỉ. Tôi tự hỏi có bao nhiêu bài trông ấn tượng nhưng sẽ không vượt qua được kiểm chứng nghiêm ngặt. Tuy nhiên, trong lĩnh vực của tôi, các bài báo AI quả thật được chính tôi đọc kỹ, và dường như cũng có nhiều chuyên gia khác kiểm tra. Chỉ là tôi có cảm giác các kết quả trong khoa học máy tính hay phần mềm dễ xác minh hơn sinh học (hoặc có thể là vì tôi không hiểu sinh học đủ sâu nên mới thấy vậy)
Trong lĩnh vực sinh học, chỉ riêng việc xác minh tính hợp lệ của nhãn cũng thường mất nhiều năm. Trường hợp OP nêu làm ví dụ lại là một ca cực kỳ may mắn, đúng lúc đã có ai đó bỏ ra vài năm để kiểm chứng trước một giá trị dự đoán cụ thể. Đa số không ai muốn đánh cược 3–5 năm sự nghiệp của mình để đi xác minh một dự đoán ngẫu nhiên từ mô hình
Trong lĩnh vực của tôi, khi một bài báo dùng kỹ thuật đó thì chuyện bị soi kỹ và bị phê bình là rất thường gặp. Vấn đề là những phê bình như vậy lại thường không được người ở lĩnh vực khác tiếp nhận một cách nghiêm túc
Có ý kiến cho rằng thứ AI cần là một phân hệ “kiểm chứng thực tại”. Với LLM, nó giống như việc vô thức của chúng ta liên tục phát ra đủ loại tiếng ồn lảm nhảm. Thực tế, não người có một bộ lọc nội tại kiểu như “điều mình vừa nói có phải là sự thật có thể bị phản chứng hay không?”, nhờ đó loại bỏ được lời nói dối. (Dĩ nhiên cũng kèm theo câu đùa rằng cơ chế này không phải lúc nào cũng hoạt động với mọi người)
Hoàn toàn đồng ý. Vài tháng trước, vào một đêm khuya khi tôi đang trong trạng thái nửa tỉnh nửa ngủ, tôi nhận ra não mình liên tục tạo ra đủ loại cụm từ và ý nghĩ. Nhiều lúc tôi cảm nhận rất rõ mọi ý tưởng ấy đi qua một bộ lọc rồi mới được tinh luyện thành câu chữ. Đó là một trải nghiệm kỳ lạ rất cá nhân, nhưng khiến tôi thấy AI cũng nhất thiết cần một thuật toán như vậy. Nếu sau này học tiến sĩ, tôi muốn lấy đó làm đề tài nghiên cứu
Hệ thống “kiểm chứng thực tại” của con người giống với discriminator trong GAN, nhưng chịu ảnh hưởng rất mạnh từ cảm xúc. Theo các nghiên cứu tâm lý học, mạch phán đoán thật-giả của con người luôn khởi động từ tín hiệu cảm xúc trước, và gốc rễ của nó nằm ở niềm tin. Khi ai đó nói điều gì xung đột mạnh với niềm tin của tôi, phản ứng cảm xúc sẽ đến trước, rồi sau đó phán đoán lý trí mới can thiệp
Điều này phù hợp với trải nghiệm của tôi khi tiếp xúc với LLM với tư cách nhà nghiên cứu. Tôi thật sự ấn tượng sâu sắc trước khả năng hiểu và tạo văn bản của chúng, nhưng việc chúng lập tức đưa ra câu trả lời cho những vấn đề chưa được giải quyết và khó hơn rất nhiều thì lúc nào cũng khiến tôi thất vọng. Câu hỏi phức tạp cần thời gian để suy nghĩ, trong khi LLM lại có xu hướng trả lời đầy tự tin mà không có chiều sâu hay sự cân nhắc đó, kể cả khi đáp án hoàn toàn sai
Đây là một bài viết rất hay của Rachel Thomas. Nó một lần nữa củng cố lập luận rằng deep learning rốt cuộc là một công cụ truy xuất thông tin [mang tính sinh sinh]. Dữ liệu huấn luyện có phản chiếu miền thực tại, nhưng về bản chất là một bộ dữ liệu mất mát thông tin rất lớn. Ví dụ, dữ liệu/nhãn gene không thể đại diện hoàn hảo cho cấu trúc thật của sinh học, nên kết quả cũng thường sai hoặc vô nghĩa. Ngược lại, khi kết quả khớp một cách kỳ lạ đến mức quá tốt, cũng có thể nghĩ đến khả năng đã lẫn rò rỉ dữ liệu, đúng với bản chất công cụ truy xuất thông tin theo thiết kế của LLM. Nhìn từ góc độ lý thuyết thông tin, giới hạn của bộ dữ liệu là một yếu tố rủi ro chưa biết, áp dụng chung cho mọi mô hình. Kết luận là đây không phải lỗi của thuật toán mà là vấn đề của bộ dữ liệu huấn luyện. Chúng ta hoạt động cực kỳ linh hoạt trong miền ngôn ngữ tự nhiên, và ngay cả trẻ nhỏ khi đọc văn bản cũng có thể nhận ra nó có hợp lý hay không. LLM thành công trong NLP là nhờ loại dữ liệu này. Ngược lại, ở những lĩnh vực phức tạp mà dữ liệu nguồn không thể nắm bắt trung thực bản chất sự vật, giới hạn sẽ nhiều hơn
Có lo ngại rằng thông tin sai lệch đang ngấm cả vào khoa học. Họ chỉ ra rằng khoa học cũng đang xuất hiện hiện tượng giống mạng xã hội, nơi những phát ngôn giật gân không có căn cứ lại thu hút nhiều chú ý hơn nghiên cứu thật sự được hậu thuẫn chắc chắn. Tuy vậy, không thể đặt Twitter và tạp chí Nature lên cùng một mặt bằng, và vẫn từng có niềm tin rằng các tạp chí danh tiếng cùng hệ thống phản biện đồng cấp là “phòng tuyến cuối cùng” ngăn điều này. Vậy thì có phải vụ việc lần này là một thất bại của Nature hay không
Cần nhớ rằng có thống kê cho thấy tạp chí học thuật càng có ảnh hưởng lớn thì tỷ lệ bài bị rút hoặc chưa được kiểm chứng lại càng cao. Nguyên nhân gốc rễ của vấn đề này còn gây tranh cãi, nhưng một bài báo không tự nó chứng minh chân lý, mà tiêu chuẩn tin cậy thật sự là kết quả được nhiều viện nghiên cứu, nhiều nhóm khác nhau xác minh độc lập
Vấn đề thông tin sai lệch trong giới khoa học không phải bây giờ mới phình to; thực tế là tranh cãi về “khủng hoảng tái lập” đã kéo dài suốt vài năm qua
Giống như trường hợp bài báo ML Quantum Wormhole, thật đáng thất vọng khi nghiên cứu sai không chỉ xuất hiện trong bài báo khoa học phổ thông mà còn được đăng trên các tạp chí danh tiếng. Có ý kiến cho rằng đây không hẳn là lỗi vô tình, mà là quá nhiều trường hợp cả nhà nghiên cứu lẫn phản biện đều bỏ qua việc kiểm chứng đúng mức. Cá nhân tôi vốn đã hoài nghi hệ thống tạp chí học thuật truyền thống và từng mong có mô hình xuất bản học thuật tự do hơn, nhưng giờ lại thấy chính các tạp chí đang tự bào mòn độ tin cậy của mình. Điều đáng lo nhất là rốt cuộc những việc như vậy sẽ góp phần làm xấu đi niềm tin của công chúng vào khoa học. Công chúng vốn khó nhận ra những tranh luận tinh tế bên trong khoa học, và các sự việc như vậy chỉ cung cấp thêm cớ cho phe phản khoa học
Nó khiến tôi nhớ đến Bullshit asymmetry principle (định luật Brandolini) liên kết về nguyên lý này
Chúng ta có xu hướng chỉ quảng bá đầy kịch tính cho đúng một trường hợp ML/AI thành công rực rỡ, còn phớt lờ hàng chục lần thử đã thất bại