Tôi đã bị thổi phồng về AI cho khoa học đánh lừa và những gì tôi học được

(understandingai.org)

3 điểm bởi GN⁺ 2025-05-21 | 1 bình luận | Chia sẻ qua WhatsApp

Tác giả, khi đang nghiên cứu vật lý plasma tại Princeton, đã chuyển hướng vào năm 2018 vì tin rằng AI có thể tăng tốc nghiên cứu vật lý, nhưng trên thực tế AI dùng để giải PDE mong manh hơn kỳ vọng rất nhiều
PINN trông như một cách tiếp cận đơn giản và tổng quát, nhưng chỉ cần thay đổi nhẹ các ví dụ dễ là đã khó thu được nghiệm chính xác, và ngay cả việc tinh chỉnh cũng không đảm bảo được độ ổn định
Khi rà soát 76 nghiên cứu liên quan đến PDE động lực học chất lưu, trong số các bài báo tuyên bố tốt hơn phương pháp giải số tiêu chuẩn thì 60 bài, tức 79%, đã dùng baseline yếu, và các trường hợp cải thiện tốc độ lớn đều dựa vào so sánh thiếu công bằng
Việc dùng AI trong khoa học đã tăng từ 2% năm 2015 lên gần 8% vào năm 2022, nhưng sự gia tăng đó có thể gắn với động lực về trích dẫn, sự nghiệp và huy động vốn nhiều hơn là với bản thân khoa học
AI có thể tạo ra kết quả trong gập protein, dự báo thời tiết và khám phá thuốc mới, nhưng luận điểm chung rằng nó sẽ tăng tốc khoa học một cách cách mạng cần được nhìn nhận thận trọng vì thiên lệch sống sót, rò rỉ dữ liệu, baseline yếu và cherry-picking

Vì sao tôi chuyển từ vật lý plasma sang AI

Năm 2018, khi đang là nghiên cứu sinh tiến sĩ năm thứ hai ngành vật lý plasma ở Princeton, tác giả đã chuyển trọng tâm nghiên cứu sang machine learning
- Không phải vì đã có một dự án cụ thể, mà vì nghĩ rằng nếu dùng AI để tăng tốc nghiên cứu vật lý thì có thể tạo ra tác động lớn hơn
- Tác giả cũng thừa nhận mức lương cao của lĩnh vực AI là một động lực
Sau đó, tác giả chọn nghiên cứu bài toán giải phương trình vi phân riêng phần (PDE) bằng AI, thứ mà Yann LeCun gọi là một “pretty hot topic”
PDE là các phương trình toán học mô hình hóa hệ vật lý và rất quan trọng trong vật lý tính toán cũng như mô phỏng kỹ thuật
- Phòng thí nghiệm của tác giả dùng PDE để mô hình hóa hành vi plasma bên trong lò phản ứng nhiệt hạch và môi trường liên sao
Các mô hình AI dùng để giải PDE là các mô hình deep learning chuyên biệt, gần với AlphaFold hơn là ChatGPT

Những điểm yếu bộc lộ qua thí nghiệm với PINN

Phương pháp đầu tiên được thử là physics-informed neural network (PINN)
- Thay vì biểu diễn nghiệm PDE dưới dạng lưới pixel, PINN biểu diễn nghiệm bằng mạng nơ-ron và đưa phương trình vào hàm mất mát
- Bài báo PINN ban đầu tuyên bố nó cho hiệu quả trên các bài toán kinh điển như chất lưu, cơ học lượng tử, hệ phản ứng-khuếch tán và sóng nước nông phi tuyến, và khi đó đã được trích dẫn hàng trăm lần
Nó trông như một phương pháp tổng quát đơn giản và thanh lịch, nhưng thí nghiệm thực tế lại rất khác kỳ vọng
- Khi thay ví dụ 1D Burgers’, một trong các ví dụ của bài báo có ảnh hưởng đầu tiên, bằng PDE đơn giản khác là 1D Vlasov, thì không thu được nghiệm có vẻ chính xác
- Sau rất nhiều tinh chỉnh, tác giả có được kết quả trông hợp lý, nhưng với PDE phức tạp hơn một chút như 1D Vlasov-Poisson thì vẫn không thể có nghiệm tử tế
- Một người bạn ở trường khác cũng nói rằng họ không thu được kết quả tốt với PINN
Có vẻ chính các tác giả của bài báo PINN gốc cũng đã quan sát thấy rằng một thiết lập cụ thể có thể cho kết quả ấn tượng với phương trình này nhưng lại thất bại với phương trình khác
- Tuy nhiên, bài báo không đưa ra các trường hợp PINN thất bại
- Bản thân tác giả cũng không xuất bản các thí nghiệm thất bại đó thành bài báo, mà chỉ trình bày dưới dạng poster ở một hội nghị ít được biết đến

Bài học từ PINN và cách nó được nhìn nhận hiện nay

Bài học đầu tiên là không nên tin nguyên xi các kết quả nghiên cứu AI
- Phần lớn nhà khoa học không cố tình lừa ai, nhưng các động lực để trình bày kết quả thuận lợi là rất mạnh, khiến người đọc có thể bị dẫn lệch
- Tác giả đi đến kết luận rằng các bài báo có tầm ảnh hưởng cao với kết quả ấn tượng lại càng cần được nhìn bằng con mắt hoài nghi hơn
Bài học thứ hai là các trường hợp phương pháp AI thất bại hầu như không được xuất bản
- Phải mất 2 năm mới có bài báo bàn về các chế độ thất bại của PINN, và hiện bài đó đã được trích dẫn hơn 1.000 lần
- Điều này gợi ý rằng rất nhiều nhà nghiên cứu có thể đã gặp các vấn đề tương tự với PINN
Kết luận thứ ba là PINN không phải cách tiếp cận mà tác giả muốn dùng
- PINN tuy đơn giản và thanh lịch nhưng bị đánh giá là quá bất ổn, quá khó chiều và quá chậm
Bài báo PINN gốc sau 6 năm hiện đã đạt 14.000 lượt trích dẫn
- Theo tác giả, đây là bài báo giải số được trích dẫn nhiều nhất của thế kỷ 21, và chỉ còn 1–2 năm nữa là có thể trở thành bài báo giải số được trích dẫn nhiều thứ hai mọi thời đại
Trong bài toán giải PDE trực tiếp, hiện đã được chấp nhận rộng rãi rằng PINN nói chung không cạnh tranh được với các phương pháp giải số tiêu chuẩn, nhưng hiệu năng trong bài toán nghịch đảo (inverse problems) vẫn còn gây tranh cãi
- Những người ủng hộ cho rằng PINN đặc biệt hiệu quả cho bài toán nghịch đảo
- Một số nhà nghiên cứu phản đối mạnh quan điểm này
- Tác giả không biết bên nào đúng, và cho rằng sau này PINN có thể bị nhìn nhận như một bong bóng trích dẫn khổng lồ

Sự lạc quan quá mức do baseline yếu tạo ra

Trong luận án tiến sĩ, tác giả tập trung vào các mô hình deep learning xử lý nghiệm PDE như tập pixel trên lưới hoặc đồ thị, tương tự các solver truyền thống
- Cách tiếp cận này có vẻ hứa hẹn hơn PINN đối với các PDE phụ thuộc thời gian phức tạp mà phòng thí nghiệm quan tâm
- Nhiều bài báo tuyên bố có thể giải PDE nhanh hơn phương pháp giải số tiêu chuẩn vài bậc độ lớn
Các trường hợp PDE động lực học chất lưu như phương trình Navier-Stokes đặc biệt khiến tác giả và giáo sư hướng dẫn phấn khích
- Các phương trình mô tả plasma trong lò phản ứng nhiệt hạch cũng có cấu trúc toán học tương tự, nên họ kỳ vọng mức tăng tốc tương tự
- Về lý thuyết, điều đó có thể cho phép mô phỏng các hệ lớn hơn, tối ưu hóa thiết kế nhanh hơn và tăng tốc nghiên cứu
Nhưng độ tin cậy và độ vững của các mô hình AI có thể là vấn đề nghiêm trọng
- Nếu mô phỏng nhanh hơn nhưng kém đáng tin hơn thì cần xác nhận xem sự đánh đổi đó có đáng hay không
- Hầu hết nỗ lực làm cho mô hình đáng tin cậy hơn đều thất bại, khiến tác giả bắt đầu nghi ngờ chính tiềm năng của AI trong việc tăng tốc PDE
Các bài báo nổi bật tuyên bố AI giải phương trình Navier-Stokes nhanh hơn vài bậc độ lớn so với phương pháp giải số tiêu chuẩn, nhưng baseline lại không phải là các phương pháp giải số nhanh nhất
- Khi so với các phương pháp giải số tiên tiến hơn, AI không nhanh hơn, hoặc cùng lắm chỉ nhanh hơn đôi chút

Kết quả rà soát 76 bài: 79% dùng baseline yếu

Tác giả và giáo sư hướng dẫn đã tiến hành một tổng quan hệ thống về các nghiên cứu dùng AI để giải PDE động lực học chất lưu và công bố bài báo
Trong 76 bài báo tuyên bố tốt hơn phương pháp giải số tiêu chuẩn, 60 bài, tức 79%, đã dùng baseline yếu
- Hoặc không so sánh với các phương pháp giải số tiên tiến hơn
- Hoặc không so sánh trong cùng điều kiện
Tỷ lệ baseline yếu: {p:79}
Tất cả các bài báo cho thấy mức tăng tốc lớn đều so sánh với baseline yếu
- Kết quả càng ấn tượng thì dường như khả năng dùng so sánh thiếu công bằng lại càng cao
Kết quả rà soát cũng một lần nữa xác nhận thiên lệch báo cáo (reporting bias)
- Các nhà nghiên cứu có xu hướng không báo cáo kết quả tiêu cực
- Baseline yếu tạo ra các kết quả quá tích cực, còn thiên lệch báo cáo dẫn tới việc các kết quả tiêu cực bị báo cáo thiếu
Bài báo này đã châm ngòi tranh luận xung quanh AI trong khoa học và kỹ thuật tính toán
- Lorena Barba xem kết quả này là bằng chứng củng cố lo ngại về sự thổi phồng AI và chủ nghĩa lạc quan phi khoa học
- Stephan Hoyer của Google Research đánh giá đây là bài báo tóm lược rất tốt lý do ông chuyển từ AI for PDEs sang dự báo thời tiết và mô hình khí hậu
- Johannes Brandstetter phản biện rằng AI có thể cho kết quả tốt hơn trong các ứng dụng công nghiệp phức tạp hơn và tương lai của lĩnh vực này vẫn đầy hứa hẹn

Cách kiểm chứng cần có trong lĩnh vực PDE

AI có thể một ngày nào đó trở nên hữu ích trong một số ứng dụng cụ thể liên quan đến giải PDE
Nhưng ở thời điểm hiện tại, không có nhiều lý do để lạc quan
- Các phương pháp AI không có bảo đảm lý thuyết như các phương pháp giải số tiêu chuẩn
- Chúng cũng thiếu độ vững đã được kiểm chứng thực nghiệm
Có hai hướng cần nhiều nỗ lực hơn
- Nghiên cứu để đạt được độ tin cậy ngang mức phương pháp giải số
- Red teaming để kiểm định các phương pháp AI một cách quyết liệt
Các cơ quan tài trợ nghiên cứu cần tạo động lực để các nhà khoa học xây dựng các bài toán thách thức cho PDE
- Cuộc thi hai năm một lần CASP, vốn đã đồng bộ hóa và tập trung nỗ lực nghiên cứu suốt 30 năm trong lĩnh vực gập protein, được nêu như một mô hình khả thi

Các trường hợp AI thực sự tăng tốc khoa học và những giới hạn

Gập protein là ví dụ tiêu biểu cho đổi mới khoa học dựa trên AI
- Đây là trường hợp được nêu cùng thông cáo báo chí về giải Nobel Hóa học 2024
Cũng có những ví dụ thành công khác
- Dự báo thời tiết: dự báo bằng AI có độ chính xác cao hơn tối đa 20% so với dự báo truyền thống dựa trên vật lý, nhưng độ phân giải vẫn còn thấp
- Khám phá thuốc mới: dữ liệu sơ bộ cho thấy thuốc do AI phát hiện thành công hơn ở thử nghiệm lâm sàng giai đoạn 1, nhưng không như vậy ở giai đoạn 2
- Nếu xu hướng này được duy trì, tỷ lệ thành công tổng thể cho tới khi thuốc được phê duyệt có thể gần như tăng gấp đôi
Các công ty AI, giới học thuật, cơ quan chính phủ và truyền thông ngày càng mô tả AI không chỉ là công cụ khoa học hữu ích mà là công nghệ sẽ tạo “transformational impact” lên khoa học
Hiện nay, theo cách diễn đạt của DeepMind, các LLM vẫn gặp khó với mức sáng tạo và suy luận sâu hơn mà các nhà khoa học con người dựa vào
Nếu một hệ thống AI giả định rất tiên tiến nào đó một ngày có thể tự động hóa hoàn toàn quá trình khoa học, nó có thể thay đổi và tăng tốc khoa học, nhưng tác giả không kỳ vọng điều đó sẽ sớm xảy ra hoặc thực sự xảy ra

Vì sao các nhà khoa học chấp nhận AI

Chỉ riêng việc AI được dùng ngày càng nhiều trong khoa học không đủ để kết luận rằng AI hữu ích cho khoa học
Lý do các nhà khoa học dịch chuyển sang AI có thể là vì nó mang lại lợi ích cho bản thân nhà khoa học hơn là cho khoa học
- Bản thân tác giả năm 2018 cũng chân thành tin rằng AI có thể hữu ích cho vật lý plasma, nhưng lương cao, triển vọng việc làm tốt và uy tín học thuật là những động lực lớn
- Tác giả nói rằng giới lãnh đạo cấp cao ở các viện nghiên cứu thường quan tâm đến khả năng gọi vốn của AI hơn là các cân nhắc kỹ thuật
Nghiên cứu tiếp theo cho thấy các nhà khoa học dùng AI có khả năng xuất bản bài báo được trích dẫn hàng đầu cao hơn, và trung bình nhận nhiều trích dẫn gấp 3 lần
Ngay cả khi AI tạo ra kết quả ấn tượng trong khoa học, điều đó không đồng nghĩa nó đã làm việc gì đó hữu ích cho khoa học
- Trong nhiều trường hợp, AI có thể chỉ mới cho thấy tiềm năng sẽ hữu ích về sau
Các nhà khoa học nghiên cứu AI thường làm ngược quy trình: thay vì tìm vấn đề rồi tìm lời giải, họ giả định AI là lời giải trước rồi mới đi tìm vấn đề để áp vào
- Cách làm kiểu “hammer in search of a nail” này có thể dẫn tới việc giải các bài toán đã được giải quyết hoặc các bài toán không tạo ra tri thức khoa học mới

Thiên lệch sống sót và khủng hoảng tái lập

Muốn đánh giá thành công của AI-for-science thì phải nhìn vào khoa học thực tế, nhưng chỉ dựa vào văn liệu khoa học thì khó mà tin tưởng
Vấn đề đầu tiên là thiên lệch sống sót (survivorship bias)
- Có nhận định rằng trong nghiên cứu AI, các kết quả tiêu cực hầu như không được xuất bản
- Khi các trường hợp thất bại bị loại khỏi bức tranh, mọi nỗ lực đánh giá tác động của AI lên khoa học đều bị méo mó
Điều này giống với vấn đề đã biết trong khủng hoảng tái lập
- Khi các kết quả không có ý nghĩa thống kê bị loại khỏi văn liệu, người ta sẽ đánh giá quá cao những thứ như hiệu quả điều trị
- Sự đứt gãy mạnh quanh -1,96 và 1,96 trong phân phối z-value của nghiên cứu y học gợi ý rằng các kết quả dưới ngưỡng ý nghĩa có thể đã không được xuất bản hoặc dữ liệu đã bị điều chỉnh
Trong AI-for-science, tiêu chí chọn lọc không phải là ý nghĩa thống kê mà gần hơn với việc phương pháp đề xuất có thắng các cách tiếp cận khác hay hoàn thành một tác vụ mới hay không
- Vì vậy, các trường hợp AI thành công thường được báo cáo nhiều, còn các kết quả không thành công thì gần như không được xuất bản
Arvind Narayanan và Sayash Kapoor ở Princeton đã lập một danh sách các lỗi phương pháp mang tên rò rỉ dữ liệu (data leakage) từ 648 bài báo thuộc 30 lĩnh vực
- Rò rỉ dữ liệu trong từng trường hợp đều dẫn tới kết quả lạc quan quá mức
- Họ cho rằng khoa học dựa trên AI đang đối mặt với khủng hoảng tái lập

Bốn cái bẫy tạo ra sự lạc quan quá mức

Ngay cả các trường hợp thành công đã được xuất bản cũng có thể dẫn tới kết luận thổi phồng tiềm năng khoa học của AI
Tùy từng lĩnh vực mà biểu hiện chi tiết và mức độ nghiêm trọng khác nhau, nhưng các cái bẫy chính có thể gom thành bốn nhóm
- Rò rỉ dữ liệu
  - Nếu dữ liệu huấn luyện và đánh giá bị trộn sai, hiệu năng mô hình sẽ trông cao hơn thực tế
- Baseline yếu
  - Nếu để AI so với đối thủ yếu thay vì các phương pháp giải số hiện đại nhất, chênh lệch hiệu năng sẽ bị phóng đại
- Cherry-picking
  - Nếu chỉ chọn các thiết lập thành công để trình bày, các chế độ thất bại và giới hạn áp dụng sẽ biến mất khỏi văn liệu
- Báo cáo sai lệch
  - Vấn đề cốt lõi vẫn là xung đột lợi ích khi người đánh giá mô hình AI cũng là người được hưởng lợi từ đánh giá đó
  - DeepMind tuyên bố đã phát hiện 2,2 triệu cấu trúc tinh thể vào năm 2023 và mở rộng số vật liệu ổn định mà loài người biết tới lên thêm một bậc độ lớn
  - Sau đó, các nhà khoa học vật liệu phân tích các hợp chất này và đánh giá chúng là “mostly junk”, đồng thời lịch sự gợi ý rằng bài báo đó không thực sự báo cáo vật liệu mới
  - Bài báo về khám phá vật liệu mới bằng AI của nghiên cứu sinh MIT Aidan Toner-Rodgers ban đầu được đưa vào như một ví dụ thành công, nhưng sau đó bị loại khi MIT thông báo đang thúc đẩy việc rút bài do lo ngại về tính liêm chính nghiên cứu
  - Các nghi vấn gian lận rõ ràng khác với những vấn đề phương pháp tinh vi hơn được bàn trong bài, nhưng việc bài báo này thu hút chú ý lớn từ truyền thông cho thấy có rất nhiều động lực để phóng đại hiệu quả của kỹ thuật AI

Kết luận: gần với công cụ tăng tiến không đồng đều hơn là một cuộc cách mạng

Việc dùng AI trong nghiên cứu khoa học đang tăng rất nhanh
- Trong toàn bộ công bố khoa học, tỷ lệ dùng AI đã tăng từ 2% năm 2015 lên gần 8% năm 2022
- Tỷ lệ dùng AI: {l:2,8}
- Mức độ chấp nhận đang tăng nhanh không chỉ trong khoa học máy tính mà còn ở vật lý, hóa học, sinh học, y học và khoa học xã hội
Có thể thừa nhận rằng AI có khả năng tạo ra đột phá khoa học
- Mối lo nằm ở quy mô và tần suất của các đột phá đó
- Vẫn chưa rõ liệu nó đã thực sự cho thấy đủ tiềm năng để khiến nhân lực, giáo dục, thời gian và nguồn vốn dịch chuyển mạnh sang một mô hình duy nhất hay chưa
Vì mỗi lĩnh vực khoa học trải nghiệm AI khác nhau nên cần thận trọng khi khái quát hóa
Dù vậy, ba bài học từ trải nghiệm của tác giả có thể áp dụng cho nhiều lĩnh vực
- Sự gia tăng chấp nhận AI phần nào xảy ra vì nó có lợi cho nhà khoa học hơn là cho khoa học
- Vì các kết quả tiêu cực hầu như không được xuất bản, AI-for-science chịu thiên lệch sống sót
- Các kết quả tích cực đã xuất bản có xu hướng dẫn tới cái nhìn lạc quan quá mức về tiềm năng của AI
Không ai biết liệu AI có thể đảo ngược tình trạng năng suất khoa học suy giảm và tiến bộ khoa học trì trệ hay không
- Nếu không có bước đột phá AI cấp cao thật sự quan trọng, AI có lẽ gần với một công cụ bình thường cho tiến bộ khoa học tăng tiến và không đồng đều hơn là một công cụ mang tính cách mạng

1 bình luận

GN⁺ 2025-05-21

Ý kiến trên Hacker News

Một bài viết thú vị. Luôn có nguy cơ các kỹ thuật mới nổi nhận được sự chú ý thái quá so với giá trị thực tế của chúng.
Câu cốt lõi trong bài là: “Phần lớn các nhà khoa học không định lừa ai, nhưng vì có động lực mạnh để trình bày các kết quả có lợi, nên độc giả vẫn có nguy cơ bị đánh lừa.” Hiểu được người ta đang nói trong cấu trúc khuyến khích nào thường giúp ích khi diễn giải lời họ nói.
- Có những người đã nhận ra rằng chỉ cần gắn chữ AI vào là có thể kiếm được nhiều tiền và nhận được tài trợ nghiên cứu. Nhưng rốt cuộc thì phần mềm nào chẳng có một mức độ machine learning nào đó, và có vẻ cũng chẳng có gì mới; cách triển khai hiện nay cũng không đặc biệt ấn tượng hay chính xác.
Chuyện này nhìn chung có vẻ là sự lặp lại các vấn đề vốn có của giới học thuật. Nó không còn là tìm kiếm chân lý nữa, mà tập trung vào số lượt trích dẫn và chủ nghĩa sự nghiệp; AI chỉ là một chủ đề nữa nơi chuyện đó diễn ra.
- Tôi không muốn khái quát hóa, nhưng do có dịp qua lại nhiều trung tâm HPC ở Đức, tôi thấy có rất nhiều người từng bị đẩy ra khỏi ngành vật lý tụ tập ở đó, và một phần đáng kể ngân sách nghiên cứu AI được phân bổ đang bị những người này hấp thụ. Kết quả là xuất hiện rất nhiều dự án ML4Science.
  Cá nhân tôi thấy tiếc. Trung tâm HPC không tồn tại chỉ để phục vụ các nhà vật lý, và nhất là ở Đức, nếu có ngân sách nghiên cứu AI thì theo tôi nên làm nhiều hơn về nghiên cứu AI cốt lõi.
- Công bằng mà nói, tôi cho rằng vấn đề chủ nghĩa sự nghiệp gần như là tác dụng phụ của việc giới học thuật ngày càng bị khu vực tư nhân mê hoặc và cũng thừa hưởng luôn vấn đề đó.
  Nếu có một điều tôi học được khi làm lập trình viên phần mềm, thì đó là mọi quyết định đều được đưa ra từ góc nhìn sự nghiệp và ích kỷ. Điều quan trọng không phải là điều gì tốt nhất, mà là điều gì gây ấn tượng nhất và giúp cá nhân vượt lên. Khi việc xong thì nó không còn là vấn đề của họ nữa, và thật ra cũng khó trách họ. Lối tư duy này phổ biến đến mức nếu không tham gia thì bạn sẽ thành kẻ ngốc. Người khác sẽ làm như vậy, và cuối cùng họ sẽ vượt qua bạn. Kết quả vẫn thế, chỉ có bạn là bất lợi hơn.
- Tôi không hiểu câu chuyện này có thể được diễn giải theo nghĩa nào là “không còn là tìm kiếm chân lý nữa”. Chẳng phải đây lại là một trường hợp rất rõ ràng về việc đã tìm thấy và phát hiện ra chân lý sao?
- Tôi thật sự không hiểu vì sao lại có chữ “không còn” ở đây.
Tôi may mắn có cơ hội thử vài bộ phân tích kết cấu giống FEM dựa trên AI.
Ngay cả trong trường hợp tốt nhất, với các bài toán tuyến tính và biến dạng nhỏ thì chúng cũng chỉ ở mức tạm ổn. Đại khái là thay vì có một mô hình cho kết quả gần nghiệm đúng trong khoảng 5 phút, thì bạn có một nghiệm khá sơ sài trong khoảng 30 giây. Khi bắt đầu đưa các yếu tố phi tuyến vào, nó sụp đổ luôn.
Có thể đủ dùng cho việc chọn khái niệm ở mức rất cao, nhưng ngay cả vậy cũng không hay lắm. Tôi khá chắc một số thứ thực chất chỉ là bộ dò độ cong. Kiểu như đường thẳng thì tô xanh, nơi có độ cong lớn thì tô đỏ, phần còn lại thì nội suy.
- Có thể dùng những mô hình này làm bộ tiền xử lý cho phương pháp giải lặp không?
- Vậy thì có vẻ nó gần với một bộ phân tích “nguyên lý thứ hai” hơn. Cấu trúc này không thể tổng hợp ra những gì nó chưa từng thấy.
Tôi hoàn toàn không phải người ủng hộ AI, nhưng đáng tiếc là vấn đề kết quả tiêu cực không được công bố và ai cũng phóng đại kết quả của mình trong bài nghiên cứu không chỉ giới hạn ở AI. Đó là hệ quả của cách các nhà khoa học được đánh giá, và của ngành xuất bản khoa học vốn khao khát audience giống như truyền thông truyền thống.
Dù sao thì có phải mùa đông đang đến không?
- Đúng, đây không phải vấn đề chỉ có ở AI. Nhưng trong các bài báo AI, ta thường thấy những câu thực chất có nghĩa là “nếu nhét 1 nghìn tỷ GPU vào và chạy mãi mãi thì sẽ có {benchmark ma thuật}”. Hoặc kiểu “nếu đánh giá trên bộ dữ liệu đời thực tối mật cực kỳ thông minh của chúng tôi, thứ mà chúng tôi nói là sẽ cung cấp nếu được yêu cầu nhưng thực tế sẽ lờ đi khi bạn hỏi, bạn sẽ thấy biểu đồ chứng minh chúng tôi thông minh đến mức nào”.
  Tất nhiên nhiều khi đó là các bài để giành quyền ưu tiên, nhưng khi những bài như vậy đến từ các tập đoàn lớn, dù có lỗi rõ ràng cũng không thể cứ bỏ qua.
  Cuối cùng đây là cuộc cạnh tranh tài nguyên. Là cựu nhà nghiên cứu ở một trường đại học ít ngân sách, chúng tôi không thể cạnh tranh. Gần như chúng tôi bị buộc phải tin các con số được truyền vào văn liệu như “benchmark” mà không có khả năng tái lập.
- Hơn 15 năm trước một chút, sau khi xuất bản những bài đầu tiên về ứng dụng thực tiễn của AI, tôi chuyển sang lĩnh vực khác, rồi gần đây lại bị kéo trở lại.
  Tôi đồng ý rằng đây là vấn đề của khoa học nói chung, nhưng AI dường như thu hút đặc biệt nhiều nhà nghiên cứu chạy theo danh tiếng và tiền bạc. Theo trải nghiệm hạn chế của tôi, những tuyên bố phóng đại và việc cherry-pick dữ liệu có vẻ cực đoan hơn, và ngay cả các nhà nghiên cứu có trách nhiệm cũng dần phóng đại một chút để cạnh tranh.
- AI chỉ là thỏi nam châm của cơn sốt quá nóng hiện nay nên các vết nứt hiện ra rõ hơn mà thôi.
- Nhưng AI khiến việc viết những bài báo trông có vẻ hợp lý trở nên dễ hơn.
Tôi không rõ vì sao ở những nơi như HN, nhận thức của mọi người về AI/ML lại phân hóa đến vậy
Trước đây tôi chưa từng thấy chuyện như thế này. Về cơ bản, trước kia không hề có hệ thống hay phương pháp nào có thể làm những việc như tạo mã dựa trên đầu vào văn bản
Ngay tuần trước, tôi yêu cầu một script phân đoạn ảnh có UI cơ bản, và Claude đã tạo ra trong chưa đầy 1 phút
Có thể nêu ra vô số ví dụ đủ để gọi là mang tính đột phá. Toàn bộ ngăn xếp tạo ảnh là thứ hoàn toàn mới
Bài blog này đủ công bằng, và đúng là chủ đề này đang bị thổi nóng. Nhưng chỉ xét riêng với mọi nhà nghiên cứu cần dùng mã trong nghiên cứu, AI đã có thể giúp họ hiệu quả hơn rất nhiều
Xa hơn nữa, tôi cho rằng chúng ta đã bước vào một kỷ nguyên mới. Đó là kỷ nguyên coi dữ liệu một cách cực kỳ nghiêm túc trở lại. Vài năm trước người ta nói “Internet không quên”, nhưng rồi ta sớm nhận ra rằng Internet cũng bắt đầu quên. Google xóa trang, bỏ tính năng cache, và có cảm giác họ không còn bận tâm nữa vì không biết phải dùng dữ liệu như thế nào
Rồi AI xuất hiện, dữ liệu không chỉ trở lại làm vua, mà hiện giờ chúng ta còn đang ở giữa kỷ nguyên tăng cường. Khi bạn đưa phản hồi, hệ thống sẽ phản ánh phản hồi đó vào việc học
Chủ đề AI/ML đang được khai thác từ mọi khía cạnh: phần cứng, thuật toán, ca sử dụng, dữ liệu, công cụ, giao thức, v.v. Chúng ta đang tích hợp nó, xây dựng vì nó và xây dựng trên nó; chỉ là cần thêm chút thời gian. Dù vậy, tốc độ tiến triển vẫn nhanh đến nghẹt thở
Phải vài năm nữa mới biết liệu có một trần giới hạn thật sự hay không. Để thử nghiệm nhiều hơn nữa với kiến trúc và thuật toán AI, ta cần thêm GPU và các trung tâm dữ liệu lớn hơn. Nút thắt là rất rõ. Ngay cả các công ty lớn cũng huấn luyện một mô hình lớn trong nhiều tuần, nhiều tháng
- Đoạn “Ngay tuần trước, tôi yêu cầu một script phân đoạn ảnh có UI cơ bản, và Claude đã tạo ra trong chưa đầy 1 phút” thì theo chúng tôi, nó gần với việc copy-paste Stack Overflow theo một cách rất ngầu. Vì vậy nghe giống như “tôi hỏi Google về nhà hàng gần đây và nó tìm ra trong 500ms. Chiếc C64 của tôi thì không làm được”
  Đúng là ấn tượng và thực sự hữu ích. Nhưng nó nghe như “nó đã học cách khám phá thế giới thực nên có thể giải quyết mọi vấn đề liên quan”, trong khi thứ thực sự được giải là “tra cứu đẹp mắt trong cơ sở dữ liệu GIS”. Khi cảm giác mới lạ biến mất, ta bắt đầu thấy hình dạng thật của nó thay vì điều mình tưởng tượng
  Nói rõ hơn trọng tâm, điều bạn nghĩ khi nói “Claude đã tạo ra” là AI đã “suy nghĩ”, tạo một ontology rồi suy luận trên đó để đi đến kết luận rằng script này là đầu ra đúng. Điều thực sự đã xảy ra là đầu vào tương quan với đầu ra này theo những mẫu mà nó đã thấy trong hàng nghìn tỷ ví dụ. Không có ontology, cũng không có suy luận. Tất nhiên nó vẫn ấn tượng và rất hữu ích, nhưng theo thời gian cảm giác kỳ diệu sẽ biến mất. Các giới hạn đã rất rõ ràng
- Việc “không hiểu vì sao ở những nơi như HN, nhận thức của mọi người về AI/ML lại phân hóa đến vậy” là vì nếu nhìn từ góc độ của từng người, tất cả đều là những tác nhân hợp lý. Người tung hô AI và người hạ nhiệt sự cường điệu đều có lý do chính đáng riêng
  Có cơ sở để xem công nghệ mới này là đột phá, và cũng có cơ sở để cảnh giác với hành vi đánh cắp dữ liệu quy mô lớn cùng sự coi nhẹ quyền riêng tư
  Trước hết, cần thừa nhận và tôn trọng rằng với bất kỳ vấn đề nào cũng có nhiều cách nghĩ khác nhau. Hãy tạm gạt bản thân ra khỏi phương trình và hiểu phía đối lập. Thật sự hiểu
  Phải thử mang đôi giày của người khác và đi thật lâu
- Về câu “chỉ xét riêng với mọi nhà nghiên cứu cần dùng mã trong nghiên cứu, AI đã có thể giúp họ hiệu quả hơn rất nhiều”, điều nhà khoa học cần không phải là hiệu quả mà là độ chính xác. Lỗi phần mềm vốn đã là một nguyên nhân lớn gây ra sai sót khoa học và thiếu khả năng tái lập, chẳng hạn có trường hợp này: https://www.vice.com/en/article/a-code-glitch-may-have-cause...
  Chất lượng lập trình trong môi trường nghiên cứu cũng nổi tiếng là thất thường chẳng kém trong ngành, nhưng trong nghiên cứu, một lỗi nhỏ có thể phá hỏng toàn bộ kết quả nghiên cứu. Trong môi trường như phòng thí nghiệm, không thể viết phần mềm như một họa sĩ ấn tượng, hay như phiên bản AI của kiểu đó. Bạn thực sự phải biết mình đang nhập gì
  Nếu không quan tâm nó có đúng hay không, AI có thể giúp bạn hiệu quả hơn. Nó có thể rất tuyệt để tạo ảnh cho sự kiện bóng chuyền bãi biển mùa hè, nhưng dùng nó để viết mã trong môi trường khoa học là một ý tưởng tai hại
- Ngược lại, câu chuyện rằng “AI sẽ cách mạng hóa khoa học” có vẻ đã đi xa hơn rất nhiều so với mức độ được bằng chứng hậu thuẫn
- HN lúc nào cũng chia rẽ về chuyện “công nghệ đang được thổi nóng hiện nay thật đến đâu và bị phóng đại đến đâu”
  Tôi đã thấy chuyện này nhiều lần, và tùy công nghệ cũng như thời điểm, tôi từng đứng ở những phía khác nhau
  Với tôi, đây vẫn là khung cảnh quen thuộc
Ban đầu bài viết dường như ám chỉ rằng AI trong khoa học nói chung, hoặc ít nhất là AI trong lĩnh vực của tác giả, đều là cường điệu. Nhưng có vẻ sự bất mãn nhắm vào một kiến trúc cụ thể gọi là PINN, và đến cuối bài tác giả cũng nói rằng họ đã dùng thành công các mô hình deep learning khác để tính PDE nhanh hơn các phương pháp số truyền thống
- Vấn đề rộng hơn PINN rất nhiều. Việc PINN tệ đã được biết đến rộng rãi từ lâu. Nhưng thất bại nói chung của việc dùng machine learning cho các bài toán vật lý còn phổ biến hơn nhiều
  Machine learning thường tỏa sáng khi có khá nhiều dữ liệu thực nghiệm cho một miền tương đối hẹp. Thế năng liên nguyên tử bằng machine learning đã có từ thập niên 1990 là một ví dụ như vậy. Mô hình hóa thời tiết cũng có thể thuộc dạng đó, nhưng tôi không muốn bình luận về lĩnh vực ấy. Hoặc là khi dữ liệu nhiều đến mức phi lý và người ta huấn luyện những mô hình thật sự khổng lồ. Đây chính là thứ chúng ta gọi là AI. Về cơ bản, đây cũng là lý do AlphaFold thành công; AlphaFold cũng không cho kết quả tốt nếu đưa vào đầu vào nằm xa bất kỳ điểm nào trong dữ liệu huấn luyện
  Nhưng phần lớn machine learning cho các bài toán vật lý nằm đâu đó ở giữa. Dữ liệu thực nghiệm thì thiếu, còn dữ liệu mô phỏng thì chi phí tạo quá đắt nên không đủ. Mô hình cũng không đủ lớn, vì nếu quá lớn thì suy luận dù sao cũng sẽ chậm lại. Trong khi đó, người ta lại kỳ vọng các mô hình này học được một phạm vi vật lý rất rộng
  Sau đó mọi người đều nhảy lên chuyến tàu hype. Vì thử làm quá dễ. Ai cũng nhận được cùng những kết quả tệ, nhưng vẫn xuất bản. Nếu phòng thí nghiệm hoặc PI đủ nổi tiếng, hoặc nếu họ công thức hóa vấn đề theo cách trông độc đáo, khoa học và toán học, thì vẫn có thể lên các tạp chí hoặc hội nghị tốt và được trích dẫn nhiều. Nhưng rốt cuộc kết quả vẫn giống nhau: tái tạo phần nào dữ liệu huấn luyện, rồi kết luận rằng vấn đề tổng quát hóa là thứ ai đó cần nghiên cứu thêm
- Tác giả đã xuất bản cả một bài báo cung cấp phân tích có hệ thống trên nhiều mô hình. Cũng có một mục riêng nói về điều đó. Vì vậy đây không chỉ là câu chuyện của riêng PINN
- Dù thay PINN bằng bất kỳ giải pháp “AI” nào thì nó vẫn sẽ bị thổi phồng
  Cho đến nay, đánh giá thực tế về “AI” chỉ là thừa nhận rằng nó hữu ích để chuyên gia bỏ qua một chút công việc nhàm chán, còn đầu ra thì phải kiểm tra lại ba lần
Đoạn “sau vài tuần thất bại, tôi nhắn cho một người bạn ở trường đại học khác, và anh ấy nói cũng đã thử PINN nhưng không thu được kết quả tốt” không liên quan trực tiếp nhiều đến AI, nhưng khiến tôi nhớ tới một bài học mà tôi đã học quá muộn khi làm nghiên cứu ở đại học. Hợp tác liên tục rất quan trọng. Nó giúp tránh giẫm lại những vùng mà người khác đã thất bại
- Có thể xem đây cũng là nhu cầu để các nhà nghiên cứu xuất bản cả các thí nghiệm thất bại chăng
- Đây là một lý do nữa khiến tôi cảm thấy ý tưởng về agent AI cho khoa học không hợp lý lắm. Nghiên cứu là một tập hợp các hoạt động có tính hợp tác cực cao. Một nhà nghiên cứu có thể giỏi đến mức nào nếu rà soát tài liệu rất tốt nhưng không thực sự nói chuyện với ai và cũng không đi hội nghị?
Phân tích rất tốt và ví dụ cũng chính xác. Một vấn đề khác của nghiên cứu liên quan đến AI là khá nhiều bài báo còn mới và cũng không được xuất bản ở những nơi “đúng chuẩn”, nhưng chỉ cần nhìn Google Scholar cũng thấy chúng vẫn liên tục được trích dẫn khắp nơi
Việc tái hiện kết quả và kiểm chứng tính đúng đắn của một số phát biểu là khó; ngoài ra, nghiên cứu 4 năm trước dùng một bộ mô hình, còn các bài kiểm thử hiện nay lại dùng một bộ mô hình khác với dữ liệu huấn luyện khác. Rất khó xác lập điều gì thực sự ảnh hưởng đến kết quả, liệu kết luận chỉ áp dụng cho một thuộc tính cụ thể của các mô hình cũ hay có thể tổng quát hóa
- Tôi không phải nhà khoa học hay nhà nghiên cứu, nhưng bất cứ thứ gì dựa trên thống kê và diễn giải dữ liệu đều khiến tôi lập tức nghi ngờ
Tiêu đề đã đổi à, hay là tôi bắt đầu bị ảo giác rồi
Tiêu đề là “I got fooled by AI-for-science hype—here's what it taught me”
- Đúng là đã đổi. Cá nhân tôi thấy đổi xong còn tệ hơn. Nó đã được đổi từ tiêu đề gốc
  Ở đây nên ưu tiên tiêu đề gốc trừ khi có vấn đề nghiêm trọng
  Tiêu đề gốc này không có vấn đề nghiêm trọng. Trừ khi việc tóm tắt chính xác nội dung một nghiên cứu sinh tiến sĩ thận trọng phê phán những đóng góp AI đáng ngờ cho nghiên cứu khoa học được xem là vấn đề nghiêm trọng
- Không phải ảo giác: https://web.archive.org/web/20250520152757/https://news.ycom...
Bài này có vẻ không hẳn là về AI, mà là câu chuyện về việc rèn luyện một trong những chức năng ít được nói tới của chương trình tiến sĩ: khả năng đọc các tuyên bố học thuật
Những tuyên bố trong bài báo không gây ngạc nhiên. Chúng là sản phẩm tự nhiên của cấu trúc khuyến khích hỗn tạp mà theo thời gian chúng ta gọi là “khoa học”. Cần thời gian luyện tập để đặt sản phẩm của khoa học vào đúng bối cảnh, và để hiểu rằng “bài báo” là sản phẩm của một hệ thống kỹ thuật-xã hội với tất cả những phức tạp đi kèm

Tôi đã bị thổi phồng về AI cho khoa học đánh lừa và những gì tôi học được

Vì sao tôi chuyển từ vật lý plasma sang AI

Những điểm yếu bộc lộ qua thí nghiệm với PINN

Bài học từ PINN và cách nó được nhìn nhận hiện nay

Sự lạc quan quá mức do baseline yếu tạo ra

Kết quả rà soát 76 bài: 79% dùng baseline yếu

Cách kiểm chứng cần có trong lĩnh vực PDE

Các trường hợp AI thực sự tăng tốc khoa học và những giới hạn

Vì sao các nhà khoa học chấp nhận AI

Thiên lệch sống sót và khủng hoảng tái lập

Bốn cái bẫy tạo ra sự lạc quan quá mức

Rò rỉ dữ liệu

Baseline yếu

Cherry-picking

Báo cáo sai lệch

Kết luận: gần với công cụ tăng tiến không đồng đều hơn là một cuộc cách mạng

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News