3 điểm bởi GN⁺ 2025-05-21 | 1 bình luận | Chia sẻ qua WhatsApp
  • Trái với kỳ vọng về việc ứng dụng AI trong nghiên cứu vật lý plasma, kết quả triển khai thực tế lại chủ yếu cho thấy thành tích bị thổi phồng và các giới hạn
  • Các phương pháp dùng AI để giải PDE (phương trình đạo hàm riêng) như PINN không cho thấy ưu thế rõ ràng so với các phương pháp số truyền thống về độ tin cậy và hiệu năng
  • đường cơ sở so sánh yếu (weak baseline)thiên lệch báo cáo, phần lớn các bài báo về thành tựu AI được đánh giá tích cực quá mức so với thực tế
  • Dù việc ứng dụng AI trong khoa học đang tăng nhanh, nhiều dấu hiệu cho thấy đây không hẳn là công cụ dẫn dắt đột phá khoa học, mà thiên về đóng góp dần dần và có giới hạn
  • Do cấu trúc của bài báo khoa học và động lực khuyến khích của giới nghiên cứu, việc không công bố các ca thất bại và báo cáo phóng đại cứ lặp lại, nhấn mạnh sự cần thiết của một góc nhìn hoài nghi mang tính bản chất khi đánh giá tác động khoa học của AI

Mở đầu và bối cảnh nghiên cứu

  • Tác giả Nick McGreivy, sau khi lấy bằng tiến sĩ vật lý plasma tại Princeton, đã chuyển sang nghiên cứu ứng dụng machine learning với kỳ vọng AI có thể góp phần đổi mới nghiên cứu khoa học, đặc biệt là vật lý
  • Tác giả quan tâm đến việc liệu AI có thể thay đổi toàn diện khoa học giống như các công nghệ đa dụng như điện tử, Internet, mạch tích hợp hay không
  • Trên thực tế, trong quá trình nghiên cứu giải PDE bằng AI, tác giả đã trải nghiệm kết quả kém xa kỳ vọng khi áp dụng thực tế so với những thành tựu được công bố trong các bài báo nổi tiếng

Kinh nghiệm áp dụng PINN (Physics-Informed Neural Network)

  • Trong lĩnh vực giải PDE bằng AI, PINN đã nhanh chóng nổi lên như một phương pháp tiêu biểu, và tác giả cũng đã thử nghiệm cách tiếp cận này
  • Các bài báo trước đó cho biết PINN cung cấp giải pháp hiệu quả cho các bài toán PDE ở nhiều lĩnh vực như chất lưu cổ điển, cơ học lượng tử, hệ phản ứng-khuếch tán, nhưng trên thực tế tác giả lại gặp kết quả không ổn định hoặc độ tin cậy rất thấp ngay cả với PDE rất đơn giản (như 1D Vlasov)
  • Việc cải thiện bằng tinh chỉnh đơn giản gần như không hiệu quả, còn với các PDE phức tạp hơn (như 1D Vlasov-Poisson) thì hoàn toàn không rút ra được nghiệm phù hợp
  • Những nhà nghiên cứu xung quanh tác giả cũng gặp các thất bại tương tự, nhưng các kết quả tiêu cực như vậy hầu như không được công bố thành bài báo

Bài học rút ra từ các thí nghiệm với PINN

  • Ngay cả tác giả của bài báo gốc có ảnh hưởng lớn cũng nhận thức rằng PINN thất bại trong một số thiết lập cụ thể, nhưng chỉ công bố những kết quả có sức thuyết phục
  • Trong hệ sinh thái bài báo khoa học, việc chỉ báo cáo kết quả tích cực và không công bố các thí nghiệm AI thất bại làm trầm trọng thêm thiên lệch sống sót (survivorship bias)
  • PINN là một ý tưởng đẹp về mặt số học, nhưng tác giả chia sẻ rằng đã từ bỏ việc lựa chọn nó vì các giới hạn thực tiễn như tính bất ổn, độ khó khi tinh chỉnh vi mô, và tốc độ xử lý chậm
  • Bài báo gốc đã nhận hơn 14.000 lượt trích dẫn và là bài được trích dẫn nhiều nhất trong lĩnh vực phương pháp số, nhưng trong bài toán giải PDE thực tế nó không có ưu thế cạnh tranh so với các phương pháp hiện có
  • Gần đây cũng có ý kiến cho rằng PINN có thể phát huy hiệu quả trong các lĩnh vực cụ thể như inverse problems, nhưng vẫn tồn tại tranh luận giữa các nhà nghiên cứu về điểm này

Sự lạc quan quá mức do tiêu chuẩn so sánh không phù hợp

  • Sau đó, tác giả thử tiếp cận deep learning theo hướng xử lý nghiệm PDE như một tập lưới hoặc tập pixel trên đồ thị, tương tự các kỹ thuật số truyền thống
  • Nhiều bài báo công bố rằng AI có thể giải PDE nhanh hơn từ hàng nghìn đến hàng chục nghìn lần so với phương pháp hiện có, nhưng trên thực tế trong đa số trường hợp, baseline được dùng để so sánh vốn dĩ đã là một phương pháp yếu
  • Kết quả phân tích các bài báo tiêu biểu cho thấy, trong 76 bài khẳng định AI có ưu thế, có 60 bài (79%) không hề so sánh công bằng với các phương pháp số truyền thống đủ mạnh
  • Chính các tiêu chuẩn so sánh yếu như vậy cùng với việc không công bố kết quả tiêu cực đã khiến đánh giá kiểu "AI tạo ra thành tựu mang tính cách mạng" có xu hướng bị thổi phồng hơn thực tế
  • Những kết quả nghiên cứu liên quan đã gây tranh cãi trong cả học thuật lẫn công nghiệp; một số nhấn mạnh định hướng nghiên cứu tương lai và tiềm năng của AI, trong khi số khác bày tỏ sự cảnh giác ngày càng cao trước vấn đề bị đánh giá quá mức ở thời điểm hiện tại

Vai trò và giới hạn của AI trong khoa học

  • Những ví dụ thành công tiêu biểu gồm AlphaFold trong dự đoán gấp cuộn protein, dự báo thời tiết (độ chính xác dự báo tăng tối đa 20%), và phát triển thuốc (tỷ lệ thành công giai đoạn 1 lâm sàng tăng), nhưng chúng chủ yếu là tiến bộ bổ trợ và dần dần so với công nghệ hiện có hơn là đổi mới trên diện rộng
  • Big Tech toàn cầu, truyền thông và giới học thuật thường đóng gói AI như một "công cụ cách mạng hóa khoa học" hay "nhân tố chuyển biến sẽ thay đổi mô hình khoa học", nhưng với mức độ AI hiện nay vẫn tồn tại giới hạn rõ rệt đối với các đổi mới bản chất như kỳ vọng

Động cơ áp dụng AI và vấn đề cấu trúc của hệ sinh thái nghiên cứu

  • Lý do chính khiến các nhà khoa học áp dụng AI thường không phải là sự phát triển của bản thân khoa học, mà là thành tích cá nhân như lương cao hơn, sự nghiệp, trích dẫn bài báo, hay thu hút nguồn tài trợ nghiên cứu
  • Trên thực tế, đã xuất hiện hiện tượng các nhà nghiên cứu dùng AI được hưởng môi trường thuận lợi hơn so với các nhà khoa học thông thường về bài báo được trích dẫn hàng đầu và năng lực cạnh tranh nghiên cứu
  • Các nhà nghiên cứu ứng dụng AI thường rơi vào cái bẫy cấu trúc: thay vì định nghĩa bài toán khoa học cần giải, họ lại đi tìm ngược từ phía sau những bài toán có thể giải bằng AI
  • Vì thế, nhiều trường hợp tập trung vào trình diễn tiềm năng của AI hơn là thúc đẩy tiến bộ khoa học thực chất, và chỉ tạo ra các vấn đề đã được giải quyết hoặc những hiệu ứng phụ mang tính thứ yếu

Giới hạn cấu trúc trong cách báo cáo bài báo và thiên lệch lạc quan trong khoa học

  • Vì không báo cáo kết quả tiêu cực (thiên lệch sống sót), chỉ có các ca thành công khi dùng AI được tung ra, còn thất bại thì không được công khai, làm méo mó việc đánh giá hiệu quả tổng thể
  • Do cấu trúc của bài báo, các sai số hay thiên lệch có hệ thống như rò rỉ dữ liệu, tiêu chuẩn so sánh yếu, cherry-picking, và không báo cáo liên tục lặp lại
  • Khi người đánh giá và các bên liên quan cùng nằm trong một cộng đồng, đánh giá thành tựu được thực hiện trong một cấu trúc xung đột lợi ích gắn trực tiếp với lợi ích cá nhân
  • Tác giả nhấn mạnh rằng khi đánh giá tác động của AI trong khoa học, cần có thói quen hoài nghi mang tính bản chất và kiểm chứng phản biện, tương tự thái độ "không mặc nhiên tin một kết quả đơn lẻ trong các bài báo dinh dưỡng"

Kết luận

  • Trong ngắn hạn, AI có nhiều khả năng không phải là công cụ mang tính cách mạng dẫn dắt đổi mới khoa học, mà là phương tiện bổ trợ có chọn lọc và dần dần cho các phương thức hiện có
  • Do các vấn đề như động lực khuyến khích mang tính cấu trúc, sự đánh giá quá mức, việc không báo cáo thất bại, và tiêu chuẩn so sánh yếu, cần luôn giữ góc nhìn phản biện và hoài nghi khi đánh giá thành tựu khoa học thực sự của AI
  • Thông điệp được đưa ra là để có đổi mới AI theo nghĩa lý tưởng, cần song hành với cải cách cấu trúc như đặt ra các bài toán thách thức, công khai ca thất bại, và phát triển hệ thống so sánh công bằng

1 bình luận

 
GN⁺ 2025-05-21
Ý kiến Hacker News
  • Có chút bối rối không biết tiêu đề có bị đổi hay không; tiêu đề hiện tại là "I got fooled by AI-for-science hype—here's what it taught me"

    • Tiêu đề đúng là đã bị đổi so với ban đầu, và cá nhân tôi thấy nó còn tệ hơn; nên thích tiêu đề gốc hơn, và tôi không nghĩ tiêu đề gốc của bài báo này có vấn đề gì; đây là nội dung một nghiên cứu sinh tiến sĩ phân tích một cách phê phán các ví dụ đáng ngờ về việc AI đóng góp cho nghiên cứu khoa học

    • Không, không phải tưởng tượng đâu, tiêu đề đúng là đã bị đổi; thậm chí còn đưa cả địa chỉ lưu trữ làm ví dụ

  • Tôi đã có “may mắn” được dùng một solver phân tích kết cấu kiểu FEM dựa trên AI; với các bài toán biến dạng nhỏ tuyến tính thì tạm dùng được, nhưng khi phức tạp hơn thì hiệu năng tụt hẳn; trong khi cách truyền thống mất 5 phút để cho ra nghiệm chính xác, nó chỉ kiểu giải đại trong 30 giây; áp dụng cho bài toán phi tuyến thì hỏng hoàn toàn; cùng lắm chỉ dùng được để chọn các khái niệm ở mức rất cao, mà ngay cả việc đó cũng chưa ổn; có mô hình thực chất chỉ như bộ dò độ cong: cái gì thẳng thì màu xanh, cong nhiều thì màu đỏ, còn lại chỉ là nội suy

    • Rốt cuộc nó cho cảm giác giống một solver “second principles” hơn, với giới hạn là hoàn toàn không thể giải mới các tình huống chưa từng thấy

    • Tôi tò mò liệu có thể dùng các mô hình kiểu này làm bộ tiền điều kiện trong các phương pháp lặp hay không

  • Luôn có rủi ro khi một công nghệ mới và đang nóng nhận được quá nhiều chú ý; câu trích quan trọng trong bài là “đa số nhà khoa học không cố tình lừa người khác, nhưng họ chịu áp lực rất lớn phải cho thấy kết quả có lợi nên cuối cùng có thể dẫn đến sự sai lệch”; điều này nhấn mạnh rằng hiểu các động lực khuyến khích của ai đó rất hữu ích khi diễn giải thông tin

    • Có những người chỉ cần chữ AI là đi tìm tiền và tài trợ; thực tế thì phần lớn chỉ là phần mềm có nhúng machine learning, mà chuyện này đã tồn tại từ rất lâu; tôi không nghĩ bản thân công nghệ đó lớn lao hay tinh vi đến vậy
  • Cuối cùng thì đây chỉ là sự lặp lại của một vấn đề cố hữu trong học thuật: tập trung vào số lần trích dẫn và thăng tiến hơn là truy tìm sự thật; AI chỉ là một trong những chủ đề như vậy thôi

    • Tôi không muốn khái quát hóa, nhưng mẫu hình tôi thấy khi đi qua vài trung tâm HPC ở Đức là có rất nhiều người từng học vật lý nhưng không thành công lắm, và phần lớn ngân sách liên quan đến AI cũng rơi vào tay họ, dẫn đến hàng loạt dự án kiểu ML4Science; thật đáng tiếc vì các trung tâm HPC vốn không phải chỉ tồn tại cho các nhà vật lý; tôi cảm thấy Đức nên đầu tư nhiều hơn vào nghiên cứu AI đúng nghĩa

    • Thực tế mà nói, vấn đề chủ nghĩa cơ hội trong thăng tiến là tác dụng phụ do học thuật ngày càng tiếp nhận logic của thị trường tư nhân; điều tôi học được khi làm lập trình viên là mọi quyết định đều xoay quanh lợi ích cá nhân và sự nghiệp; ai cũng chỉ lo cho cái họ giỏi, xong việc thì đổ trách nhiệm cho người khác; nếu không chống lại kiểu tư duy này thì ngược lại còn bất lợi cho chính mình; cuối cùng vẫn đi đến cùng một kết luận, chỉ là tự mình chịu thiệt

    • Tôi thật sự không hiểu vì sao lại dùng cụm "no longer"

  • Ở đoạn “sau vài tuần thất bại, tôi liên hệ với một người bạn ở trường đại học khác và anh ấy cũng không có kết quả tốt với PINNs”, tôi cảm nhận được, ngoài câu chuyện AI, tầm quan trọng của việc hợp tác liên tục trong nghiên cứu; nó giúp người khác không phải đi lại con đường thất bại mà người khác đã đi rồi

    • Cần phải có các bài báo công bố cả những thí nghiệm thất bại của nhà nghiên cứu

    • Đây cũng là một lý do khác khiến khái niệm AI agent cho khoa học không mấy thuyết phục với tôi; nghiên cứu về bản chất là một quá trình cực kỳ mang tính hợp tác; dù có rà soát tài liệu giỏi đến đâu, tôi vẫn nghi ngờ rằng nếu không gặp gỡ và trò chuyện trực tiếp thì có thể trở thành một nhà nghiên cứu giỏi

  • Tôi không phải người cổ vũ AI, nhưng việc kết quả tiêu cực không được công bố thành bài báo, và mọi bài báo đều thổi phồng chính bài của mình, không phải chỉ là vấn đề của AI; đó là vấn đề trong cách đánh giá nhà khoa học và cấu trúc của ngành xuất bản học thuật; cũng giống truyền thông truyền thống, nó bị ám ảnh bởi việc thu hút khán giả; dù sao thì cũng có cảm giác mùa đông đang đến

    • Đôi khi các bài báo AI chỉ lặp đi lặp lại kiểu “nếu huy động hàng tỷ GPU và chạy trong vô hạn thời gian thì sẽ có phép màu”, hoặc “thử trên bộ dữ liệu thực tế độc quyền thì đứng đầu”; với các bài báo từ những công ty lớn, ngay cả khi có lỗ hổng rõ ràng cũng không thể đơn giản bỏ qua; cuối cùng vẫn là cuộc chiến tài nguyên; những nhà nghiên cứu đại học ngân sách ít như tôi thậm chí không thể tái hiện, đành phải tin các con số trong bài báo

    • 15 năm trước, tôi từng viết một bài báo AI ứng dụng rồi chuyển sang lĩnh vực khác, và gần đây mới quay lại; đây là vấn đề phổ biến ở mọi ngành, nhưng AI đặc biệt thu hút các nhà nghiên cứu chạy theo danh tiếng và tiền bạc; những tuyên bố phóng đại và dữ liệu được biên tập có vẻ còn nghiêm trọng hơn; ngay cả những nhà nghiên cứu có trách nhiệm, nếu muốn cạnh tranh, cũng phải phóng đại ở một mức nào đó

    • AI đơn giản chỉ là thỏi nam châm của trào lưu hiện tại, nên các vấn đề càng lộ rõ hơn

    • AI đặc biệt khiến việc viết một “bài báo có vẻ thuyết phục” trở nên dễ hơn

  • Tôi thắc mắc vì sao nhận thức quanh AI/ML trên HN lại phân cực mạnh đến vậy; đây là một lĩnh vực mới mà trước giờ chưa từng có; khả năng tạo cả mã chỉ bằng nhập văn bản trước đây không tồn tại; gần đây tôi bảo claude làm một script phân đoạn ảnh kèm cả UI và nó tạo ra trong 1 phút; đây không phải chỉ một hai ví dụ đột phá; việc tạo ảnh cũng là cả một thế giới mới; bài blog này cũng có phóng đại, nhưng từ góc nhìn của nhà nghiên cứu, chỉ riêng năng suất viết mã nhờ AI cũng đã đem lại hiệu quả lớn; điều thú vị hơn nữa là sự thay đổi trong nhận thức về dữ liệu; trước đây người ta hay nói “Internet không bao giờ quên”, nhưng giờ thực tế là trang bị xóa và tính năng cache cũng biến mất, và chúng ta ngày càng quên cách xử lý dữ liệu; nhưng sau khi AI xuất hiện, giá trị của dữ liệu lại nổi lên; chúng ta bước vào thời đại của tăng cường, nơi người dùng đưa phản hồi và kết quả được phản ánh trở lại; phần cứng, thuật toán, dữ liệu, công cụ, giao thức, mọi hướng đều đang tiến bộ; vẫn cần thêm nhiều thử nghiệm, nhiều GPU và các trung tâm dữ liệu lớn; hiện tại đang là tình trạng nút thắt; các công ty lớn đang dành nhiều tuần, nhiều tháng để huấn luyện các mô hình lớn

    • Câu “nó tạo mã phân đoạn ảnh cho tôi” thực ra chỉ là cách nói hoa mỹ của việc copy-paste dữ liệu từ Stack Overflow; về bản chất cũng giống như ngày xưa tìm thông tin bằng Google; dù bề ngoài mới mẻ và ấn tượng, nó vẫn chỉ giống kiểu tìm quán ăn trong GIS; trong thực tế hoàn toàn không có reasoning, chỉ là xuất ra các tương quan dựa trên dữ liệu; vẫn hữu ích, nhưng giới hạn cũng rất rõ

    • Về chuyện vì sao không khí quanh AI/ML trên HN lại chia rẽ hơn các công nghệ khác, cần diễn giải từ lập trường hợp lý của từng cá nhân; cả góc nhìn cho rằng nó mang tính cách mạng lẫn lo ngại về đánh cắp dữ liệu và xem nhẹ quyền riêng tư đều có cơ sở hợp lý; trước hết cần thừa nhận rằng có nhiều góc nhìn khác nhau, rồi tạm hạ quan điểm của mình xuống để thực sự hiểu đúng lập trường của người khác

    • Vai trò nền tảng của lập trình viên là chuyển ngôn ngữ của con người sang ngôn ngữ máy tính, và LLM là thứ đã xâm phạm rõ ràng ranh giới đó; nó sẽ đi sâu đến đâu thì chưa chắc, nhưng bức tường đã bị phá rồi; tình huống này có thể được diễn giải từ nỗi sợ đến cảm giác khủng hoảng theo nhiều cách; đó là mối đe dọa với kỹ năng thu nhập cao đã được mài giũa suốt nhiều năm; ngay cả khi lập trình viên không bị thay thế hoàn toàn, chỉ cần bị đe dọa đến mức phải chật vật giữ mức lương hàng trăm nghìn đô la thì cũng đã đủ đáng sợ

    • HN vốn dĩ lúc nào cũng chia rẽ quanh câu hỏi “công nghệ hợp mốt này là thật hay chỉ là ảo ảnh”; các tranh luận kiểu này lặp lại ở nhiều công nghệ khác nhau; đôi khi chính lập trường của tôi cũng từng thay đổi; rốt cuộc tôi nghĩ nó không khác mấy so với vẻ ngoài của nó

    • Ngược lại với điều đó, diễn ngôn rằng “AI sẽ cách mạng hóa khoa học” có cảm giác đã đi quá xa so với bằng chứng

  • Lúc đầu bài viết có vẻ như nói toàn bộ AI đều bị thổi phồng, nhưng thực ra thứ bị nhắm đến là một kiến trúc cụ thể là PINN; ở phần cuối cũng có nhắc đến các thành quả dùng mô hình DL để giải PDE nhanh hơn

    • Đây không chỉ là vấn đề riêng của PINN mà rộng hơn nhiều; chuyện PINN không hiệu quả đã được biết từ lâu, nhưng sự thất bại phổ biến khi dùng ML cho các bài toán vật lý cũng đầy rẫy; ML hoạt động tốt khi (1) dữ liệu cực nhiều và bài toán hẹp (như MLIP), hoặc (2) có dữ liệu khổng lồ và mô hình lớn (như Alphafold); nhưng phần lớn các bài toán ML cho vật lý lại nằm lưng chừng ở giữa: dữ liệu thực nghiệm thiếu và mô phỏng thì đắt đỏ, kích thước bộ dữ liệu/mô hình cũng lửng lơ; cuối cùng ai cũng thử rồi thất bại, nhưng vẫn xuất bản bài báo; nếu đến từ lab nổi tiếng, PI nổi tiếng hoặc trông đủ khác thường thì các tạp chí tốt vẫn đăng và số trích dẫn vẫn tăng; rốt cuộc chỉ còn lộ ra giới hạn là tái tạo một phần dữ liệu, và người khác lại phải tập trung tăng cường tính khái quát

    • Những gì tác giả làm không chỉ giới hạn ở PINN; ông ấy còn viết cả bài báo phân tích có hệ thống nhiều mô hình khác nhau, và có hẳn một mục riêng về chuyện đó

    • Dù thay PINN bằng bất kỳ giải pháp AI nào thì vẫn thấy có phần bị thổi phồng; đến nay, đánh giá thực tế về độ hữu dụng của AI vẫn chỉ ở mức “tự động hóa việc đơn giản cho chuyên gia và cần kiểm tra chéo ba lần”

  • Phân tích và ví dụ rất xuất sắc; một vấn đề nữa là phần lớn các bài báo AI đều mới, và dù tỷ lệ xuất hiện trên các tạp chí “chính thống” không cao thì số trích dẫn lại nhiều; việc tái hiện hay kiểm chứng các tuyên bố thực sự rất khó, vì cách nghiên cứu và dữ liệu thay đổi qua từng năm; cũng mơ hồ không biết kết luận đó là do đặc tính của mô hình quá khứ hay là thứ có thể khái quát hóa

    • Tôi không phải nhà khoa học hay nhà nghiên cứu, nhưng những kết quả dựa trên thống kê hay diễn giải dữ liệu thì tôi luôn bắt đầu bằng sự hoài nghi
  • Khi nhìn thấy tên chủ blog ("Timothy B. Lee"), tôi đã ngạc nhiên vì người phát minh ra HTTP và web hơn 70 tuổi lại viết một blog hiện đại như vậy