Khoa học dữ liệu đã trở thành một ngành giả khoa học?

(reddit.com)

10 điểm bởi GN⁺ 2025-07-17 | 2 bình luận | Chia sẻ qua WhatsApp

Tổng hợp thảo luận và các câu trả lời được đăng trên subreddit /r/DataScience
Tác giả cảm thấy hoài nghi trước thực tế khoa học dữ liệu được triển khai chỉ nhờ cái tên “Generative AI” mà không có kiểm chứng hay đánh giá
Thực tế, họ chỉ dùng đoạn mã do ChatGPT tạo ra để tính z-score đơn giản, nhưng vẫn tiến hành đến sát bước triển khai mà không hề đánh giá hiệu năng mô hình
Cộng đồng cùng chỉ ra các vấn đề như văn hóa doanh nghiệp kiểu “chỉ cần chạy là triển khai”, thiếu kiểm chứng, né tránh trách nhiệm, và hy sinh đạo đức khoa học
Nhiều người làm thực tế cho biết họ đang gặp các vấn đề tương tự và bày tỏ lo ngại mạnh mẽ về xu hướng trượt thành “giả khoa học”
Tuy vậy, một số ý kiến cho rằng cũng cần hiểu tính thực dụng của việc thử nghiệm nhanh và dùng lời giải đơn giản, nhấn mạnh góc nhìn cân bằng

Data Science Has Become a Pseudo-Science

Tác giả đã hoàn thành thạc sĩ và tiến sĩ ở châu Âu, rồi làm khoa học dữ liệu suốt 10 năm giữa môi trường công nghiệp và học thuật
Trong 2 năm gần đây, hiện tượng đưa ra kết quả dưới danh nghĩa “Generative AI” mà không qua bất kỳ bước kiểm chứng nào đang gia tăng
Ví dụ, trong một dự án nhắm đến phát hiện bất thường theo chuỗi thời gian, họ chỉ tính z-score của chênh lệch trung bình bằng mã do ChatGPT sinh ra rồi vẫn bàn chuyện triển khai mà không có bất kỳ chỉ số hiệu năng nào
Cách làm này mang dáng dấp giả khoa học: hỏi một hộp đen rồi làm theo, không có tư duy khoa học, thậm chí việc đặt câu hỏi cũng bị xem là cấm kỵ
Vì vậy, tác giả đang cân nhắc quay lại học thuật và viết bài đăng này để hỏi liệu đây có phải là trải nghiệm chung mà đồng nghiệp của họ cũng đang gặp phải hay không

Tóm tắt bình luận

Các ý kiến đồng cảm chính

Triết lý “cứ chạy được là triển khai” đang lan tràn (u/Illustrious-Pound266)
Cũng có các trường hợp startup thất bại vì chỉ nhấn mạnh AI mà không có kiểm chứng hay lộ trình (u/gothicserp3nt)
Thiên lệch hoặc phân biệt đối xử không chủ ý không được rà soát đúng mức (u/tehMarzipanEmperor)
Ở đa số doanh nghiệp, RAG hay AI bị thổi phồng, vận hành thiên về trình diễn hơn là độ chính xác (u/castleking, u/flowanvindir)
Không khí trong ngành giống như “performance theater” (u/Ty4Readin, u/faulerauslaender)
Để tạo thành tích, việc triển khai vội vàng, báo cáo hào nhoáng bề ngoài, áp dụng AI mà không đo lường đã trở nên phổ biến (u/glittering_tiger8996, u/Emergency-Job4136)
Nhiều người cũng cho rằng tình trạng này vốn đã tồn tại từ trước, và GenAI chỉ là công cụ khiến nó lộ rõ hơn (u/RoomyRoots, u/303uru, u/TARehman)
Nó khó giải thích hơn, độ tin cậy thấp hơn, nhưng vẫn được chọn vì nhanh
Trách nhiệm giải trình trong các quyết định doanh nghiệp đang biến mất (u/empathic_psychopath8, u/Jollyhrothgar)

Góc nhìn khác

Nếu cách tiếp cận đơn giản vẫn giải được vấn đề thì cũng nên thừa nhận giá trị thực dụng của nó (u/AnarkittenSurprise)
Nhiều bình luận nói rằng DS vốn dĩ từ trước đã pha trộn cả yếu tố phi khoa học, hoặc “chỉ mang danh là khoa học” (u/TaiChuanDoAddct, u/Time-Combination4710, u/LighterningZ)
Điều quan trọng không phải bản thân việc dùng công cụ AI, mà là năng lực sử dụng chúng một cách có trách nhiệm (u/Dror_sim, u/ResearchMindless6419)
Chỉ trích tình trạng “có dữ liệu nhưng không có logic”, hay chỉ biết chạy package mà không có kiến thức thống kê (u/gyp_casino, u/tmotytmoty)
Nhiều người nhấn mạnh rằng điều thực sự quan trọng là kiến thức miền và tư duy toán học, còn AI/lập trình chỉ là công cụ (u/MightBeRong, u/Dror_sim)

Vấn đề thể chế và giáo dục

Các chương trình MSDS có thể hữu ích về mặt học thuật nhưng thường không liên quan nhiều đến việc làm (u/throwaway_ghost_122)
Chất lượng đào tạo đang đi xuống, và khi nhu cầu chỉ để lấy bằng tăng lên thì chất lượng chung của người làm trong ngành cũng suy giảm (u/Yam_Cheap)
Ngay cả học thuật cũng ngày càng có nhiều bài báo chưa được kiểm chứng và các phân tích hời hợt, nên học viện cũng không phải ngoại lệ (u/joule_3am, u/Mishtle)

Chia sẻ trải nghiệm theo ngành

Bảo hiểm và y tế vẫn đòi hỏi đánh giá tính hợp lệ và rà soát pháp lý nghiêm ngặt do bị quản lý chặt (u/Mishtle, u/mikka1)
Ngược lại, startup, sales, game và một số lĩnh vực sản xuất lại thiên về tốc độ và trình diễn (u/Vercingetorex89, u/Brackens_World)
Ngay cả khu vực công cũng đang để ChatGPT làm xói mòn các quy trình kiểm chứng trước đây (u/TheFluffyEngineer, u/joule_3am)

Sự hoài nghi và ý định rời đi

Có nhiều người làm nghề cho biết họ đang cân nhắc rời ngành hoặc chuyển sang học thuật (u/thro0away12, u/Emotional_Plane_3500, u/candidFIRE)
Cũng có một góc nhìn tích cực rằng đây có thể là cơ hội để những người thực sự giỏi nổi bật hơn (u/OddEditor2467, u/sideshowbob01)

Châm biếm và cam chịu

“Giờ thì chỉ cần import pandas cũng thành data scientist rồi” (u/vesnikos)
Thực tế là chiều lòng sếp quan trọng hơn tư duy xác suất và kiểm chứng khoa học (u/tmotytmoty, u/WignerVille)
Nhiều người theo chủ nghĩa hiện thực cho rằng ngày xưa đã vậy và bây giờ vẫn vậy, DS trong doanh nghiệp vốn khó gọi là khoa học đúng nghĩa (u/TaiChuanDoAddct, u/LighterningZ)

Kết luận

Bài viết và các bình luận này cho thấy rõ thực tế rằng công việc khoa học dữ liệu gần đây đang bị chi phối bởi giao hàng nhanh và marketing AI hơn là tính chặt chẽ khoa học và kiểm chứng
Có sự lo ngại sâu sắc về việc nhãn “Generative AI” đang chặn đứng các phê phán hợp lý, cũng như cấu trúc nơi mã chưa kiểm chứng được đưa thẳng đến bước triển khai
Dù cả học thuật lẫn công nghiệp đều không hoàn hảo, cuộc thảo luận này cho thấy rằng để khoa học dữ liệu thực sự trở thành “khoa học”, cộng đồng cần tự nhìn lại về tư duy phản biện, giáo dục và văn hóa làm việc thực tế

2 bình luận

ytuniverse 2025-07-17

Có vẻ như liên kết không hoạt động.
https://reddit.com/r/datascience/…

xguru 2025-07-17

Cảm ơn bạn. Tôi đã sửa lại rồi.