10 năm bài học về khoa học dữ liệu vì lợi ích xã hội

xguru · 2025-01-23T09:46:01+09:00

Khi DrivenData được khởi động vào năm 2014, việc tận dụng khoa học dữ liệu vì lợi ích xã hội vẫn còn ở giai đoạn sơ khai Vào thời điểm đó, các kỹ thuật khoa học dữ liệu chủ yếu được sử dụng cho marketing và đề xuất nội dung tại những công ty như Netflix và Amazon, trong khi hầu như chưa có ví dụ ứng dụng nào cho tổ chức phi lợi nhuận, NGO, doanh nghiệp xã hội hay dịch vụ chính phủ Mục tiêu ban đầu và bối cảnh Nhân lực khoa học dữ liệu khi đó rất khan hiếm và chi phí tuyển dụng cao, và khoảng cách này còn nghiêm trọng hơn ở các tổ chức giải quyết vấn đề xã hội Xuất phát từ Harvard Innovation Lab, dự án hướng tới thu hẹp khoảng cách năng lực khoa học dữ liệu cho các vấn đề xã hội Mục tiêu là tận dụng các kỹ thuật tiên tiến của khoa học dữ liệu và crowdsourcing để giải quyết những thách thức xã hội lớn trên thế giới Hai trích dẫn phản ánh quan điểm thời đó "Biến dữ liệu lớn thành thứ hữu ích cho việc ra quyết định nhân đạo là một thách thức và cơ hội lớn của kỷ nguyên mạng" – UN OCHA "Những bộ óc giỏi nhất trong thế hệ tôi đang dồn tâm trí để khiến mọi người nhấp vào quảng cáo… Thật sự rất bức bối." – Jeff Hammerbacher, cựu quản lý dữ liệu của Facebook Những thay đổi trong 10 năm qua Đã có nhiều nỗ lực đa dạng nhằm áp dụng khoa học dữ liệu và AI cho tác động xã hội Hợp tác trong hơn 150 dự án với khoảng 80 đối tác, bao gồm Ngân hàng Thế giới, Quỹ Bill & Melinda Gates, NASA... Tổ chức hơn 75 cuộc thi khoa học dữ liệu với tổng giải thưởng vượt 4,7 triệu USD Trong 10 năm qua, DrivenData đã theo đuổi lợi ích xã hội thông qua khoa học dữ liệu và tích lũy được các thực tiễn tốt cùng nhiều bài học Đây là dịp để cùng nhìn lại điều gì đã hiệu quả, điều gì vẫn còn thách thức, và suy nghĩ về định hướng cho một tương lai tốt đẹp hơn Xem trước 10 bài học chính Những trường hợp khoa học dữ liệu đã phát huy hiệu quả Khoa học dữ liệu tạo ra tác động có ý nghĩa đối với các vấn đề xã hội Dữ liệu tốt dẫn đến giải pháp tốt Nỗ lực thành công nhất khi tập trung vào vấn đề cụ thể và nhu cầu của con người Hiệu quả nhất khi kết hợp điểm mạnh của máy móc và con người Góc nhìn đa ngành và sự linh hoạt mang lại lợi thế cho tổ chức Những điểm vẫn còn thách thức Khoa học dữ liệu là hoạt động R&D mang tính lặp lại, nhưng khu vực xã hội vẫn đầu tư chưa đủ cho việc này Khó tuyển dụng và hỗ trợ tốt cho các nhà khoa học dữ liệu Open source vẫn thiếu các giải pháp dành cho người không phải lập trình viên Sự cường điệu công nghệ (hype wave) nhận được quá nhiều sự chú ý Khoa học dữ liệu và AI có hàm ý đạo đức rất lớn, nhưng các công cụ và thực hành hỗ trợ sử dụng có đạo đức vẫn đang tụt lại phía sau Thời cuộc đang thay đổi Trong 10 năm qua, tốc độ phát triển của công nghệ dữ liệu và AI nhanh đến mức đáng kinh ngạc. Những yếu tố đổi mới chính giúp điều đó trở thành hiện thực gồm có: Tính toán và lưu trữ Sự mở rộng của điện toán đám mây và lưu trữ đám mây giúp các nguồn lực cần thiết trở nên rẻ hơn và dễ tiếp cận hơn Giảm chi phí ban đầu, từ các thử nghiệm dựa trên GPU đến triển khai cụm mở rộng để chạy mô hình theo thời gian thực Deep learning Deep learning đã mang lại thay đổi mang tính cách mạng cho khoa học dữ liệu Các kiến trúc hiệu quả như GAN, transformer, variational autoencoder và graph neural network đã bùng nổ mạnh mẽ Hệ sinh thái xoay quanh PyTorch và TensorFlow phát triển, với công cụ, thư viện và mô hình pre-trained giúp tăng tốc nhịp độ tiến bộ Dân chủ hóa khả năng tiếp cận công nghệ Khoa học dữ liệu được gọi là "nghề quyến rũ nhất thế kỷ 21", và cơ hội học tập tăng vọt Nhờ MOOCs, bootcamp và các cuộc thi dữ liệu, nhiều người hơn đã tiếp cận được những kỹ năng nền tảng của khoa học dữ liệu AI tạo sinh Sự xuất hiện của mô hình ngôn ngữ lớn (LLM) đang thay đổi cách làm việc Rút ngắn thời gian cho các tác vụ phức tạp và mở ra những khả năng mới Vẫn đang được xem xét liệu AI tạo sinh là trào lưu nhất thời hay đổi mới thực chất, nhưng rõ ràng AI sẽ tiếp tục được ứng dụng lâu dài Bất chấp những thay đổi công nghệ này, vẫn có thể quan sát thấy nhiều mô thức chung vượt lên trên từng công nghệ cụ thể. Bài viết này tập trung thảo luận những gì đã hoạt động tốt trong 10 năm qua và những gì vẫn còn là thách thức. Những trường hợp khoa học dữ liệu đã phát huy hiệu quả Khoa học dữ liệu tạo ra tác động có ý nghĩa đối với các vấn đề xã hội Tình hình 10 năm trước Tiềm năng của các công cụ khoa học dữ liệu là rất rõ ràng, nhưng việc áp dụng cho tác động xã hội còn hạn chế Thảo luận thời đó chỉ xoay quanh một vài trường hợp và chủ yếu dựa trên ý tưởng về khả năng trong tương lai Sự phát triển hiện tại Các mô hình machine learning đang ảnh hưởng đến việc ra quyết định trong nhiều lĩnh vực như y tế và quản lý tài nguyên thiên nhiên Khoa học dữ liệu đang giúp quản lý các vấn đề như tảo nở hoa có hại, nghề cá không bền vững và thiên tai do biến đổi khí hậu, đồng thời đóng góp cho tài chính toàn diện và bảo tồn động vật hoang dã Trong khu vực công, trực quan hóa dữ liệu đã trở thành phương tiện chủ đạo cho đưa tin báo chí và truyền tải thông điệp Ví dụ: các chiến dịch ngăn chặn lây lan COVID-19, bảng điều khiển của WHO Ví dụ cụ thể sử dụng ảnh vệ tinh Tại Yemen, ảnh vệ tinh được dùng để phân tích loại cây trồng và rủi ro khí hậu, qua đó cung cấp thông tin cho chương trình an ninh lương thực của Ngân hàng Thế giới Đóng góp của AI cho tiến bộ khoa học AlphaFold: mô hình dự đoán cấu trúc protein, thực hiện trong vài giờ những công việc trước đây mất nhiều năm, đồng thời cung cấp miễn phí cấu trúc của mọi protein cho giới khoa học Mô hình transformer: được áp dụng để phát hiện ngôn từ thù ghét trong meme đa phương thức Công nghệ nhận dạng cá thể: cải thiện việc theo dõi các loài có nguy cơ tuyệt chủng như cá voi và mở rộng sang nhiều loài khác Sự thay đổi trong khu vực xã hội Vào giữa những năm 2010, thảo luận về việc sử dụng dữ liệu chủ yếu tập trung vào "đo lường tác động" Giờ đây, trọng tâm là cách các công cụ khoa học dữ liệu thay đổi phương thức vận hành của tổ chức và trao cho họ năng lực mới Thảo luận hiện nay tập trung vào việc khoa học dữ liệu và AI có thể "làm được gì", vượt ra ngoài những gì có thể đo lường Dữ liệu tốt dẫn đến giải pháp tốt, và khả năng tiếp cận dữ liệu đã được cải thiện đáng kể Vai trò ngày càng thường nhật của dữ liệu Dữ liệu được tạo ra trong mọi hoạt động, từ mua sắm, sử dụng dịch vụ khẩn cấp đến thăm khám bệnh viện Thiết bị gia dụng, thiết bị đeo, phương tiện, điện thoại di động và ứng dụng đều thu thập dữ liệu sử dụng Sự phát triển của cảm biến và công nghệ camera làm gia tăng việc sử dụng dữ liệu hình ảnh và video Hai giai đoạn của việc sử dụng dữ liệu Ghi lại dữ liệu theo cách số hóa và khiến nó có thể được quan sát Tiến hóa sang giai đoạn học từ dữ liệu và khám phá các mẫu hình AI và machine learning được xây dựng trên nền dữ liệu Lượng dữ liệu nhiều hơn và chất lượng tốt hơn hỗ trợ khám phá các mẫu hình mới và phát triển thuật toán Ví dụ: phát hiện ung thư, thuật toán gợi ý của Spotify, dữ liệu huấn luyện của ChatGPT Hệ thống phân cấp khoa học dữ liệu của Monica Rogati Các năng lực nâng cao của khoa học dữ liệu đòi hỏi một nền tảng dữ liệu vững chắc Đầu tư khôn ngoan vào hạ tầng dữ liệu là nền móng để triển khai các chức năng ở tầng cao hơn Khai thác dữ liệu vì giá trị xã hội Các chính phủ và tổ chức lớn đang mở rộng công bố dữ liệu công khai Các loại dữ liệu DrivenData đã sử dụng gồm: Dữ liệu thời tiết, dữ liệu giao thông, dữ liệu OpenStreetMap: hỗ trợ lập kế hoạch giao thông hàng không và khả năng chống chịu thiên tai Ảnh vệ tinh: lập bản đồ phạm vi lũ lụt, ước tính sinh khối rừng Dữ liệu giao dịch di động: phân tích hành vi và thái độ tài chính Dữ liệu khảo sát: cung cấp hiểu biết quy mô lớn về ý kiến và hành vi Bản ghi âm thanh: phân loại mức độ biết chữ của trẻ em Hình ảnh độ phân giải cao: dự đoán khả năng tái phát u hắc tố Dữ liệu văn bản: phân tích tự động các khái niệm lâm sàng trong ghi chú ý kiến bác sĩ Tầm quan trọng của khả năng tiếp cận và khả năng sử dụng dữ liệu Chỉ công khai dữ liệu thôi là chưa đủ Khi có định dạng máy có thể đọc, tài liệu rõ ràng và các use case cụ thể, mức độ tham gia và khai thác sẽ tăng lên Nhiều tổ chức đầu tư vào thu thập dữ liệu nhưng lại lơ là với các khoản đầu tư bổ sung để tận dụng dữ liệu đó Tài liệu dữ liệu và các trường hợp ứng dụng đóng vai trò quan trọng không kém gì tiền thưởng của các challenge Nỗ lực thành công nhất khi tập trung vào vấn đề cụ thể và nhu cầu của con người Cạm bẫy của cách tiếp cận lấy công nghệ làm trung tâm Các tổ chức tạo tác động xã hội thường cố gắng theo kịp những xu hướng công nghệ mới nhất "Dữ liệu lớn" và các công cụ AI có vẻ như là giải pháp vạn năng, nhưng trên thực tế chúng chỉ hiệu quả khi tập trung vào việc giải quyết những vấn đề cụ thể Yếu tố cốt lõi để thiết kế dự án thành công Xác định người dùng và vấn đề cụ thể, rồi đặt ra các mục tiêu có thể đo lường để giải quyết chúng Sử dụng các công cụ thiết kế lấy con người làm trung tâm để hiểu điều mọi người "mong muốn", và phát triển giải pháp vượt ra ngoài những gì "có thể" về mặt kỹ thuật Các ví dụ cụ thể Phát hiện tảo nở hoa (CyFi) Hợp tác với NASA để phát hiện hiện tượng tảo lam độc hại nở hoa thông qua ảnh vệ tinh Hỗ trợ các nhà quản lý nguồn nước đánh giá chính xác tình trạng tảo nở hoa và phân bổ nguồn lực hiệu quả Nhận dạng động vật hoang dã (Zamba) Hợp tác với Viện Max Planck để phát triển công cụ nhận dạng tự động động vật bằng dữ liệu từ camera bẫy ảnh Tăng tính dễ sử dụng với Zamba Cloud, nơi UI được cải thiện dựa trên phản hồi của nhà nghiên cứu Tầm quan trọng của góc nhìn người dùng Xác định vấn đề Hiểu rõ vấn đề và yêu cầu thông qua phỏng vấn người dùng và thu thập ý kiến Phản ánh góc nhìn con người đứng sau các điểm dữ liệu Triển khai giải pháp Cần thử nghiệm UI/UX và giao tiếp rõ ràng để người dùng có thể sử dụng giải pháp hiệu quả và hiểu được lợi ích của nó Hỗ trợ người dùng nắm bắt trực quan điểm mạnh và giới hạn của mô hình, đồng thời giải thích cách sử dụng qua các ví dụ thực tế Kết luận Vai trò của nhà khoa học dữ liệu là kết nối năng lực kỹ thuật với nhu cầu xã hội Những dự án hiệu quả nhất là các dự án không sa đà vào công nghệ mới nhất mà tập trung vào giải quyết vấn đề và tạo ra kết quả thực chất Giải pháp hiệu quả nhất khi kết hợp điểm mạnh của máy móc và con người Rủi ro từ kỳ vọng phóng đại về AI Các mô hình khoa học dữ liệu và AI không phải là toàn năng, và mọi mô hình đều có những giới hạn nhất định Việc chỉ đơn giản đưa AI vào không đảm bảo thành công Giải pháp tối ưu đến từ các hệ thống kết hợp điểm mạnh của máy móc và con người Ví dụ về công cụ Zamba Zamba dự đoán theo xác suất liệu có động vật xuất hiện trong video từ camera bẫy ảnh hay không Mô hình đôi khi có thể sai, nhưng các xác suất mà nó cung cấp cho phép xây dựng chiến lược rà soát hiệu quả Ví dụ: rà soát trước những video có khả năng cao xuất hiện tinh tinh, hoặc đặt ngưỡng xác suất để xem một video là trống Kết quả là có thể nhận diện được 85% video có tinh tinh trong khi chỉ cần xem xét chưa tới 5% tổng số video Thành quả của hợp tác người - máy Trường hợp sàng lọc ung thư vú bằng AI: khi bác sĩ chẩn đoán hình ảnh và AI phối hợp, độ chính xác cao hơn so với khi mỗi bên hoạt động riêng lẻ Nhấn mạnh khả năng diễn giải và giải thích của AI: cung cấp thông tin để con người có thể đánh giá kết quả AI và tích hợp vào ngữ cảnh Ví dụ: trong một cuộc thi nhận dạng cá voi, mô hình cung cấp hình ảnh trực quan về các đặc điểm dùng để ghép khớp từng cá thể cá voi Mô hình tương tự trong AI tạo sinh Phản hồi của con người là yếu tố thiết yếu để phát triển các công cụ hữu ích như ChatGPT Có thể cải thiện mô hình thông qua dữ liệu phản hồi để nó dần học được những trường hợp khó hơn Đánh giá chi phí sai sót và điểm cần cải thiện Cải thiện thiết kế hệ thống bằng hai câu hỏi: "Nếu có một mô hình hoàn hảo, bạn sẽ օգտագործել nó như thế nào?" "Nếu mô hình đó thỉnh thoảng sai thì bạn sẽ xử lý ra sao?" Xác định giới hạn chấp nhận lỗi của hệ thống và những phần cần con người rà soát Bài học cho tổ chức Trường hợp chính phủ Hà Lan năm 2021: 26.000 hộ gia đình bị cáo buộc gian lận phúc lợi xã hội do một thuật toán không phù hợp Việc phụ thuộc vào thuật toán mà không có rà soát của con người sẽ gây ra chi phí xã hội rất lớn Ngược lại, nếu kết hợp điểm mạnh của thuật toán và con người thì có thể tối đa hóa cả hiệu suất lẫn hiệu quả Góc nhìn liên ngành và tính linh hoạt giúp ích cho tổ chức Kinh nghiệm dự án trải rộng trên nhiều lĩnh vực Làm việc với nhiều lĩnh vực như tài chính toàn diện, hành động vì khí hậu và chăm sóc sức khỏe cho thấy lợi ích của góc nhìn liên ngành Các mẫu học máy trong một ngữ cảnh cụ thể có thể được mở rộng và áp dụng sang lĩnh vực khác Ví dụ: ứng dụng chéo giữa mô hình thị giác máy tính để bảo tồn rừng tảo bẹ và mô hình phát hiện tổn thương trong sinh thiết cổ tử cung Tính linh hoạt trong cách tiếp cận Những vấn đề khác nhau như phát hiện sớm sâu bệnh hại cây trồng và trích xuất kỹ năng từ hồ sơ xin việc đều dựa trên nhận dạng thực thể có tên (NER) Có thể tận dụng bài học và kinh nghiệm từ các cách tiếp cận sẵn có để áp dụng cho vấn đề khác với chi phí thấp hơn Ví dụ cụ thể Cách tiếp cận xử lý ngôn ngữ tự nhiên để nhận diện cây trồng, sâu bệnh, dịch bệnh và hóa chất trong tin nhắn WhatsApp Hỗ trợ nông hộ nhỏ phát hiện các xu hướng mới và cải thiện tư vấn dựa trên cơ sở khoa học Cân bằng giữa chuyên môn và góc nhìn người dùng Hợp tác với chuyên gia lĩnh vực để bảo đảm ngữ cảnh phù hợp với vấn đề Đưa góc nhìn người dùng vào quy trình khoa học dữ liệu để thiết kế giải pháp phù hợp Xác định "những việc đáng làm" Chỉ có chuyên môn kỹ thuật là chưa đủ; còn cần sự đồng cảm, giao tiếp, tò mò và linh hoạt Cần cùng nhau brainstorm những lĩnh vực mà học máy có thể tạo thêm giá trị, đồng thời hiểu sâu giải pháp đó dành cho ai và sẽ được sử dụng như thế nào Đáp ứng các nhu cầu đa dạng của tổ chức Nhu cầu của mỗi tổ chức khác nhau, từ nghiên cứu khám phá đến tạo mẫu thử và triển khai production Hợp tác với nhiều đối tác đa dạng, từ các tổ chức cung cấp dữ liệu lớn như Candid, NASA đến các tổ chức mới bắt đầu xây dựng hệ thống dữ liệu Điều quan trọng là duy trì sự phù hợp của công nghệ đồng thời phát huy tính linh hoạt từ kinh nghiệm phong phú Những phần vẫn còn nhiều thách thức Khoa học dữ liệu mang tính lặp, và khu vực xã hội đang đầu tư chưa đủ cho R&D Bản chất và giá trị của R&D Nghiên cứu và phát triển là một quá trình học hỏi, đòi hỏi đầu tư vốn, thử nghiệm, suy ngẫm và sẵn sàng chấp nhận thất bại Các phương pháp chắc chắn và cách tiếp cận ngắn hạn có giới hạn, khó giải quyết được phạm vi vấn đề mà khu vực xã hội phải đối mặt Đầu tư dài hạn và đổi mới phi tuyến tính mới tạo ra những thành quả lớn Thiếu đầu tư R&D trong khu vực xã hội Theo khảo sát của NSF năm 2022, 94% các tổ chức phi lợi nhuận lớn hoàn toàn không thực hiện hoạt động R&D Dù khoa học dữ liệu phần lớn là hoạt động R&D, đầu tư cho lĩnh vực này vẫn còn thiếu hụt Tính lặp của khoa học dữ liệu Khoa học dữ liệu sử dụng việc học lặp lại và vòng phản hồi để tạo ra kết quả tối ưu và cải thiện hiệu quả dịch vụ Có thể sử dụng các framework nhấn mạnh tính lặp như chương trình khoa học dữ liệu của Harvard và CRISP-DM (quy trình chuẩn cho khai phá dữ liệu) Tầm quan trọng của khoa học dữ liệu lấy con người làm trung tâm Quá trình học hỏi xoay quanh việc thiết kế các giải pháp hiệu quả, kết hợp với framework đổi mới có thể lặp lại Thiết kế lấy con người làm trung tâm giúp tăng cường mối liên kết giữa nhu cầu thực tế và giải pháp Các trường hợp thành công về R&D của doanh nghiệp tư nhân Các doanh nghiệp tư nhân hiểu rõ giá trị của việc tận dụng dữ liệu thông qua quy trình R&D Những đổi mới AI gần đây là thành quả không thể có được nếu thiếu đầu tư R&D liên tục Kết luận Kết quả ban đầu của các dự án R&D dữ liệu có thể không chắc chắn, nhưng bản thân quy trình tạo ra giá trị từ dữ liệu đã là một phương pháp luận được kiểm chứng Đầu tư liên tục và dài hạn vào R&D là yếu tố thiết yếu để thúc đẩy đổi mới và giải quyết các thách thức của khu vực xã hội Việc tuyển dụng và hỗ trợ các nhà khoa học dữ liệu là khó khăn, và các nhà khoa học dữ liệu làm việc một mình có mức độ hài lòng thấp Khó khăn từ góc nhìn của tổ chức Tuyển dụng Khó xác định và đánh giá ứng viên phù hợp khi chưa có sẵn nhà khoa học dữ liệu trong tổ chức Thuật ngữ "nhà khoa học dữ liệu" có định nghĩa không rõ ràng vì bao hàm nhiều kỹ năng và kinh nghiệm khác nhau Thu hút và giữ chân nhân tài Nhu cầu cao đối với nhà khoa học dữ liệu tạo ra một thị trường tuyển dụng cạnh tranh Ngoài động lực giải quyết các vấn đề xã hội, còn phải cung cấp công việc kỹ thuật thú vị, mức lương cạnh tranh và cơ hội phát triển chuyên môn Ở giai đoạn tuyển dụng ban đầu, việc có đủ các yếu tố này càng khó hơn Quản lý và hỗ trợ Để nhà khoa học dữ liệu duy trì năng suất, cần xác định rõ phạm vi vấn đề và cung cấp định hướng, hạ tầng cũng như dữ liệu Khi thiếu nền tảng kỹ thuật, rất dễ đánh giá thấp hoặc đánh giá quá cao độ khó của công việc Khó khăn từ góc nhìn của người làm kỹ thuật Học hỏi và phát triển Khoa học dữ liệu là lĩnh vực phát triển nhanh, nên cơ hội học hỏi và trưởng thành trong nội bộ nhóm là rất quan trọng Trong môi trường khó thực hiện review code, phản hồi về mô hình và chia sẻ khối lượng công việc, cơ hội phát triển sẽ bị hạn chế Thiếu định hướng và hỗ trợ Nếu công việc không được hỗ trợ đúng mức, mức độ hài lòng và năng suất của nhà khoa học dữ liệu sẽ giảm Niềm vui trong công việc Quá trình thảo luận và cùng đồng nghiệp giải quyết vấn đề giúp nâng cao sự hài lòng trong công việc Có thể giải quyết điều này thông qua mạng lưới bên ngoài, nhưng hợp tác trong nội bộ tổ chức hiệu quả hơn Dấu hiệu thay đổi Gần đây ngày càng có nhiều tổ chức trong lĩnh vực xã hội tự xây dựng đội ngũ dữ liệu nội bộ DrivenData tham gia như một đối tác hỗ trợ tuyển dụng, onboarding và chuyển đổi công việc cho các nhà khoa học dữ liệu và kỹ sư giai đoạn đầu Cách làm hợp tác với các nhóm chuyên gia khoa học dữ liệu bên ngoài để cung cấp năng lực linh hoạt có lợi cho cả tổ chức lẫn nhà khoa học dữ liệu Triển vọng tương lai Một số tổ chức đã bắt đầu thành công trong việc xây dựng đội ngũ dữ liệu, nhưng nhu cầu về kỹ năng khoa học dữ liệu vẫn rất cao Thách thức xây dựng đội ngũ dữ liệu từ con số 0 được dự báo sẽ còn tiếp diễn Mã nguồn mở chưa phát triển đủ các giải pháp cho người không phải nhà phát triển Giới hạn của mã nguồn mở Phần mềm mã nguồn mở thường phát triển hiệu quả vì cộng đồng nhà phát triển cũng chính là người dùng Những người đóng góp có động lực cải thiện các công cụ mà chính họ sẽ sử dụng Tuy nhiên, với các công cụ hướng tới người không phải nhà phát triển hoặc không phải chuyên gia, động lực này không phát huy tác dụng Thách thức của công cụ dành cho người không chuyên Trong các dự án khoa học dữ liệu, việc phát triển phương pháp và công cụ cho người không phải nhà phát triển diễn ra khá phổ biến Dù được công bố dưới dạng mã nguồn mở, nếu không có đầu tư và phát triển liên tục thì dự án sẽ đình trệ hoặc dừng lại Để thực sự phát triển thành một giải pháp thành công, cần có thêm giai đoạn phát triển sau nguyên mẫu và các thử nghiệm thí điểm thực tế Ví dụ cụ thể: Concept to Clinic Trong giai đoạn 2017-18, đã phát triển một ứng dụng mở dùng AI để hỗ trợ bác sĩ chẩn đoán hình ảnh xử lý ảnh chụp CT Đã áp dụng một hệ thống khuyến khích có cấu trúc, cung cấp điểm và phần thưởng tiền mặt cho người đóng góp nhằm thúc đẩy sự tham gia Nếu không có cách tiếp cận này, rất có thể dự án đã không thể được phát triển Điều kiện để mã nguồn mở thành công bền vững Chỉ đơn giản công khai dưới dạng mã nguồn mở không thể bảo đảm tác động dài hạn Để đi từ nguyên mẫu đến giải pháp dành cho người dùng cuối, cần có lộ trình rõ ràng và nguồn tài trợ liên tục Khi phát triển các ứng dụng quan trọng, mã nguồn mở chỉ là một phần của hành trình chứ không nên là mục tiêu cuối cùng Làn sóng cường điệu công nghệ (hype wave) nhận được quá nhiều chú ý Lĩnh vực xã hội và đổi mới công nghệ Lĩnh vực xã hội trong 10 năm qua gắn chặt với các làn sóng đổi mới công nghệ mới Các tổ chức bị hấp dẫn bởi việc áp dụng công nghệ mới để nâng cao hiệu quả trong bối cảnh nguồn lực hạn chế Áp lực phải theo kịp xu hướng công nghệ mới nhất, nếu không sẽ bị tụt lại phía sau, khiến chiến lược thường xuyên thay đổi Vấn đề của việc áp dụng công nghệ bị thổi phồng Rất khó tách ra đâu là yếu tố đổi mới thực sự quan trọng giữa làn sóng cường điệu công nghệ Việc áp dụng công nghệ thường dẫn đến kỳ vọng quá mức nhưng khâu triển khai lại chưa tương xứng Ví dụ: Blockchain: kỳ vọng rất cao nhưng lợi ích thực tế cho lĩnh vực xã hội lại rất hạn chế Ứng dụng di động: ngay cả khi không thực sự cần thiết, vẫn có áp lực cho rằng đó là thứ "bắt buộc", dẫn đến chi phí kém hiệu quả Tầm quan trọng của các tổ chức công nghệ chuyên môn Những tổ chức chuyên gia công nghệ có khả năng xử lý hiệu quả cường điệu công nghệ thường đạt kết quả cao nhất DrivenData hợp tác với DataKind, DSSG Fellowship, Delta Analytics và các tổ chức khác để tận dụng chuyên môn công nghệ Tuy vậy, ngay cả các nhóm chuyên gia này cũng khó tích lũy một cách có hệ thống các bài học rút ra từ những làn sóng cường điệu trước đây Thay đổi cần thiết: một ‘đê chắn sóng’ đối với cường điệu công nghệ Cần có năng lực tách kỳ vọng quá mức khỏi đổi mới thực chất và nhận diện những bước tiến cốt lõi Vai trò lãnh đạo công nghệ vừa hiểu sâu công nghệ tiên tiến vừa có hiểu biết sâu sắc về lĩnh vực xã hội là điều thiết yếu Hiện vẫn thiếu kiểu lãnh đạo và hệ sinh thái này, trong khi đây là nền tảng để xây dựng một cách tiếp cận bền vững và trưởng thành hơn Cách tiếp cận chiến lược với các công nghệ mới như AI Tiềm năng của AI là rất lớn, nhưng điều đó đòi hỏi chiến lược thận trọng và chuyên môn sâu chứ không chỉ là sự hứng khởi đơn thuần Nếu không xây dựng nền tảng dữ liệu vững chắc, lĩnh vực này có nguy cơ rơi vào một chu kỳ lặp lại của cường điệu công nghệ và kém hiệu quả Nếu thiếu đầu tư và kế hoạch mang tính nền tảng, đổi mới công nghệ trong lĩnh vực xã hội sẽ khó tạo ra kết quả thực sự Khoa học dữ liệu và AI có hàm ý đạo đức rất lớn, nhưng việc triển khai quá nhanh đang vượt trước các công cụ và thực hành hỗ trợ cho chúng Sự mở rộng của khoa học dữ liệu và AI cùng tầm quan trọng về đạo đức Khoa học dữ liệu và machine learning đang được tích hợp vào nhiều lĩnh vực như y tế, ứng phó thảm họa và phán quyết hình sự Rủi ro do việc sử dụng sai cách gây ra hiện lớn hơn rất nhiều so với trước đây Thực tế là các cân nhắc đạo đức còn thiếu Các nhà khoa học dữ liệu có góc nhìn đặc thù trong việc hiểu những hàm ý đạo đức của mô hình và pipeline Tuy nhiên, góc nhìn này thường không được tích hợp vào vòng đời của các dự án khoa học dữ liệu Phát triển checklist mã nguồn mở để xử lý các đánh đổi về đạo đức Tích hợp vào quy trình làm việc khoa học dữ liệu để có thể thảo luận các đánh đổi về đạo đức Các nguyên tắc chính: Quyết định đạo đức phải nhận diện những đánh đổi quan trọng nhất trong từng bối cảnh cụ thể, đồng thời hướng tới tiến hành một cách có trách nhiệm và giảm thiểu tác hại Các vấn đề đạo đức phát sinh ở mọi giai đoạn của dự án, từ thu thập, lưu trữ, phân tích dữ liệu đến mô hình hóa và triển khai Thảo luận đạo đức thường bị đẩy xuống thấp trong ưu tiên do thời hạn gấp gáp và các yêu cầu công việc Để ngăn điều này, cần tích hợp các câu hỏi đạo đức vào những khía cạnh khác của workflow và chủ động dành thời gian cho chúng Công bằng thuật toán và giảm thiểu thiên lệch Các mô hình được huấn luyện trên dữ liệu thiên lệch sẽ tái tạo bất bình đẳng, vì vậy đang có các công nghệ được phát triển để nhận diện và giảm thiểu điều đó Ví dụ: hợp tác với Wellcome Trust để xây dựng một trường hợp giảm thiểu thiên lệch có tính đến công bằng trong mô hình dự đoán căng thẳng tâm lý Phân tích thiên lệch thông qua các chỉ số công bằng được định lượng và cung cấp phương pháp giảm thiểu Tầm quan trọng của cân nhắc đạo đức trong kỷ nguyên AI Trong khi AI lan rộng rất nhanh, nhiều doanh nghiệp lại giải thể các nhóm AI có trách nhiệm để cắt giảm chi phí Trong lĩnh vực xã hội, trách nhiệm đối với người thụ hưởng cao hơn nên cái giá của thất bại về đạo đức cũng lớn hơn Nếu không củng cố các thực hành đạo đức, việc áp dụng AI có nguy cơ gây ra những vấn đề còn lớn hơn Kết luận Việc xây dựng các công cụ và thực hành đạo đức để hỗ trợ triển khai AI hiện quan trọng hơn bao giờ hết Cần bảo đảm niềm tin và tính bền vững trong lĩnh vực xã hội thông qua việc sử dụng công nghệ một cách có trách nhiệm Triển vọng phía trước Những thay đổi và cơ hội của khoa học dữ liệu Trong 10 năm qua, khoa học dữ liệu đã dẫn dắt những thay đổi quan trọng trong lĩnh vực xã hội, đồng thời trải qua cả thành công lẫn thách thức Nhận thức về tiềm năng của dữ liệu và AI đã tăng lên, nhưng vẫn còn những câu hỏi lớn cần được giải quyết: Làm thế nào để áp dụng thực chất những tiến bộ công nghệ liên tục vào các vấn đề xã hội lớn nhất? Làm thế nào để bảo đảm lợi ích không chỉ tập trung vào một số ít tập đoàn lớn? Làm thế nào để triển khai công nghệ một cách có trách nhiệm vì thiên nhiên và con người? Tầm quan trọng của những bài học rút ra từ kinh nghiệm Những nỗ lực dựa trên các bài học thu được từ kinh nghiệm trong quá khứ đã mang lại thành quả lớn nhất DrivenData tự hào là một phần của cộng đồng đối tác, khách hàng và nhà phát triển đang sử dụng dữ liệu và AI vì lợi ích xã hội Nếu bạn quan tâm đến các chủ đề tương tự hoặc có thêm ý tưởng, họ hoan nghênh bạn chia sẻ Kỳ vọng hướng tới tương lai Nếu 10 năm qua đã rực rỡ, thì 10 năm tới được kỳ vọng sẽ mang lại những thay đổi còn lớn hơn nữa Vẫn còn rất nhiều việc phải làm và rất nhiều điều cần học Họ mong đợi một tương lai đối mặt với những thách thức này, khám phá các khả năng mới và tạo ra tác động xã hội tốt đẹp hơn

(drivendata.co)

13 điểm bởi xguru 2025-01-23 | 1 bình luận | Chia sẻ qua WhatsApp

Khi DrivenData được khởi động vào năm 2014, việc tận dụng khoa học dữ liệu vì lợi ích xã hội vẫn còn ở giai đoạn sơ khai
Vào thời điểm đó, các kỹ thuật khoa học dữ liệu chủ yếu được sử dụng cho marketing và đề xuất nội dung tại những công ty như Netflix và Amazon, trong khi hầu như chưa có ví dụ ứng dụng nào cho tổ chức phi lợi nhuận, NGO, doanh nghiệp xã hội hay dịch vụ chính phủ
Mục tiêu ban đầu và bối cảnh
- Nhân lực khoa học dữ liệu khi đó rất khan hiếm và chi phí tuyển dụng cao, và khoảng cách này còn nghiêm trọng hơn ở các tổ chức giải quyết vấn đề xã hội
- Xuất phát từ Harvard Innovation Lab, dự án hướng tới thu hẹp khoảng cách năng lực khoa học dữ liệu cho các vấn đề xã hội
- Mục tiêu là tận dụng các kỹ thuật tiên tiến của khoa học dữ liệu và crowdsourcing để giải quyết những thách thức xã hội lớn trên thế giới
Hai trích dẫn phản ánh quan điểm thời đó
- "Biến dữ liệu lớn thành thứ hữu ích cho việc ra quyết định nhân đạo là một thách thức và cơ hội lớn của kỷ nguyên mạng" – UN OCHA
- "Những bộ óc giỏi nhất trong thế hệ tôi đang dồn tâm trí để khiến mọi người nhấp vào quảng cáo… Thật sự rất bức bối." – Jeff Hammerbacher, cựu quản lý dữ liệu của Facebook
Những thay đổi trong 10 năm qua
- Đã có nhiều nỗ lực đa dạng nhằm áp dụng khoa học dữ liệu và AI cho tác động xã hội
- Hợp tác trong hơn 150 dự án với khoảng 80 đối tác, bao gồm Ngân hàng Thế giới, Quỹ Bill & Melinda Gates, NASA...
- Tổ chức hơn 75 cuộc thi khoa học dữ liệu với tổng giải thưởng vượt 4,7 triệu USD
Trong 10 năm qua, DrivenData đã theo đuổi lợi ích xã hội thông qua khoa học dữ liệu và tích lũy được các thực tiễn tốt cùng nhiều bài học
Đây là dịp để cùng nhìn lại điều gì đã hiệu quả, điều gì vẫn còn thách thức, và suy nghĩ về định hướng cho một tương lai tốt đẹp hơn

Xem trước 10 bài học chính

Những trường hợp khoa học dữ liệu đã phát huy hiệu quả

Khoa học dữ liệu tạo ra tác động có ý nghĩa đối với các vấn đề xã hội
Dữ liệu tốt dẫn đến giải pháp tốt
Nỗ lực thành công nhất khi tập trung vào vấn đề cụ thể và nhu cầu của con người
Hiệu quả nhất khi kết hợp điểm mạnh của máy móc và con người
Góc nhìn đa ngành và sự linh hoạt mang lại lợi thế cho tổ chức

Những điểm vẫn còn thách thức

Khoa học dữ liệu là hoạt động R&D mang tính lặp lại, nhưng khu vực xã hội vẫn đầu tư chưa đủ cho việc này
Khó tuyển dụng và hỗ trợ tốt cho các nhà khoa học dữ liệu
Open source vẫn thiếu các giải pháp dành cho người không phải lập trình viên
Sự cường điệu công nghệ (hype wave) nhận được quá nhiều sự chú ý
Khoa học dữ liệu và AI có hàm ý đạo đức rất lớn, nhưng các công cụ và thực hành hỗ trợ sử dụng có đạo đức vẫn đang tụt lại phía sau

Thời cuộc đang thay đổi

Trong 10 năm qua, tốc độ phát triển của công nghệ dữ liệu và AI nhanh đến mức đáng kinh ngạc. Những yếu tố đổi mới chính giúp điều đó trở thành hiện thực gồm có:

Tính toán và lưu trữ
- Sự mở rộng của điện toán đám mây và lưu trữ đám mây giúp các nguồn lực cần thiết trở nên rẻ hơn và dễ tiếp cận hơn
- Giảm chi phí ban đầu, từ các thử nghiệm dựa trên GPU đến triển khai cụm mở rộng để chạy mô hình theo thời gian thực
Deep learning
- Deep learning đã mang lại thay đổi mang tính cách mạng cho khoa học dữ liệu
- Các kiến trúc hiệu quả như GAN, transformer, variational autoencoder và graph neural network đã bùng nổ mạnh mẽ
- Hệ sinh thái xoay quanh PyTorch và TensorFlow phát triển, với công cụ, thư viện và mô hình pre-trained giúp tăng tốc nhịp độ tiến bộ
Dân chủ hóa khả năng tiếp cận công nghệ
- Khoa học dữ liệu được gọi là "nghề quyến rũ nhất thế kỷ 21", và cơ hội học tập tăng vọt
- Nhờ MOOCs, bootcamp và các cuộc thi dữ liệu, nhiều người hơn đã tiếp cận được những kỹ năng nền tảng của khoa học dữ liệu
AI tạo sinh
- Sự xuất hiện của mô hình ngôn ngữ lớn (LLM) đang thay đổi cách làm việc
- Rút ngắn thời gian cho các tác vụ phức tạp và mở ra những khả năng mới
- Vẫn đang được xem xét liệu AI tạo sinh là trào lưu nhất thời hay đổi mới thực chất, nhưng rõ ràng AI sẽ tiếp tục được ứng dụng lâu dài

Bất chấp những thay đổi công nghệ này, vẫn có thể quan sát thấy nhiều mô thức chung vượt lên trên từng công nghệ cụ thể. Bài viết này tập trung thảo luận những gì đã hoạt động tốt trong 10 năm qua và những gì vẫn còn là thách thức.

Những trường hợp khoa học dữ liệu đã phát huy hiệu quả

Khoa học dữ liệu tạo ra tác động có ý nghĩa đối với các vấn đề xã hội

Tình hình 10 năm trước
- Tiềm năng của các công cụ khoa học dữ liệu là rất rõ ràng, nhưng việc áp dụng cho tác động xã hội còn hạn chế
- Thảo luận thời đó chỉ xoay quanh một vài trường hợp và chủ yếu dựa trên ý tưởng về khả năng trong tương lai
Sự phát triển hiện tại
- Các mô hình machine learning đang ảnh hưởng đến việc ra quyết định trong nhiều lĩnh vực như y tế và quản lý tài nguyên thiên nhiên
- Khoa học dữ liệu đang giúp quản lý các vấn đề như tảo nở hoa có hại, nghề cá không bền vững và thiên tai do biến đổi khí hậu, đồng thời đóng góp cho tài chính toàn diện và bảo tồn động vật hoang dã
- Trong khu vực công, trực quan hóa dữ liệu đã trở thành phương tiện chủ đạo cho đưa tin báo chí và truyền tải thông điệp
  - Ví dụ: các chiến dịch ngăn chặn lây lan COVID-19, bảng điều khiển của WHO
Ví dụ cụ thể sử dụng ảnh vệ tinh
- Tại Yemen, ảnh vệ tinh được dùng để phân tích loại cây trồng và rủi ro khí hậu, qua đó cung cấp thông tin cho chương trình an ninh lương thực của Ngân hàng Thế giới
Quảng cáo
Đóng góp của AI cho tiến bộ khoa học
- AlphaFold: mô hình dự đoán cấu trúc protein, thực hiện trong vài giờ những công việc trước đây mất nhiều năm, đồng thời cung cấp miễn phí cấu trúc của mọi protein cho giới khoa học
- Mô hình transformer: được áp dụng để phát hiện ngôn từ thù ghét trong meme đa phương thức
- Công nghệ nhận dạng cá thể: cải thiện việc theo dõi các loài có nguy cơ tuyệt chủng như cá voi và mở rộng sang nhiều loài khác
Sự thay đổi trong khu vực xã hội
- Vào giữa những năm 2010, thảo luận về việc sử dụng dữ liệu chủ yếu tập trung vào "đo lường tác động"
- Giờ đây, trọng tâm là cách các công cụ khoa học dữ liệu thay đổi phương thức vận hành của tổ chức và trao cho họ năng lực mới
- Thảo luận hiện nay tập trung vào việc khoa học dữ liệu và AI có thể "làm được gì", vượt ra ngoài những gì có thể đo lường

Dữ liệu tốt dẫn đến giải pháp tốt, và khả năng tiếp cận dữ liệu đã được cải thiện đáng kể

Vai trò ngày càng thường nhật của dữ liệu
- Dữ liệu được tạo ra trong mọi hoạt động, từ mua sắm, sử dụng dịch vụ khẩn cấp đến thăm khám bệnh viện
- Thiết bị gia dụng, thiết bị đeo, phương tiện, điện thoại di động và ứng dụng đều thu thập dữ liệu sử dụng
- Sự phát triển của cảm biến và công nghệ camera làm gia tăng việc sử dụng dữ liệu hình ảnh và video
Hai giai đoạn của việc sử dụng dữ liệu
1. Ghi lại dữ liệu theo cách số hóa và khiến nó có thể được quan sát
2. Tiến hóa sang giai đoạn học từ dữ liệu và khám phá các mẫu hình
AI và machine learning được xây dựng trên nền dữ liệu
- Lượng dữ liệu nhiều hơn và chất lượng tốt hơn hỗ trợ khám phá các mẫu hình mới và phát triển thuật toán
- Ví dụ: phát hiện ung thư, thuật toán gợi ý của Spotify, dữ liệu huấn luyện của ChatGPT
Hệ thống phân cấp khoa học dữ liệu của Monica Rogati
- Các năng lực nâng cao của khoa học dữ liệu đòi hỏi một nền tảng dữ liệu vững chắc
- Đầu tư khôn ngoan vào hạ tầng dữ liệu là nền móng để triển khai các chức năng ở tầng cao hơn
Khai thác dữ liệu vì giá trị xã hội
- Các chính phủ và tổ chức lớn đang mở rộng công bố dữ liệu công khai
- Các loại dữ liệu DrivenData đã sử dụng gồm:
  - Dữ liệu thời tiết, dữ liệu giao thông, dữ liệu OpenStreetMap: hỗ trợ lập kế hoạch giao thông hàng không và khả năng chống chịu thiên tai
  - Ảnh vệ tinh: lập bản đồ phạm vi lũ lụt, ước tính sinh khối rừng
  - Dữ liệu giao dịch di động: phân tích hành vi và thái độ tài chính
  - Dữ liệu khảo sát: cung cấp hiểu biết quy mô lớn về ý kiến và hành vi
  - Bản ghi âm thanh: phân loại mức độ biết chữ của trẻ em
  - Hình ảnh độ phân giải cao: dự đoán khả năng tái phát u hắc tố
  - Dữ liệu văn bản: phân tích tự động các khái niệm lâm sàng trong ghi chú ý kiến bác sĩ
Tầm quan trọng của khả năng tiếp cận và khả năng sử dụng dữ liệu
- Chỉ công khai dữ liệu thôi là chưa đủ
- Khi có định dạng máy có thể đọc, tài liệu rõ ràng và các use case cụ thể, mức độ tham gia và khai thác sẽ tăng lên
- Nhiều tổ chức đầu tư vào thu thập dữ liệu nhưng lại lơ là với các khoản đầu tư bổ sung để tận dụng dữ liệu đó
- Tài liệu dữ liệu và các trường hợp ứng dụng đóng vai trò quan trọng không kém gì tiền thưởng của các challenge

Nỗ lực thành công nhất khi tập trung vào vấn đề cụ thể và nhu cầu của con người

Cạm bẫy của cách tiếp cận lấy công nghệ làm trung tâm
- Các tổ chức tạo tác động xã hội thường cố gắng theo kịp những xu hướng công nghệ mới nhất
- "Dữ liệu lớn" và các công cụ AI có vẻ như là giải pháp vạn năng, nhưng trên thực tế chúng chỉ hiệu quả khi tập trung vào việc giải quyết những vấn đề cụ thể
Yếu tố cốt lõi để thiết kế dự án thành công
- Xác định người dùng và vấn đề cụ thể, rồi đặt ra các mục tiêu có thể đo lường để giải quyết chúng
- Sử dụng các công cụ thiết kế lấy con người làm trung tâm để hiểu điều mọi người "mong muốn", và phát triển giải pháp vượt ra ngoài những gì "có thể" về mặt kỹ thuật
Các ví dụ cụ thể
- Phát hiện tảo nở hoa (CyFi)
  - Hợp tác với NASA để phát hiện hiện tượng tảo lam độc hại nở hoa thông qua ảnh vệ tinh
  - Hỗ trợ các nhà quản lý nguồn nước đánh giá chính xác tình trạng tảo nở hoa và phân bổ nguồn lực hiệu quả
- Nhận dạng động vật hoang dã (Zamba)
  - Hợp tác với Viện Max Planck để phát triển công cụ nhận dạng tự động động vật bằng dữ liệu từ camera bẫy ảnh
  - Tăng tính dễ sử dụng với Zamba Cloud, nơi UI được cải thiện dựa trên phản hồi của nhà nghiên cứu
Quảng cáo
Tầm quan trọng của góc nhìn người dùng
- Xác định vấn đề
  - Hiểu rõ vấn đề và yêu cầu thông qua phỏng vấn người dùng và thu thập ý kiến
  - Phản ánh góc nhìn con người đứng sau các điểm dữ liệu
- Triển khai giải pháp
  - Cần thử nghiệm UI/UX và giao tiếp rõ ràng để người dùng có thể sử dụng giải pháp hiệu quả và hiểu được lợi ích của nó
  - Hỗ trợ người dùng nắm bắt trực quan điểm mạnh và giới hạn của mô hình, đồng thời giải thích cách sử dụng qua các ví dụ thực tế
Kết luận
- Vai trò của nhà khoa học dữ liệu là kết nối năng lực kỹ thuật với nhu cầu xã hội
- Những dự án hiệu quả nhất là các dự án không sa đà vào công nghệ mới nhất mà tập trung vào giải quyết vấn đề và tạo ra kết quả thực chất

Giải pháp hiệu quả nhất khi kết hợp điểm mạnh của máy móc và con người

Rủi ro từ kỳ vọng phóng đại về AI
- Các mô hình khoa học dữ liệu và AI không phải là toàn năng, và mọi mô hình đều có những giới hạn nhất định
- Việc chỉ đơn giản đưa AI vào không đảm bảo thành công
- Giải pháp tối ưu đến từ các hệ thống kết hợp điểm mạnh của máy móc và con người
Ví dụ về công cụ Zamba
- Zamba dự đoán theo xác suất liệu có động vật xuất hiện trong video từ camera bẫy ảnh hay không
- Mô hình đôi khi có thể sai, nhưng các xác suất mà nó cung cấp cho phép xây dựng chiến lược rà soát hiệu quả
  - Ví dụ: rà soát trước những video có khả năng cao xuất hiện tinh tinh, hoặc đặt ngưỡng xác suất để xem một video là trống
  - Kết quả là có thể nhận diện được 85% video có tinh tinh trong khi chỉ cần xem xét chưa tới 5% tổng số video
Thành quả của hợp tác người - máy
- Trường hợp sàng lọc ung thư vú bằng AI: khi bác sĩ chẩn đoán hình ảnh và AI phối hợp, độ chính xác cao hơn so với khi mỗi bên hoạt động riêng lẻ
- Nhấn mạnh khả năng diễn giải và giải thích của AI: cung cấp thông tin để con người có thể đánh giá kết quả AI và tích hợp vào ngữ cảnh
  - Ví dụ: trong một cuộc thi nhận dạng cá voi, mô hình cung cấp hình ảnh trực quan về các đặc điểm dùng để ghép khớp từng cá thể cá voi
Mô hình tương tự trong AI tạo sinh
- Phản hồi của con người là yếu tố thiết yếu để phát triển các công cụ hữu ích như ChatGPT
- Có thể cải thiện mô hình thông qua dữ liệu phản hồi để nó dần học được những trường hợp khó hơn
Đánh giá chi phí sai sót và điểm cần cải thiện
- Cải thiện thiết kế hệ thống bằng hai câu hỏi:
  1. "Nếu có một mô hình hoàn hảo, bạn sẽ օգտագործել nó như thế nào?"
  2. "Nếu mô hình đó thỉnh thoảng sai thì bạn sẽ xử lý ra sao?"
- Xác định giới hạn chấp nhận lỗi của hệ thống và những phần cần con người rà soát
Bài học cho tổ chức
- Trường hợp chính phủ Hà Lan năm 2021: 26.000 hộ gia đình bị cáo buộc gian lận phúc lợi xã hội do một thuật toán không phù hợp
- Việc phụ thuộc vào thuật toán mà không có rà soát của con người sẽ gây ra chi phí xã hội rất lớn
- Ngược lại, nếu kết hợp điểm mạnh của thuật toán và con người thì có thể tối đa hóa cả hiệu suất lẫn hiệu quả

Góc nhìn liên ngành và tính linh hoạt giúp ích cho tổ chức

Kinh nghiệm dự án trải rộng trên nhiều lĩnh vực
- Làm việc với nhiều lĩnh vực như tài chính toàn diện, hành động vì khí hậu và chăm sóc sức khỏe cho thấy lợi ích của góc nhìn liên ngành
- Các mẫu học máy trong một ngữ cảnh cụ thể có thể được mở rộng và áp dụng sang lĩnh vực khác
  - Ví dụ: ứng dụng chéo giữa mô hình thị giác máy tính để bảo tồn rừng tảo bẹ và mô hình phát hiện tổn thương trong sinh thiết cổ tử cung
Quảng cáo
Tính linh hoạt trong cách tiếp cận
- Những vấn đề khác nhau như phát hiện sớm sâu bệnh hại cây trồng và trích xuất kỹ năng từ hồ sơ xin việc đều dựa trên nhận dạng thực thể có tên (NER)
- Có thể tận dụng bài học và kinh nghiệm từ các cách tiếp cận sẵn có để áp dụng cho vấn đề khác với chi phí thấp hơn
Ví dụ cụ thể
- Cách tiếp cận xử lý ngôn ngữ tự nhiên để nhận diện cây trồng, sâu bệnh, dịch bệnh và hóa chất trong tin nhắn WhatsApp
- Hỗ trợ nông hộ nhỏ phát hiện các xu hướng mới và cải thiện tư vấn dựa trên cơ sở khoa học
Cân bằng giữa chuyên môn và góc nhìn người dùng
- Hợp tác với chuyên gia lĩnh vực để bảo đảm ngữ cảnh phù hợp với vấn đề
- Đưa góc nhìn người dùng vào quy trình khoa học dữ liệu để thiết kế giải pháp phù hợp
Xác định "những việc đáng làm"
- Chỉ có chuyên môn kỹ thuật là chưa đủ; còn cần sự đồng cảm, giao tiếp, tò mò và linh hoạt
- Cần cùng nhau brainstorm những lĩnh vực mà học máy có thể tạo thêm giá trị, đồng thời hiểu sâu giải pháp đó dành cho ai và sẽ được sử dụng như thế nào
Đáp ứng các nhu cầu đa dạng của tổ chức
- Nhu cầu của mỗi tổ chức khác nhau, từ nghiên cứu khám phá đến tạo mẫu thử và triển khai production
- Hợp tác với nhiều đối tác đa dạng, từ các tổ chức cung cấp dữ liệu lớn như Candid, NASA đến các tổ chức mới bắt đầu xây dựng hệ thống dữ liệu
- Điều quan trọng là duy trì sự phù hợp của công nghệ đồng thời phát huy tính linh hoạt từ kinh nghiệm phong phú

Những phần vẫn còn nhiều thách thức

Khoa học dữ liệu mang tính lặp, và khu vực xã hội đang đầu tư chưa đủ cho R&D

Bản chất và giá trị của R&D
- Nghiên cứu và phát triển là một quá trình học hỏi, đòi hỏi đầu tư vốn, thử nghiệm, suy ngẫm và sẵn sàng chấp nhận thất bại
- Các phương pháp chắc chắn và cách tiếp cận ngắn hạn có giới hạn, khó giải quyết được phạm vi vấn đề mà khu vực xã hội phải đối mặt
- Đầu tư dài hạn và đổi mới phi tuyến tính mới tạo ra những thành quả lớn
Thiếu đầu tư R&D trong khu vực xã hội
- Theo khảo sát của NSF năm 2022, 94% các tổ chức phi lợi nhuận lớn hoàn toàn không thực hiện hoạt động R&D
- Dù khoa học dữ liệu phần lớn là hoạt động R&D, đầu tư cho lĩnh vực này vẫn còn thiếu hụt
Tính lặp của khoa học dữ liệu
- Khoa học dữ liệu sử dụng việc học lặp lại và vòng phản hồi để tạo ra kết quả tối ưu và cải thiện hiệu quả dịch vụ
- Có thể sử dụng các framework nhấn mạnh tính lặp như chương trình khoa học dữ liệu của Harvard và CRISP-DM (quy trình chuẩn cho khai phá dữ liệu)
Tầm quan trọng của khoa học dữ liệu lấy con người làm trung tâm
- Quá trình học hỏi xoay quanh việc thiết kế các giải pháp hiệu quả, kết hợp với framework đổi mới có thể lặp lại
- Thiết kế lấy con người làm trung tâm giúp tăng cường mối liên kết giữa nhu cầu thực tế và giải pháp
Các trường hợp thành công về R&D của doanh nghiệp tư nhân
- Các doanh nghiệp tư nhân hiểu rõ giá trị của việc tận dụng dữ liệu thông qua quy trình R&D
- Những đổi mới AI gần đây là thành quả không thể có được nếu thiếu đầu tư R&D liên tục
Kết luận
- Kết quả ban đầu của các dự án R&D dữ liệu có thể không chắc chắn, nhưng bản thân quy trình tạo ra giá trị từ dữ liệu đã là một phương pháp luận được kiểm chứng
- Đầu tư liên tục và dài hạn vào R&D là yếu tố thiết yếu để thúc đẩy đổi mới và giải quyết các thách thức của khu vực xã hội

Việc tuyển dụng và hỗ trợ các nhà khoa học dữ liệu là khó khăn, và các nhà khoa học dữ liệu làm việc một mình có mức độ hài lòng thấp

Khó khăn từ góc nhìn của tổ chức
- Tuyển dụng
  - Khó xác định và đánh giá ứng viên phù hợp khi chưa có sẵn nhà khoa học dữ liệu trong tổ chức
  - Thuật ngữ "nhà khoa học dữ liệu" có định nghĩa không rõ ràng vì bao hàm nhiều kỹ năng và kinh nghiệm khác nhau
- Thu hút và giữ chân nhân tài
  - Nhu cầu cao đối với nhà khoa học dữ liệu tạo ra một thị trường tuyển dụng cạnh tranh
  - Ngoài động lực giải quyết các vấn đề xã hội, còn phải cung cấp công việc kỹ thuật thú vị, mức lương cạnh tranh và cơ hội phát triển chuyên môn
  - Ở giai đoạn tuyển dụng ban đầu, việc có đủ các yếu tố này càng khó hơn
- Quản lý và hỗ trợ
  - Để nhà khoa học dữ liệu duy trì năng suất, cần xác định rõ phạm vi vấn đề và cung cấp định hướng, hạ tầng cũng như dữ liệu
  - Khi thiếu nền tảng kỹ thuật, rất dễ đánh giá thấp hoặc đánh giá quá cao độ khó của công việc
Quảng cáo
Khó khăn từ góc nhìn của người làm kỹ thuật
- Học hỏi và phát triển
  - Khoa học dữ liệu là lĩnh vực phát triển nhanh, nên cơ hội học hỏi và trưởng thành trong nội bộ nhóm là rất quan trọng
  - Trong môi trường khó thực hiện review code, phản hồi về mô hình và chia sẻ khối lượng công việc, cơ hội phát triển sẽ bị hạn chế
- Thiếu định hướng và hỗ trợ
  - Nếu công việc không được hỗ trợ đúng mức, mức độ hài lòng và năng suất của nhà khoa học dữ liệu sẽ giảm
- Niềm vui trong công việc
  - Quá trình thảo luận và cùng đồng nghiệp giải quyết vấn đề giúp nâng cao sự hài lòng trong công việc
  - Có thể giải quyết điều này thông qua mạng lưới bên ngoài, nhưng hợp tác trong nội bộ tổ chức hiệu quả hơn
Dấu hiệu thay đổi
- Gần đây ngày càng có nhiều tổ chức trong lĩnh vực xã hội tự xây dựng đội ngũ dữ liệu nội bộ
- DrivenData tham gia như một đối tác hỗ trợ tuyển dụng, onboarding và chuyển đổi công việc cho các nhà khoa học dữ liệu và kỹ sư giai đoạn đầu
- Cách làm hợp tác với các nhóm chuyên gia khoa học dữ liệu bên ngoài để cung cấp năng lực linh hoạt có lợi cho cả tổ chức lẫn nhà khoa học dữ liệu
Triển vọng tương lai
- Một số tổ chức đã bắt đầu thành công trong việc xây dựng đội ngũ dữ liệu, nhưng nhu cầu về kỹ năng khoa học dữ liệu vẫn rất cao
- Thách thức xây dựng đội ngũ dữ liệu từ con số 0 được dự báo sẽ còn tiếp diễn

Mã nguồn mở chưa phát triển đủ các giải pháp cho người không phải nhà phát triển

Giới hạn của mã nguồn mở
- Phần mềm mã nguồn mở thường phát triển hiệu quả vì cộng đồng nhà phát triển cũng chính là người dùng
- Những người đóng góp có động lực cải thiện các công cụ mà chính họ sẽ sử dụng
- Tuy nhiên, với các công cụ hướng tới người không phải nhà phát triển hoặc không phải chuyên gia, động lực này không phát huy tác dụng
Thách thức của công cụ dành cho người không chuyên
- Trong các dự án khoa học dữ liệu, việc phát triển phương pháp và công cụ cho người không phải nhà phát triển diễn ra khá phổ biến
- Dù được công bố dưới dạng mã nguồn mở, nếu không có đầu tư và phát triển liên tục thì dự án sẽ đình trệ hoặc dừng lại
- Để thực sự phát triển thành một giải pháp thành công, cần có thêm giai đoạn phát triển sau nguyên mẫu và các thử nghiệm thí điểm thực tế
Ví dụ cụ thể: Concept to Clinic
- Trong giai đoạn 2017-18, đã phát triển một ứng dụng mở dùng AI để hỗ trợ bác sĩ chẩn đoán hình ảnh xử lý ảnh chụp CT
- Đã áp dụng một hệ thống khuyến khích có cấu trúc, cung cấp điểm và phần thưởng tiền mặt cho người đóng góp nhằm thúc đẩy sự tham gia
- Nếu không có cách tiếp cận này, rất có thể dự án đã không thể được phát triển
Điều kiện để mã nguồn mở thành công bền vững
- Chỉ đơn giản công khai dưới dạng mã nguồn mở không thể bảo đảm tác động dài hạn
- Để đi từ nguyên mẫu đến giải pháp dành cho người dùng cuối, cần có lộ trình rõ ràng và nguồn tài trợ liên tục
- Khi phát triển các ứng dụng quan trọng, mã nguồn mở chỉ là một phần của hành trình chứ không nên là mục tiêu cuối cùng

Làn sóng cường điệu công nghệ (hype wave) nhận được quá nhiều chú ý

Lĩnh vực xã hội và đổi mới công nghệ
- Lĩnh vực xã hội trong 10 năm qua gắn chặt với các làn sóng đổi mới công nghệ mới
- Các tổ chức bị hấp dẫn bởi việc áp dụng công nghệ mới để nâng cao hiệu quả trong bối cảnh nguồn lực hạn chế
- Áp lực phải theo kịp xu hướng công nghệ mới nhất, nếu không sẽ bị tụt lại phía sau, khiến chiến lược thường xuyên thay đổi
Vấn đề của việc áp dụng công nghệ bị thổi phồng
- Rất khó tách ra đâu là yếu tố đổi mới thực sự quan trọng giữa làn sóng cường điệu công nghệ
- Việc áp dụng công nghệ thường dẫn đến kỳ vọng quá mức nhưng khâu triển khai lại chưa tương xứng
- Ví dụ:
  - Blockchain: kỳ vọng rất cao nhưng lợi ích thực tế cho lĩnh vực xã hội lại rất hạn chế
  - Ứng dụng di động: ngay cả khi không thực sự cần thiết, vẫn có áp lực cho rằng đó là thứ "bắt buộc", dẫn đến chi phí kém hiệu quả
Tầm quan trọng của các tổ chức công nghệ chuyên môn
- Những tổ chức chuyên gia công nghệ có khả năng xử lý hiệu quả cường điệu công nghệ thường đạt kết quả cao nhất
- DrivenData hợp tác với DataKind, DSSG Fellowship, Delta Analytics và các tổ chức khác để tận dụng chuyên môn công nghệ
- Tuy vậy, ngay cả các nhóm chuyên gia này cũng khó tích lũy một cách có hệ thống các bài học rút ra từ những làn sóng cường điệu trước đây
Quảng cáo
Thay đổi cần thiết: một ‘đê chắn sóng’ đối với cường điệu công nghệ
- Cần có năng lực tách kỳ vọng quá mức khỏi đổi mới thực chất và nhận diện những bước tiến cốt lõi
- Vai trò lãnh đạo công nghệ vừa hiểu sâu công nghệ tiên tiến vừa có hiểu biết sâu sắc về lĩnh vực xã hội là điều thiết yếu
- Hiện vẫn thiếu kiểu lãnh đạo và hệ sinh thái này, trong khi đây là nền tảng để xây dựng một cách tiếp cận bền vững và trưởng thành hơn
Cách tiếp cận chiến lược với các công nghệ mới như AI
- Tiềm năng của AI là rất lớn, nhưng điều đó đòi hỏi chiến lược thận trọng và chuyên môn sâu chứ không chỉ là sự hứng khởi đơn thuần
- Nếu không xây dựng nền tảng dữ liệu vững chắc, lĩnh vực này có nguy cơ rơi vào một chu kỳ lặp lại của cường điệu công nghệ và kém hiệu quả
- Nếu thiếu đầu tư và kế hoạch mang tính nền tảng, đổi mới công nghệ trong lĩnh vực xã hội sẽ khó tạo ra kết quả thực sự

Khoa học dữ liệu và AI có hàm ý đạo đức rất lớn, nhưng việc triển khai quá nhanh đang vượt trước các công cụ và thực hành hỗ trợ cho chúng

Sự mở rộng của khoa học dữ liệu và AI cùng tầm quan trọng về đạo đức
- Khoa học dữ liệu và machine learning đang được tích hợp vào nhiều lĩnh vực như y tế, ứng phó thảm họa và phán quyết hình sự
- Rủi ro do việc sử dụng sai cách gây ra hiện lớn hơn rất nhiều so với trước đây
Thực tế là các cân nhắc đạo đức còn thiếu
- Các nhà khoa học dữ liệu có góc nhìn đặc thù trong việc hiểu những hàm ý đạo đức của mô hình và pipeline
- Tuy nhiên, góc nhìn này thường không được tích hợp vào vòng đời của các dự án khoa học dữ liệu
Phát triển checklist mã nguồn mở để xử lý các đánh đổi về đạo đức
- Tích hợp vào quy trình làm việc khoa học dữ liệu để có thể thảo luận các đánh đổi về đạo đức
- Các nguyên tắc chính:
  - Quyết định đạo đức phải nhận diện những đánh đổi quan trọng nhất trong từng bối cảnh cụ thể, đồng thời hướng tới tiến hành một cách có trách nhiệm và giảm thiểu tác hại
  - Các vấn đề đạo đức phát sinh ở mọi giai đoạn của dự án, từ thu thập, lưu trữ, phân tích dữ liệu đến mô hình hóa và triển khai
  - Thảo luận đạo đức thường bị đẩy xuống thấp trong ưu tiên do thời hạn gấp gáp và các yêu cầu công việc
  - Để ngăn điều này, cần tích hợp các câu hỏi đạo đức vào những khía cạnh khác của workflow và chủ động dành thời gian cho chúng
Công bằng thuật toán và giảm thiểu thiên lệch
- Các mô hình được huấn luyện trên dữ liệu thiên lệch sẽ tái tạo bất bình đẳng, vì vậy đang có các công nghệ được phát triển để nhận diện và giảm thiểu điều đó
- Ví dụ: hợp tác với Wellcome Trust để xây dựng một trường hợp giảm thiểu thiên lệch có tính đến công bằng trong mô hình dự đoán căng thẳng tâm lý
  - Phân tích thiên lệch thông qua các chỉ số công bằng được định lượng và cung cấp phương pháp giảm thiểu
Tầm quan trọng của cân nhắc đạo đức trong kỷ nguyên AI
- Trong khi AI lan rộng rất nhanh, nhiều doanh nghiệp lại giải thể các nhóm AI có trách nhiệm để cắt giảm chi phí
- Trong lĩnh vực xã hội, trách nhiệm đối với người thụ hưởng cao hơn nên cái giá của thất bại về đạo đức cũng lớn hơn
- Nếu không củng cố các thực hành đạo đức, việc áp dụng AI có nguy cơ gây ra những vấn đề còn lớn hơn
Kết luận
- Việc xây dựng các công cụ và thực hành đạo đức để hỗ trợ triển khai AI hiện quan trọng hơn bao giờ hết
- Cần bảo đảm niềm tin và tính bền vững trong lĩnh vực xã hội thông qua việc sử dụng công nghệ một cách có trách nhiệm

Triển vọng phía trước

Những thay đổi và cơ hội của khoa học dữ liệu
- Trong 10 năm qua, khoa học dữ liệu đã dẫn dắt những thay đổi quan trọng trong lĩnh vực xã hội, đồng thời trải qua cả thành công lẫn thách thức
- Nhận thức về tiềm năng của dữ liệu và AI đã tăng lên, nhưng vẫn còn những câu hỏi lớn cần được giải quyết:
  - Làm thế nào để áp dụng thực chất những tiến bộ công nghệ liên tục vào các vấn đề xã hội lớn nhất?
  - Làm thế nào để bảo đảm lợi ích không chỉ tập trung vào một số ít tập đoàn lớn?
  - Làm thế nào để triển khai công nghệ một cách có trách nhiệm vì thiên nhiên và con người?
Tầm quan trọng của những bài học rút ra từ kinh nghiệm
- Những nỗ lực dựa trên các bài học thu được từ kinh nghiệm trong quá khứ đã mang lại thành quả lớn nhất
- DrivenData tự hào là một phần của cộng đồng đối tác, khách hàng và nhà phát triển đang sử dụng dữ liệu và AI vì lợi ích xã hội
- Nếu bạn quan tâm đến các chủ đề tương tự hoặc có thêm ý tưởng, họ hoan nghênh bạn chia sẻ
Kỳ vọng hướng tới tương lai
- Nếu 10 năm qua đã rực rỡ, thì 10 năm tới được kỳ vọng sẽ mang lại những thay đổi còn lớn hơn nữa
- Vẫn còn rất nhiều việc phải làm và rất nhiều điều cần học
- Họ mong đợi một tương lai đối mặt với những thách thức này, khám phá các khả năng mới và tạo ra tác động xã hội tốt đẹp hơn

1 bình luận

halfenif 2025-01-23

"Những bộ óc xuất sắc nhất của thế hệ tôi đang dồn suy nghĩ vào việc khiến mọi người nhấp vào quảng cáo… thật sự rất bức bối."

Nghĩ kỹ thì đúng là như vậy thật.

10 năm bài học về khoa học dữ liệu vì lợi ích xã hội

Xem trước 10 bài học chính

Những trường hợp khoa học dữ liệu đã phát huy hiệu quả

Những điểm vẫn còn thách thức

Thời cuộc đang thay đổi

Những trường hợp khoa học dữ liệu đã phát huy hiệu quả

Khoa học dữ liệu tạo ra tác động có ý nghĩa đối với các vấn đề xã hội

Dữ liệu tốt dẫn đến giải pháp tốt, và khả năng tiếp cận dữ liệu đã được cải thiện đáng kể

Nỗ lực thành công nhất khi tập trung vào vấn đề cụ thể và nhu cầu của con người

Giải pháp hiệu quả nhất khi kết hợp điểm mạnh của máy móc và con người

Góc nhìn liên ngành và tính linh hoạt giúp ích cho tổ chức

Những phần vẫn còn nhiều thách thức

Khoa học dữ liệu mang tính lặp, và khu vực xã hội đang đầu tư chưa đủ cho R&D

Việc tuyển dụng và hỗ trợ các nhà khoa học dữ liệu là khó khăn, và các nhà khoa học dữ liệu làm việc một mình có mức độ hài lòng thấp

Mã nguồn mở chưa phát triển đủ các giải pháp cho người không phải nhà phát triển

Làn sóng cường điệu công nghệ (hype wave) nhận được quá nhiều chú ý

Khoa học dữ liệu và AI có hàm ý đạo đức rất lớn, nhưng việc triển khai quá nhanh đang vượt trước các công cụ và thực hành hỗ trợ cho chúng

Triển vọng phía trước

Bài viết liên quan

1 bình luận