Bản đồ ngành dữ liệu/ML/AI năm 2021 và các xu hướng mới nhất
(mattturck.com)→ Một kho lưu trữ duy nhất để lưu toàn bộ dữ liệu. Lưu cả dữ liệu có cấu trúc/phi cấu trúc và thực hiện mọi phân tích từ quá khứ đến dự đoán tương lai<br />
- Tất nhiên có rất nhiều đối thủ cạnh tranh (các cloud hyperscaler như AWS, GCP)<br />
- Cả Snowflake và Databricks đều vừa là bạn vừa là đối thủ (Friend and Foe) của các nhà cung cấp cloud<br /> → Snowflake, vốn phát triển dựa trên AWS, hiện đang mở rộng sang các cloud khác <br /> → Databricks có quan hệ đối tác rất mạnh với MS, nhưng cũng đang giúp tránh bị vendor lock-in thông qua khả năng multi-cloud <br /> → Trong vài năm qua, những người chỉ trích cho rằng mô hình kinh doanh của Snowflake và Databricks khiến biên lợi nhuận phụ thuộc vào quyết định định giá của các nhà cung cấp cloud <br />
- Trong 5 năm tới, việc theo dõi điệu nhảy giữa các nhà cung cấp cloud và các gã khổng lồ dữ liệu (Behemoth) sẽ là câu chuyện mang tính quyết định <br /> <br />
"Bundling, Unbundling, Consolidation?"<br />
- Xét đến đà tăng trưởng của cả Snowflake và Databricks, liệu đây có phải là khởi đầu của làn sóng hợp nhất mà ngành đã chờ đợi?<br />
- Trong lĩnh vực dữ liệu / AI, "hợp nhất chức năng (functional consolidation) đang diễn ra"<br />
- Nhưng ai cũng vậy. Không ai muốn chỉ là một công ty một sản phẩm; ai cũng muốn bundle nhiều hơn và có nhiều chức năng hơn<br /> → Confluent, lên sàn vào 2021/6, cũng đang hướng tới việc vượt ra ngoài lĩnh vực dữ liệu thời gian thực để "hợp nhất xử lý dữ liệu chuyển động và dữ liệu tĩnh" <br /> → Dataiku tập trung vào việc bundle toàn bộ quy trình từ chuẩn bị dữ liệu đến DataOps, MLOps, trực quan hóa và AI explainability vào một nền tảng <br />
- Sự xuất hiện của modern data stack là một ví dụ khác của hợp nhất chức năng <br /> → Trọng tâm của nó là một "liên minh" trên thực tế giữa các công ty (phần lớn là startup) kết nối từ trích xuất dữ liệu đến data warehouse rồi đến BI <br />
- Với người dùng các công nghệ này, bundling và hội tụ sẽ được chào đón khá nhiều<br /> → Khi ngày càng trưởng thành, ngành dữ liệu cần tiến hóa vượt qua các ranh giới công nghệ như "transaction vs. analytics", "batch processing vs. real-time", "BI vs AI" <br />
- Các doanh nghiệp sẽ tiếp tục phối hợp với nhiều vendor/nền tảng/công cụ để tạo ra tổ hợp phù hợp nhất với nhu cầu của mình<br /> <br />
- Lý do cốt lõi là "tốc độ đổi mới quá bùng nổ"<br /> → Các startup mới liên tục xuất hiện, các công ty Big Tech tự tạo công cụ dữ liệu/AI nội bộ rồi open source hóa, và mỗi tuần đều có điều mới xuất hiện cho mọi công nghệ/sản phẩm hiện có <br /> <br />
- Các vendor big data warehouse và data lake đang thúc đẩy việc tập trung hóa toàn bộ dữ liệu, nhưng các framework mới như "Data Mesh" cũng đang xuất hiện <br /> → Cách tiếp cận phân tán, nơi nhiều đội ngũ khác nhau tự chịu trách nhiệm phần của mình <br /> <br />
- Ngoài hợp nhất chức năng, rất khó biết liệu M&A có diễn ra hay không <br /> → Một trong những tin đồn mà nhiều người thích là "MS muốn mua lại Databricks"<br /> <br />
"Financings, IPOs, M&A: A Crazy Market"<br />
- Ai từng theo dõi thị trường startup đều sẽ biết: thị trường đang phát điên <br />
- Tiếp nối năm ngoái, năm nay dữ liệu và ML/AI vẫn là hạng mục đầu tư nóng nhất<br />
- Các công ty dự kiến lên sàn<br /> → UiPath : công ty RPA và tự động hóa AI <br /> → Confluent : Kafka <br /> → C3.ai : nền tảng AI <br /> → Couchbase : DB no-SQL <br /> → SentinelOne : nền tảng bảo mật endpoint AI tự động hóa <br /> → TuSimple : xe tải tự lái <br /> → Zymergen : bio-manufacturing <br /> → Recursion : công ty phát triển thuốc dựa trên AI<br /> → Darktrace : an ninh mạng dựa trên AI<br />
- Sự gia tăng của SPAC sẽ mang lại lợi ích cho các công ty công nghệ ở tuyến đầu của thị trường AI (xe tự hành, biotech, v.v.)<br /> <br />
"The 2021 MAD Landscape & What’s New this Year"<br />
- Trong bản đồ năm nay, "Analytics and Machine Intelligence" được tách thành “Analytics” và “Machine Learning & Artificial Intelligence” <br />
- Thêm các danh mục mới <br /> → Infrastructure<br /> ⇨ Reverse ETL : các sản phẩm chuyển dữ liệu ngược từ data warehouse sang ứng dụng SaaS <br /> ⇨ Data Observability : thành phần của DataOps tập trung giải quyết vấn đề chất lượng dữ liệu dựa trên data lineage <br /> ⇨ Privacy & Security : quyền riêng tư dữ liệu ngày càng quan trọng, và nhiều startup đang xuất hiện trong danh mục này <br /> → Analytics<br /> ⇨ Data Catalogs & Discovery : danh mục sôi động nhất trong 12 tháng qua. Giúp người dùng tìm và quản lý dataset họ cần <br /> ⇨ Augmented Analytics : các công cụ BI tận dụng tiến bộ của NLG/NLP để tự động tạo insight và giúp dữ liệu dễ tiếp cận hơn với người nghe không chuyên kỹ thuật <br /> ⇨ Metrics Stores : kho lưu trữ trung tâm cho các chỉ số kinh doanh chính. Một mảng mới gia nhập data stack<br /> ⇨ Query Engines <br /> → Machine Learning and AI <br /> ⇨ Phân nhỏ danh mục MLOps : Model Building, Feature Stores, Deployment and Production <br /> → Open Source <br /> ⇨ Thêm Format, Orchestration, Data Quality & Observability <br />
- Trước đây có nhiều startup từ series C trở lên hoặc công ty đã niêm yết, nhưng năm nay có thêm nhiều công ty ở giai đoạn series A/seed <br /> <br />
"Các xu hướng chính của hạ tầng dữ liệu"<br />
-
2020 <br /> → Modern Data Stack trở thành mainstream <br /> → ETL vs ELT <br /> → Tự động hóa data engineering?<br /> → Sự trỗi dậy của data analyst <br /> → Data lake và data warehouse có hợp nhất không?<br /> → Độ phức tạp vẫn chưa được giải quyết <br /> <br />
-
2021 <br /> → Data Mesh <br /> → Một năm bận rộn cho DataOps <br /> → Giờ là thời gian của real-time<br /> → Metrics Stores <br /> → Reverse ETL <br /> → Data Sharing <br /> <br /> [Data Mesh]<br />
-
Bắt nguồn từ bài viết của Zhamak Dehghani năm 2019, "How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh" <br />
-
Có rất nhiều động lực trong giai đoạn 2020~21<br />
-
Khái niệm data mesh phần lớn là một ý tưởng mang tính tổ chức<br />
-
Cho đến nay, cách tiêu chuẩn để xây dựng hạ tầng và đội ngũ dữ liệu là tập trung hóa. Một nền tảng lớn duy nhất do một đội dữ liệu quản lý sẽ đáp ứng các yêu cầu kinh doanh <br />
-
Có nhiều ưu điểm, nhưng cũng phát sinh các vấn đề như nút thắt cổ chai <br />
-
Thông qua phi tập trung hóa, tạo ra các đội dữ liệu độc lập phụ trách từng domain và cung cấp dữ liệu cho những người khác trong tổ chức như một "sản phẩm" <br /> → Tương tự khái niệm microservices trong kỹ thuật phần mềm <br />
-
Nó có nhiều ý nghĩa khác nhau <br /> → Nếu điều này trở nên khả thi, đây sẽ là cơ hội lớn cho các công ty mới xây công cụ mission-critical trong distributed data stack<br />
-
Starburst, SQL Query Engine dùng để query và phân tích hợp nhất trên nhiều kho lưu trữ, đã rebrand mình thành "công cụ phân tích cho data mesh" <br />
-
Những thứ như orchestration engine quản lý các pipeline phức tạp (Airflow, Prefect, Dagster) sẽ trở nên mission-critical hơn nữa <br />
-
Việc theo dõi dữ liệu trong các kho lưu trữ và hệ thống pipeline ngày càng trở nên thiết yếu hơn ở góc độ tuân thủ & quản trị, làm gia tăng nhu cầu về Data Lineage (OpenLineage, DataKin)<br /> <br /> [Một năm bận rộn với DataOps]<br />
-
Khái niệm DataOps đã lơ lửng trong vài năm qua, và gần đây mới thực sự được kích hoạt <br />
-
Có nhiều định nghĩa khác nhau <br /> → DevOps của thế giới dữ liệu <br /> → Mọi thứ cần thiết để xây dựng và vận hành pipeline dữ liệu, tìm đúng bộ dữ liệu thông qua data catalog, đồng thời giúp nhà sản xuất và người tiêu thụ dữ liệu thực hiện công việc họ cần <br />
-
Dù sao thì, giống như DevOps, đây là “sự kết hợp của phương pháp luận, quy trình, con người, nền tảng và công cụ”<br />
-
Trong bối cảnh rộng hơn, “các công cụ và thực hành data engineering” vẫn còn tụt khá xa so với mức độ tự động hóa của software engineering<br />
-
Dữ liệu/AI càng trở nên quan trọng thì càng cần công cụ và thực hành tốt hơn <br />
-
Ai cũng muốn trở thành “DataDog của thế giới dữ liệu” (thực tế DataDog cũng được dùng cho DataOps, nhưng về cơ bản vẫn dựa trên software engineering)<br />
-
Có nhiều phần nhỏ khác nhau như Data observability, Data Lineage, Data Quality, Data Reliability Engineering, Data Access & Governance<br /> <br /> [Giờ là thời gian thực]<br />
-
Dữ liệu “thời gian thực” hoặc “streaming” là dữ liệu được xử lý và tiêu thụ ngay sau khi được tạo ra <br />
-
Đây là khái niệm đối lập với “batch”, vốn là mô hình thống trị của hạ tầng dữ liệu cho đến nay <br />
-
Xử lý dữ liệu thời gian thực đã là chủ đề nóng từ giai đoạn đầu của kỷ nguyên big data cách đây 10-15 năm<br /> → Đặc biệt, tốc độ xử lý là yếu tố cốt lõi thúc đẩy thành công của Spark so với HadoopMR <br />
-
Nhưng suốt nhiều năm, đây là thị trường “sắp bùng nổ” nhưng lại chưa thực sự bùng nổ <br />
-
Thành công vang dội của IPO Confluent đã chứng minh phe hoài nghi đã sai <br />
-
Và vượt ra ngoài Confluent, toàn bộ hệ sinh thái dữ liệu thời gian thực đã được tăng tốc <br />
-
Đặc biệt, “real-time analytics” cho thấy rất nhiều hoạt động <br /> → ClickHouse do Yandex của Nga tạo ra đã thành lập công ty tại Mỹ và nhận đầu tư $50M <br /> → Imply, nền tảng phân tích thời gian thực dựa trên mã nguồn mở Druid, đã nhận đầu tư $70M <br /> <br /> [Metrics Stores]<br />
-
Trong vài năm qua, dữ liệu doanh nghiệp cũng như tần suất sử dụng và độ phức tạp của dữ liệu đều gia tăng <br />
-
Khi độ phức tạp tăng lên, những rắc rối do dữ liệu không nhất quán cũng tăng theo <br />
-
Các metric có thể dễ dàng bị lệch chỉ vì thay đổi nhỏ ở dimension/định nghĩa hoặc các nguyên nhân khác<br />
-
Dữ liệu chỉ hữu ích khi chính xác và đáng tin cậy đối với các nhóm sử dụng nó <br />
-
Nỗ lực tập trung hóa metric đã dẫn đến việc phát triển các giải pháp nội bộ như Minerva của AirBnB với khẩu hiệu “Define Once, Use Anywhere”<br />
-
Chuẩn hóa định nghĩa của các metric kinh doanh chính và toàn bộ dimension, đồng thời cung cấp cho các bên liên quan các bộ dữ liệu chính xác và có thể phân tích dựa trên các định nghĩa đó <br />
-
Xây dựng niềm tin vào dữ liệu dựa trên các định nghĩa metric được tập trung hóa, đồng thời cung cấp quyền truy cập metric xuyên chức năng cho mọi người <br />
-
Metrics store <br /> → Nằm trên data warehouse và cung cấp dữ liệu cho mọi ứng dụng downstream, bao gồm nền tảng BI, công cụ phân tích và data science, cũng như các ứng dụng vận hành <br /> → Giúp dữ liệu duy trì tính nhất quán, để khi business logic thay đổi thì dữ liệu được cập nhật tự động <br />
-
Có các startup như Transform, Trace, Supergrain <br /> <br /> [Reverse ETL]<br />
-
Reverse ETL đã trở thành một danh mục trong modern data stack <br />
-
Di chuyển dữ liệu ngược từ data warehouse sang các ứng dụng kinh doanh như CRM, hệ thống marketing automation, và nền tảng hỗ trợ khách hàng <br />
-
Mục tiêu là để các công cụ vận hành thực tế có thể tận dụng dữ liệu mới nhất đã được tăng cường từ các ứng dụng kinh doanh khác <br />
-
Nhiều công cụ Reverse ETL đã nhận vốn đầu tư: Census, Rudderstack, Grouparoo, Hightouch, Headsup, Polytomic <br /> <br /> [Data Sharing]<br />
-
Sự trỗi dậy của chia sẻ dữ liệu và cộng tác dữ liệu không chỉ trong doanh nghiệp mà còn trên toàn tổ chức <br />
-
Các công ty muốn chia sẻ dữ liệu với hệ sinh thái gồm nhà cung cấp, đối tác và khách hàng để phục vụ khả năng hiển thị chuỗi cung ứng, huấn luyện mô hình machine learning, chia sẻ kế hoạch go-to-market, v.v. <br />
-
Chia sẻ dữ liệu liên tổ chức là chủ đề cốt lõi của các nhà cung cấp “data cloud” <br />
-
Vào 2021/5, Google ra mắt Analytics Hub. Cho phép chia sẻ dữ liệu/insight/dashboard/mô hình machine learning cả trong và ngoài tổ chức. Đồng thời cũng công bố DataShare cho dịch vụ tài chính <br />
-
Cũng trong ngày Google công bố, Databricks đã giới thiệu Delta Sharing, một giao thức mã nguồn mở để chia sẻ dữ liệu giữa các tổ chức <br />
-
Vào 2021/6, Snowflake công bố tính năng Secure Data Sharing thông qua data marketplace <br />
-
Có các startup như Habr, Crossbeam </p><p>## “Các xu hướng chính của ML/AI”<br /> 2020<br />
-
Boom time for data science and machine learning platforms (DSML)<br />
-
ML getting deployed and embedded<br />
-
The Year of NLP<br /> <br /> 2021<br />
-
Feature Stores<br />
-
The rise of ModelOps<br />
-
AI content generation<br />
-
The continued emergence of a separate Chinese AI stack<br /> <br />
-
Nghiên cứu về trí tuệ nhân tạo vẫn đang tiếp tục phát triển với tốc độ nhanh<br /> → DeepMind Alphafold, OpenAI GTP-3/DALL-E/CLIP <br /> <br /> [Feature Stores]<br />
-
Kể từ khi Uber giới thiệu ý tưởng này vào năm 2017, nó ngày càng trở nên phổ biến trong machine learning stack <br /> → Các công ty như Tecton, Rasgo, Logical Clocks, Kaskada đã gọi được các vòng vốn <br />
-
Trong machine learning, feature (biến hoặc thuộc tính) là một thuộc tính hay đặc trưng có thể đo lường riêng lẻ, được biểu diễn dưới dạng cột trong các đoạn dữ liệu<br /> → Mô hình machine learning có thể sử dụng từ một feature cho đến hàng triệu feature <br />
-
Khi sử dụng các mô hình và pipeline ngày càng phức tạp, việc này ngày càng được thực hiện theo kiểu ad-hoc <br />
-
Các kỹ sư và data scientist thường tốn rất nhiều thời gian để trích xuất lại feature từ dữ liệu thô <br />
-
Khoảng cách giữa môi trường production và môi trường thử nghiệm có thể gây ra sự không nhất quán trong hiệu năng hoặc hành vi của mô hình<br />
-
Các tổ chức chỉ quan tâm đến quản trị và khả năng tái lập của mô hình machine learning, nên việc feature bị silo hóa thực tế lại khiến mọi thứ khó hơn <br />
-
Feature store thúc đẩy cộng tác và loại bỏ các silo này <br />
-
Cung cấp một nguồn thông tin duy nhất cho cả huấn luyện lẫn production, từ đó giảm độ phức tạp, chuẩn hóa và tái sử dụng feature <br />
-
Lưu trữ các feature đã được tuyển chọn trong tổ chức, chạy các pipeline dữ liệu chuyển đổi dữ liệu thô thành giá trị feature, và cung cấp truy cập nhanh thông qua API <br /> <br /> [The Rise of ModelOps]<br />
-
Nhiều công ty nhận ra rằng việc đưa mô hình từ giai đoạn thử nghiệm sang production là khó, và các mô hình đang được sử dụng cũng cần được giám sát liên tục và tái huấn luyện <br />
-
MLOps áp dụng các best practice của DevOps. Đơn giản hóa việc phát triển và triển khai nhanh, liên tục các mô hình ở quy mô lớn <br />
-
ModelOps là tập siêu của MLOps. Nó hướng đến việc vận hành nhanh hơn cho mọi mô hình AI, bao gồm cả ML, ở mọi giai đoạn từ huấn luyện đến production <br />
-
ModelOps đề cập đến cả công cụ lẫn quy trình, tích hợp quy trình, chuẩn hóa điều phối mô hình, và cung cấp kho lưu trữ tập trung cho mọi mô hình cùng với các khả năng quản trị toàn diện <br />
-
ModelOps được triển khai tốt sẽ cung cấp một hệ thống hợp nhất để triển khai/giám sát và quản lý mọi mô hình, qua đó giảm rủi ro và tăng tuân thủ <br /> <br /> [AI Content Generation]<br />
-
AI đã trưởng thành vượt bậc trong vài năm qua và được ứng dụng để tạo nội dung trên mọi loại phương tiện, bao gồm văn bản, hình ảnh, mã nguồn và video<br />
-
OpenAI công bố GPT-3. GitHub ra mắt GitHub Copilot sử dụng OpenAI Codex <br />
-
Dù OpenAI tập trung vào các mô hình lấy tiếng Anh làm trung tâm, cũng có nhiều công ty đang phát triển cho các ngôn ngữ khác <br /> → Aleph Alpha của Đức, AI21 Labs, PanGu của Huawei, HyperCLOVA của Naver<br /> <br /> [Việc tiếp tục xuất hiện của một ngăn xếp AI Trung Quốc riêng biệt]<br />
-
Trung Quốc tiếp tục phát triển thành một cường quốc AI toàn cầu cùng với thị trường nội địa riêng, nơi là nhà sản xuất dữ liệu lớn nhất thế giới <br />
-
TikTok, một trong những thuật toán gợi ý hàng đầu, thành công ở phương Tây, đánh dấu lần đầu tiên công nghệ AI tiêu dùng của Trung Quốc thực sự lan rộng <br />
-
Khi Trung Quốc tuyên bố giành quyền bá chủ AI vào năm 2030 và được hậu thuẫn tài chính, một ngăn xếp riêng bắt đầu xuất hiện tại Trung Quốc, nơi trước đó vẫn còn sử dụng các công cụ phương Tây </p>
3 bình luận