21 điểm bởi xguru 2021-11-01 | 3 bình luận | Chia sẻ qua WhatsApp
<p>Tổng hợp Data &amp; AI Landscape 2021 và phần giải thích chi tiết chỉ trong 1 hình ảnh<br /> 1. Góc nhìn vĩ mô: Hiểu sự phức tạp của hệ sinh thái <br /> 2. Gọi vốn, IPO và M&amp;A <br /> 3. The 2021 Landscape<br /> 4. Các xu hướng chính của hạ tầng dữ liệu <br /> &nbsp;→ Data Mesh <br /> &nbsp;→ Một năm bận rộn với DataOps <br /> &nbsp;→ Giờ là thời gian thực<br /> &nbsp;→ Metrics Store<br /> &nbsp;→ Reverse ETL <br /> &nbsp;→ Data Sharing <br /> 5. Các xu hướng chính của analytics &amp; enterprise AI <br /> &nbsp;→ Feature Store<br /> &nbsp;→ Sự trỗi dậy của ModelOps<br /> &nbsp;→ Tạo nội dung bằng AI<br /> &nbsp;→ Sự phát triển của AI stack tại Trung Quốc<br /> <br /> ## &quot;Góc nhìn vĩ mô: Hiểu sự phức tạp của hệ sinh thái&quot;<br /> - Vì sao các công ty dữ liệu &amp; AI cứ tiếp tục ra đời, và xu hướng này sẽ còn kéo dài đến bao giờ?<br /> - Xu thế nền tảng là &quot;mọi công ty đang trở thành công ty dữ liệu, chứ không chỉ là công ty phần mềm đơn thuần&quot;<br /> - Ở nhiều tổ chức, &quot;dữ liệu&quot; từng chỉ có nghĩa là dữ liệu giao dịch được lưu trong RDBMS và vài dashboard để phân tích những gì đã xảy ra trong vài tháng gần đây <br /> - Nhưng giờ đây, doanh nghiệp đang tiến tới một thế giới nơi &quot;dữ liệu và trí tuệ nhân tạo&quot; được nhúng vào &quot;quy trình nội bộ và ứng dụng bên ngoài&quot; để phục vụ cho &quot;phân tích và vận hành&quot; <br /> - Sự tiến hóa nền tảng này được tạo ra nhờ những bước tiến vượt bậc của công nghệ nền tảng — đặc biệt là mối quan hệ cộng sinh (Symbiotic Relationship) giữa &quot;hạ tầng dữ liệu và machine learning/AI&quot;<br /> &nbsp;→ Hai lĩnh vực ngày càng hợp tác chặt chẽ hơn<br /> &nbsp;→ Giai đoạn đầu tiên là &quot;kỷ nguyên Big Data&quot; vào đầu những năm 2010<br /> &nbsp;→ Khi người ta nhận ra rằng áp dụng các thuật toán AI lâu đời hơn 10 năm này (deep learning) vào Big Data có thể tạo ra kết quả đáng kinh ngạc, sự hứng khởi với AI đã bùng lên<br /> &nbsp;→ Kết quả là AI đã trở thành động lực lớn thúc đẩy phát triển hạ tầng dữ liệu<br /> &nbsp;→ Nếu mọi ứng dụng đều được xây dựng dựa trên AI, thì sẽ cần hạ tầng dữ liệu tốt hơn <br /> - Trên đường đi đến năm 2021, các thuật ngữ Big Data và AI đều trải qua nhiều thăng trầm, và gần đây người ta nói nhiều về &quot;Automation&quot;, nhưng về bản chất đây đều là cùng một megatrend<br /> <br /> - Sự tăng tốc gần đây trong lĩnh vực Data/AI có thể được lần theo từ sự phát triển của cloud data warehouse trong vài năm qua<br /> - Data warehouse giải quyết câu hỏi rất cơ bản nhưng thiết yếu của hạ tầng dữ liệu: &quot;lưu ở đâu&quot;<br /> &nbsp;→ Tưởng như sau hơn 15 năm kể từ khi cuộc cách mạng Big Data bắt đầu, vấn đề đó hẳn đã được giải quyết, nhưng thực tế không phải vậy <br /> &nbsp;→ Nhìn lại, thành công ban đầu của Hadoop phần nào chỉ là bề ngoài <br /> &nbsp;→ Nó quan trọng ở chỗ truyền tải được ý tưởng rằng có thể trích xuất giá trị thực từ khối lượng dữ liệu khổng lồ, nhưng do độ phức tạp kỹ thuật, nó chỉ được một số ít công ty sử dụng và không thể thâm nhập thị trường rộng rãi <br /> - Các cloud data warehouse hiện nay (Snowflake, Redshift, BigQuery) và lakehouse (Databricks) thì <br /> &nbsp;→ có chi phí thấp hơn<br /> &nbsp;→ không đòi hỏi một lực lượng kỹ thuật quá đông <br /> &nbsp;→ nhưng vẫn cung cấp khả năng lưu trữ lượng dữ liệu khổng lồ theo cách hữu ích <br /> - Nói cách khác, đến bây giờ chúng ta mới thực sự có thể lưu trữ và xử lý Big Data. Đây là điều cực kỳ quan trọng và đã chứng minh là một Major Unlock cho các lĩnh vực Data/AI khác<br /> &nbsp;→ Thứ nhất, data warehouse làm tăng quy mô thị trường cho toàn bộ hệ sinh thái dữ liệu và AI. Nhờ tính dễ dùng và mô hình định giá theo mức sử dụng, data warehouse trở thành cánh cổng để mọi công ty trở thành công ty dữ liệu<br /> &nbsp;→ Thứ hai, data warehouse cho phép sử dụng cả hệ sinh thái công cụ xung quanh nó. <br /> &nbsp;&nbsp;⇨ ETL, ELT, reverse ETL, công cụ chất lượng dữ liệu lấy warehouse làm trung tâm, metrics store, augmented analytics, v.v. <br /> &nbsp;&nbsp;⇨ &quot;Modern Data Stack&quot; ( https://vi.news.hada.io/topic?id=3055 tham khảo )<br /> &nbsp;&nbsp;⇨ Sự xuất hiện của modern data stack đã tạo ra nhiều startup mới và thu hút đầu tư tập trung vào đó (DBT, Fivetran..)<br /> &nbsp;→ Thứ ba, vì data warehouse giải quyết lớp lưu trữ cơ bản nhất, doanh nghiệp có thể tập trung vào các dự án có giá trị cao hơn ở các tầng nhu cầu dữ liệu<br /> &nbsp;&nbsp;⇨ Giờ đây khi đã lưu trữ được dữ liệu, họ có thể dễ dàng tập trung vào xử lý thời gian thực, augmented analytics, machine learning và các tác vụ tương tự <br /> &nbsp;&nbsp;⇨ Điều này lần lượt làm tăng nhu cầu thị trường với mọi loại công cụ và nền tảng dữ liệu/AI <br /> &nbsp;&nbsp;⇨ Nhu cầu từ nhiều khách hàng hơn tạo ra một flywheel thúc đẩy thêm đổi mới từ các công ty dữ liệu/ML <br /> <br /> &quot;Data warehouse là tín hiệu quan trọng của toàn ngành dữ liệu; khi DW tăng trưởng, phần còn lại cũng tăng trưởng theo&quot;<br /> <br /> - Tin tốt cho ngành dữ liệu/AI là data warehouse và lakehouse đang tăng trưởng cực nhanh và ở quy mô rất lớn <br /> &nbsp;→ Snowflake theo công bố Q2 đã tăng trưởng 103% YoY và cho thấy chỉ số Net Revenue Retention 169%, một con số đáng kinh ngạc (nghĩa là khách hàng hiện tại đang dùng ngày càng nhiều hơn)<br /> &nbsp;→ Dự kiến doanh thu năm 2028 đạt 12 nghìn tỷ won ($10B) <br /> - Một số người thậm chí còn nói rằng trong tương lai, mọi công ty sẽ có ít nhất một cloud data warehouse <br /> <br /> ## &quot;The Titanic Shock: Snowflake vs Databricks&quot;<br /> - Snowflake gần đây là đại diện tiêu biểu nhất của lĩnh vực dữ liệu. IPO vào tháng 9/2020 của họ là thương vụ lớn nhất trong lịch sử IPO phần mềm. Tại thời điểm bài viết, công ty được định giá $95B<br /> - Databricks nổi lên như đối thủ trong ngành mới, hoàn tất vòng gọi vốn $1.6B ngày 31/8 với định giá $38B <br /> - Cho đến gần đây, hai công ty vẫn thuộc về những phân khúc khá khác nhau trên thị trường (thực tế trong một thời gian dài họ còn là đối tác rất chặt chẽ)<br /> - Snowflake là cloud data warehouse, tức một DB dùng để lưu trữ và xử lý lượng lớn dữ liệu có cấu trúc (có thể lưu tốt theo hàng và cột) <br /> &nbsp;→ Doanh nghiệp dùng nó để kết nối công cụ BI và trả lời các câu hỏi về hiệu quả trong quá khứ và hiện tại (&quot;khu vực nào tăng trưởng nhanh nhất trong quý trước?&quot;) <br /> &nbsp;→ Giống như các DB khác, nó sử dụng SQL nên có hàng triệu người dùng tiềm năng <br /> - Databricks đến từ một góc khác của thế giới dữ liệu <br /> &nbsp;→ Bắt đầu từ năm 2013 với việc thương mại hóa Spark mã nguồn mở <br /> &nbsp;→ Nhìn chung được tạo ra để xử lý dữ liệu phi cấu trúc (text, audio, video) <br /> &nbsp;→ Người dùng Spark đã dùng nó để xây dựng &quot;Data Lake&quot;, nơi có thể chứa mọi loại dữ liệu mà không cần lo lắng nhiều về cấu trúc hay cách tổ chức dữ liệu <br /> &nbsp;→ Mục đích chính của data lake là huấn luyện các ứng dụng ML/AI để doanh nghiệp có thể trả lời các câu hỏi về tương lai (&quot;khách hàng nào có khả năng mua hàng cao nhất trong quý tới?&quot;, tức predictive analytics)<br /> &nbsp;→ Databricks tạo ra Delta để hỗ trợ data lake, và tạo ML Flow để hỗ trợ ML/AI <br /> - Tuy nhiên gần đây, hai công ty đang dần hội tụ về phía nhau <br /> &nbsp;→ Databricks đưa chức năng DW vào data lake để các nhà phân tích có thể chạy truy vấn SQL chuẩn và kết nối các công cụ như Tableau hay MS PowerBI. Họ tạo ra thứ gọi là &quot;Lakehouse&quot; <br /> &nbsp;→ Databricks đang làm cho data lake giống data warehouse hơn, còn Snowflake thì đã công bố preview tính năng lưu trữ dữ liệu phi cấu trúc (audio, video, PDF, image, v.v.) để data warehouse trông giống data lake hơn <br /> &nbsp;→ Databricks đang thêm BI vào các chức năng AI, còn Snowflake thì đang thêm AI vào các chức năng tương thích BI <br /> - Cuối cùng, cả Snowflake và Databricks đều muốn trở thành &quot;The center of all things data&quot;

→ Một kho lưu trữ duy nhất để lưu toàn bộ dữ liệu. Lưu cả dữ liệu có cấu trúc/phi cấu trúc và thực hiện mọi phân tích từ quá khứ đến dự đoán tương lai<br />

  • Tất nhiên có rất nhiều đối thủ cạnh tranh (các cloud hyperscaler như AWS, GCP)<br />
  • Cả Snowflake và Databricks đều vừa là bạn vừa là đối thủ (Friend and Foe) của các nhà cung cấp cloud<br /> → Snowflake, vốn phát triển dựa trên AWS, hiện đang mở rộng sang các cloud khác <br /> → Databricks có quan hệ đối tác rất mạnh với MS, nhưng cũng đang giúp tránh bị vendor lock-in thông qua khả năng multi-cloud <br /> → Trong vài năm qua, những người chỉ trích cho rằng mô hình kinh doanh của Snowflake và Databricks khiến biên lợi nhuận phụ thuộc vào quyết định định giá của các nhà cung cấp cloud <br />
  • Trong 5 năm tới, việc theo dõi điệu nhảy giữa các nhà cung cấp cloud và các gã khổng lồ dữ liệu (Behemoth) sẽ là câu chuyện mang tính quyết định <br /> <br />

"Bundling, Unbundling, Consolidation?"<br />

  • Xét đến đà tăng trưởng của cả Snowflake và Databricks, liệu đây có phải là khởi đầu của làn sóng hợp nhất mà ngành đã chờ đợi?<br />
  • Trong lĩnh vực dữ liệu / AI, "hợp nhất chức năng (functional consolidation) đang diễn ra"<br />
  • Nhưng ai cũng vậy. Không ai muốn chỉ là một công ty một sản phẩm; ai cũng muốn bundle nhiều hơn và có nhiều chức năng hơn<br /> → Confluent, lên sàn vào 2021/6, cũng đang hướng tới việc vượt ra ngoài lĩnh vực dữ liệu thời gian thực để "hợp nhất xử lý dữ liệu chuyển động và dữ liệu tĩnh" <br /> → Dataiku tập trung vào việc bundle toàn bộ quy trình từ chuẩn bị dữ liệu đến DataOps, MLOps, trực quan hóa và AI explainability vào một nền tảng <br />
  • Sự xuất hiện của modern data stack là một ví dụ khác của hợp nhất chức năng <br /> → Trọng tâm của nó là một "liên minh" trên thực tế giữa các công ty (phần lớn là startup) kết nối từ trích xuất dữ liệu đến data warehouse rồi đến BI <br />
  • Với người dùng các công nghệ này, bundling và hội tụ sẽ được chào đón khá nhiều<br /> → Khi ngày càng trưởng thành, ngành dữ liệu cần tiến hóa vượt qua các ranh giới công nghệ như "transaction vs. analytics", "batch processing vs. real-time", "BI vs AI" <br />
  • Các doanh nghiệp sẽ tiếp tục phối hợp với nhiều vendor/nền tảng/công cụ để tạo ra tổ hợp phù hợp nhất với nhu cầu của mình<br /> <br />
  • Lý do cốt lõi là "tốc độ đổi mới quá bùng nổ"<br /> → Các startup mới liên tục xuất hiện, các công ty Big Tech tự tạo công cụ dữ liệu/AI nội bộ rồi open source hóa, và mỗi tuần đều có điều mới xuất hiện cho mọi công nghệ/sản phẩm hiện có <br /> <br />
  • Các vendor big data warehouse và data lake đang thúc đẩy việc tập trung hóa toàn bộ dữ liệu, nhưng các framework mới như "Data Mesh" cũng đang xuất hiện <br /> → Cách tiếp cận phân tán, nơi nhiều đội ngũ khác nhau tự chịu trách nhiệm phần của mình <br /> <br />
  • Ngoài hợp nhất chức năng, rất khó biết liệu M&A có diễn ra hay không <br /> → Một trong những tin đồn mà nhiều người thích là "MS muốn mua lại Databricks"<br /> <br />

"Financings, IPOs, M&A: A Crazy Market"<br />

  • Ai từng theo dõi thị trường startup đều sẽ biết: thị trường đang phát điên <br />
  • Tiếp nối năm ngoái, năm nay dữ liệu và ML/AI vẫn là hạng mục đầu tư nóng nhất<br />
  • Các công ty dự kiến lên sàn<br /> → UiPath : công ty RPA và tự động hóa AI <br /> → Confluent : Kafka <br /> → C3.ai : nền tảng AI <br /> → Couchbase : DB no-SQL <br /> → SentinelOne : nền tảng bảo mật endpoint AI tự động hóa <br /> → TuSimple : xe tải tự lái <br /> → Zymergen : bio-manufacturing <br /> → Recursion : công ty phát triển thuốc dựa trên AI<br /> → Darktrace : an ninh mạng dựa trên AI<br />
  • Sự gia tăng của SPAC sẽ mang lại lợi ích cho các công ty công nghệ ở tuyến đầu của thị trường AI (xe tự hành, biotech, v.v.)<br /> <br />

"The 2021 MAD Landscape & What’s New this Year"<br />

  • Trong bản đồ năm nay, "Analytics and Machine Intelligence" được tách thành “Analytics” và “Machine Learning & Artificial Intelligence” <br />
  • Thêm các danh mục mới <br /> → Infrastructure<br /> ⇨ Reverse ETL : các sản phẩm chuyển dữ liệu ngược từ data warehouse sang ứng dụng SaaS <br /> ⇨ Data Observability : thành phần của DataOps tập trung giải quyết vấn đề chất lượng dữ liệu dựa trên data lineage <br /> ⇨ Privacy & Security : quyền riêng tư dữ liệu ngày càng quan trọng, và nhiều startup đang xuất hiện trong danh mục này <br /> → Analytics<br /> ⇨ Data Catalogs & Discovery : danh mục sôi động nhất trong 12 tháng qua. Giúp người dùng tìm và quản lý dataset họ cần <br /> ⇨ Augmented Analytics : các công cụ BI tận dụng tiến bộ của NLG/NLP để tự động tạo insight và giúp dữ liệu dễ tiếp cận hơn với người nghe không chuyên kỹ thuật <br /> ⇨ Metrics Stores : kho lưu trữ trung tâm cho các chỉ số kinh doanh chính. Một mảng mới gia nhập data stack<br /> ⇨ Query Engines <br /> → Machine Learning and AI <br /> ⇨ Phân nhỏ danh mục MLOps : Model Building, Feature Stores, Deployment and Production <br /> → Open Source <br /> ⇨ Thêm Format, Orchestration, Data Quality & Observability <br />
  • Trước đây có nhiều startup từ series C trở lên hoặc công ty đã niêm yết, nhưng năm nay có thêm nhiều công ty ở giai đoạn series A/seed <br /> <br />

"Các xu hướng chính của hạ tầng dữ liệu"<br />

  • 2020 <br /> → Modern Data Stack trở thành mainstream <br /> → ETL vs ELT <br /> → Tự động hóa data engineering?<br /> → Sự trỗi dậy của data analyst <br /> → Data lake và data warehouse có hợp nhất không?<br /> → Độ phức tạp vẫn chưa được giải quyết <br /> <br />

  • 2021 <br /> → Data Mesh <br /> → Một năm bận rộn cho DataOps <br /> → Giờ là thời gian của real-time<br /> → Metrics Stores <br /> → Reverse ETL <br /> → Data Sharing <br /> <br /> [Data Mesh]<br />

  • Bắt nguồn từ bài viết của Zhamak Dehghani năm 2019, "How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh" <br />

  • Có rất nhiều động lực trong giai đoạn 2020~21<br />

  • Khái niệm data mesh phần lớn là một ý tưởng mang tính tổ chức<br />

  • Cho đến nay, cách tiêu chuẩn để xây dựng hạ tầng và đội ngũ dữ liệu là tập trung hóa. Một nền tảng lớn duy nhất do một đội dữ liệu quản lý sẽ đáp ứng các yêu cầu kinh doanh <br />

  • Có nhiều ưu điểm, nhưng cũng phát sinh các vấn đề như nút thắt cổ chai <br />

  • Thông qua phi tập trung hóa, tạo ra các đội dữ liệu độc lập phụ trách từng domain và cung cấp dữ liệu cho những người khác trong tổ chức như một "sản phẩm" <br /> → Tương tự khái niệm microservices trong kỹ thuật phần mềm <br />

  • Nó có nhiều ý nghĩa khác nhau <br /> → Nếu điều này trở nên khả thi, đây sẽ là cơ hội lớn cho các công ty mới xây công cụ mission-critical trong distributed data stack<br />

  • Starburst, SQL Query Engine dùng để query và phân tích hợp nhất trên nhiều kho lưu trữ, đã rebrand mình thành "công cụ phân tích cho data mesh" <br />

  • Những thứ như orchestration engine quản lý các pipeline phức tạp (Airflow, Prefect, Dagster) sẽ trở nên mission-critical hơn nữa <br />

  • Việc theo dõi dữ liệu trong các kho lưu trữ và hệ thống pipeline ngày càng trở nên thiết yếu hơn ở góc độ tuân thủ & quản trị, làm gia tăng nhu cầu về Data Lineage (OpenLineage, DataKin)<br /> <br /> [Một năm bận rộn với DataOps]<br />

  • Khái niệm DataOps đã lơ lửng trong vài năm qua, và gần đây mới thực sự được kích hoạt <br />

  • Có nhiều định nghĩa khác nhau <br /> → DevOps của thế giới dữ liệu <br /> → Mọi thứ cần thiết để xây dựng và vận hành pipeline dữ liệu, tìm đúng bộ dữ liệu thông qua data catalog, đồng thời giúp nhà sản xuất và người tiêu thụ dữ liệu thực hiện công việc họ cần <br />

  • Dù sao thì, giống như DevOps, đây là “sự kết hợp của phương pháp luận, quy trình, con người, nền tảng và công cụ”<br />

  • Trong bối cảnh rộng hơn, “các công cụ và thực hành data engineering” vẫn còn tụt khá xa so với mức độ tự động hóa của software engineering<br />

  • Dữ liệu/AI càng trở nên quan trọng thì càng cần công cụ và thực hành tốt hơn <br />

  • Ai cũng muốn trở thành “DataDog của thế giới dữ liệu” (thực tế DataDog cũng được dùng cho DataOps, nhưng về cơ bản vẫn dựa trên software engineering)<br />

  • Có nhiều phần nhỏ khác nhau như Data observability, Data Lineage, Data Quality, Data Reliability Engineering, Data Access & Governance<br /> <br /> [Giờ là thời gian thực]<br />

  • Dữ liệu “thời gian thực” hoặc “streaming” là dữ liệu được xử lý và tiêu thụ ngay sau khi được tạo ra <br />

  • Đây là khái niệm đối lập với “batch”, vốn là mô hình thống trị của hạ tầng dữ liệu cho đến nay <br />

  • Xử lý dữ liệu thời gian thực đã là chủ đề nóng từ giai đoạn đầu của kỷ nguyên big data cách đây 10-15 năm<br /> → Đặc biệt, tốc độ xử lý là yếu tố cốt lõi thúc đẩy thành công của Spark so với HadoopMR <br />

  • Nhưng suốt nhiều năm, đây là thị trường “sắp bùng nổ” nhưng lại chưa thực sự bùng nổ <br />

  • Thành công vang dội của IPO Confluent đã chứng minh phe hoài nghi đã sai <br />

  • Và vượt ra ngoài Confluent, toàn bộ hệ sinh thái dữ liệu thời gian thực đã được tăng tốc <br />

  • Đặc biệt, “real-time analytics” cho thấy rất nhiều hoạt động <br /> → ClickHouse do Yandex của Nga tạo ra đã thành lập công ty tại Mỹ và nhận đầu tư $50M <br /> → Imply, nền tảng phân tích thời gian thực dựa trên mã nguồn mở Druid, đã nhận đầu tư $70M <br /> <br /> [Metrics Stores]<br />

  • Trong vài năm qua, dữ liệu doanh nghiệp cũng như tần suất sử dụng và độ phức tạp của dữ liệu đều gia tăng <br />

  • Khi độ phức tạp tăng lên, những rắc rối do dữ liệu không nhất quán cũng tăng theo <br />

  • Các metric có thể dễ dàng bị lệch chỉ vì thay đổi nhỏ ở dimension/định nghĩa hoặc các nguyên nhân khác<br />

  • Dữ liệu chỉ hữu ích khi chính xác và đáng tin cậy đối với các nhóm sử dụng nó <br />

  • Nỗ lực tập trung hóa metric đã dẫn đến việc phát triển các giải pháp nội bộ như Minerva của AirBnB với khẩu hiệu “Define Once, Use Anywhere”<br />

  • Chuẩn hóa định nghĩa của các metric kinh doanh chính và toàn bộ dimension, đồng thời cung cấp cho các bên liên quan các bộ dữ liệu chính xác và có thể phân tích dựa trên các định nghĩa đó <br />

  • Xây dựng niềm tin vào dữ liệu dựa trên các định nghĩa metric được tập trung hóa, đồng thời cung cấp quyền truy cập metric xuyên chức năng cho mọi người <br />

  • Metrics store <br /> → Nằm trên data warehouse và cung cấp dữ liệu cho mọi ứng dụng downstream, bao gồm nền tảng BI, công cụ phân tích và data science, cũng như các ứng dụng vận hành <br /> → Giúp dữ liệu duy trì tính nhất quán, để khi business logic thay đổi thì dữ liệu được cập nhật tự động <br />

  • Có các startup như Transform, Trace, Supergrain <br /> <br /> [Reverse ETL]<br />

  • Reverse ETL đã trở thành một danh mục trong modern data stack <br />

  • Di chuyển dữ liệu ngược từ data warehouse sang các ứng dụng kinh doanh như CRM, hệ thống marketing automation, và nền tảng hỗ trợ khách hàng <br />

  • Mục tiêu là để các công cụ vận hành thực tế có thể tận dụng dữ liệu mới nhất đã được tăng cường từ các ứng dụng kinh doanh khác <br />

  • Nhiều công cụ Reverse ETL đã nhận vốn đầu tư: Census, Rudderstack, Grouparoo, Hightouch, Headsup, Polytomic <br /> <br /> [Data Sharing]<br />

  • Sự trỗi dậy của chia sẻ dữ liệu và cộng tác dữ liệu không chỉ trong doanh nghiệp mà còn trên toàn tổ chức <br />

  • Các công ty muốn chia sẻ dữ liệu với hệ sinh thái gồm nhà cung cấp, đối tác và khách hàng để phục vụ khả năng hiển thị chuỗi cung ứng, huấn luyện mô hình machine learning, chia sẻ kế hoạch go-to-market, v.v. <br />

  • Chia sẻ dữ liệu liên tổ chức là chủ đề cốt lõi của các nhà cung cấp “data cloud” <br />

  • Vào 2021/5, Google ra mắt Analytics Hub. Cho phép chia sẻ dữ liệu/insight/dashboard/mô hình machine learning cả trong và ngoài tổ chức. Đồng thời cũng công bố DataShare cho dịch vụ tài chính <br />

  • Cũng trong ngày Google công bố, Databricks đã giới thiệu Delta Sharing, một giao thức mã nguồn mở để chia sẻ dữ liệu giữa các tổ chức <br />

  • Vào 2021/6, Snowflake công bố tính năng Secure Data Sharing thông qua data marketplace <br />

  • Có các startup như Habr, Crossbeam </p><p>## “Các xu hướng chính của ML/AI”<br /> 2020<br />

  • Boom time for data science and machine learning platforms (DSML)<br />

  • ML getting deployed and embedded<br />

  • The Year of NLP<br /> <br /> 2021<br />

  • Feature Stores<br />

  • The rise of ModelOps<br />

  • AI content generation<br />

  • The continued emergence of a separate Chinese AI stack<br /> <br />

  • Nghiên cứu về trí tuệ nhân tạo vẫn đang tiếp tục phát triển với tốc độ nhanh<br /> → DeepMind Alphafold, OpenAI GTP-3/DALL-E/CLIP <br /> <br /> [Feature Stores]<br />

  • Kể từ khi Uber giới thiệu ý tưởng này vào năm 2017, nó ngày càng trở nên phổ biến trong machine learning stack <br /> → Các công ty như Tecton, Rasgo, Logical Clocks, Kaskada đã gọi được các vòng vốn <br />

  • Trong machine learning, feature (biến hoặc thuộc tính) là một thuộc tính hay đặc trưng có thể đo lường riêng lẻ, được biểu diễn dưới dạng cột trong các đoạn dữ liệu<br /> → Mô hình machine learning có thể sử dụng từ một feature cho đến hàng triệu feature <br />

  • Khi sử dụng các mô hình và pipeline ngày càng phức tạp, việc này ngày càng được thực hiện theo kiểu ad-hoc <br />

  • Các kỹ sư và data scientist thường tốn rất nhiều thời gian để trích xuất lại feature từ dữ liệu thô <br />

  • Khoảng cách giữa môi trường production và môi trường thử nghiệm có thể gây ra sự không nhất quán trong hiệu năng hoặc hành vi của mô hình<br />

  • Các tổ chức chỉ quan tâm đến quản trị và khả năng tái lập của mô hình machine learning, nên việc feature bị silo hóa thực tế lại khiến mọi thứ khó hơn <br />

  • Feature store thúc đẩy cộng tác và loại bỏ các silo này <br />

  • Cung cấp một nguồn thông tin duy nhất cho cả huấn luyện lẫn production, từ đó giảm độ phức tạp, chuẩn hóa và tái sử dụng feature <br />

  • Lưu trữ các feature đã được tuyển chọn trong tổ chức, chạy các pipeline dữ liệu chuyển đổi dữ liệu thô thành giá trị feature, và cung cấp truy cập nhanh thông qua API <br /> <br /> [The Rise of ModelOps]<br />

  • Nhiều công ty nhận ra rằng việc đưa mô hình từ giai đoạn thử nghiệm sang production là khó, và các mô hình đang được sử dụng cũng cần được giám sát liên tục và tái huấn luyện <br />

  • MLOps áp dụng các best practice của DevOps. Đơn giản hóa việc phát triển và triển khai nhanh, liên tục các mô hình ở quy mô lớn <br />

  • ModelOps là tập siêu của MLOps. Nó hướng đến việc vận hành nhanh hơn cho mọi mô hình AI, bao gồm cả ML, ở mọi giai đoạn từ huấn luyện đến production <br />

  • ModelOps đề cập đến cả công cụ lẫn quy trình, tích hợp quy trình, chuẩn hóa điều phối mô hình, và cung cấp kho lưu trữ tập trung cho mọi mô hình cùng với các khả năng quản trị toàn diện <br />

  • ModelOps được triển khai tốt sẽ cung cấp một hệ thống hợp nhất để triển khai/giám sát và quản lý mọi mô hình, qua đó giảm rủi ro và tăng tuân thủ <br /> <br /> [AI Content Generation]<br />

  • AI đã trưởng thành vượt bậc trong vài năm qua và được ứng dụng để tạo nội dung trên mọi loại phương tiện, bao gồm văn bản, hình ảnh, mã nguồn và video<br />

  • OpenAI công bố GPT-3. GitHub ra mắt GitHub Copilot sử dụng OpenAI Codex <br />

  • Dù OpenAI tập trung vào các mô hình lấy tiếng Anh làm trung tâm, cũng có nhiều công ty đang phát triển cho các ngôn ngữ khác <br /> → Aleph Alpha của Đức, AI21 Labs, PanGu của Huawei, HyperCLOVA của Naver<br /> <br /> [Việc tiếp tục xuất hiện của một ngăn xếp AI Trung Quốc riêng biệt]<br />

  • Trung Quốc tiếp tục phát triển thành một cường quốc AI toàn cầu cùng với thị trường nội địa riêng, nơi là nhà sản xuất dữ liệu lớn nhất thế giới <br />

  • TikTok, một trong những thuật toán gợi ý hàng đầu, thành công ở phương Tây, đánh dấu lần đầu tiên công nghệ AI tiêu dùng của Trung Quốc thực sự lan rộng <br />

  • Khi Trung Quốc tuyên bố giành quyền bá chủ AI vào năm 2030 và được hậu thuẫn tài chính, một ngăn xếp riêng bắt đầu xuất hiện tại Trung Quốc, nơi trước đó vẫn còn sử dụng các công cụ phương Tây </p>

3 bình luận

 
ehanmire 2021-11-11
<p>Tôi đã nhận được nhiều insight hay từ nhiều câu văn và đang suy nghĩ rất nhiều về chúng<br /> Xin cảm ơn~<br /> <br /> Chợt tôi nghĩ rằng quy trình và dữ liệu giống như xương và máu,<br /> rồi máu sẽ tụ lại ở đâu đó, các mạch máu hình thành và mô được tạo ra,<br /> nhưng rồi tôi lại tự hỏi có phải việc doanh nghiệp kiếm tiền đến từ sự chuyển động hay không,<br /> và một phép ví von kỳ lạ như vậy bỗng nhiên xuất hiện trong đầu tôi. </p>
 
sungwoo 2021-11-08
<p>Xin cảm ơn vì anh/chị luôn tổng hợp và sắp xếp thông tin chất lượng cao một cách gọn gàng.</p>
 
xguru 2021-11-07
<p>Bức tranh toàn cảnh Data &amp; AI 2020 https://vi.news.hada.io/topic?id=2979</p&gt;