Triển vọng kỹ thuật dữ liệu: Dự đoán năm 2025 của Data Engineering Weekly

xguru · 2024-12-23T10:36:01+09:00

Những thay đổi lớn của kỹ thuật dữ liệu trong năm 2024: sự tăng trưởng bùng nổ của AI tạo sinh, sự trưởng thành của quản trị dữ liệu, và sự tập trung vào hiệu quả cùng xử lý thời gian thực Trên nền tảng của các xu hướng này, năm 2025 được dự đoán sẽ xuất hiện năm xu hướng chính làm thay đổi thế giới dữ liệu 1. Sự phát triển của điện toán AI NVIDIA đang vươn lên trở thành công ty lớn nhất thế giới theo vốn hóa thị trường, với đà tăng trưởng có thể xem là chỉ xuất hiện một lần trong một thế hệ Google đã công bố một bước đột phá mang tính đổi mới trong lĩnh vực điện toán lượng tử thông qua Willow Amazon, Google, Microsoft và các công ty khác đang cạnh tranh khốc liệt trong thị trường chip AI, trong đó chip Trainium2 của Amazon là một ví dụ tiêu biểu Các PC và thiết bị được trang bị Neural Processing Units (NPUs) đang cho phép thực hiện tính toán AI ngoại tuyến và cải thiện quyền riêng tư dữ liệu Những đổi mới như Edge TPU của Google đang thúc đẩy nhanh hơn quá trình chuyển dịch sang điện toán biên tiết kiệm năng lượng, qua đó giảm sự phụ thuộc vào hạ tầng đám mây tập trung Việc chuyển sang các kiến trúc điện toán lai và tiết kiệm năng lượng đang thu hẹp khoảng cách giữa hiệu năng, chi phí và quyền riêng tư của các ứng dụng AI Các chip Neuromorphic mô phỏng cấu trúc của não bộ được kỳ vọng sẽ mang lại hiệu quả năng lượng vượt trội cùng khả năng xử lý dữ liệu phi cấu trúc trực tiếp trên thiết bị Những tiến bộ đáng kể trong lĩnh vực điện toán thần kinh hình thái và lượng tử đang mở ra những chân trời mới cho năng lực AI Những tiến bộ về phần cứng AI này được dự báo sẽ dẫn dắt đổi mới trong xử lý ngôn ngữ tự nhiên, thị giác máy tính, robot và y tế sau năm 2025 2. Sự tiến hóa của các mô hình ngôn ngữ chuyên biệt theo miền Domain-specific language models (LLMs) Các mô hình ngôn ngữ theo miền được huấn luyện trên bộ dữ liệu của từng ngành cụ thể đang đưa việc ứng dụng AI trong mỗi ngành lên một tầm cao mới Trong các ngành như y tế, tài chính, pháp lý và sản xuất, các mô hình này đang được áp dụng để giải quyết chính xác những bài toán phức tạp và giàu ngữ cảnh Các năng lực AI được tinh chỉnh theo yêu cầu chi tiết của từng ngành đang tạo ra đổi mới trong quy trình vận hành và quá trình ra quyết định trên toàn doanh nghiệp Small Language Models (SLMs) Các mô hình ngôn ngữ quy mô nhỏ (Small Language Models, SLMs) đang thu hút sự chú ý nhờ hiệu quả chi phí và khả năng thích ứng Các SLM được tối ưu cho tác vụ cụ thể đang cho thấy hiệu năng vượt trội hơn các mô hình lớn trong những phạm vi giới hạn Với yêu cầu tính toán thấp hơn và khả năng triển khai thuận tiện hơn, SLM sẽ dân chủ hóa quyền tiếp cận AI, giúp các tổ chức ở mọi quy mô triển khai năng lực ngôn ngữ tinh vi mà không phải gánh nặng quản lý các hệ thống tiêu tốn nhiều tài nguyên 3. Bộ điều phối AI và suy luận đa bước Bộ điều phối AI Khi các doanh nghiệp áp dụng nhiều AI agent chuyên biệt khác nhau, bộ điều phối AI được dự báo sẽ đóng vai trò trung tâm trong data stack vận hành bằng AI Các bộ điều phối này hoạt động như một control plane thông minh, định tuyến công việc một cách động tới agent phù hợp nhất, tổng hợp kết quả và cung cấp insight có thể hành động Với khả năng hiểu nội dung sâu, xử lý đa ngôn ngữ và hỗ trợ nhiều loại dữ liệu, chúng tích hợp nhiều AI agent vào một workflow nhất quán Sự phát triển của suy luận đa bước Các mô hình AI đang tiến hóa vượt ra ngoài kiểu hỏi đáp đơn giản để giải quyết các vấn đề phức tạp thông qua suy luận đa bước Bằng cách chia các tác vụ phức tạp thành các bước tuần tự nhỏ hơn, AI có thể tạo ra những phân tích chính xác và sâu sắc hơn Năng lực này sẽ cho phép các AI agent xử lý các tác vụ tự động hóa long-tail trong lập trình, y tế, pháp lý và nhiều ngành khác Sự kết hợp giữa bộ điều phối AI và suy luận đa bước sẽ mở ra một kỷ nguyên mới của AI, mở rộng mạnh mẽ ảnh hưởng của AI đối với giải quyết vấn đề và ra quyết định trong nhiều lĩnh vực 4. Môi trường phát triển tích hợp thế hệ mới cho dữ liệu (Data IDE) Cách tiếp cận kỹ thuật dữ liệu đang thay đổi một cách căn bản do nhu cầu insight dữ liệu ngày càng tăng của các tổ chức Năm 2025 được dự đoán sẽ chứng kiến sự xuất hiện của một loại môi trường phát triển tích hợp (IDE) mới, được thiết kế để dân chủ hóa việc truy cập và thao tác dữ liệu một cách hiệu quả Những công cụ như lakebyte.ai đang cho thấy bước khởi đầu của làn sóng đổi mới này Các đặc điểm cốt lõi Tích hợp liền mạch Toàn bộ vòng đời dữ liệu, từ thu thập và chuyển đổi cho đến phân tích, trực quan hóa và triển khai, sẽ được tích hợp trơn tru trong một môi trường thống nhất Hỗ trợ thông minh dựa trên AI Các tính năng AI sẽ được tích hợp để cung cấp hoàn thiện mã thông minh, làm sạch dữ liệu tự động và các gợi ý thông minh nhằm tối ưu pipeline Không chỉ hỗ trợ viết mã, chúng còn hiểu ý nghĩa của dữ liệu và đề xuất cách tốt nhất để chuyển đổi dữ liệu Giao diện Low-Code/No-Code Thông qua giao diện trực quan kéo thả, ngay cả người dùng có ít kinh nghiệm lập trình cũng có thể xây dựng và quản lý pipeline dữ liệu Đồng thời vẫn cung cấp sự linh hoạt để người dùng nâng cao có thể viết mã tùy chỉnh khi cần Tính năng cộng tác Thúc đẩy sự cộng tác liền mạch giữa data engineer, data scientist, analyst và người dùng nghiệp vụ Cho phép cùng làm việc trên các dự án dữ liệu trong một môi trường chia sẻ Quản trị dữ liệu tích hợp sẵn Kiểm tra chất lượng dữ liệu, pipeline CI/CD, chạy kiểm thử tích hợp trước khi đẩy lên production, kiểm soát truy cập và theo dõi lineage đều được tích hợp trực tiếp vào workflow phát triển Bảo đảm quản trị dữ liệu không bị đẩy thành việc cân nhắc ở giai đoạn sau Hỗ trợ nhiều nguồn và định dạng dữ liệu Cung cấp connector gốc cho phạm vi rộng các nguồn dữ liệu như cơ sở dữ liệu, data lake, nền tảng streaming và lưu trữ đám mây Hỗ trợ nhiều định dạng dữ liệu, bao gồm dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc Cloud-native và khả năng mở rộng Được thiết kế để chạy trên đám mây, tận dụng khả năng mở rộng và tính đàn hồi của hạ tầng cloud Việc dân chủ hóa dữ liệu thông qua các IDE mạnh mẽ và trực quan được dự đoán sẽ tạo ra lớp 'Citizen Data Engineers' Các chuyên gia miền nghiệp vụ sẽ có thể xây dựng và quản lý workflow dữ liệu ngay cả khi họ không phải là lập trình viên truyền thống Khi rào cản giữa đội ngũ kỹ thuật và phi kỹ thuật bị xóa nhòa, đổi mới dựa trên dữ liệu được kỳ vọng sẽ tăng tốc Prompt Wrangling được dự đoán sẽ trở thành kỹ năng quan trọng nhất đối với data engineer trong năm 2025 5. Sự trỗi dậy của LakeDB: Biến định dạng lakehouse thành DB Ranh giới giữa data lake, data warehouse và database đang ngày càng mờ đi Năm 2025 được dự đoán sẽ xuất hiện một mô hình mới mang tên LakeDB Đây là dạng tiến hóa của khái niệm LakeHouse, phát triển theo hướng tích hợp trực tiếp các năng lực cơ sở dữ liệu mạnh hơn vào data lake Vừa giữ được tính mở rộng và linh hoạt của object storage, vừa mang lại hiệu năng và tính dễ sử dụng của cơ sở dữ liệu truyền thống Nó cung cấp các khả năng nâng cao vượt ra ngoài việc chỉ truy vấn object storage và định dạng bảng Quản lý buffer, cache, index và thao tác ghi theo cách native để đạt được hiệu năng và hiệu quả ở cấp độ LakeHouse LakeHouse hiện tại phụ thuộc vào các framework xử lý bên ngoài như Spark hoặc Flink cho việc thu thập dữ liệu, chuyển đổi và ghi dữ liệu Sự phụ thuộc này làm gia tăng độ phức tạp và tạo ra độ trễ Hiệu năng có thể không nhất quán và phát sinh vấn đề tương tác tùy theo cách triển khai LakeDB sẽ bao gồm các khả năng sau: Khả năng ghi native Cung cấp đường ghi được tối ưu trực tiếp cho object storage nền tảng, loại bỏ nhu cầu dùng engine xử lý bên ngoài trong các tác vụ phổ biến Việc bổ sung gần đây tính năng ghi có điều kiện của S3 khiến người ta kỳ vọng object storage đám mây sẽ hỗ trợ đường ghi của LakeDB Buffering và caching thông minh Quản lý buffering và caching dữ liệu một cách thông minh để tối ưu cả hiệu năng đọc lẫn ghi Quản lý giao dịch Cung cấp các năng lực quản lý giao dịch mạnh mẽ bằng cách tận dụng ghi có điều kiện của S3 và các kỹ thuật quản lý metadata nâng cao Cung cấp các cơ chế tích hợp sẵn để bảo đảm tính nhất quán và toàn vẹn dữ liệu Hiệu năng truy vấn thông minh Tích hợp các in-process OLAP engine như DuckDB để cải thiện hiệu quả xử lý dữ liệu quy mô nhỏ Cải thiện hiệu quả truy vấn thông qua indexing nâng cao và tối ưu hóa truy vấn Tự động chọn chiến lược tối ưu mà không yêu cầu người dùng phải xây dựng riêng chiến lược truy vấn theo quy mô dữ liệu Quản lý dữ liệu tự động Tự động hóa phân tầng dữ liệu, nén và các chức năng tối ưu khác để đơn giản hóa vận hành và giảm chi phí Khả năng mở rộng và tìm kiếm vector Cung cấp hỗ trợ tích hợp sẵn cho vector database và tìm kiếm tương đồng Có thể tối ưu hiệu năng đọc và ghi bằng cách áp dụng có chọn lọc kỹ thuật indexing phù hợp nhất cho từng cột Các tính năng như hỗ trợ secondary index của Hudi và kiểu dữ liệu biến thiên của Delta đã bắt đầu xuất hiện trong các định dạng LakeHouse Khái niệm LakeDB vẫn đang ở giai đoạn đầu, nhưng năm 2025 được kỳ vọng sẽ chứng kiến nhiều đổi mới đáng kể trong lĩnh vực này Các định dạng LakeHouse hiện có có thể sẽ tiến hóa để tích hợp thêm nhiều tính năng giống LakeDB hơn, đồng thời cũng có thể xuất hiện các giải pháp mới được xây dựng ngay từ đầu với tầm nhìn này 6. Data Mesh & Contract-based zero ETL và kiến trúc liên hợp Dù vẫn tồn tại góc nhìn hoài nghi đối với data contract và mesh, ngày càng nhiều doanh nghiệp được dự đoán sẽ áp dụng kiến trúc data mesh Đặc biệt, việc sử dụng data mesh được dự báo sẽ tăng lên trong các trường hợp cần trao đổi dữ liệu trong nội bộ doanh nghiệp Zero ETL và kiến trúc truy vấn liên hợp đang dẫn dắt sự thay đổi này Zero ETL Công nghệ đang phát triển theo hướng giảm thiểu việc di chuyển và sao chép dữ liệu Các công nghệ như data virtualization, federated query engine và giao thức chia sẻ dữ liệu đang cho phép truy cập và phân tích dữ liệu mà không cần các quy trình ETL phức tạp Các quy trình ETL truyền thống vốn phức tạp và tốn thời gian được kỳ vọng sẽ được đơn giản hóa Chia sẻ dữ liệu đang nổi lên như một yếu tố cân nhắc cốt lõi Các giao thức và nền tảng chia sẻ dữ liệu an toàn, hiệu quả đang cho phép hợp tác với đối tác, khách hàng và cả đối thủ cạnh tranh Việc áp dụng các tiêu chuẩn như Delta Sharing đang gia tăng và được kỳ vọng sẽ tiếp tục phát triển Triển vọng tương lai Các nhóm theo miền nghiệp vụ được kỳ vọng sẽ sở hữu pipeline dữ liệu của riêng mình, tạo ra data product và chia sẻ dữ liệu trơn tru vượt qua ranh giới tổ chức Khi tỷ trọng doanh nghiệp huấn luyện LLM bằng dữ liệu riêng ngày càng tăng, tầm quan trọng của chia sẻ dữ liệu được dự báo sẽ còn lớn hơn Mô hình chia sẻ dữ liệu được kỳ vọng sẽ mang lại sự linh hoạt cao hơn, rút ngắn thời gian tạo ra insight và hiện thực hóa cách tiếp cận quản lý dữ liệu phân tán hơn, có khả năng mở rộng hơn Kết luận Sự trỗi dậy của AI và quá trình dân chủ hóa dữ liệu thông qua các IDE mới đang tăng tốc Sự tiến hóa của vai trò data engineer và sự xuất hiện của LakeDB đang thay đổi căn bản cách quản lý dữ liệu Các nguyên tắc data mesh được hỗ trợ bởi zero ETL và kiến trúc liên hợp đang trở thành xu hướng chủ đạo Trong môi trường năng động này, vai trò của data engineer đang trở nên quan trọng hơn bao giờ hết Họ được dự báo sẽ giữ vị trí cốt lõi với tư cách là kiến trúc sư của insight, người bảo vệ chất lượng dữ liệu và động lực của đổi mới Đồng thời thích ứng với những yêu cầu đang tiến hóa của thế giới dựa trên dữ liệu và tạo ra giá trị mới

(dataengineeringweekly.com)

18 điểm bởi xguru 2024-12-23 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Những thay đổi lớn của kỹ thuật dữ liệu trong năm 2024: sự tăng trưởng bùng nổ của AI tạo sinh, sự trưởng thành của quản trị dữ liệu, và sự tập trung vào hiệu quả cùng xử lý thời gian thực
Trên nền tảng của các xu hướng này, năm 2025 được dự đoán sẽ xuất hiện năm xu hướng chính làm thay đổi thế giới dữ liệu

1. Sự phát triển của điện toán AI

NVIDIA đang vươn lên trở thành công ty lớn nhất thế giới theo vốn hóa thị trường, với đà tăng trưởng có thể xem là chỉ xuất hiện một lần trong một thế hệ
Google đã công bố một bước đột phá mang tính đổi mới trong lĩnh vực điện toán lượng tử thông qua Willow
Amazon, Google, Microsoft và các công ty khác đang cạnh tranh khốc liệt trong thị trường chip AI, trong đó chip Trainium2 của Amazon là một ví dụ tiêu biểu
Các PC và thiết bị được trang bị Neural Processing Units (NPUs) đang cho phép thực hiện tính toán AI ngoại tuyến và cải thiện quyền riêng tư dữ liệu
Những đổi mới như Edge TPU của Google đang thúc đẩy nhanh hơn quá trình chuyển dịch sang điện toán biên tiết kiệm năng lượng, qua đó giảm sự phụ thuộc vào hạ tầng đám mây tập trung
Việc chuyển sang các kiến trúc điện toán lai và tiết kiệm năng lượng đang thu hẹp khoảng cách giữa hiệu năng, chi phí và quyền riêng tư của các ứng dụng AI
Các chip Neuromorphic mô phỏng cấu trúc của não bộ được kỳ vọng sẽ mang lại hiệu quả năng lượng vượt trội cùng khả năng xử lý dữ liệu phi cấu trúc trực tiếp trên thiết bị
Những tiến bộ đáng kể trong lĩnh vực điện toán thần kinh hình thái và lượng tử đang mở ra những chân trời mới cho năng lực AI
Những tiến bộ về phần cứng AI này được dự báo sẽ dẫn dắt đổi mới trong xử lý ngôn ngữ tự nhiên, thị giác máy tính, robot và y tế sau năm 2025

2. Sự tiến hóa của các mô hình ngôn ngữ chuyên biệt theo miền

Domain-specific language models (LLMs)
- Các mô hình ngôn ngữ theo miền được huấn luyện trên bộ dữ liệu của từng ngành cụ thể đang đưa việc ứng dụng AI trong mỗi ngành lên một tầm cao mới
- Trong các ngành như y tế, tài chính, pháp lý và sản xuất, các mô hình này đang được áp dụng để giải quyết chính xác những bài toán phức tạp và giàu ngữ cảnh
- Các năng lực AI được tinh chỉnh theo yêu cầu chi tiết của từng ngành đang tạo ra đổi mới trong quy trình vận hành và quá trình ra quyết định trên toàn doanh nghiệp
Small Language Models (SLMs)
- Các mô hình ngôn ngữ quy mô nhỏ (Small Language Models, SLMs) đang thu hút sự chú ý nhờ hiệu quả chi phí và khả năng thích ứng
- Các SLM được tối ưu cho tác vụ cụ thể đang cho thấy hiệu năng vượt trội hơn các mô hình lớn trong những phạm vi giới hạn
- Với yêu cầu tính toán thấp hơn và khả năng triển khai thuận tiện hơn, SLM sẽ dân chủ hóa quyền tiếp cận AI, giúp các tổ chức ở mọi quy mô triển khai năng lực ngôn ngữ tinh vi mà không phải gánh nặng quản lý các hệ thống tiêu tốn nhiều tài nguyên

3. Bộ điều phối AI và suy luận đa bước

Bộ điều phối AI
- Khi các doanh nghiệp áp dụng nhiều AI agent chuyên biệt khác nhau, bộ điều phối AI được dự báo sẽ đóng vai trò trung tâm trong data stack vận hành bằng AI
- Các bộ điều phối này hoạt động như một control plane thông minh, định tuyến công việc một cách động tới agent phù hợp nhất, tổng hợp kết quả và cung cấp insight có thể hành động
- Với khả năng hiểu nội dung sâu, xử lý đa ngôn ngữ và hỗ trợ nhiều loại dữ liệu, chúng tích hợp nhiều AI agent vào một workflow nhất quán
Sự phát triển của suy luận đa bước
- Các mô hình AI đang tiến hóa vượt ra ngoài kiểu hỏi đáp đơn giản để giải quyết các vấn đề phức tạp thông qua suy luận đa bước
- Bằng cách chia các tác vụ phức tạp thành các bước tuần tự nhỏ hơn, AI có thể tạo ra những phân tích chính xác và sâu sắc hơn
- Năng lực này sẽ cho phép các AI agent xử lý các tác vụ tự động hóa long-tail trong lập trình, y tế, pháp lý và nhiều ngành khác
Quảng cáo
Sự kết hợp giữa bộ điều phối AI và suy luận đa bước sẽ mở ra một kỷ nguyên mới của AI, mở rộng mạnh mẽ ảnh hưởng của AI đối với giải quyết vấn đề và ra quyết định trong nhiều lĩnh vực

4. Môi trường phát triển tích hợp thế hệ mới cho dữ liệu (Data IDE)

Cách tiếp cận kỹ thuật dữ liệu đang thay đổi một cách căn bản do nhu cầu insight dữ liệu ngày càng tăng của các tổ chức
Năm 2025 được dự đoán sẽ chứng kiến sự xuất hiện của một loại môi trường phát triển tích hợp (IDE) mới, được thiết kế để dân chủ hóa việc truy cập và thao tác dữ liệu một cách hiệu quả
Những công cụ như lakebyte.ai đang cho thấy bước khởi đầu của làn sóng đổi mới này
Các đặc điểm cốt lõi
- Tích hợp liền mạch
  - Toàn bộ vòng đời dữ liệu, từ thu thập và chuyển đổi cho đến phân tích, trực quan hóa và triển khai, sẽ được tích hợp trơn tru trong một môi trường thống nhất
- Hỗ trợ thông minh dựa trên AI
  - Các tính năng AI sẽ được tích hợp để cung cấp hoàn thiện mã thông minh, làm sạch dữ liệu tự động và các gợi ý thông minh nhằm tối ưu pipeline
  - Không chỉ hỗ trợ viết mã, chúng còn hiểu ý nghĩa của dữ liệu và đề xuất cách tốt nhất để chuyển đổi dữ liệu
- Giao diện Low-Code/No-Code
  - Thông qua giao diện trực quan kéo thả, ngay cả người dùng có ít kinh nghiệm lập trình cũng có thể xây dựng và quản lý pipeline dữ liệu
  - Đồng thời vẫn cung cấp sự linh hoạt để người dùng nâng cao có thể viết mã tùy chỉnh khi cần
- Tính năng cộng tác
  - Thúc đẩy sự cộng tác liền mạch giữa data engineer, data scientist, analyst và người dùng nghiệp vụ
  - Cho phép cùng làm việc trên các dự án dữ liệu trong một môi trường chia sẻ
- Quản trị dữ liệu tích hợp sẵn
  - Kiểm tra chất lượng dữ liệu, pipeline CI/CD, chạy kiểm thử tích hợp trước khi đẩy lên production, kiểm soát truy cập và theo dõi lineage đều được tích hợp trực tiếp vào workflow phát triển
  - Bảo đảm quản trị dữ liệu không bị đẩy thành việc cân nhắc ở giai đoạn sau
- Hỗ trợ nhiều nguồn và định dạng dữ liệu
  - Cung cấp connector gốc cho phạm vi rộng các nguồn dữ liệu như cơ sở dữ liệu, data lake, nền tảng streaming và lưu trữ đám mây
  - Hỗ trợ nhiều định dạng dữ liệu, bao gồm dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc
  Quảng cáo
- Cloud-native và khả năng mở rộng
  - Được thiết kế để chạy trên đám mây, tận dụng khả năng mở rộng và tính đàn hồi của hạ tầng cloud
Việc dân chủ hóa dữ liệu thông qua các IDE mạnh mẽ và trực quan được dự đoán sẽ tạo ra lớp 'Citizen Data Engineers'
- Các chuyên gia miền nghiệp vụ sẽ có thể xây dựng và quản lý workflow dữ liệu ngay cả khi họ không phải là lập trình viên truyền thống
Khi rào cản giữa đội ngũ kỹ thuật và phi kỹ thuật bị xóa nhòa, đổi mới dựa trên dữ liệu được kỳ vọng sẽ tăng tốc
Prompt Wrangling được dự đoán sẽ trở thành kỹ năng quan trọng nhất đối với data engineer trong năm 2025

5. Sự trỗi dậy của LakeDB: Biến định dạng lakehouse thành DB

Ranh giới giữa data lake, data warehouse và database đang ngày càng mờ đi
Năm 2025 được dự đoán sẽ xuất hiện một mô hình mới mang tên LakeDB
Đây là dạng tiến hóa của khái niệm LakeHouse, phát triển theo hướng tích hợp trực tiếp các năng lực cơ sở dữ liệu mạnh hơn vào data lake
- Vừa giữ được tính mở rộng và linh hoạt của object storage, vừa mang lại hiệu năng và tính dễ sử dụng của cơ sở dữ liệu truyền thống
Nó cung cấp các khả năng nâng cao vượt ra ngoài việc chỉ truy vấn object storage và định dạng bảng
- Quản lý buffer, cache, index và thao tác ghi theo cách native để đạt được hiệu năng và hiệu quả ở cấp độ LakeHouse
LakeHouse hiện tại phụ thuộc vào các framework xử lý bên ngoài như Spark hoặc Flink cho việc thu thập dữ liệu, chuyển đổi và ghi dữ liệu
- Sự phụ thuộc này làm gia tăng độ phức tạp và tạo ra độ trễ
- Hiệu năng có thể không nhất quán và phát sinh vấn đề tương tác tùy theo cách triển khai
Quảng cáo
LakeDB sẽ bao gồm các khả năng sau:
- Khả năng ghi native
  - Cung cấp đường ghi được tối ưu trực tiếp cho object storage nền tảng, loại bỏ nhu cầu dùng engine xử lý bên ngoài trong các tác vụ phổ biến
  - Việc bổ sung gần đây tính năng ghi có điều kiện của S3 khiến người ta kỳ vọng object storage đám mây sẽ hỗ trợ đường ghi của LakeDB
- Buffering và caching thông minh
  - Quản lý buffering và caching dữ liệu một cách thông minh để tối ưu cả hiệu năng đọc lẫn ghi
- Quản lý giao dịch
  - Cung cấp các năng lực quản lý giao dịch mạnh mẽ bằng cách tận dụng ghi có điều kiện của S3 và các kỹ thuật quản lý metadata nâng cao
  - Cung cấp các cơ chế tích hợp sẵn để bảo đảm tính nhất quán và toàn vẹn dữ liệu
- Hiệu năng truy vấn thông minh
  - Tích hợp các in-process OLAP engine như DuckDB để cải thiện hiệu quả xử lý dữ liệu quy mô nhỏ
  - Cải thiện hiệu quả truy vấn thông qua indexing nâng cao và tối ưu hóa truy vấn
  - Tự động chọn chiến lược tối ưu mà không yêu cầu người dùng phải xây dựng riêng chiến lược truy vấn theo quy mô dữ liệu
- Quản lý dữ liệu tự động
  - Tự động hóa phân tầng dữ liệu, nén và các chức năng tối ưu khác để đơn giản hóa vận hành và giảm chi phí
- Khả năng mở rộng và tìm kiếm vector
  - Cung cấp hỗ trợ tích hợp sẵn cho vector database và tìm kiếm tương đồng
  - Có thể tối ưu hiệu năng đọc và ghi bằng cách áp dụng có chọn lọc kỹ thuật indexing phù hợp nhất cho từng cột
  - Các tính năng như hỗ trợ secondary index của Hudi và kiểu dữ liệu biến thiên của Delta đã bắt đầu xuất hiện trong các định dạng LakeHouse
Quảng cáo
Khái niệm LakeDB vẫn đang ở giai đoạn đầu, nhưng năm 2025 được kỳ vọng sẽ chứng kiến nhiều đổi mới đáng kể trong lĩnh vực này
Các định dạng LakeHouse hiện có có thể sẽ tiến hóa để tích hợp thêm nhiều tính năng giống LakeDB hơn, đồng thời cũng có thể xuất hiện các giải pháp mới được xây dựng ngay từ đầu với tầm nhìn này

6. Data Mesh & Contract-based zero ETL và kiến trúc liên hợp

Dù vẫn tồn tại góc nhìn hoài nghi đối với data contract và mesh, ngày càng nhiều doanh nghiệp được dự đoán sẽ áp dụng kiến trúc data mesh
Đặc biệt, việc sử dụng data mesh được dự báo sẽ tăng lên trong các trường hợp cần trao đổi dữ liệu trong nội bộ doanh nghiệp
Zero ETL và kiến trúc truy vấn liên hợp đang dẫn dắt sự thay đổi này
Zero ETL
- Công nghệ đang phát triển theo hướng giảm thiểu việc di chuyển và sao chép dữ liệu
- Các công nghệ như data virtualization, federated query engine và giao thức chia sẻ dữ liệu đang cho phép truy cập và phân tích dữ liệu mà không cần các quy trình ETL phức tạp
- Các quy trình ETL truyền thống vốn phức tạp và tốn thời gian được kỳ vọng sẽ được đơn giản hóa
Chia sẻ dữ liệu đang nổi lên như một yếu tố cân nhắc cốt lõi
- Các giao thức và nền tảng chia sẻ dữ liệu an toàn, hiệu quả đang cho phép hợp tác với đối tác, khách hàng và cả đối thủ cạnh tranh
- Việc áp dụng các tiêu chuẩn như Delta Sharing đang gia tăng và được kỳ vọng sẽ tiếp tục phát triển
Triển vọng tương lai
- Các nhóm theo miền nghiệp vụ được kỳ vọng sẽ sở hữu pipeline dữ liệu của riêng mình, tạo ra data product và chia sẻ dữ liệu trơn tru vượt qua ranh giới tổ chức
- Khi tỷ trọng doanh nghiệp huấn luyện LLM bằng dữ liệu riêng ngày càng tăng, tầm quan trọng của chia sẻ dữ liệu được dự báo sẽ còn lớn hơn
- Mô hình chia sẻ dữ liệu được kỳ vọng sẽ mang lại sự linh hoạt cao hơn, rút ngắn thời gian tạo ra insight và hiện thực hóa cách tiếp cận quản lý dữ liệu phân tán hơn, có khả năng mở rộng hơn

Kết luận

Sự trỗi dậy của AI và quá trình dân chủ hóa dữ liệu thông qua các IDE mới đang tăng tốc
Sự tiến hóa của vai trò data engineer và sự xuất hiện của LakeDB đang thay đổi căn bản cách quản lý dữ liệu
Các nguyên tắc data mesh được hỗ trợ bởi zero ETL và kiến trúc liên hợp đang trở thành xu hướng chủ đạo
Trong môi trường năng động này, vai trò của data engineer đang trở nên quan trọng hơn bao giờ hết
- Họ được dự báo sẽ giữ vị trí cốt lõi với tư cách là kiến trúc sư của insight, người bảo vệ chất lượng dữ liệu và động lực của đổi mới
- Đồng thời thích ứng với những yêu cầu đang tiến hóa của thế giới dựa trên dữ liệu và tạo ra giá trị mới