Vì sao Modern Data Stack lại quan trọng trong kỷ nguyên AI

xguru · 2025-04-07T11:41:01+09:00

Từ năm 2021 đến đầu năm 2023, lĩnh vực công nghệ dữ liệu, đặc biệt là Modern Data Stack, là một trong những mảng sôi động và được chú ý nhiều nhất trong ngành công nghệ Cuối năm 2023, khi ChatGPT xuất hiện, sự quan tâm chuyển sang AI và các cuộc thảo luận về hạ tầng dữ liệu phần nào bị lu mờ Tuy nhiên, khi AI bắt đầu được tích hợp vào quy trình công việc thực tế, hai điều sau trở nên rõ ràng: Các workflow AI phức tạp cần tích cực tận dụng những bài học từ data engineering Để LLM hoạt động đúng cách, chúng phải có quyền truy cập vào dữ liệu được tạo ra từ các workflow phân tích Mối liên kết thực tế giữa AI và hạ tầng dữ liệu Dù LLM có thông minh đến đâu, nếu không thể truy cập thông tin chính xác thì cũng không thể đưa ra câu trả lời chính xác Nếu thông tin bị phân tán trong bài viết Reddit, tài liệu nội bộ, data warehouse, v.v. thì LLM sẽ không thể tiếp cận Tin tốt là hiện nay đã xuất hiện các giao thức và tiêu chuẩn giúp LLM có thể truy cập nhiều nguồn thông tin khác nhau Nhưng những câu hỏi như nên cung cấp thông tin nào, thông tin đó có chính xác hay không, và cần thiết lập quyền truy cập ra sao vẫn là các bài toán chưa được giải quyết Ưu điểm và thách thức khi tích hợp LLM theo từng nguồn thông tin LLMs + tìm kiếm trên internet Ưu điểm: Có thể tích hợp dữ liệu web công khai để dễ dàng tận dụng thông tin thực tế mới nhất (ví dụ: tìm quán ăn ngon) Vấn đề: Nội dung được tối ưu SEO cũng hoạt động tốt trong LLM, khiến thông tin kém tin cậy xuất hiện ở vị trí cao Ví dụ: khi tìm "chiếc gối tốt nhất năm 2025", rất khó tìm được câu trả lời đáng tin → với LLM cũng vậy LLMs + tài liệu nội bộ (Notion, Slack, v.v.) Ưu điểm: Trong các tổ chức phức tạp, có thể nắm được thông tin cộng tác liên phòng ban, chính sách, kế hoạch, v.v. trong một cái nhìn tổng thể Các công cụ như NotionAI là ví dụ cho thấy rõ tiềm năng của LLM Vấn đề: Khó biết tài liệu có còn mới hay không Có thể xuất hiện kết quả mâu thuẫn cho cùng một câu hỏi Vì vậy, không chỉ cần bản thân tài liệu mà còn cần cả metadata về độ tin cậy của tài liệu LLMs + dữ liệu có cấu trúc và metric Ưu điểm: Có thể thực hiện phân tích dữ liệu phức tạp mà không cần SQL thông qua giao diện hội thoại Khi làm việc với dữ liệu quen thuộc, nó mang lại cảm giác như có siêu năng lực Vấn đề: Tổ chức có đang sử dụng các định nghĩa nhất quán trên toàn bộ hệ thống không? Ban điều hành có thể tin tưởng kết quả và dùng chúng cho quyết định thực tế không? Kiểm soát truy cập và data governance đã được thiết lập đúng chưa? Text-to-SQL đang ngày càng tiến bộ, nhưng khả năng triển khai thực tế và bảo đảm độ tin cậy vẫn là thách thức Ba ví dụ tích hợp dữ liệu cho LLM Ví dụ, khi CEO của một chuỗi nhà hàng đang xem xét mở rộng sang khu vực mới, có thể tận dụng toàn bộ các thông tin sau: Tài liệu nội bộ: Hiểu chiến lược và kế hoạch của tổ chức Dữ liệu có cấu trúc: Phân tích tình hình tài chính và dữ liệu khách hàng Tìm kiếm trên internet: Nghiên cứu thông tin thị trường và benchmark của khu vực đó Về mặt lý thuyết đây là một cách tiếp cận rất hữu ích, nhưng trong thực tế thường phải kết nối tạm nhiều hệ thống với nhau, và chỉ một lỗi nhỏ cũng có thể ảnh hưởng đến toàn bộ phán đoán Giá trị thực sự của Modern Data Stack Việc Modern Data Stack trở nên thịnh hành ngay trước khi AI bùng nổ để phục vụ tập trung hóa dữ liệu, chuẩn hóa và governance không phải chỉ là ngẫu nhiên Chính hạ tầng này là nền tảng cho kỷ nguyên LLM Modern Data Stack không chỉ để xây dashboard, mà còn là nền tảng cho các workflow dữ liệu và giao diện nhất quán, đáng tin cậy Giờ đây khi AI bắt đầu tương tác với hệ sinh thái này, tầm quan trọng của hạ tầng dữ liệu lại một lần nữa được nhấn mạnh Vai trò sắp tới của những người làm dữ liệu Giờ đây, những người làm dữ liệu không còn chỉ dừng ở phân tích dữ liệu đơn thuần, mà còn phải: Xây dựng môi trường dữ liệu đáng tin cậy để LLM có thể sử dụng Thiết kế hệ thống có governance và kiểm soát truy cập Bảo đảm tính ổn định và độ tin cậy khi triển khai hệ thống AI Đây là một cơ hội rất lớn đồng thời cũng đi kèm trách nhiệm nặng nề Hiện nay nhiều tổ chức đang áp dụng hệ thống LLM vào công việc thực tế, và đây là thời điểm có thể tạo ra tác động thực chất Kết luận Modern Data Stack vẫn là hạ tầng phù hợp trong kỷ nguyên AI, và nay đang bắt đầu được kết nối một cách nghiêm túc với các hệ thống AI Các workflow AI tích hợp dữ liệu có cấu trúc, tài liệu phi cấu trúc và thông tin thế giới thực đã có thể triển khai ngay từ bây giờ và dự kiến sẽ tiếp tục được nâng cấp Thiết kế và kết nối các hệ thống này theo đúng hướng là sứ mệnh của cộng đồng dữ liệu

(roundup.getdbt.com)

12 điểm bởi xguru 2025-04-07 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Từ năm 2021 đến đầu năm 2023, lĩnh vực công nghệ dữ liệu, đặc biệt là Modern Data Stack, là một trong những mảng sôi động và được chú ý nhiều nhất trong ngành công nghệ
Cuối năm 2023, khi ChatGPT xuất hiện, sự quan tâm chuyển sang AI và các cuộc thảo luận về hạ tầng dữ liệu phần nào bị lu mờ
Tuy nhiên, khi AI bắt đầu được tích hợp vào quy trình công việc thực tế, hai điều sau trở nên rõ ràng:
- Các workflow AI phức tạp cần tích cực tận dụng những bài học từ data engineering
- Để LLM hoạt động đúng cách, chúng phải có quyền truy cập vào dữ liệu được tạo ra từ các workflow phân tích

Mối liên kết thực tế giữa AI và hạ tầng dữ liệu

Dù LLM có thông minh đến đâu, nếu không thể truy cập thông tin chính xác thì cũng không thể đưa ra câu trả lời chính xác
Nếu thông tin bị phân tán trong bài viết Reddit, tài liệu nội bộ, data warehouse, v.v. thì LLM sẽ không thể tiếp cận
Tin tốt là hiện nay đã xuất hiện các giao thức và tiêu chuẩn giúp LLM có thể truy cập nhiều nguồn thông tin khác nhau
Nhưng những câu hỏi như nên cung cấp thông tin nào, thông tin đó có chính xác hay không, và cần thiết lập quyền truy cập ra sao vẫn là các bài toán chưa được giải quyết

Ưu điểm và thách thức khi tích hợp LLM theo từng nguồn thông tin

LLMs + tìm kiếm trên internet
- Ưu điểm: Có thể tích hợp dữ liệu web công khai để dễ dàng tận dụng thông tin thực tế mới nhất (ví dụ: tìm quán ăn ngon)
- Vấn đề:
  - Nội dung được tối ưu SEO cũng hoạt động tốt trong LLM, khiến thông tin kém tin cậy xuất hiện ở vị trí cao
  - Ví dụ: khi tìm "chiếc gối tốt nhất năm 2025", rất khó tìm được câu trả lời đáng tin → với LLM cũng vậy
LLMs + tài liệu nội bộ (Notion, Slack, v.v.)
- Ưu điểm:
  - Trong các tổ chức phức tạp, có thể nắm được thông tin cộng tác liên phòng ban, chính sách, kế hoạch, v.v. trong một cái nhìn tổng thể
  - Các công cụ như NotionAI là ví dụ cho thấy rõ tiềm năng của LLM
- Vấn đề:
  - Khó biết tài liệu có còn mới hay không
  - Có thể xuất hiện kết quả mâu thuẫn cho cùng một câu hỏi
  - Vì vậy, không chỉ cần bản thân tài liệu mà còn cần cả metadata về độ tin cậy của tài liệu
LLMs + dữ liệu có cấu trúc và metric
- Ưu điểm:
  - Có thể thực hiện phân tích dữ liệu phức tạp mà không cần SQL thông qua giao diện hội thoại
  - Khi làm việc với dữ liệu quen thuộc, nó mang lại cảm giác như có siêu năng lực
- Vấn đề:
  - Tổ chức có đang sử dụng các định nghĩa nhất quán trên toàn bộ hệ thống không?
  - Ban điều hành có thể tin tưởng kết quả và dùng chúng cho quyết định thực tế không?
  - Kiểm soát truy cập và data governance đã được thiết lập đúng chưa?
  - Text-to-SQL đang ngày càng tiến bộ, nhưng khả năng triển khai thực tế và bảo đảm độ tin cậy vẫn là thách thức

Ba ví dụ tích hợp dữ liệu cho LLM

Ví dụ, khi CEO của một chuỗi nhà hàng đang xem xét mở rộng sang khu vực mới, có thể tận dụng toàn bộ các thông tin sau:
- Tài liệu nội bộ: Hiểu chiến lược và kế hoạch của tổ chức
- Dữ liệu có cấu trúc: Phân tích tình hình tài chính và dữ liệu khách hàng
- Tìm kiếm trên internet: Nghiên cứu thông tin thị trường và benchmark của khu vực đó
Về mặt lý thuyết đây là một cách tiếp cận rất hữu ích, nhưng trong thực tế thường phải kết nối tạm nhiều hệ thống với nhau, và chỉ một lỗi nhỏ cũng có thể ảnh hưởng đến toàn bộ phán đoán

Giá trị thực sự của Modern Data Stack

Việc Modern Data Stack trở nên thịnh hành ngay trước khi AI bùng nổ để phục vụ tập trung hóa dữ liệu, chuẩn hóa và governance không phải chỉ là ngẫu nhiên
Chính hạ tầng này là nền tảng cho kỷ nguyên LLM
Modern Data Stack không chỉ để xây dashboard, mà còn là nền tảng cho các workflow dữ liệu và giao diện nhất quán, đáng tin cậy
Giờ đây khi AI bắt đầu tương tác với hệ sinh thái này, tầm quan trọng của hạ tầng dữ liệu lại một lần nữa được nhấn mạnh

Vai trò sắp tới của những người làm dữ liệu

Giờ đây, những người làm dữ liệu không còn chỉ dừng ở phân tích dữ liệu đơn thuần, mà còn phải:
- Xây dựng môi trường dữ liệu đáng tin cậy để LLM có thể sử dụng
- Thiết kế hệ thống có governance và kiểm soát truy cập
- Bảo đảm tính ổn định và độ tin cậy khi triển khai hệ thống AI
Đây là một cơ hội rất lớn đồng thời cũng đi kèm trách nhiệm nặng nề
Hiện nay nhiều tổ chức đang áp dụng hệ thống LLM vào công việc thực tế, và đây là thời điểm có thể tạo ra tác động thực chất

Kết luận

Modern Data Stack vẫn là hạ tầng phù hợp trong kỷ nguyên AI, và nay đang bắt đầu được kết nối một cách nghiêm túc với các hệ thống AI
Các workflow AI tích hợp dữ liệu có cấu trúc, tài liệu phi cấu trúc và thông tin thế giới thực đã có thể triển khai ngay từ bây giờ và dự kiến sẽ tiếp tục được nâng cấp
Thiết kế và kết nối các hệ thống này theo đúng hướng là sứ mệnh của cộng đồng dữ liệu

Vì sao Modern Data Stack lại quan trọng trong kỷ nguyên AI

Mối liên kết thực tế giữa AI và hạ tầng dữ liệu

Ưu điểm và thách thức khi tích hợp LLM theo từng nguồn thông tin

LLMs + tìm kiếm trên internet

LLMs + tài liệu nội bộ (Notion, Slack, v.v.)

LLMs + dữ liệu có cấu trúc và metric

Ba ví dụ tích hợp dữ liệu cho LLM

Giá trị thực sự của Modern Data Stack

Vai trò sắp tới của những người làm dữ liệu

Kết luận

Bài viết liên quan

Chưa có bình luận nào.