- Từ năm 2021 đến đầu năm 2023, lĩnh vực công nghệ dữ liệu, đặc biệt là Modern Data Stack, là một trong những mảng sôi động và được chú ý nhiều nhất trong ngành công nghệ
- Cuối năm 2023, khi ChatGPT xuất hiện, sự quan tâm chuyển sang AI và các cuộc thảo luận về hạ tầng dữ liệu phần nào bị lu mờ
- Tuy nhiên, khi AI bắt đầu được tích hợp vào quy trình công việc thực tế, hai điều sau trở nên rõ ràng:
- Các workflow AI phức tạp cần tích cực tận dụng những bài học từ data engineering
- Để LLM hoạt động đúng cách, chúng phải có quyền truy cập vào dữ liệu được tạo ra từ các workflow phân tích
Mối liên kết thực tế giữa AI và hạ tầng dữ liệu
- Dù LLM có thông minh đến đâu, nếu không thể truy cập thông tin chính xác thì cũng không thể đưa ra câu trả lời chính xác
- Nếu thông tin bị phân tán trong bài viết Reddit, tài liệu nội bộ, data warehouse, v.v. thì LLM sẽ không thể tiếp cận
- Tin tốt là hiện nay đã xuất hiện các giao thức và tiêu chuẩn giúp LLM có thể truy cập nhiều nguồn thông tin khác nhau
- Nhưng những câu hỏi như nên cung cấp thông tin nào, thông tin đó có chính xác hay không, và cần thiết lập quyền truy cập ra sao vẫn là các bài toán chưa được giải quyết
Ưu điểm và thách thức khi tích hợp LLM theo từng nguồn thông tin
-
LLMs + tìm kiếm trên internet
- Ưu điểm: Có thể tích hợp dữ liệu web công khai để dễ dàng tận dụng thông tin thực tế mới nhất (ví dụ: tìm quán ăn ngon)
- Vấn đề:
- Nội dung được tối ưu SEO cũng hoạt động tốt trong LLM, khiến thông tin kém tin cậy xuất hiện ở vị trí cao
- Ví dụ: khi tìm "chiếc gối tốt nhất năm 2025", rất khó tìm được câu trả lời đáng tin → với LLM cũng vậy
-
LLMs + tài liệu nội bộ (Notion, Slack, v.v.)
- Ưu điểm:
- Trong các tổ chức phức tạp, có thể nắm được thông tin cộng tác liên phòng ban, chính sách, kế hoạch, v.v. trong một cái nhìn tổng thể
- Các công cụ như NotionAI là ví dụ cho thấy rõ tiềm năng của LLM
- Vấn đề:
- Khó biết tài liệu có còn mới hay không
- Có thể xuất hiện kết quả mâu thuẫn cho cùng một câu hỏi
- Vì vậy, không chỉ cần bản thân tài liệu mà còn cần cả metadata về độ tin cậy của tài liệu
-
LLMs + dữ liệu có cấu trúc và metric
- Ưu điểm:
- Có thể thực hiện phân tích dữ liệu phức tạp mà không cần SQL thông qua giao diện hội thoại
- Khi làm việc với dữ liệu quen thuộc, nó mang lại cảm giác như có siêu năng lực
- Vấn đề:
- Tổ chức có đang sử dụng các định nghĩa nhất quán trên toàn bộ hệ thống không?
- Ban điều hành có thể tin tưởng kết quả và dùng chúng cho quyết định thực tế không?
- Kiểm soát truy cập và data governance đã được thiết lập đúng chưa?
- Text-to-SQL đang ngày càng tiến bộ, nhưng khả năng triển khai thực tế và bảo đảm độ tin cậy vẫn là thách thức
Ba ví dụ tích hợp dữ liệu cho LLM
- Ví dụ, khi CEO của một chuỗi nhà hàng đang xem xét mở rộng sang khu vực mới, có thể tận dụng toàn bộ các thông tin sau:
- Tài liệu nội bộ: Hiểu chiến lược và kế hoạch của tổ chức
- Dữ liệu có cấu trúc: Phân tích tình hình tài chính và dữ liệu khách hàng
- Tìm kiếm trên internet: Nghiên cứu thông tin thị trường và benchmark của khu vực đó
- Về mặt lý thuyết đây là một cách tiếp cận rất hữu ích, nhưng trong thực tế thường phải kết nối tạm nhiều hệ thống với nhau, và chỉ một lỗi nhỏ cũng có thể ảnh hưởng đến toàn bộ phán đoán
Giá trị thực sự của Modern Data Stack
- Việc Modern Data Stack trở nên thịnh hành ngay trước khi AI bùng nổ để phục vụ tập trung hóa dữ liệu, chuẩn hóa và governance không phải chỉ là ngẫu nhiên
- Chính hạ tầng này là nền tảng cho kỷ nguyên LLM
- Modern Data Stack không chỉ để xây dashboard, mà còn là nền tảng cho các workflow dữ liệu và giao diện nhất quán, đáng tin cậy
- Giờ đây khi AI bắt đầu tương tác với hệ sinh thái này, tầm quan trọng của hạ tầng dữ liệu lại một lần nữa được nhấn mạnh
Vai trò sắp tới của những người làm dữ liệu
- Giờ đây, những người làm dữ liệu không còn chỉ dừng ở phân tích dữ liệu đơn thuần, mà còn phải:
- Xây dựng môi trường dữ liệu đáng tin cậy để LLM có thể sử dụng
- Thiết kế hệ thống có governance và kiểm soát truy cập
- Bảo đảm tính ổn định và độ tin cậy khi triển khai hệ thống AI
- Đây là một cơ hội rất lớn đồng thời cũng đi kèm trách nhiệm nặng nề
- Hiện nay nhiều tổ chức đang áp dụng hệ thống LLM vào công việc thực tế, và đây là thời điểm có thể tạo ra tác động thực chất
Kết luận
- Modern Data Stack vẫn là hạ tầng phù hợp trong kỷ nguyên AI, và nay đang bắt đầu được kết nối một cách nghiêm túc với các hệ thống AI
- Các workflow AI tích hợp dữ liệu có cấu trúc, tài liệu phi cấu trúc và thông tin thế giới thực đã có thể triển khai ngay từ bây giờ và dự kiến sẽ tiếp tục được nâng cấp
- Thiết kế và kết nối các hệ thống này theo đúng hướng là sứ mệnh của cộng đồng dữ liệu
Chưa có bình luận nào.