Sự trỗi dậy của hạ tầng dữ liệu AI

(felicis.com)

16 điểm bởi xguru 2024-11-25 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

"Chúng ta hiện đang ở điểm khởi đầu của một cuộc cách mạng công nghiệp mới. Thay vì sản xuất điện, chúng ta đang tạo ra trí tuệ nhân tạo... [Mã nguồn mở] cho phép mọi công ty trở thành công ty AI" - Jensen Huang

Việc trích xuất thông tin từ tài liệu không phải là khái niệm mới. Tuy nhiên, AI tạo sinh (GenAI) cần lượng lớn dữ liệu chất lượng cao
Dữ liệu quan trọng cho cả huấn luyện lẫn suy luận, và không chỉ mở rộng về quy mô mà còn từ văn bản, dữ liệu bảng sang video, hình ảnh và âm thanh
Sự gia tăng của dữ liệu không gian như ảnh vệ tinh, dữ liệu cảm biến robot cũng đang được ghi nhận
Trong tầng dữ liệu, những lĩnh vực mới nào có thể được tái định hình ngay lập tức nhất bởi AI?
- Trích xuất dữ liệu phi cấu trúc và pipeline, Retrieval-Augmented Generation (RAG), tuyển chọn dữ liệu, lưu trữ dữ liệu, bộ nhớ AI
Mục đích của bài viết này là phân tích bối cảnh hạ tầng dữ liệu AI, chia sẻ các xu hướng mới nhất và bàn về những lĩnh vực đổi mới hứa hẹn nhất

Hiện trạng hạ tầng dữ liệu AI

Bài viết trực quan hóa ngắn gọn luồng dữ liệu trong chuỗi giá trị dữ liệu AI và giải thích dòng chảy trong quá trình huấn luyện và suy luận dữ liệu
Chuỗi giá trị của hạ tầng dữ liệu được phân loại thành sáu lĩnh vực chính
- Nguồn dữ liệu (Sources)
- Thu thập và chuyển đổi dữ liệu (Ingestion & Transformation)
- Lưu trữ (Storage)
- Huấn luyện (Training)
- Suy luận (Inference)
- Dịch vụ dữ liệu (Data Services)

Nguồn dữ liệu

Dữ liệu ứng dụng: trích xuất từ Salesforce, ServiceNow, v.v.
Dữ liệu thời gian thực: cảm biến, sản xuất, dữ liệu y tế
Cơ sở dữ liệu OLTP: dữ liệu giao dịch như Oracle, MongoDB
Dữ liệu tổng hợp: dữ liệu được tạo nhân tạo, không thu thập từ thế giới thực (e.g., Mostly AI, Datagen, Tonic)
- Hiệu quả về chi phí và có lợi về mặt tuân thủ dữ liệu
- Tuy nhiên, khả năng biểu diễn dữ liệu ngoại lệ thống kê còn hạn chế, nên có giới hạn trong việc tối ưu hiệu năng mô hình
Dữ liệu web: thu thập dữ liệu công khai qua web scraping (e.g., Browse AI, Apify)
- Thiết yếu cho việc huấn luyện mô hình dữ liệu quy mô lớn, nhưng dữ liệu công khai có thể cạn kiệt (dự kiến trong giai đoạn 2026~2032)

Thu thập và chuyển đổi dữ liệu

Pipeline dữ liệu là quá trình chuyển dữ liệu từ nơi phát sinh đến đích và biến đổi nó sang trạng thái có thể phân tích
- ETL/ELT: phương thức truyền thống (xử lý theo lô, xử lý streaming)
- Feature engineering/pipeline: trong ML chủ yếu xử lý dữ liệu bảng
- Pipeline dữ liệu phi cấu trúc: tích hợp các quá trình trích xuất, chuyển đổi, lưu trữ để sắp xếp và lưu dữ liệu phi cấu trúc
Các loại pipeline
- Xử lý theo lô: trích xuất và nạp dữ liệu theo các khoảng thời gian xác định
- Xử lý streaming: nạp dữ liệu theo thời gian thực (Kafka, Flink, v.v.)
Công cụ và framework
- Streaming (Kafka, Confluent), processing engine (Databricks, Flink), công cụ điều phối (Astronomer, Dagster, Airflow, Prefect, v.v.)
- Công cụ gán nhãn: LabelBox, Scale AI, v.v. (gán nhãn dữ liệu kiểm thử là quan trọng)
  - Theo lô: ETL (Airbyte, Fivetran), transform (dbt, coalesce)
  - Xử lý dữ liệu phi cấu trúc: Datavolo, Unstructured, LlamaIndex, v.v.

Lưu trữ dữ liệu

Cách tiếp cận truyền thống: lưu trong data warehouse
Dữ liệu dùng cho AI:
- Sử dụng cấu trúc data lake và lakehouse
- Lưu trữ embedding dữ liệu thông qua vector database
Công cụ chính:
- Data lake: Databricks, Onehouse, Tabular, Amazon S3, GCS, v.v.
  - Vector DB: Pinecone, Chroma, Milvus, Weaviete, v.v.

Huấn luyện mô hình

Phương thức học:
- Học có giám sát, học không giám sát, học tăng cường
Quy trình huấn luyện mô hình ngôn ngữ lớn (LLM):
- Tiền huấn luyện: nhận diện mẫu trong dữ liệu bằng học không giám sát
- Học có giám sát: tối ưu hiệu năng
- Học tăng cường (RLHF): cải thiện hiệu năng thông qua phản hồi của con người
Xác thực và đánh giá:
- Đánh giá độ phù hợp của mô hình qua độ chính xác, precision, giảm thiểu loss, v.v.
Giai đoạn cuối:
- Kiểm thử bảo mật, governance, xác nhận compliance
Công cụ chính:
- Training: TensorFlow, Modular
  - Evaluation: neptune.ai, Weights & Biases
  - MLOps: Databricks, H2O.ai, DataRobot, Dataiku, DOMINO
  - Model: OpenAI, Cohere, Mistral AI, Runway

Suy luận mô hình

Quy trình:
- Nhập prompt → token hóa/vector hóa → xử lý dữ liệu → tạo đầu ra
Tùy biến:
- Kết nối vector database với LLM
- Tạo kết quả riêng biệt phản ánh ngữ cảnh của người dùng
Các điểm cần cân nhắc bắt buộc:
- Bảo mật dữ liệu, chất lượng mô hình, compliance
Công cụ chính:
- Tooling: ANON, E2B
- Memory: MemGPT, cognee.ai
- RAG Framework: LangCHain, LlamaIndex, contextual.ai, databricks
- Agent/App: ChatGPT, Claude, character.ai, Decagon, NormAi

Dịch vụ dữ liệu

Danh mục:
- Bảo mật dữ liệu: kiểm soát truy cập, ngăn rò rỉ dữ liệu (Rubrik, eureka, imperva, sentra, Dig, Cyera, Varonis, BigID)
- Khả năng quan sát dữ liệu: giám sát chất lượng và hiệu năng của pipeline dữ liệu (Anomalo, datologyai, OBSERVE, MonteCarlo, Cleanlab, Scale AI, onum, metaplane)
- Data catalog: tập trung hóa metadata, tổ chức tài sản dữ liệu (atlan, Alation, Collibra, Informatica, Acryl Data, CastorDoc, select star, data.world)
Kết luận:
- Dữ liệu càng được tổ chức tốt thì bảo mật, khả năng quan sát và quản lý càng hiệu quả

[Tái cấu trúc dữ liệu do AI]

Đổi mới đang được quan sát thấy trong các lĩnh vực sau của hạ tầng dữ liệu do AI:

1. Pipeline dữ liệu phi cấu trúc cho AI agent và ứng dụng

Sự trỗi dậy của pipeline dữ liệu phi cấu trúc:
- Nhu cầu sử dụng dữ liệu nội bộ phi cấu trúc cho AI hội thoại và ứng dụng agent đang tăng lên
- Pipeline dữ liệu phi cấu trúc bao gồm các bước tương tự pipeline dữ liệu truyền thống: trích xuất, chuyển đổi, lập chỉ mục, lưu trữ
Nguồn dữ liệu chính:
- Văn bản PDF, knowledge base, hình ảnh, v.v.
- Chủ yếu là dữ liệu hỗ trợ các use case AI hội thoại
Yếu tố khác biệt:
- Sự khác biệt với pipeline hiện có xuất hiện ở giai đoạn chuyển đổi:
  - Chunking dữ liệu: chia dữ liệu thành các đơn vị nhỏ
  - Trích xuất metadata: tạo dữ liệu cần thiết cho việc lập chỉ mục
  - Embedding: chuyển từng chunk dữ liệu sang dạng vector để lưu trữ
Yếu tố thành công:
- Việc lựa chọn chiến lược chunking và mô hình embedding ảnh hưởng lớn đến độ chính xác truy xuất dữ liệu
- Sự xuất hiện của các mô hình embedding chuyên biệt theo miền: ví dụ các mô hình chuyên cho mã nguồn, nội dung pháp lý
Khai thác cơ sở dữ liệu tương thích vector:
- Lưu dữ liệu phi cấu trúc và chuyển đổi nó sang định dạng có thể truy vấn
- Có thể cá nhân hóa LLM thông qua RAG (Retrieval-Augmented Generation) và agent
Các quan sát chính
- Các nhóm đang thử nghiệm nhiều chiến lược chunking khác nhau
- Số lượng mô hình embedding chuyên biệt theo lĩnh vực đang tăng dần, góp phần cải thiện độ chính xác và hiệu năng
- Doanh nghiệp đang tìm kiếm công cụ để chuyển dữ liệu sang định dạng dễ truy vấn

2. Retrieval-Augmented Generation (RAG)

Tổng quan về RAG:
- RAG là một workflow kiến trúc sử dụng dữ liệu tùy chỉnh để cải thiện hiệu quả của ứng dụng LLM
- Cách hoạt động:
  - Tải dữ liệu và "lập chỉ mục" để xử lý truy vấn
  - Truy vấn lọc ra dữ liệu liên quan nhất dựa trên chỉ mục
  - Ngữ cảnh đã lọc và truy vấn được gửi tới LLM cùng prompt để tạo phản hồi
- Có thể kích hoạt dữ liệu như một phần của trải nghiệm sản phẩm
Những lợi thế chính của RAG:
- Cung cấp thông tin được cập nhật:
  - LLM bị giới hạn bởi dữ liệu tiền huấn luyện nên có thể đưa ra phản hồi cũ hoặc không chính xác
  - RAG truy cập nguồn thông tin bên ngoài để cung cấp câu trả lời mới nhất
- Tăng cường tính thực chứng:
  - RAG bù đắp vấn đề LLM không thể luôn cung cấp thông tin chính xác
  - Cung cấp thông tin đáng tin cậy hơn bằng cách dùng knowledge base đã được chọn lọc
- Cung cấp nguồn trích dẫn:
  - Có thể thêm citation và chú thích vào phản hồi của LLM
  - Tăng mức độ tin cậy của người dùng

3. Tuyển chọn dữ liệu để cải thiện hiệu năng huấn luyện và suy luận

Tuyển chọn dữ liệu: quá trình lọc và cấu thành dataset để đạt hiệu năng huấn luyện và suy luận tối ưu
- Các tác vụ chính:
  - Phân loại văn bản
  - Áp dụng bộ lọc NSFW
  - Loại bỏ dữ liệu trùng lặp
  - Tối ưu kích thước batch
  - Tối ưu nguồn theo hiệu năng
  - Tăng cường dữ liệu bằng dữ liệu tổng hợp
Insight từ công bố Meta Llama-3:
- Tuyển chọn dữ liệu huấn luyện:
  - "Việc tuyển chọn các bộ dữ liệu quy mô lớn, chất lượng cao là rất quan trọng để huấn luyện những mô hình ngôn ngữ tốt nhất"
  - Meta đã phát triển pipeline lọc dữ liệu như sau:
    - Bộ lọc heuristic
    - Bộ lọc NSFW
    - Khử trùng lặp ngữ nghĩa
    - Bộ phân loại văn bản dự đoán chất lượng dữ liệu
- Tuyển chọn dữ liệu fine-tuning:
  - "Những cải thiện lớn nhất về chất lượng mô hình đạt được bằng cách tuyển chọn dữ liệu cẩn thận và rà soát chú thích của người gán nhãn qua nhiều bước đảm bảo chất lượng"
Hiệu quả của tuyển chọn dữ liệu:
- Theo nhóm nghiên cứu Meta AI:
  - Tuyển chọn giúp rút ngắn thời gian huấn luyện tới 20%
  - Cải thiện độ chính xác downstream
  - Cung cấp con đường cải thiện hiệu năng mô hình ngay cả khi dữ liệu internet cạn dần
Hướng đi tương lai:
- Bộ lọc dữ liệu chất lượng cao tự động, khử trùng lặp và bộ phân loại sẽ trở nên quan trọng cho huấn luyện và fine-tuning mô hình
- Các công ty như Datology AI đang nỗ lực hiện thực hóa điều này

4. Lưu trữ dữ liệu cho AI

Có ba xu hướng chính trong cách lưu trữ dữ liệu AI:
- Vector database
- Sự trỗi dậy của data lake
- Gia tăng đầu tư vào lakehouse
Tầm quan trọng của vector database:
- Vector database được chú ý như một trong những công nghệ cốt lõi của làn sóng bùng nổ AI
- Phù hợp để lưu trữ embedding dữ liệu (biểu diễn số):
  - Chuyển dữ liệu phi cấu trúc (hình ảnh, âm thanh, video, v.v.) sang dạng số để lưu trữ
  - Hỗ trợ tìm kiếm ngữ nghĩa (ví dụ tìm "dog" có thể trả về "wolf" hoặc "puppy")
- Các dạng vector database:
  - Vector database native: được thiết kế chuyên cho lưu trữ vector
  - Dạng mở rộng từ cơ sở dữ liệu hiện có: bổ sung khả năng hỗ trợ vector vào cơ sở dữ liệu hiện hữu
- Use case: cá nhân hóa LLM
  - Lưu và truy xuất dữ liệu tùy chỉnh của doanh nghiệp dưới dạng vector embedding
  - AI agent có thể tận dụng cấu trúc này để cung cấp trải nghiệm được tùy biến
Data lake và lakehouse
- Sự trỗi dậy của data lake:
  - Phần lớn doanh nghiệp lưu dữ liệu quy mô lớn trong data lake
  - Việc tận dụng data lake là bắt buộc để phát triển AI tùy chỉnh
- Kiến trúc lakehouse:
  - Cung cấp kiến trúc để quản lý và truy vấn data lake một cách hiệu quả
  - Tổ chức dữ liệu bằng open table format:
    - Sử dụng Iceberg, Delta Lake, Hudi, v.v.
  - Cải thiện tổ chức dữ liệu và hiệu năng truy vấn
- Vai trò của Databricks:
  - Databricks đã mua lại Tabular để hợp nhất các đội phát triển của Delta Lake và Iceberg
  - Điều này khiến đối thủ khó gia nhập hơn và dẫn dắt sự phát triển của công nghệ lakehouse

5. Bộ nhớ AI

Sự trỗi dậy của bộ nhớ AI:
- Sau khi ChatGPT công bố tính năng memory, bộ nhớ AI đã trở thành chủ đề thảo luận lớn
- Hệ thống AI tiêu chuẩn thiếu bộ nhớ hồi tưởng mạnh mẽ và tính liên tục giữa các tương tác:
  - Các hệ thống hiện tại ở trong trạng thái giống như mất trí nhớ ngắn hạn
  - Điều này hạn chế suy luận tuần tự phức tạp và chia sẻ tri thức trong hệ thống đa agent
Bộ nhớ trong hệ thống đa agent
- Khi phát triển sang hệ thống đa agent, cần có hệ thống quản lý bộ nhớ giữa các agent
- Yêu cầu chức năng:
  - Hỗ trợ lưu ký ức theo từng agent và truy cập xuyên phiên
  - Bao gồm kiểm soát truy cập và quyền riêng tư
  - Pooling bộ nhớ giữa các agent:
    - Một agent có thể tận dụng trải nghiệm của agent khác
    - Nâng cao khả năng ra quyết định
- Cần bộ nhớ phân tầng:
  - Lưu bộ nhớ theo tầng dựa trên tần suất truy cập, tầm quan trọng và chi phí
MemGPT: framework dẫn đầu trong quản lý bộ nhớ AI
- Tầm nhìn của MemGPT: LLM sẽ dẫn dắt sự tiến hóa của hệ điều hành (OS) thế hệ tiếp theo
- Tổng quan kiến trúc:
  - Các loại bộ nhớ:
    - Bộ nhớ ngữ cảnh chính: tương tự bộ nhớ chính (RAM)
    - Bộ nhớ ngữ cảnh bên ngoài: tương tự bộ nhớ đĩa/disk storage
Tầm quan trọng của bộ nhớ AI
- Hỗ trợ cá nhân hóa, học tập và phản tư (reflection), là yếu tố thiết yếu cho sự phát triển của ứng dụng AI
- Cải thiện khả năng giải quyết tác vụ phức tạp nhờ hợp tác và chia sẻ ký ức giữa các agent

Cơ hội của AI workload

AI workload và hạ tầng dữ liệu:
- Sự trỗi dậy của GenAI chưa làm thay đổi mọi khía cạnh của hạ tầng dữ liệu, nhưng sự xuất hiện của các công nghệ sau là bước phát triển rất đáng chú ý:
  - Trích xuất và pipeline dữ liệu phi cấu trúc
  - Retrieval-Augmented Generation (RAG)
  - Tuyển chọn dữ liệu
  - Lưu trữ dữ liệu
  - Bộ nhớ AI
Chiến lược đầu tư của Felicis
- Tập trung vào tương lai của AI và hạ tầng dữ liệu:
  - Đầu tư vào các startup liên quan đến tầng dữ liệu và hạ tầng
  - Các khoản đầu tư tiêu biểu:
    - Datology: tuyển chọn dữ liệu
    - Metaplane: data observability
    - MotherDuck: serverless data warehouse
    - Weights & Biases: công cụ theo dõi thí nghiệm
Tiềm năng tăng trưởng của thị trường AI
- Khả năng mở rộng:
  - Thị trường AI đang mở rộng mạnh, từ chatbot đến workflow đa agent
  - Hiện mới chỉ ở giai đoạn khởi đầu và còn rất nhiều khả năng phát triển trong tương lai
- Tầm quan trọng của các giải pháp dữ liệu:
  - Giải pháp dữ liệu là cốt lõi để xây dựng ứng dụng AI thành công
  - Dự kiến sẽ hình thành các doanh nghiệp dữ liệu quy mô lớn hỗ trợ AI workload

Sự trỗi dậy của hạ tầng dữ liệu AI

Hiện trạng hạ tầng dữ liệu AI

Nguồn dữ liệu

Thu thập và chuyển đổi dữ liệu

Lưu trữ dữ liệu

Huấn luyện mô hình

Suy luận mô hình

Dịch vụ dữ liệu

[Tái cấu trúc dữ liệu do AI]

1. Pipeline dữ liệu phi cấu trúc cho AI agent và ứng dụng

2. Retrieval-Augmented Generation (RAG)

3. Tuyển chọn dữ liệu để cải thiện hiệu năng huấn luyện và suy luận

4. Lưu trữ dữ liệu cho AI

5. Bộ nhớ AI

Cơ hội của AI workload

Bài viết liên quan

Chưa có bình luận nào.