Kỹ thuật dữ liệu cho mô hình quy mô lớn: Kiến trúc, thuật toán và dự án

(github.com/datascale-ai)

15 điểm bởi GN⁺ 2026-02-16 | 1 bình luận | Chia sẻ qua WhatsApp

Trong kỷ nguyên mô hình quy mô lớn, chất lượng dữ liệu quyết định trần hiệu năng của mô hình
Sổ tay hướng dẫn mã nguồn mở cung cấp kiến thức kỹ thuật dữ liệu có hệ thống cho mục tiêu này
Bao quát toàn bộ quy trình như làm sạch dữ liệu tiền huấn luyện, căn chỉnh đa phương thức, pipeline dữ liệu RAG, tạo dữ liệu tổng hợp
Gồm 5 phần với 13 chương. Ngoài ra còn có 5 dự án capstone thực hành, mã có thể chạy được và thiết kế kiến trúc để hỗ trợ học tập thực tế
Xử lý dữ liệu văn bản, hình ảnh và video bằng ngăn xếp công nghệ hiện đại như Ray, Spark, CLIP, DVC
Có thể dùng như tài liệu tham khảo thực tiễn cho những người xây dựng pipeline dữ liệu AI như nhà nghiên cứu LLM, kỹ sư dữ liệu, chuyên gia MLOps

Giới thiệu

Trong kỷ nguyên mô hình quy mô lớn, chất lượng dữ liệu quyết định giới hạn hiệu năng của mô hình
- Được tạo ra để bù đắp thực tế là vẫn còn thiếu tài liệu có hệ thống về kỹ thuật dữ liệu cho LLM
Cuốn sách bao quát toàn bộ ngăn xếp công nghệ từ làm sạch dữ liệu tiền huấn luyện đến căn chỉnh đa phương thức, RAG và tạo dữ liệu tổng hợp
- Trích xuất corpus chất lượng cao từ dữ liệu nhiễu quy mô lớn như Common Crawl
- Thu thập, làm sạch và căn chỉnh dữ liệu hình ảnh-văn bản, video và âm thanh
- Tự động tạo dữ liệu SFT, RLHF, CoT
- Xây dựng pipeline RAG bao gồm phân tích tài liệu doanh nghiệp và chia tách theo đơn vị ngữ nghĩa
Cung cấp trải nghiệm học tập thiên về thực hành thông qua 5 dự án capstone end-to-end
Có thể đọc trực tuyến: https://datascale-ai.github.io/data_engineering_book/en/

Cấu trúc sách

Cấu trúc tổng thể là pipeline kỹ thuật dữ liệu hoàn chỉnh từ dữ liệu thô đến ứng dụng
Gồm tổng cộng 6 phần, 13 chương và 5 dự án
- Part 1: Hạ tầng và các khái niệm cốt lõi
- Part 2: Kỹ thuật dữ liệu tiền huấn luyện cho văn bản
- Part 3: Kỹ thuật dữ liệu đa phương thức
- Part 4: Kỹ thuật dữ liệu cho căn chỉnh và dữ liệu tổng hợp
- Part 5: Kỹ thuật dữ liệu ở cấp ứng dụng
- Part 6: Dự án capstone (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)

Điểm nổi bật chính

Lý thuyết toàn diện

Phản ánh xuyên suốt triết lý Data-Centric AI
Bao quát toàn bộ vòng đời dữ liệu của LLM từ tiền huấn luyện → tinh chỉnh → RLHF → RAG
Bao gồm các chủ đề chuyên sâu như định luật mở rộng, đánh giá chất lượng dữ liệu, căn chỉnh đa phương thức

Ngăn xếp công nghệ hiện đại

Tính toán phân tán: Ray Data, Spark
Lưu trữ dữ liệu: Parquet, WebDataset, Vector Databases
Xử lý văn bản: Trafilatura, KenLM, MinHash LSH
Xử lý đa phương thức: CLIP, ColPali, img2dataset
Quản lý phiên bản dữ liệu: DVC, LakeFS

Các dự án capstone phong phú

Mini-C4: Xây dựng corpus văn bản chất lượng cao bằng Trafilatura + Ray + MinHash
Legal Expert SFT: Bộ dữ liệu chỉ dẫn theo miền dựa trên Self-Instruct + CoT
LLaVA Multimodal: Tạo bộ dữ liệu chỉ dẫn thị giác bằng căn chỉnh Bbox và interleaving đa hình ảnh
Math Textbook: Xây dựng bộ dữ liệu suy luận bằng Evol-Instruct + xác thực sandbox
Financial Report RAG: Triển khai hệ thống hỏi đáp đa phương thức bằng ColPali + Qwen-VL

Phát triển cục bộ

Môi trường bắt buộc: Python 3.8 trở lên, MkDocs Material, mkdocs-static-i18n
Cài đặt và xem trước
- Sao chép kho lưu trữ bằng git clone rồi cài đặt các phần phụ thuộc
- Có thể xem trước cục bộ khi chạy mkdocs serve (hỗ trợ chuyển đổi Trung/Anh)
Build trang tĩnh: Chạy mkdocs build để tạo kết quả trong thư mục site/

Cấu trúc dự án

Thư mục docs/ chứa nội dung tiếng Trung (zh/) và tiếng Anh (en/)
Cấu trúc các thư mục tài nguyên như images/, stylesheets/, javascripts/
Bao gồm cấu hình CI/CD trong .github/workflows/
Quản lý cấu hình trang bằng mkdocs.yml
Giấy phép là MIT License

Độc giả mục tiêu

Kỹ sư nghiên cứu và phát triển LLM, kỹ sư dữ liệu, kỹ sư MLOps, AI PM thiên về kỹ thuật, nhà nghiên cứu pipeline dữ liệu LLM

Giấy phép

Áp dụng MIT License

Đọc trực tuyến: https://datascale-ai.github.io/data_engineering_book/en/

1 bình luận

GN⁺ 2026-02-16

Bình luận trên Hacker News

Tôi thực sự rất biết ơn khi đọc cuốn sách này. Chất lượng bản dịch rất cao
Tôi hoàn toàn là người mới với việc huấn luyện LLM, và đang thử nghiệm một kiến trúc mới để sinh mã Python trên Apple Silicon
Tuy nhiên, tôi thấy hơi bức bối vì các công cụ dữ liệu lại tập trung vào văn bản thường hoặc hình ảnh thay vì mã nguồn
SGlang không chạy được trên macOS nên tôi không thể tạo dữ liệu tổng hợp bằng đầu ra bị ràng buộc EBNF
Tôi đang tự tải các corpus mã Python về để xử lý các vấn đề APFS, sharding, phân loại·làm sạch·trộn tùy chỉnh, và khá ngạc nhiên khi không có dataset được gắn thẻ sẵn nào dành cho mã nguồn
Nếu đây là một cuốn sách nói về data engineering cho LLM, thì cũng nên nhắc đến các hạng mục mới nổi như định dạng lưu trữ cho toàn bộ vòng đời ML
Ví dụ, Lance là một dạng lưu trữ cột được tối ưu cho cả tác vụ phân tích lẫn vector workload, hỗ trợ versioning và random access
Điều này rất quan trọng cho lấy mẫu, lọc hiệu quả và xử lý dữ liệu đa phương thức (ví dụ: video)
Những ví dụ tương tự gồm có vortex, nimble của Meta, v.v.
Tôi nghĩ tiêu đề ‘Data Engineering for LLMs’ sẽ phù hợp hơn
- Ý kiến hay đấy. Xét về nội dung thì ‘Data Engineering for LLMs’ chính xác hơn nhiều, nên tôi sẽ chuyển ngay cho trưởng dự án
Có thể là vấn đề dịch thuật, nhưng phần giải thích “Modern Data Stack” ở đầu không tạo được cảm giác đáng tin
Phần 1_2_data_infra.md hơi mơ hồ, nhưng
các mục làm sạch dữ liệu và pipeline RAG ở sau thì rõ ràng hơn nhiều
- Cảm ơn phản hồi thẳng thắn của bạn
Bản tiếng Anh có tại README_en.md
- Cảm ơn! Tôi đã thay liên kết ở đầu bằng cái đó. URL được gửi ban đầu là data_engineering_book
  Bài đăng trước đó bị bộ lọc spam chặn, nhưng tác giả đã báo qua email nên tôi đã mời họ chia sẻ bối cảnh trong phần bình luận. Giờ tôi đã phản ánh nội dung đó ở phần đầu
- Cảm ơn bạn đã chia sẻ liên kết trực tiếp
Rất thú vị nên tôi đã đánh dấu lại. Nhưng tôi tò mò không biết README có phải được viết bằng ChatGPT không
- Đúng vậy. Chúng tôi là một đội ngũ ở Trung Quốc và đã dùng GPT để dịch sang tiếng Anh. Cảm ơn phản hồi rằng nó tạo cảm giác hơi “ấm áp giả tạo”. Từ giờ chúng tôi sẽ chỉnh lại theo giọng văn trung tính và ngắn gọn hơn
- Tôi cũng có cảm giác đó. Có quá nhiều bảng tóm tắt và văn phong hơi nhân tạo nên rất giống do LLM viết. Dù không phải GPT thì nó vẫn cần viết lại toàn diện
Câu “Data is the new oil, but only if you know how to refine it.” khá ấn tượng
Dầu mỏ cũng vô dụng nếu chưa được tinh chế, nên có lẽ diễn đạt kiểu “Dữ liệu là dầu mỏ mới, và chỉ có giá trị khi được tinh luyện” sẽ tự nhiên hơn
Phần ‘Vector DB vs Keyword Search’ khá thú vị. Tôi tò mò trong các thử nghiệm pipeline RAG thì họ đặt ranh giới ở đâu
Theo kinh nghiệm của chúng tôi, tìm kiếm từ khóa như BM25 mạnh với tên thực thể·ID, còn tìm kiếm vector mạnh với truy vấn mang tính khái niệm. Tôi muốn biết sách có đề cập đến tìm kiếm hybrid hay reranking không
- Câu hỏi hay đấy. Trong production thực tế, cách tiếp cận hybrid BM25+vector tỏ ra hiệu quả trong đa số trường hợp. Theo tỷ lệ khoảng 70/30 thì từ khóa có lợi thế hơn trong exact matching
  Điểm mấu chốt là reranking. Không phải chỉ gộp kết quả lại, mà cần chấm điểm lại bằng cross-encoder (ví dụ: Cohere hoặc mô hình tùy chỉnh)
  Trường hợp tìm kiếm thuần ngữ nghĩa phát huy lợi thế là khi truy vấn thiên về các khái niệm trừu tượng
- Cảm ơn những chia sẻ sâu sắc này. Chúng tôi sẽ đưa các mẫu như vậy vào những bản cập nhật sau. Hiện đang trong kỳ nghỉ Tết Nguyên đán nên có thể sẽ hơi chậm
Hình minh họa trong mỗi chương đang để bằng tiếng Anh (trừ ảnh trong README_en.md)
- Cảm ơn đã báo! Tôi đã nhận ra sự khác biệt đó và sửa ngay các sơ đồ trong README_en.md. Giờ chúng sẽ hiển thị đúng
Chỉ Parquet thôi thì chưa đủ cho data engineering hiện đại. Nên có thêm Delta và Iceberg
- Cảm ơn phản hồi! Tôi đã chuyển cho người phụ trách phần đó. Hiện đang trong kỳ nghỉ Tết Nguyên đán nên cập nhật có thể hơi chậm. Chúc mừng năm mới

Kỹ thuật dữ liệu cho mô hình quy mô lớn: Kiến trúc, thuật toán và dự án

Giới thiệu

Cấu trúc sách

Điểm nổi bật chính

Lý thuyết toàn diện

Ngăn xếp công nghệ hiện đại

Các dự án capstone phong phú

Phát triển cục bộ

Cấu trúc dự án

Độc giả mục tiêu

Giấy phép

Bài viết liên quan

1 bình luận

Bình luận trên Hacker News