15 điểm bởi GN⁺ 2026-02-16 | 1 bình luận | Chia sẻ qua WhatsApp
  • Trong kỷ nguyên mô hình quy mô lớn, chất lượng dữ liệu quyết định trần hiệu năng của mô hình
  • Sổ tay hướng dẫn mã nguồn mở cung cấp kiến thức kỹ thuật dữ liệu có hệ thống cho mục tiêu này
  • Bao quát toàn bộ quy trình như làm sạch dữ liệu tiền huấn luyện, căn chỉnh đa phương thức, pipeline dữ liệu RAG, tạo dữ liệu tổng hợp
  • Gồm 5 phần với 13 chương. Ngoài ra còn có 5 dự án capstone thực hành, mã có thể chạy được và thiết kế kiến trúc để hỗ trợ học tập thực tế
  • Xử lý dữ liệu văn bản, hình ảnh và video bằng ngăn xếp công nghệ hiện đại như Ray, Spark, CLIP, DVC
  • Có thể dùng như tài liệu tham khảo thực tiễn cho những người xây dựng pipeline dữ liệu AI như nhà nghiên cứu LLM, kỹ sư dữ liệu, chuyên gia MLOps

Giới thiệu

  • Trong kỷ nguyên mô hình quy mô lớn, chất lượng dữ liệu quyết định giới hạn hiệu năng của mô hình
    • Được tạo ra để bù đắp thực tế là vẫn còn thiếu tài liệu có hệ thống về kỹ thuật dữ liệu cho LLM
  • Cuốn sách bao quát toàn bộ ngăn xếp công nghệ từ làm sạch dữ liệu tiền huấn luyện đến căn chỉnh đa phương thức, RAG và tạo dữ liệu tổng hợp
    • Trích xuất corpus chất lượng cao từ dữ liệu nhiễu quy mô lớn như Common Crawl
    • Thu thập, làm sạch và căn chỉnh dữ liệu hình ảnh-văn bản, video và âm thanh
    • Tự động tạo dữ liệu SFT, RLHF, CoT
    • Xây dựng pipeline RAG bao gồm phân tích tài liệu doanh nghiệp và chia tách theo đơn vị ngữ nghĩa
  • Cung cấp trải nghiệm học tập thiên về thực hành thông qua 5 dự án capstone end-to-end
  • Có thể đọc trực tuyến: https://datascale-ai.github.io/data_engineering_book/en/

Cấu trúc sách

  • Cấu trúc tổng thể là pipeline kỹ thuật dữ liệu hoàn chỉnh từ dữ liệu thô đến ứng dụng
  • Gồm tổng cộng 6 phần, 13 chương và 5 dự án
    • Part 1: Hạ tầng và các khái niệm cốt lõi
    • Part 2: Kỹ thuật dữ liệu tiền huấn luyện cho văn bản
    • Part 3: Kỹ thuật dữ liệu đa phương thức
    • Part 4: Kỹ thuật dữ liệu cho căn chỉnh và dữ liệu tổng hợp
    • Part 5: Kỹ thuật dữ liệu ở cấp ứng dụng
    • Part 6: Dự án capstone (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)

Điểm nổi bật chính

Lý thuyết toàn diện

  • Phản ánh xuyên suốt triết lý Data-Centric AI
  • Bao quát toàn bộ vòng đời dữ liệu của LLM từ tiền huấn luyện → tinh chỉnh → RLHF → RAG
  • Bao gồm các chủ đề chuyên sâu như định luật mở rộng, đánh giá chất lượng dữ liệu, căn chỉnh đa phương thức

Ngăn xếp công nghệ hiện đại

  • Tính toán phân tán: Ray Data, Spark
  • Lưu trữ dữ liệu: Parquet, WebDataset, Vector Databases
  • Xử lý văn bản: Trafilatura, KenLM, MinHash LSH
  • Xử lý đa phương thức: CLIP, ColPali, img2dataset
  • Quản lý phiên bản dữ liệu: DVC, LakeFS

Các dự án capstone phong phú

  • Mini-C4: Xây dựng corpus văn bản chất lượng cao bằng Trafilatura + Ray + MinHash
  • Legal Expert SFT: Bộ dữ liệu chỉ dẫn theo miền dựa trên Self-Instruct + CoT
  • LLaVA Multimodal: Tạo bộ dữ liệu chỉ dẫn thị giác bằng căn chỉnh Bbox và interleaving đa hình ảnh
  • Math Textbook: Xây dựng bộ dữ liệu suy luận bằng Evol-Instruct + xác thực sandbox
  • Financial Report RAG: Triển khai hệ thống hỏi đáp đa phương thức bằng ColPali + Qwen-VL

Phát triển cục bộ

  • Môi trường bắt buộc: Python 3.8 trở lên, MkDocs Material, mkdocs-static-i18n
  • Cài đặt và xem trước
    • Sao chép kho lưu trữ bằng git clone rồi cài đặt các phần phụ thuộc
    • Có thể xem trước cục bộ khi chạy mkdocs serve (hỗ trợ chuyển đổi Trung/Anh)
  • Build trang tĩnh: Chạy mkdocs build để tạo kết quả trong thư mục site/

Cấu trúc dự án

  • Thư mục docs/ chứa nội dung tiếng Trung (zh/) và tiếng Anh (en/)
  • Cấu trúc các thư mục tài nguyên như images/, stylesheets/, javascripts/
  • Bao gồm cấu hình CI/CD trong .github/workflows/
  • Quản lý cấu hình trang bằng mkdocs.yml
  • Giấy phép là MIT License

Độc giả mục tiêu

  • Kỹ sư nghiên cứu và phát triển LLM, kỹ sư dữ liệu, kỹ sư MLOps, AI PM thiên về kỹ thuật, nhà nghiên cứu pipeline dữ liệu LLM

Giấy phép

  • Áp dụng MIT License

1 bình luận

 
GN⁺ 2026-02-16
Bình luận trên Hacker News
  • Tôi thực sự rất biết ơn khi đọc cuốn sách này. Chất lượng bản dịch rất cao
    Tôi hoàn toàn là người mới với việc huấn luyện LLM, và đang thử nghiệm một kiến trúc mới để sinh mã Python trên Apple Silicon
    Tuy nhiên, tôi thấy hơi bức bối vì các công cụ dữ liệu lại tập trung vào văn bản thường hoặc hình ảnh thay vì mã nguồn
    SGlang không chạy được trên macOS nên tôi không thể tạo dữ liệu tổng hợp bằng đầu ra bị ràng buộc EBNF
    Tôi đang tự tải các corpus mã Python về để xử lý các vấn đề APFS, sharding, phân loại·làm sạch·trộn tùy chỉnh, và khá ngạc nhiên khi không có dataset được gắn thẻ sẵn nào dành cho mã nguồn

  • Nếu đây là một cuốn sách nói về data engineering cho LLM, thì cũng nên nhắc đến các hạng mục mới nổi như định dạng lưu trữ cho toàn bộ vòng đời ML
    Ví dụ, Lance là một dạng lưu trữ cột được tối ưu cho cả tác vụ phân tích lẫn vector workload, hỗ trợ versioning và random access
    Điều này rất quan trọng cho lấy mẫu, lọc hiệu quả và xử lý dữ liệu đa phương thức (ví dụ: video)
    Những ví dụ tương tự gồm có vortex, nimble của Meta, v.v.

  • Tôi nghĩ tiêu đề ‘Data Engineering for LLMs’ sẽ phù hợp hơn

    • Ý kiến hay đấy. Xét về nội dung thì ‘Data Engineering for LLMs’ chính xác hơn nhiều, nên tôi sẽ chuyển ngay cho trưởng dự án
  • Có thể là vấn đề dịch thuật, nhưng phần giải thích “Modern Data Stack” ở đầu không tạo được cảm giác đáng tin
    Phần 1_2_data_infra.md hơi mơ hồ, nhưng
    các mục làm sạch dữ liệupipeline RAG ở sau thì rõ ràng hơn nhiều

    • Cảm ơn phản hồi thẳng thắn của bạn
  • Bản tiếng Anh có tại README_en.md

    • Cảm ơn! Tôi đã thay liên kết ở đầu bằng cái đó. URL được gửi ban đầu là data_engineering_book
      Bài đăng trước đó bị bộ lọc spam chặn, nhưng tác giả đã báo qua email nên tôi đã mời họ chia sẻ bối cảnh trong phần bình luận. Giờ tôi đã phản ánh nội dung đó ở phần đầu
    • Cảm ơn bạn đã chia sẻ liên kết trực tiếp
  • Rất thú vị nên tôi đã đánh dấu lại. Nhưng tôi tò mò không biết README có phải được viết bằng ChatGPT không

    • Đúng vậy. Chúng tôi là một đội ngũ ở Trung Quốc và đã dùng GPT để dịch sang tiếng Anh. Cảm ơn phản hồi rằng nó tạo cảm giác hơi “ấm áp giả tạo”. Từ giờ chúng tôi sẽ chỉnh lại theo giọng văn trung tính và ngắn gọn hơn
    • Tôi cũng có cảm giác đó. Có quá nhiều bảng tóm tắt và văn phong hơi nhân tạo nên rất giống do LLM viết. Dù không phải GPT thì nó vẫn cần viết lại toàn diện
  • Câu “Data is the new oil, but only if you know how to refine it.” khá ấn tượng
    Dầu mỏ cũng vô dụng nếu chưa được tinh chế, nên có lẽ diễn đạt kiểu “Dữ liệu là dầu mỏ mới, và chỉ có giá trị khi được tinh luyện” sẽ tự nhiên hơn

  • Phần ‘Vector DB vs Keyword Search’ khá thú vị. Tôi tò mò trong các thử nghiệm pipeline RAG thì họ đặt ranh giới ở đâu
    Theo kinh nghiệm của chúng tôi, tìm kiếm từ khóa như BM25 mạnh với tên thực thể·ID, còn tìm kiếm vector mạnh với truy vấn mang tính khái niệm. Tôi muốn biết sách có đề cập đến tìm kiếm hybrid hay reranking không

    • Câu hỏi hay đấy. Trong production thực tế, cách tiếp cận hybrid BM25+vector tỏ ra hiệu quả trong đa số trường hợp. Theo tỷ lệ khoảng 70/30 thì từ khóa có lợi thế hơn trong exact matching
      Điểm mấu chốt là reranking. Không phải chỉ gộp kết quả lại, mà cần chấm điểm lại bằng cross-encoder (ví dụ: Cohere hoặc mô hình tùy chỉnh)
      Trường hợp tìm kiếm thuần ngữ nghĩa phát huy lợi thế là khi truy vấn thiên về các khái niệm trừu tượng
    • Cảm ơn những chia sẻ sâu sắc này. Chúng tôi sẽ đưa các mẫu như vậy vào những bản cập nhật sau. Hiện đang trong kỳ nghỉ Tết Nguyên đán nên có thể sẽ hơi chậm
  • Hình minh họa trong mỗi chương đang để bằng tiếng Anh (trừ ảnh trong README_en.md)

    • Cảm ơn đã báo! Tôi đã nhận ra sự khác biệt đó và sửa ngay các sơ đồ trong README_en.md. Giờ chúng sẽ hiển thị đúng
  • Chỉ Parquet thôi thì chưa đủ cho data engineering hiện đại. Nên có thêm DeltaIceberg

    • Cảm ơn phản hồi! Tôi đã chuyển cho người phụ trách phần đó. Hiện đang trong kỳ nghỉ Tết Nguyên đán nên cập nhật có thể hơi chậm. Chúc mừng năm mới