- Toàn bộ SafeDocs được phân loại bằng LLMs, mô hình embedding, XGBoost và Linear Regressors.
- Trong quá trình phân loại, đã tiến hành nhiều thí nghiệm và so sánh hiệu năng khác nhau, đồng thời đánh giá hiệu quả của nhiều mô hình.
Giới thiệu
- Common Crawl (CC) là một kho lưu trữ web dùng để lưu trữ Internet, tập trung vào việc bảo tồn Internet cho các nhà khoa học và nhà nghiên cứu.
- CC không lưu toàn bộ tệp PDF mà chỉ lưu 1MB đầu tiên; SafeDocs lấy lại các tệp PDF này từ CC và bảo tồn các PDF gốc.
- Bộ dữ liệu SafeDocs gồm khoảng 8,4 triệu tệp PDF và đạt 8TB sau khi giải nén.
- Đã thử phân loại các tệp PDF này.
Tạo bộ dữ liệu
- Mô tả quá trình phân loại các tệp PDF theo nhiều nhãn khác nhau.
- Lấy cảm hứng từ blog kỹ thuật FineWeb, đã tạo một tập con của nội dung giáo dục, dùng LLM để sinh nhãn, rồi huấn luyện các mô hình nhỏ có thể học các nhãn đó.
- Tạo ra 100k nhãn, sau đó điều chỉnh các nhãn bị mất cân bằng và tái cấu trúc thành 59k nhãn.
Huấn luyện mô hình
Ý tưởng 1: Mô hình embedding
- Mô hình embedding biến dữ liệu như văn bản, hình ảnh, video... thành các vector trong không gian n chiều.
- Cải thiện hiệu năng phân loại thông qua finetuning.
- Sau khi thử nhiều mô hình,
Alibaba-large-gte-1.5 cho kết quả tốt nhất, đạt độ chính xác 59.14%.
Ý tưởng 2: XGBoost
- XGBoost là mô hình nổi tiếng với hiệu năng hàng đầu trên dữ liệu dạng bảng, giải quyết bài toán phân loại bằng cách huấn luyện nhiều bộ phân loại nhị phân đơn giản.
- Cách này đạt độ chính xác 83.97%.
Ý tưởng 3: TFIDF
- TFIDF là phương pháp tính mức độ quan trọng của một từ cụ thể trong văn bản, và mô hình được huấn luyện bằng các kỹ thuật NLP cơ bản.
- Ghi nhận độ chính xác 67.52%.
Ý tưởng 4: Quay lại với deep learning
- Dùng bộ phân loại deep learning với mục tiêu đạt ít nhất 70% độ chính xác.
- Sau khi tạo thêm nhãn và thử nghiệm với mô hình
gte-large, đã đạt độ chính xác 69.22%.
Kết quả thí nghiệm
- Cuối cùng, mô hình embedding kết hợp XGBoost đạt độ chính xác cao nhất là 85.26%.
- Khi so sánh hiệu năng của nhiều mô hình, XGBoost cho kết quả tốt nhất.
Phân loại toàn bộ corpus
- Dùng mô hình đã tạo để phân loại toàn bộ dữ liệu PDF và trực quan hóa kết quả.
- Dùng PCA và UMAP để thể hiện trực quan kết quả phân loại.
Kết luận
- Dù hiệu năng của mô hình deep learning không đạt kỳ vọng, nhìn chung vẫn đạt được những kết quả có ý nghĩa.
- Dự kiến sẽ ngày càng xuất hiện nhiều bộ dữ liệu quy mô lớn sử dụng dữ liệu phức hợp như PDF.
- Công bố bộ dữ liệu và mã nguồn để tạo cơ hội đạt được kết quả tốt hơn.
Ý kiến của GN⁺
- Dự án này là một ví dụ tốt về việc thử nghiệm nhiều cách tiếp cận khác nhau cho bài toán phân loại trên bộ dữ liệu quy mô lớn.
- Cho thấy các kỹ thuật machine learning truyền thống như XGBoost vẫn có thể cực kỳ hiệu quả.
- Có khả năng cần thêm dữ liệu và tài nguyên GPU để nâng cao hiệu năng của mô hình deep learning.
- Cần thêm nhiều nghiên cứu và thử nghiệm về cách xử lý dữ liệu phức hợp như PDF.
- Dự án này có thể là tài liệu tham khảo rất hữu ích cho những người quan tâm đến nghiên cứu và phát triển.
Chưa có bình luận nào.