TabLib - bộ dữ liệu 867B token dạng bảng
(approximatelabs.com)- Bộ dữ liệu gồm 627M (627 triệu) bảng và 867B (867 tỷ) token để huấn luyện LLM
- Bao gồm các bảng được trích xuất từ trang web, Excel, CSV, SQLite, v.v.
- Dữ liệu ngữ cảnh phong phú như tên tệp, URL nguồn, văn bản xung quanh từng bảng
- Hy vọng sẽ giúp xây dựng khả năng hiểu và kỹ thuật tốt hơn cho các tác vụ dữ liệu dạng bảng
- 650 tỷ hàng và tối đa 8 tỷ cột
- Bảng lớn nhất có 32 triệu hàng
- Bảng rộng nhất có 3 triệu cột
Chưa có bình luận nào.