7 điểm bởi xguru 2023-10-19 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Bộ dữ liệu gồm 627M (627 triệu) bảng và 867B (867 tỷ) token để huấn luyện LLM
    • Bao gồm các bảng được trích xuất từ trang web, Excel, CSV, SQLite, v.v.
    • Dữ liệu ngữ cảnh phong phú như tên tệp, URL nguồn, văn bản xung quanh từng bảng
  • Hy vọng sẽ giúp xây dựng khả năng hiểu và kỹ thuật tốt hơn cho các tác vụ dữ liệu dạng bảng
  • 650 tỷ hàng và tối đa 8 tỷ cột
  • Bảng lớn nhất có 32 triệu hàng
  • Bảng rộng nhất có 3 triệu cột

Chưa có bình luận nào.

Chưa có bình luận nào.