Chonkie - Thư viện Python chia nhỏ văn bản cho RAG nhanh và nhẹ

xguru · 2024-11-12T10:21:01+09:00

Dung lượng cài đặt mặc định chỉ 21MB, nhỏ hơn 80-171MB so với các thư viện thay thế Tốc độ chia nhỏ theo token nhanh hơn 33 lần so với các thư viện phổ biến khác Hỗ trợ nhiều chiến lược chia nhỏ như token, từ, câu, ngữ nghĩa, SDPM Tương thích với các tokenizer phổ biến như transformers, tokenizers, tiktoken Không có phụ thuộc bên ngoài nếu chỉ dùng các tính năng cơ bản Tối ưu hóa kỹ thuật Sử dụng tiktoken có hỗ trợ đa luồng để token hóa nhanh hơn Triển khai caching tích cực và tính toán trước Sử dụng Running Mean Pooling để chia nhỏ ngữ nghĩa hiệu quả Hệ thống phụ thuộc dạng mô-đun cho phép chỉ cài những gì cần thiết

(github.com/bhavnicksm)

15 điểm bởi xguru 2024-11-12 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Dung lượng cài đặt mặc định chỉ 21MB, nhỏ hơn 80-171MB so với các thư viện thay thế
Tốc độ chia nhỏ theo token nhanh hơn 33 lần so với các thư viện phổ biến khác
Hỗ trợ nhiều chiến lược chia nhỏ như token, từ, câu, ngữ nghĩa, SDPM
Tương thích với các tokenizer phổ biến như transformers, tokenizers, tiktoken
Không có phụ thuộc bên ngoài nếu chỉ dùng các tính năng cơ bản

Tối ưu hóa kỹ thuật

Sử dụng tiktoken có hỗ trợ đa luồng để token hóa nhanh hơn
Triển khai caching tích cực và tính toán trước
Sử dụng Running Mean Pooling để chia nhỏ ngữ nghĩa hiệu quả
Hệ thống phụ thuộc dạng mô-đun cho phép chỉ cài những gì cần thiết

Chonkie - Thư viện Python chia nhỏ văn bản cho RAG nhanh và nhẹ

Tối ưu hóa kỹ thuật

Bài viết liên quan

Chưa có bình luận nào.