- Dung lượng cài đặt mặc định chỉ 21MB, nhỏ hơn 80-171MB so với các thư viện thay thế
- Tốc độ chia nhỏ theo token nhanh hơn 33 lần so với các thư viện phổ biến khác
- Hỗ trợ nhiều chiến lược chia nhỏ như token, từ, câu, ngữ nghĩa, SDPM
- Tương thích với các tokenizer phổ biến như transformers, tokenizers, tiktoken
- Không có phụ thuộc bên ngoài nếu chỉ dùng các tính năng cơ bản
Tối ưu hóa kỹ thuật
- Sử dụng tiktoken có hỗ trợ đa luồng để token hóa nhanh hơn
- Triển khai caching tích cực và tính toán trước
- Sử dụng Running Mean Pooling để chia nhỏ ngữ nghĩa hiệu quả
- Hệ thống phụ thuộc dạng mô-đun cho phép chỉ cài những gì cần thiết
Chưa có bình luận nào.