- Trình tokenizer hiệu năng cao tương thích 100% với TikToken của OpenAI, cung cấp thông lượng cao hơn hơn 2 lần và tốc độ token hóa mã nhanh hơn 4 lần khi xử lý văn bản quy mô lớn
- Công cụ phân tích cú pháp biểu thức chính quy tốc độ cao dựa trên PCRE2 giúp tối đa hóa tốc độ khớp mẫu token
- Thuật toán BPE được đơn giản hóa giúp giảm thiểu suy giảm hiệu năng khi xử lý số lượng lớn special token
- Trong benchmark thực tế, token hóa mã nhanh hơn hơn 4 lần, và có thể thay thế trực tiếp mã đang dùng TikToken hiện có để sử dụng
- Hỗ trợ Python 3.8+, có thể cài đặt đơn giản qua PyPI bằng
pip install tokendagger và phụ thuộc vào PCRE2
1 bình luận
Ý kiến trên Hacker News