- Mã nguồn mới được Andrej Karpathy công bố sau khi rời OpenAI
- Mã tối giản/sạch cho thuật toán mã hóa cặp byte (BPE) (cấp byte) thường được dùng trong token hóa LLM
- Cấp byte: vì nó hoạt động trên các chuỗi được mã hóa UTF-8
- BPE được phổ biến trong LLM nhờ bài báo GPT-2 và bản phát hành mã GPT-2 liên quan của OpenAI
- Ngày nay, mọi LLM hiện đại (ví dụ: GPT, Llama, Mistral) đều dùng thuật toán này để huấn luyện tokenizer
- Repo có 2 tokenizer. Cả hai đều thực hiện 3 thao tác chính
-
- Huấn luyện từ vựng và các phép hợp nhất của tokenizer trên văn bản cho trước
-
- Mã hóa từ văn bản thành token
-
- Giải mã từ token thành văn bản
- Lớp cơ sở Tokenizer cùng với bản triển khai đơn giản nhất là BasicTokenizer, và RegexTokenizer chia tách chuỗi đầu vào bằng biểu thức chính quy
- GPT4Tokenizer, một wrapper của RegexTokenizer, tái hiện chính xác cơ chế token hóa của GPT-4 trong thư viện
tiktoken
1 bình luận
Về nội dung này, video hướng dẫn xây dựng GPT Tokenizer cũng đã được đăng lên. Xây dựng GPT Tokenizer bởi Andrej Karpathy [video]