minbpe - Bản triển khai Byte Pair Encoding dùng cho token hóa LLM

xguru · 2024-02-21T11:06:01+09:00

Mã nguồn mới được Andrej Karpathy công bố sau khi rời OpenAI Mã tối giản/sạch cho thuật toán mã hóa cặp byte (BPE) (cấp byte) thường được dùng trong token hóa LLM Cấp byte: vì nó hoạt động trên các chuỗi được mã hóa UTF-8 BPE được phổ biến trong LLM nhờ bài báo GPT-2 và bản phát hành mã GPT-2 liên quan của OpenAI Ngày nay, mọi LLM hiện đại (ví dụ: GPT, Llama, Mistral) đều dùng thuật toán này để huấn luyện tokenizer Repo có 2 tokenizer. Cả hai đều thực hiện 3 thao tác chính Huấn luyện từ vựng và các phép hợp nhất của tokenizer trên văn bản cho trước Mã hóa từ văn bản thành token Giải mã từ token thành văn bản Lớp cơ sở Tokenizer cùng với bản triển khai đơn giản nhất là BasicTokenizer, và RegexTokenizer chia tách chuỗi đầu vào bằng biểu thức chính quy GPT4Tokenizer, một wrapper của RegexTokenizer, tái hiện chính xác cơ chế token hóa của GPT-4 trong thư viện tiktoken

(github.com/karpathy)

13 điểm bởi xguru 2024-02-21 | 1 bình luận | Chia sẻ qua WhatsApp

Mã nguồn mới được Andrej Karpathy công bố sau khi rời OpenAI
Mã tối giản/sạch cho thuật toán mã hóa cặp byte (BPE) (cấp byte) thường được dùng trong token hóa LLM
- Cấp byte: vì nó hoạt động trên các chuỗi được mã hóa UTF-8
BPE được phổ biến trong LLM nhờ bài báo GPT-2 và bản phát hành mã GPT-2 liên quan của OpenAI
Ngày nay, mọi LLM hiện đại (ví dụ: GPT, Llama, Mistral) đều dùng thuật toán này để huấn luyện tokenizer
Repo có 2 tokenizer. Cả hai đều thực hiện 3 thao tác chính
- 1. Huấn luyện từ vựng và các phép hợp nhất của tokenizer trên văn bản cho trước
- 1. Mã hóa từ văn bản thành token
- 1. Giải mã từ token thành văn bản
Lớp cơ sở Tokenizer cùng với bản triển khai đơn giản nhất là BasicTokenizer, và RegexTokenizer chia tách chuỗi đầu vào bằng biểu thức chính quy
GPT4Tokenizer, một wrapper của RegexTokenizer, tái hiện chính xác cơ chế token hóa của GPT-4 trong thư viện tiktoken

1 bình luận

xguru 2024-02-21

Về nội dung này, video hướng dẫn xây dựng GPT Tokenizer cũng đã được đăng lên. Xây dựng GPT Tokenizer bởi Andrej Karpathy [video]

minbpe - Bản triển khai Byte Pair Encoding dùng cho token hóa LLM

Bài viết liên quan

1 bình luận