13 điểm bởi xguru 2024-02-21 | 1 bình luận | Chia sẻ qua WhatsApp
  • Mã nguồn mới được Andrej Karpathy công bố sau khi rời OpenAI
  • Mã tối giản/sạch cho thuật toán mã hóa cặp byte (BPE) (cấp byte) thường được dùng trong token hóa LLM
    • Cấp byte: vì nó hoạt động trên các chuỗi được mã hóa UTF-8
  • BPE được phổ biến trong LLM nhờ bài báo GPT-2 và bản phát hành mã GPT-2 liên quan của OpenAI
  • Ngày nay, mọi LLM hiện đại (ví dụ: GPT, Llama, Mistral) đều dùng thuật toán này để huấn luyện tokenizer
  • Repo có 2 tokenizer. Cả hai đều thực hiện 3 thao tác chính
      1. Huấn luyện từ vựng và các phép hợp nhất của tokenizer trên văn bản cho trước
      1. Mã hóa từ văn bản thành token
      1. Giải mã từ token thành văn bản
  • Lớp cơ sở Tokenizer cùng với bản triển khai đơn giản nhất là BasicTokenizer, và RegexTokenizer chia tách chuỗi đầu vào bằng biểu thức chính quy
  • GPT4Tokenizer, một wrapper của RegexTokenizer, tái hiện chính xác cơ chế token hóa của GPT-4 trong thư viện tiktoken

1 bình luận

 
xguru 2024-02-21

Về nội dung này, video hướng dẫn xây dựng GPT Tokenizer cũng đã được đăng lên. Xây dựng GPT Tokenizer bởi Andrej Karpathy [video]