Tìm hiểu GPT Tokenizer
(simonwillison.net)- Các mô hình LLM như GPT/LLaMA/PaLM hoạt động dựa trên token
- Chúng nhận văn bản, chuyển thành các token (số nguyên), rồi dự đoán token nào sẽ xuất hiện tiếp theo
- OpenAI đã công bố Tokenizer, nhưng tác giả cũng đã công khai phiên bản của riêng mình bằng Observable notebook (dựa trên GPT-2, dùng cho mục đích giáo dục)
- Hỗ trợ chuyển văn bản thành token, token thành văn bản và tra cứu toàn bộ bảng token
-
The dog eats the apples
El perro come las manzanas
片仮名 - Giải thích dựa trên kết quả chuyển các câu trên thành token
Thevàthelà hai token khác nhau- Nhiều từ có token bao gồm khoảng trắng ở phía trước (hiệu quả hơn nhiều cho việc mã hóa cả câu)
- Các từ không phải tiếng Anh bị token hóa kém hiệu quả hơn
Chưa có bình luận nào.