15 điểm bởi xguru 2023-06-12 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Các mô hình LLM như GPT/LLaMA/PaLM hoạt động dựa trên token
  • Chúng nhận văn bản, chuyển thành các token (số nguyên), rồi dự đoán token nào sẽ xuất hiện tiếp theo
  • OpenAI đã công bố Tokenizer, nhưng tác giả cũng đã công khai phiên bản của riêng mình bằng Observable notebook (dựa trên GPT-2, dùng cho mục đích giáo dục)
    • Hỗ trợ chuyển văn bản thành token, token thành văn bản và tra cứu toàn bộ bảng token
  • The dog eats the apples
    El perro come las manzanas
    片仮名

  • Giải thích dựa trên kết quả chuyển các câu trên thành token
    • Thethe là hai token khác nhau
    • Nhiều từ có token bao gồm khoảng trắng ở phía trước (hiệu quả hơn nhiều cho việc mã hóa cả câu)
    • Các từ không phải tiếng Anh bị token hóa kém hiệu quả hơn

Chưa có bình luận nào.

Chưa có bình luận nào.