- Tokenizer là một thành phần thiết yếu và được sử dụng rất nhiều trong các mô hình ngôn ngữ lớn (LLM), dùng để chuyển đổi giữa chuỗi và token (các mảnh văn bản)
- Tokenizer là một giai đoạn hoàn toàn tách biệt trong pipeline của LLM:
- có bộ dữ liệu huấn luyện và thuật toán huấn luyện riêng của nó (Byte Pair Encoding)
- sau khi huấn luyện, nó triển khai hai chức năng cơ bản:
- chuyển đổi từ chuỗi sang token bằng
encode(),
- và chuyển đổi ngược từ token về chuỗi bằng
decode()
- Trong bài giảng này, bạn sẽ tự xây dựng từ đầu Tokenizer được sử dụng trong dòng GPT của OpenAI
- Trong quá trình đó, bạn sẽ nhận ra rằng nhiều hành vi kỳ lạ và vấn đề của LLM thực ra phát sinh từ việc token hóa
- Bài giảng sẽ xem xét các vấn đề này, thảo luận vì sao token hóa là nguyên nhân của chúng, và vì sao ai đó nên tìm cách loại bỏ hoàn toàn bước này
2 bình luận
Ý kiến trên Hacker News
Video của Andrej Karpathy về việc xây dựng GPT nano là một bài hướng dẫn giải thích xuất sắc mọi bước cần thiết để phát triển các mô hình ngôn ngữ lớn hiện đại (Large Language Models, LLM).
Andrej Karpathy nói khá nhanh nên phải kiểm tra tốc độ phát. Nghe như đang nói ở tốc độ 1.25x.
Ngay cả khi trả phí cũng khó tìm được nội dung chất lượng cao như thế này.
Về câu "khi là quả trứng của vũ trụ, nó là một token duy nhất", không chắc các thành viên phi hành đoàn của tàu 'Nostromo' sẽ đồng ý. (Đây là một câu đùa nhắc đến tàu vũ trụ 'Nostromo' trong phim 'Alien', và để hiểu đầy đủ ngữ cảnh của bình luận này thì cần có kiến thức nền về bộ phim đó)
Tóm tắt trên được viết để tóm lược từng bình luận một cách trung lập bằng các câu kết thúc theo kiểu danh ngữ, đồng thời bổ sung ngắn gọn kiến thức nền để cả kỹ sư phần mềm mới bắt đầu cũng có thể hiểu được.
Có vẻ prompt là: "Hãy tóm tắt từng bình luận thành câu trung lập kết thúc bằng danh từ, đồng thời thêm ngắn gọn kiến thức nền để ngay cả kỹ sư phần mềm mới vào nghề cũng có thể hiểu được"