Tự xây dựng GPT Tokenizer bởi Andrej Karpathy [Video]

(youtube.com)

23 điểm bởi GN⁺ 2024-02-21 | 2 bình luận | Chia sẻ qua WhatsApp

Tokenizer là một thành phần thiết yếu và được sử dụng rất nhiều trong các mô hình ngôn ngữ lớn (LLM), dùng để chuyển đổi giữa chuỗi và token (các mảnh văn bản)
Tokenizer là một giai đoạn hoàn toàn tách biệt trong pipeline của LLM:
- có bộ dữ liệu huấn luyện và thuật toán huấn luyện riêng của nó (Byte Pair Encoding)
- sau khi huấn luyện, nó triển khai hai chức năng cơ bản:
  - chuyển đổi từ chuỗi sang token bằng encode(),
  - và chuyển đổi ngược từ token về chuỗi bằng decode()
Trong bài giảng này, bạn sẽ tự xây dựng từ đầu Tokenizer được sử dụng trong dòng GPT của OpenAI
Trong quá trình đó, bạn sẽ nhận ra rằng nhiều hành vi kỳ lạ và vấn đề của LLM thực ra phát sinh từ việc token hóa
Bài giảng sẽ xem xét các vấn đề này, thảo luận vì sao token hóa là nguyên nhân của chúng, và vì sao ai đó nên tìm cách loại bỏ hoàn toàn bước này

2 bình luận

GN⁺ 2024-02-21

Ý kiến trên Hacker News

Video của Andrej Karpathy về việc xây dựng GPT nano là một bài hướng dẫn giải thích xuất sắc mọi bước cần thiết để phát triển các mô hình ngôn ngữ lớn hiện đại (Large Language Models, LLM).
- Loạt bài 'zero to hero' này giúp người xem hiểu ý tưởng và thấy được sự đơn giản thông qua triển khai thực tế cùng các phép so sánh minh họa, thay vì dùng những ẩn dụ khiến khái niệm trông đáng sợ hoặc bị làm cho quá phức tạp.
- Ban đầu độ dốc học tập khá cao, nhưng cảm giác rất thỏa mãn vì thực sự có được khả năng hiểu và thảo luận về lý do đằng sau chúng.
Andrej Karpathy nói khá nhanh nên phải kiểm tra tốc độ phát. Nghe như đang nói ở tốc độ 1.25x.
Ngay cả khi trả phí cũng khó tìm được nội dung chất lượng cao như thế này.
Về câu "khi là quả trứng của vũ trụ, nó là một token duy nhất", không chắc các thành viên phi hành đoàn của tàu 'Nostromo' sẽ đồng ý. (Đây là một câu đùa nhắc đến tàu vũ trụ 'Nostromo' trong phim 'Alien', và để hiểu đầy đủ ngữ cảnh của bình luận này thì cần có kiến thức nền về bộ phim đó)

Tóm tắt trên được viết để tóm lược từng bình luận một cách trung lập bằng các câu kết thúc theo kiểu danh ngữ, đồng thời bổ sung ngắn gọn kiến thức nền để cả kỹ sư phần mềm mới bắt đầu cũng có thể hiểu được.

wooseop 2024-02-21

Có vẻ prompt là: "Hãy tóm tắt từng bình luận thành câu trung lập kết thúc bằng danh từ, đồng thời thêm ngắn gọn kiến thức nền để ngay cả kỹ sư phần mềm mới vào nghề cũng có thể hiểu được"

Tự xây dựng GPT Tokenizer bởi Andrej Karpathy [Video]

Bài viết liên quan

2 bình luận

Ý kiến trên Hacker News