- Giới thiệu ngắn gọn quy trình hoạt động của mô hình ngôn ngữ lớn dựa trên GPT nano-gpt
- Mục tiêu của mô hình này là nhận vào một chuỗi gồm 6 ký tự và sắp xếp chúng theo thứ tự bảng chữ cái
- Mỗi ký tự được xem là một token và mọi token đều có chỉ số token riêng
- Mỗi chỉ số token được chuyển thành một vector embedding 48 chiều rồi đi qua một loạt lớp transformer
- Mô hình dự đoán token tiếp theo, và kết quả có thể được đưa lặp lại vào đầu vào để phát triển chuỗi đầu vào
Giới thiệu mô hình ngôn ngữ GPT
- Tài liệu này giải thích trực quan cách hoạt động của mô hình ngôn ngữ lớn GPT
- Ở đây sử dụng nano-gpt, một mô hình rất nhỏ (khoảng 85.000 tham số)
- Mục tiêu của mô hình là nhận vào một chuỗi gồm 6 ký tự rồi sắp xếp chúng theo thứ tự bảng chữ cái (ví dụ: "ABBBCC")
Token và từ vựng
- Mỗi ký tự được định nghĩa là một token, và toàn bộ tập token mà mô hình nhận biết được gọi là vocabulary
- Trong bảng, mỗi token được gán một số định danh riêng (token index)
- Chuỗi số của các chỉ số token này được dùng làm đầu vào cho mô hình
Biến đổi đầu vào và embedding
- Trong trực quan hóa 3D, ô màu xanh lá biểu thị con số đang được xử lý, còn ô màu xanh dương biểu thị trọng số (weight) của mô hình
- Mỗi số đầu vào được chuyển thành một vector embedding 48 chiều
- Embedding này liên tục đi qua nhiều lớp transformer trong cấu trúc mô hình
Đầu ra và quá trình dự đoán
- Đầu ra của mô hình được biểu diễn dưới dạng xác suất của token tiếp theo được dự đoán trong chuỗi đó
- Tại vị trí đầu vào thứ 6, mô hình dự đoán phân phối xác suất để token tiếp theo là 'A', 'B' hoặc 'C'
- Trong ví dụ, mô hình dự đoán rằng xác suất là 'A' cao nhất
- Kết quả dự đoán này lại được đưa vào đầu vào và quá trình được lặp lại để tạo ra toàn bộ chuỗi
1 bình luận
Ý kiến trên Hacker News
LLM Visualization - tháng 12 năm 2023, 131 bình luận
https://poloclub.github.io/transformer-explainer/
Và cũng đề xuất tài liệu trực quan hóa nổi tiếng là 'The Illustrated Transformer'
https://jalammar.github.io/illustrated-transformer/
Cũng có một bài viết của Sebastian Raschka, PhD về kiến trúc
https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
Trong bình luận Hacker News này có thể xem nhiều tài nguyên cùng lúc
https://news.ycombinator.com/item?id=35712334
https://alphacode.deepmind.com/
(nếu dùng di động thì nhấn play, zoom out hết cỡ rồi cuộn xuống dưới)