- Hướng dẫn giải thích trực quan nguyên lý hoạt động của các mô hình ngôn ngữ lớn như GPT-2, nano-gpt, GPT-3
- Mục lục: giới thiệu và kiến thức chuẩn bị, embedding, chuẩn hóa lớp, self-attention, projection, MLP, transformer, Softmax, đầu ra
Tóm tắt phần giới thiệu tổng thể
- Trường hợp của
nano-gpt có 85.000 tham số
- Mục tiêu là sắp xếp một chuỗi gồm sáu ký tự theo thứ tự bảng chữ cái
- Có thể lấy ví dụ quá trình nhận chuỗi
C B A B B C làm đầu vào và sắp xếp thành ABBBCC.
- Mỗi ký tự trong chuỗi được gọi là một
token, và từ vựng của mô hình được cấu thành từ nhiều token khác nhau
- Mỗi token được gán một chỉ số số học và được đưa vào mô hình
- Mỗi số được chuyển thành một vector gồm 48 phần tử, gọi là
embedding
- Embedding đi qua một chuỗi các lớp được gọi là
transformer
- Cuối cùng, mô hình dự đoán xác suất của token tiếp theo trong chuỗi đã cho
- Token được dự đoán sẽ lại được đưa vào phần trên của mô hình và toàn bộ quá trình được lặp lại
1 bình luận
Ý kiến trên Hacker News
Đây là một công cụ cực kỳ hữu ích để hiểu LLM ở mức nền tảng
model.pycủa minGPT.Ngạc nhiên khi thấy độ phức tạp của thuật toán được thể hiện rõ ràng trong không gian 3D
Bản trực quan hóa này thực sự đáng kinh ngạc
Đây chính là kiểu trực quan hóa đã tìm kiếm suốt nhiều tháng
Có thể đặt tiêu đề là 'mổ xẻ phép màu thành phép nhân ma trận và tích vô hướng' cũng được
Mô hình 3D thực sự ấn tượng về mặt giáo dục
Càng thấy ngạc nhiên hơn về cách LLM có thể hoạt động tốt đến vậy
Phần giải thích về sức mạnh của self-attention thường bị bỏ sót
Tác giả chia sẻ thêm bối cảnh cho công trình này trong một chuỗi bài trên Twitter
Nếu muốn một phiên bản số chiều thấp hơn cho mô hình của mình, có thể thử thư viện Netron
Đây không chỉ là một mô hình 3D đơn giản mà là một công trình có chiều sâu
Bản trực quan hóa này thực sự đáng kinh ngạc
Đây là lý do tôi yêu Hacker News