Trực quan hóa LLM

(bbycroft.net)

43 điểm bởi GN⁺ 2025-09-05 | 1 bình luận | Chia sẻ qua WhatsApp

Giới thiệu ngắn gọn quy trình hoạt động của mô hình ngôn ngữ lớn dựa trên GPT nano-gpt
Mục tiêu của mô hình này là nhận vào một chuỗi gồm 6 ký tự và sắp xếp chúng theo thứ tự bảng chữ cái
Mỗi ký tự được xem là một token và mọi token đều có chỉ số token riêng
Mỗi chỉ số token được chuyển thành một vector embedding 48 chiều rồi đi qua một loạt lớp transformer
Mô hình dự đoán token tiếp theo, và kết quả có thể được đưa lặp lại vào đầu vào để phát triển chuỗi đầu vào

Giới thiệu mô hình ngôn ngữ GPT

Tài liệu này giải thích trực quan cách hoạt động của mô hình ngôn ngữ lớn GPT
Ở đây sử dụng nano-gpt, một mô hình rất nhỏ (khoảng 85.000 tham số)
Mục tiêu của mô hình là nhận vào một chuỗi gồm 6 ký tự rồi sắp xếp chúng theo thứ tự bảng chữ cái (ví dụ: "ABBBCC")

Token và từ vựng

Mỗi ký tự được định nghĩa là một token, và toàn bộ tập token mà mô hình nhận biết được gọi là vocabulary
Trong bảng, mỗi token được gán một số định danh riêng (token index)
Chuỗi số của các chỉ số token này được dùng làm đầu vào cho mô hình

Biến đổi đầu vào và embedding

Trong trực quan hóa 3D, ô màu xanh lá biểu thị con số đang được xử lý, còn ô màu xanh dương biểu thị trọng số (weight) của mô hình
Mỗi số đầu vào được chuyển thành một vector embedding 48 chiều
Embedding này liên tục đi qua nhiều lớp transformer trong cấu trúc mô hình

Đầu ra và quá trình dự đoán

Đầu ra của mô hình được biểu diễn dưới dạng xác suất của token tiếp theo được dự đoán trong chuỗi đó
Tại vị trí đầu vào thứ 6, mô hình dự đoán phân phối xác suất để token tiếp theo là 'A', 'B' hoặc 'C'
Trong ví dụ, mô hình dự đoán rằng xác suất là 'A' cao nhất
Kết quả dự đoán này lại được đưa vào đầu vào và quá trình được lặp lại để tạo ra toàn bộ chuỗi

1 bình luận

GN⁺ 2025-09-05

Ý kiến trên Hacker News

Thật sự rất phức tạp nhưng cũng đầy ấn tượng, cách trực quan hóa quy trình này thực sự rất tuyệt
Có tài liệu liên quan, nếu còn tò mò về thứ khác thì có thể tham khảo
LLM Visualization - tháng 12 năm 2023, 131 bình luận
Có một tài liệu trực quan hóa transformer khác do các nhà nghiên cứu tại Georgia Tech tạo ra
https://poloclub.github.io/transformer-explainer/
Và cũng đề xuất tài liệu trực quan hóa nổi tiếng là 'The Illustrated Transformer'
https://jalammar.github.io/illustrated-transformer/
Cũng có một bài viết của Sebastian Raschka, PhD về kiến trúc
https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
Trong bình luận Hacker News này có thể xem nhiều tài nguyên cùng lúc
https://news.ycombinator.com/item?id=35712334
Phần trực quan hóa thực sự rất thú vị, có thể nhìn thấy toàn bộ quy trình bằng hình ảnh nhưng điều mỉa mai là chúng ta vẫn chưa thể hiểu hoàn toàn tiêu chí ra quyết định bên trong của mô hình; lần tôi tìm hiểu cách đây khoảng 1 năm thì vẫn chưa có tiến triển ở phần này
Nội dung trực quan hóa này quá xuất sắc nên tôi định cho bọn trẻ trong câu lạc bộ máy tính mà cậu con trai 5 tuổi của tôi đang tham gia xem
- Với kiểu đó thì chắc rất hợp để ru bọn trẻ ngủ trưa
Đúng là một tác phẩm nghệ thuật tuyệt vời và đầy kinh ngạc, cảm ơn vì đã làm ra nó
Tôi đã rất thích tài liệu trực quan hóa này từ lâu
https://alphacode.deepmind.com/
(nếu dùng di động thì nhấn play, zoom out hết cỡ rồi cuộn xuống dưới)
Nếu trực quan hóa LLM trở thành công cụ giáo dục theo kiểu này thì sẽ rất tuyệt, ví dụ có thể cho thấy attention di chuyển như thế nào trong quá trình sinh, hoặc prompt ảnh hưởng ra sao đến đầu ra; những trực quan hóa tương tác như vậy có vẻ sẽ thực sự hữu ích để hiểu chuyện gì đang diễn ra ở hậu trường
Tôi nghĩ điều này thực sự rất xuất sắc, nếu có thời gian tôi muốn đào sâu hơn; nếu kết hợp với các công cụ quan sát, tôi nghĩ tài liệu này có thể giúp các nhà khoa học mổ xẻ bên trong mô hình vốn được gọi là "hộp đen"
Giờ thì tôi mới hiểu, đây thực sự là một tài nguyên tuyệt vời, cảm ơn vì thời gian và công sức

Trực quan hóa LLM

Giới thiệu mô hình ngôn ngữ GPT

Token và từ vựng

Biến đổi đầu vào và embedding

Đầu ra và quá trình dự đoán

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News