43 điểm bởi GN⁺ 2025-09-05 | 1 bình luận | Chia sẻ qua WhatsApp
  • Giới thiệu ngắn gọn quy trình hoạt động của mô hình ngôn ngữ lớn dựa trên GPT nano-gpt
  • Mục tiêu của mô hình này là nhận vào một chuỗi gồm 6 ký tự và sắp xếp chúng theo thứ tự bảng chữ cái
  • Mỗi ký tự được xem là một token và mọi token đều có chỉ số token riêng
  • Mỗi chỉ số token được chuyển thành một vector embedding 48 chiều rồi đi qua một loạt lớp transformer
  • Mô hình dự đoán token tiếp theo, và kết quả có thể được đưa lặp lại vào đầu vào để phát triển chuỗi đầu vào

Giới thiệu mô hình ngôn ngữ GPT

  • Tài liệu này giải thích trực quan cách hoạt động của mô hình ngôn ngữ lớn GPT
  • Ở đây sử dụng nano-gpt, một mô hình rất nhỏ (khoảng 85.000 tham số)
  • Mục tiêu của mô hình là nhận vào một chuỗi gồm 6 ký tự rồi sắp xếp chúng theo thứ tự bảng chữ cái (ví dụ: "ABBBCC")

Token và từ vựng

  • Mỗi ký tự được định nghĩa là một token, và toàn bộ tập token mà mô hình nhận biết được gọi là vocabulary
  • Trong bảng, mỗi token được gán một số định danh riêng (token index)
  • Chuỗi số của các chỉ số token này được dùng làm đầu vào cho mô hình

Biến đổi đầu vào và embedding

  • Trong trực quan hóa 3D, ô màu xanh lá biểu thị con số đang được xử lý, còn ô màu xanh dương biểu thị trọng số (weight) của mô hình
  • Mỗi số đầu vào được chuyển thành một vector embedding 48 chiều
  • Embedding này liên tục đi qua nhiều lớp transformer trong cấu trúc mô hình

Đầu ra và quá trình dự đoán

  • Đầu ra của mô hình được biểu diễn dưới dạng xác suất của token tiếp theo được dự đoán trong chuỗi đó
  • Tại vị trí đầu vào thứ 6, mô hình dự đoán phân phối xác suất để token tiếp theo là 'A', 'B' hoặc 'C'
  • Trong ví dụ, mô hình dự đoán rằng xác suất là 'A' cao nhất
  • Kết quả dự đoán này lại được đưa vào đầu vào và quá trình được lặp lại để tạo ra toàn bộ chuỗi

1 bình luận

 
GN⁺ 2025-09-05
Ý kiến trên Hacker News
  • Thật sự rất phức tạp nhưng cũng đầy ấn tượng, cách trực quan hóa quy trình này thực sự rất tuyệt
  • Có tài liệu liên quan, nếu còn tò mò về thứ khác thì có thể tham khảo
    LLM Visualization - tháng 12 năm 2023, 131 bình luận
  • Có một tài liệu trực quan hóa transformer khác do các nhà nghiên cứu tại Georgia Tech tạo ra
    https://poloclub.github.io/transformer-explainer/
    Và cũng đề xuất tài liệu trực quan hóa nổi tiếng là 'The Illustrated Transformer'
    https://jalammar.github.io/illustrated-transformer/
    Cũng có một bài viết của Sebastian Raschka, PhD về kiến trúc
    https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
    Trong bình luận Hacker News này có thể xem nhiều tài nguyên cùng lúc
    https://news.ycombinator.com/item?id=35712334
  • Phần trực quan hóa thực sự rất thú vị, có thể nhìn thấy toàn bộ quy trình bằng hình ảnh nhưng điều mỉa mai là chúng ta vẫn chưa thể hiểu hoàn toàn tiêu chí ra quyết định bên trong của mô hình; lần tôi tìm hiểu cách đây khoảng 1 năm thì vẫn chưa có tiến triển ở phần này
  • Nội dung trực quan hóa này quá xuất sắc nên tôi định cho bọn trẻ trong câu lạc bộ máy tính mà cậu con trai 5 tuổi của tôi đang tham gia xem
    • Với kiểu đó thì chắc rất hợp để ru bọn trẻ ngủ trưa
  • Đúng là một tác phẩm nghệ thuật tuyệt vời và đầy kinh ngạc, cảm ơn vì đã làm ra nó
  • Tôi đã rất thích tài liệu trực quan hóa này từ lâu
    https://alphacode.deepmind.com/
    (nếu dùng di động thì nhấn play, zoom out hết cỡ rồi cuộn xuống dưới)
  • Nếu trực quan hóa LLM trở thành công cụ giáo dục theo kiểu này thì sẽ rất tuyệt, ví dụ có thể cho thấy attention di chuyển như thế nào trong quá trình sinh, hoặc prompt ảnh hưởng ra sao đến đầu ra; những trực quan hóa tương tác như vậy có vẻ sẽ thực sự hữu ích để hiểu chuyện gì đang diễn ra ở hậu trường
  • Tôi nghĩ điều này thực sự rất xuất sắc, nếu có thời gian tôi muốn đào sâu hơn; nếu kết hợp với các công cụ quan sát, tôi nghĩ tài liệu này có thể giúp các nhà khoa học mổ xẻ bên trong mô hình vốn được gọi là "hộp đen"
  • Giờ thì tôi mới hiểu, đây thực sự là một tài nguyên tuyệt vời, cảm ơn vì thời gian và công sức