- Tác giả đã tự xây dựng một mô hình transformer tương tự GPT-2 để dự đoán các chuỗi đơn giản và đạt được hiểu biết sâu hơn về transformer cũng như cơ chế attention.
- Transformer này không được huấn luyện bằng các trọng số có sẵn; thay vào đó, từng trọng số được gán thủ công.
- Nhiệm vụ được chọn cho transformer là dự đoán chuỗi "aabaabaabaab...", đòi hỏi phải tra cứu hai token trước đó để xác định đầu ra tiếp theo.
- Tác giả sử dụng một hệ thống token hóa trong đó 'a' được biểu diễn là 0 và 'b' là 1.
- Mã nguồn của mô hình dựa trên phần cài đặt GPT-2 picoGPT của jaymody, với một số chỉnh sửa để đơn giản hóa.
- Các chiều của mô hình bao gồm độ dài ngữ cảnh là 5, kích thước từ vựng là 2 và kích thước embedding là 8.
- Tác giả đã thiết kế các trọng số embedding, dùng 5 phần tử đầu tiên cho embedding one-hot theo vị trí và hai phần tử tiếp theo cho embedding one-hot của token id.
- Khối transformer được thiết kế để tạo ra các ma trận q, k, v, rồi chiếu kết quả trở lại embedding và dùng trọng số embedding của token để chiếu tiếp thành tập logit của token kế tiếp.
- Tác giả cung cấp phần giải thích chi tiết về thiết kế attention head và phép chiếu vào không gian embedding.
- Bước cuối cùng bao gồm việc lấy kết quả chạy khối transformer nhân với ma trận chuyển vị của trọng số embedding token để thu được logit cuối cùng.
- Mô hình sử dụng hàm softmax để suy luận và có thể tạo ra phần hoàn tất hợp lý cho chuỗi đã cho.
- Mô hình đạt tỷ lệ thành công 100% khi được kiểm tra với ngữ cảnh không mơ hồ.
- Tác giả khuyến khích độc giả xây dựng trực giác tốt hơn về transformer và attention, đồng thời thử tự tạo mô hình của riêng mình.
- Bài viết bao gồm toàn bộ mã nguồn của mô hình dùng numpy để tính toán và định nghĩa các hàm cho token hóa, dự đoán và hoàn tất chuỗi.
- Tác giả gợi ý rằng có thể cải thiện hiệu quả của mô hình bằng cách thu nhỏ cửa sổ ngữ cảnh và dùng các kỹ thuật như fused multiply-add, KV caching.
- Bài viết hướng tới những người quan tâm đến lĩnh vực mô hình ngôn ngữ, đặc biệt là machine learning và AI.
1 bình luận
Ý kiến Hacker News