Có một câu hỏi về mô hình GPT: tôi cứ nghĩ mô hình sẽ chọn từ có xác suất cao nhất, nhưng nếu nó chọn một trong những từ "có khả năng" thì chẳng phải danh sách dự đoán từ tiếp theo sẽ trở nên kém khả dĩ hơn nhiều sao? Nếu việc xét xác suất của "hai từ đi cùng nhau" là khả thi về mặt tính toán thì có lẽ sẽ hữu ích hơn, và điều này cũng có thể áp dụng cho 3, 4, n từ. Tôi tò mò không biết có cách nào như vậy tồn tại hay không.
Chỉnh lại sau khi xem video và đọc bình luận: beam search và temperature được dùng để kiểm soát vấn đề này.
Tôi không thể nghĩ ra ai phù hợp hơn để dạy attention mechanism cho số đông. Cảm giác như một giấc mơ thành hiện thực.
Đây là liều thuốc chữa lành đáng kinh ngạc cho nội dung Cá tháng Tư. Tôi muốn tiêm thẳng cái này vào người mình.
Trên kênh của Andrej Karpathy có một vài video thú vị giải thích về mạng nơ-ron và cách chúng hoạt động bên trong, dành cho những người biết lập trình. Nếu thích nội dung này thì tôi khuyên nên xem.
Token tiếp theo được chọn bằng cách lấy mẫu logits ở cột cuối sau khi unembedding. Nhưng chẳng phải như vậy chỉ là chọn lại token cuối cùng thôi sao? Hay là ở bước nào đó ma trận được đổi kích thước thành N+1?
Không thể chờ đến video tiếp theo. Có vẻ như cuối cùng tôi cũng có thể thực sự thấm và hiểu được cách những thứ này hoạt động.
3B1B là một trong những nhà giáo dục STEM xuất sắc nhất trên YouTube.
1 bình luận
Ý kiến trên Hacker News