Tự xây dựng LLM từ nền tảng: workshop code 3 giờ
(magazine.sebastianraschka.com)- Nếu bạn muốn dành vài giờ cuối tuần để hiểu về mô hình ngôn ngữ lớn (LLM), thì đây là một bài thuyết trình workshop code kéo dài 3 giờ về cách triển khai, huấn luyện và sử dụng chúng
- Dưới đây là mục lục cho thấy những nội dung được đề cập trong video (bản thân video có các mốc chương có thể nhấp để chuyển thẳng đến chủ đề bạn quan tâm)
Mục lục
-
0:00 – Tổng quan workshop
-
2:17 – Phần 1: Giới thiệu về LLM
-
9:14 – Tài liệu workshop
-
10:48 – Phần 2: Hiểu dữ liệu đầu vào của LLM
-
23:25 – Lớp tokenizer đơn giản
-
41:03 – Phần 3: Code kiến trúc LLM
-
45:01 – GPT-2 và Llama 2
-
1:07:11 – Phần 4: Tiền huấn luyện
-
1:29:37 – Phần 5.1: Nạp trọng số đã tiền huấn luyện
-
1:45:12 – Phần 5.2: Trọng số đã tiền huấn luyện thông qua LitGPT
-
1:53:09 – Phần 6.1: Fine-tune theo chỉ thị
-
2:08:21 – Phần 6.2: Fine-tune theo chỉ thị thông qua LitGPT
-
2:26:45 – Phần 6.3: Đánh giá benchmark
-
2:36:55 – Phần 6.4: Đánh giá hiệu năng hội thoại
-
2:42:40 – Kết luận
-
Nội dung này hơi khác một chút so với các bài viết dạng văn bản thường lệ, nhưng vài tháng trước khi làm thử đã nhận được phản hồi rất tốt nên có lẽ đáng để làm lại một lần nữa
-
Chúc bạn xem vui vẻ!
Tài liệu tham khảo
- Sách Build an LLM from Scratch
- Kho lưu trữ GitHub Build an LLM from Scratch
- Kho lưu trữ GitHub chứa mã workshop
- Lightning Studio cho workshop này
- Kho lưu trữ GitHub LitGPT
Đăng ký Ahead of AI
- Dự án do Sebastian Raschka khởi xướng từ 2 năm trước
- Ahead AI chuyên về nghiên cứu machine learning và AI, được hàng chục nghìn nhà nghiên cứu và người làm thực tế theo dõi để luôn đi trước trong một lĩnh vực thay đổi không ngừng
Tổng hợp của GN⁺
- Workshop này rất hữu ích cho những ai muốn học cách triển khai và huấn luyện LLM từ đầu
- Nội dung đề cập đến các mô hình như GPT-2 và Llama 2, đồng thời giải thích cách nạp trọng số đã tiền huấn luyện và thực hiện fine-tune theo chỉ thị
- Đây có thể là nội dung rất thú vị và hữu ích với những ai quan tâm đến nghiên cứu machine learning và AI
- Những dự án khác có chức năng tương tự gồm có thư viện Transformers của Hugging Face và các mô hình GPT của OpenAI
1 bình luận
Ý kiến trên Hacker News
Cảm ơn vì đã chia sẻ, kèm ý kiến rằng “quay lại những điều cơ bản luôn là điều tốt”
Một câu hỏi: “Xin lỗi vì thiếu hiểu biết, nhưng không rõ nội dung này có khác với của Andrej Karpathy không: https://www.youtube.com/watch?v=kCc8FmEb1nY”
Có ý kiến rằng “bài viết của Sebastian rất hay”, đồng thời mong đợi cuốn sách