Triển khai từng bước một LLM tương tự ChatGPT từ đầu
(github.com/rasbt)Xây dựng mô hình ngôn ngữ lớn (từ đầu)
- Một cuốn sách giúp khám phá nguyên lý hoạt động bên trong của các mô hình ngôn ngữ lớn (Large Language Models, LLMs)
- Giải thích cách xây dựng LLM của riêng bạn theo từng bước với văn bản rõ ràng, sơ đồ và ví dụ
- Cách huấn luyện và phát triển một mô hình nhỏ nhưng hoạt động được cho mục đích giáo dục phản ánh cách tiếp cận dùng để tạo ra các mô hình nền tảng quy mô lớn như ChatGPT
Mục lục
- Tệp
Readme.mdlà tệp Markdown, khuyến nghị sử dụng trình soạn thảo hoặc chế độ xem trước Markdown để xem đúng cách - Tiêu đề của từng chương cùng mã nguồn chính và mã nguồn phụ được tóm tắt trong mục lục
- Bao gồm phụ lục giới thiệu PyTorch và hướng dẫn bổ sung về cài đặt Python và các gói Python
Ý kiến của GN⁺:
- Cuốn sách này giải thích chi tiết quá trình xây dựng mô hình ngôn ngữ lớn từ đầu và rất hữu ích cho các kỹ sư phần mềm mới bắt đầu quan tâm đến lĩnh vực trí tuệ nhân tạo.
- Cung cấp nội dung thú vị cho những độc giả muốn hiểu nền tảng của các công nghệ mang tính đột phá như ChatGPT.
- Hướng dẫn từng bước kèm ví dụ mã thực tế sẽ giúp người học áp dụng lý thuyết vào thực tiễn.
1 bình luận
Ý kiến trên Hacker News
Tác giả đang viết thêm một sách hướng dẫn làm tài liệu bổ sung, hiện đang ở nhiều mức độ hoàn thiện khác nhau. Cho đến lúc này, hướng dẫn về fine-tuning là tài liệu tốt nhất.
Sách hướng dẫn này trông thật tuyệt. Điều tôi thắc mắc là liệu mục tiêu chính là giúp mọi người hiểu rõ hơn và bớt cảm thấy huyền bí, hay là khuyến khích mọi người tự xây những mô hình nhỏ phù hợp với nhu cầu của mình.
Việc viết một cuốn sách kỹ thuật công khai hẳn đi kèm mức độ lo âu khó mà tưởng tượng nổi, nên xin bày tỏ sự kính trọng với tác giả.
Tôi tự hỏi liệu có thể dùng thông tin trong cuốn sách này để học về reinforcement learning không. Mục tiêu là học cách hạ cánh như tàu đổ bộ mặt trăng. Bắt đầu đơn giản ở độ cao 100 feet, đẩy theo một hướng và thử cho đến khi không tạo ra hố va chạm. Sau đó thêm các biến số, ví dụ như di chuyển theo phương ngang đồng thời bổ sung động cơ đẩy ngang, v.v. Tôi muốn biết liệu cuốn sách này có hữu ích cho dạng ML “chính thống” đó không.
Như có thể thấy trong mẫu mã đầu tiên, đây không hẳn là bắt đầu hoàn toàn từ đầu.
Tôi đã chuyển sang Github vì nghĩ tài liệu này sẽ miễn phí. Với tất cả sự tôn trọng dành cho công sức của tác giả, tôi muốn biết có những tài liệu miễn phí nào theo đúng nghĩa “từ đầu” trên cùng chủ đề mà mọi người khuyên dùng.
Bản thân kiến trúc mô hình, đặc biệt khi dùng torch, không quá phức tạp. Toàn bộ quá trình là một dự án khá đơn giản và có thể thực hiện được.
Cái này có lẽ nên được phân loại là "Show HN".
Cảm ơn vì công việc này. Có dự kiến khi nào cuốn sách sẽ hoàn thành không?
Tôi đã mua một bản! Rất mong chờ được đọc nó. :) Có cách nào để độc giả gửi phản hồi trong lúc tác giả đang viết sách không?