Phân tích chuyên sâu này dành cho ai?
- Hiểu cách LLM thực sự hoạt động: Dành cho những ai muốn biết nguyên lý vận hành của LLM vượt ra ngoài mức hiểu bề mặt.
- Hiểu các thuật ngữ fine-tuning dễ gây nhầm lẫn: Dành cho những ai muốn hiểu các thuật ngữ như
chat_template và ChatML.
- Cải thiện prompt engineering: Dành cho những ai muốn hiểu loại prompt nào hoạt động tốt hơn.
- Giảm hallucination: Dành cho những ai muốn ngăn LLM tạo ra thông tin sai lệch.
- Hiểu tầm quan trọng của DeepSeek-R1: Dành cho những ai muốn biết vì sao DeepSeek-R1 đang được chú ý hiện nay.
Dữ liệu pre-training
Internet
- LLM xây dựng các bộ dữ liệu văn bản khổng lồ bằng cách crawl Internet.
- Dữ liệu thô chứa đầy nội dung trùng lặp, văn bản chất lượng thấp và thông tin không liên quan, nên cần được lọc kỹ trước khi huấn luyện.
- Ví dụ, bộ dữ liệu FineWeb bao gồm hơn 1,2 tỷ trang web.
Tokenization
- Tokenization là cách chia văn bản thành các mảnh nhỏ hơn (token) trước khi mô hình xử lý.
- Các kỹ thuật như Byte Pair Encoding (BPE) được sử dụng.
- GPT-4 sử dụng 100.277 token.
Đầu vào/đầu ra của mạng nơ-ron
- Dữ liệu đã được token hóa được đưa vào mạng nơ-ron.
- Mô hình dự đoán token tiếp theo dựa trên các mẫu đã học.
- Các trọng số được điều chỉnh để giảm lỗi.
Bên trong mạng nơ-ron
- Bên trong mô hình, hàng tỷ tham số tương tác với các token đầu vào để tạo ra phân phối xác suất cho token tiếp theo.
- Kiến trúc mô hình được thiết kế để cân bằng giữa tốc độ, độ chính xác và khả năng song song hóa.
Inference
- LLM không tạo ra đầu ra có tính quyết định, mà mang tính xác suất.
- Kết quả ở mỗi lần chạy sẽ hơi khác nhau.
- Chính tính ngẫu nhiên này khiến LLM có thể sáng tạo, nhưng đôi khi cũng tạo ra thông tin sai.
GPT-2
- GPT-2 do OpenAI công bố vào năm 2019 là một ví dụ về LLM dựa trên Transformer thời kỳ đầu.
- Mô hình có 1,6 tỷ tham số, độ dài ngữ cảnh 1024 token và được huấn luyện trên khoảng 100 tỷ token.
- Andrej Karpathy đã tái tạo GPT-2 với chi phí $672 bằng
llm.c.
Mô hình nền tảng mã nguồn mở
- Một số công ty huấn luyện LLM quy mô lớn và phát hành miễn phí mô hình nền tảng.
- Mô hình nền tảng được huấn luyện trên văn bản Internet thô nên có thể tạo phần tiếp nối, nhưng không hiểu được ý định của con người.
- OpenAI đã phát hành GPT-2 dưới dạng mã nguồn mở.
- Meta đã phát hành Llama 3.1 (405B tham số) dưới dạng mã nguồn mở.
Từ pre-training đến post-training
- Mô hình nền tảng tạo ra rất nhiều hallucination.
- Post-training fine-tune mô hình để đưa ra phản hồi tốt hơn.
- Post-training rẻ hơn rất nhiều so với pre-training.
Supervised Fine-Tuning (SFT)
Dữ liệu hội thoại
- Sau khi được huấn luyện trên dữ liệu Internet, mô hình nền tảng tiếp tục được post-train bằng các cuộc hội thoại giữa con người và trợ lý.
- Các mẫu hội thoại được dùng để giúp mô hình hiểu cấu trúc của cuộc trò chuyện.
Hallucination, sử dụng công cụ và bộ nhớ
- Vấn đề lớn của LLM là hallucination.
- Meta giải thích các cách cải thiện tính đúng sự thật trong bài báo về Llama 3.
- Cũng có những cách giảm hallucination bằng cách sử dụng công cụ.
Reinforcement Learning
- Sau khi được huấn luyện trên dữ liệu Internet, mô hình vẫn chưa biết cách sử dụng kiến thức đó một cách hiệu quả.
- Reinforcement Learning (RL) cải thiện mô hình thông qua thử và sai.
Cách RL hoạt động
- RL cho phép mô hình thử nhiều lời giải khác nhau và tìm ra lời giải tối ưu.
- Ví dụ, mô hình tạo ra 15 lời giải và chỉ có 4 lời giải đúng.
Reinforcement Learning from Human Feedback (RLHF)
- Trong các miền không thể kiểm chứng, cần có con người tham gia.
- RLHF sử dụng phản hồi của con người để cải thiện mô hình.
Triển vọng phía trước
- Khả năng đa phương thức: Không chỉ hiểu và tạo văn bản mà còn cả hình ảnh, âm thanh và video.
- Mô hình dựa trên agent: Vượt ra ngoài tác vụ đơn lẻ, có thể có trí nhớ dài hạn, suy luận và sửa lỗi.
- AI phổ quát và vô hình: Được tích hợp tự nhiên vào workflow.
- AI sử dụng máy tính: Tương tác với phần mềm và thực hiện nhiều việc hơn là chỉ tạo văn bản.
Cách tìm LLM
- Mô hình độc quyền: OpenAI (GPT-4), Google (Gemini), Anthropic (Claude), v.v.
- Mô hình open-weight: DeepSeek, Meta (Llama), v.v.
- Chạy cục bộ: Dùng Ollama hoặc LM Studio.
- Mô hình nền tảng: Khám phá qua Hyperbolic.
1 bình luận
Ý kiến trên Hacker News
Đang tìm một nơi phù hợp để thảo luận ngay cả sau khi video gốc đã biến mất khỏi trang nhất của Hacker News
Trong lúc xem video, tôi nảy ra vài thắc mắc
Cách tiếp cận của Meta trong việc giải quyết vấn đề ảo giác khá thú vị
Video của Andrej rất xuất sắc, nhưng phần giải thích về RL có cảm giác hơi mơ hồ
Ở phút 53 của video gốc, nó cho thấy độ chính xác khi LLM trích dẫn dựa trên văn bản đã học
Để một mô hình trở thành mã nguồn mở một cách 'hoàn toàn', ngoài bản thân mô hình và cách chạy nó, còn cần cả chương trình có thể huấn luyện dữ liệu
Tôi đã đọc nhiều bài viết về LLM và nhìn chung hiểu cách chúng hoạt động, nhưng luôn thắc mắc vì sao các mô hình khác không hoạt động tốt bằng các mô hình SOTA
Hôm nay tôi thấy một thread hay: [liên kết]
Thật tiếc khi LLC in C của anh ấy dường như chỉ là bàn đạp cho khóa học của anh ấy
Có lẽ đây là một bản tóm tắt rất tốt cho một bài giảng thực sự xuất sắc
Tôi chưa xem video, nhưng tò mò về phần tokenization trong TL;DR