2 điểm bởi GN⁺ 2025-02-11 | 1 bình luận | Chia sẻ qua WhatsApp

Phân tích chuyên sâu này dành cho ai?

  • Hiểu cách LLM thực sự hoạt động: Dành cho những ai muốn biết nguyên lý vận hành của LLM vượt ra ngoài mức hiểu bề mặt.
  • Hiểu các thuật ngữ fine-tuning dễ gây nhầm lẫn: Dành cho những ai muốn hiểu các thuật ngữ như chat_templateChatML.
  • Cải thiện prompt engineering: Dành cho những ai muốn hiểu loại prompt nào hoạt động tốt hơn.
  • Giảm hallucination: Dành cho những ai muốn ngăn LLM tạo ra thông tin sai lệch.
  • Hiểu tầm quan trọng của DeepSeek-R1: Dành cho những ai muốn biết vì sao DeepSeek-R1 đang được chú ý hiện nay.

Dữ liệu pre-training

Internet

  • LLM xây dựng các bộ dữ liệu văn bản khổng lồ bằng cách crawl Internet.
  • Dữ liệu thô chứa đầy nội dung trùng lặp, văn bản chất lượng thấp và thông tin không liên quan, nên cần được lọc kỹ trước khi huấn luyện.
  • Ví dụ, bộ dữ liệu FineWeb bao gồm hơn 1,2 tỷ trang web.

Tokenization

  • Tokenization là cách chia văn bản thành các mảnh nhỏ hơn (token) trước khi mô hình xử lý.
  • Các kỹ thuật như Byte Pair Encoding (BPE) được sử dụng.
  • GPT-4 sử dụng 100.277 token.

Đầu vào/đầu ra của mạng nơ-ron

  • Dữ liệu đã được token hóa được đưa vào mạng nơ-ron.
  • Mô hình dự đoán token tiếp theo dựa trên các mẫu đã học.
  • Các trọng số được điều chỉnh để giảm lỗi.

Bên trong mạng nơ-ron

  • Bên trong mô hình, hàng tỷ tham số tương tác với các token đầu vào để tạo ra phân phối xác suất cho token tiếp theo.
  • Kiến trúc mô hình được thiết kế để cân bằng giữa tốc độ, độ chính xác và khả năng song song hóa.

Inference

  • LLM không tạo ra đầu ra có tính quyết định, mà mang tính xác suất.
  • Kết quả ở mỗi lần chạy sẽ hơi khác nhau.
  • Chính tính ngẫu nhiên này khiến LLM có thể sáng tạo, nhưng đôi khi cũng tạo ra thông tin sai.

GPT-2

  • GPT-2 do OpenAI công bố vào năm 2019 là một ví dụ về LLM dựa trên Transformer thời kỳ đầu.
  • Mô hình có 1,6 tỷ tham số, độ dài ngữ cảnh 1024 token và được huấn luyện trên khoảng 100 tỷ token.
  • Andrej Karpathy đã tái tạo GPT-2 với chi phí $672 bằng llm.c.

Mô hình nền tảng mã nguồn mở

  • Một số công ty huấn luyện LLM quy mô lớn và phát hành miễn phí mô hình nền tảng.
  • Mô hình nền tảng được huấn luyện trên văn bản Internet thô nên có thể tạo phần tiếp nối, nhưng không hiểu được ý định của con người.
  • OpenAI đã phát hành GPT-2 dưới dạng mã nguồn mở.
  • Meta đã phát hành Llama 3.1 (405B tham số) dưới dạng mã nguồn mở.

Từ pre-training đến post-training

  • Mô hình nền tảng tạo ra rất nhiều hallucination.
  • Post-training fine-tune mô hình để đưa ra phản hồi tốt hơn.
  • Post-training rẻ hơn rất nhiều so với pre-training.

Supervised Fine-Tuning (SFT)

Dữ liệu hội thoại

  • Sau khi được huấn luyện trên dữ liệu Internet, mô hình nền tảng tiếp tục được post-train bằng các cuộc hội thoại giữa con người và trợ lý.
  • Các mẫu hội thoại được dùng để giúp mô hình hiểu cấu trúc của cuộc trò chuyện.

Hallucination, sử dụng công cụ và bộ nhớ

  • Vấn đề lớn của LLM là hallucination.
  • Meta giải thích các cách cải thiện tính đúng sự thật trong bài báo về Llama 3.
  • Cũng có những cách giảm hallucination bằng cách sử dụng công cụ.

Reinforcement Learning

  • Sau khi được huấn luyện trên dữ liệu Internet, mô hình vẫn chưa biết cách sử dụng kiến thức đó một cách hiệu quả.
  • Reinforcement Learning (RL) cải thiện mô hình thông qua thử và sai.

Cách RL hoạt động

  • RL cho phép mô hình thử nhiều lời giải khác nhau và tìm ra lời giải tối ưu.
  • Ví dụ, mô hình tạo ra 15 lời giải và chỉ có 4 lời giải đúng.

Reinforcement Learning from Human Feedback (RLHF)

  • Trong các miền không thể kiểm chứng, cần có con người tham gia.
  • RLHF sử dụng phản hồi của con người để cải thiện mô hình.

Triển vọng phía trước

  • Khả năng đa phương thức: Không chỉ hiểu và tạo văn bản mà còn cả hình ảnh, âm thanh và video.
  • Mô hình dựa trên agent: Vượt ra ngoài tác vụ đơn lẻ, có thể có trí nhớ dài hạn, suy luận và sửa lỗi.
  • AI phổ quát và vô hình: Được tích hợp tự nhiên vào workflow.
  • AI sử dụng máy tính: Tương tác với phần mềm và thực hiện nhiều việc hơn là chỉ tạo văn bản.

Cách tìm LLM

  • Mô hình độc quyền: OpenAI (GPT-4), Google (Gemini), Anthropic (Claude), v.v.
  • Mô hình open-weight: DeepSeek, Meta (Llama), v.v.
  • Chạy cục bộ: Dùng Ollama hoặc LM Studio.
  • Mô hình nền tảng: Khám phá qua Hyperbolic.

1 bình luận

 
GN⁺ 2025-02-11
Ý kiến trên Hacker News
  • Đang tìm một nơi phù hợp để thảo luận ngay cả sau khi video gốc đã biến mất khỏi trang nhất của Hacker News

  • Trong lúc xem video, tôi nảy ra vài thắc mắc

    • Toán học và LLM
      • Tôi thắc mắc vì sao các ví dụ mà Andrej đưa ra cho LLM phần lớn lại là các bài toán tính toán
      • Tôi nghĩ khả năng tính toán của LLM đang trở nên mạnh mẽ và hữu ích hơn, nhưng đó không phải là năng lực nền tảng
      • Sẽ tốt hơn nếu tách bạch các prompt thể hiện năng lực cốt lõi của LLM với các phép tính toán học
      • Sẽ rất hay nếu có tài liệu tham khảo tốt về việc thảo luận năng lực toán học hoặc cách LLM thực hiện toán học
    • Meta
      • Andrej có nhắc ngắn gọn đến việc LLM được dùng để huấn luyện và đánh giá các LLM khác, nhưng không có nhiều bàn luận về điều này
      • Tôi muốn hiểu thêm về giới hạn và rủi ro của việc dùng LLM để huấn luyện/đánh giá LLM khác
      • Tôi có cảm giác việc các kết quả ban đầu và tiến bộ lập tức được phản hồi vào quá trình phát triển công nghệ mạnh hơn khá giống Dự án Manhattan và vũ khí hạt nhân
  • Cách tiếp cận của Meta trong việc giải quyết vấn đề ảo giác khá thú vị

    • Trích xuất một phần dữ liệu huấn luyện để tạo ra các câu hỏi mang tính thực tế bằng Llama 3
    • Llama 3 tạo câu trả lời rồi được chấm điểm bằng cách so sánh với dữ liệu gốc
    • Nếu sai, mô hình được huấn luyện để nhận ra câu trả lời sai và từ chối nó
    • Điều này đi ngược với xu hướng tự nhiên của kỹ sư ML, và việc dạy mô hình nhận ra điều nó không biết là rất quan trọng
  • Video của Andrej rất xuất sắc, nhưng phần giải thích về RL có cảm giác hơi mơ hồ

    • Tôi thắc mắc họ huấn luyện trên câu trả lời đúng bằng cách nào
    • Không rõ họ có thu thập quá trình suy luận để huấn luyện như học có giám sát, hay tính điểm rồi dùng nó làm hàm mất mát
    • Phần thưởng có thể rất thưa, và tôi tự hỏi điều gì xảy ra khi bài toán quá khó đến mức LLM không thể tạo ra đáp án đúng
    • Việc cập nhật tham số là tuần tự, vậy họ song song hóa huấn luyện LLM bằng cách nào
  • Ở phút 53 của video gốc, nó cho thấy độ chính xác khi LLM trích dẫn dựa trên văn bản đã học

    • Tôi thắc mắc các tập đoàn lớn đã thuyết phục tòa án rằng điều này không phải vi phạm bản quyền bằng cách nào
    • Nếu tôi huấn luyện một mô hình để vẽ các nhân vật Disney, tôi hình dung mình sẽ bị kiện ngay lập tức
  • Để một mô hình trở thành mã nguồn mở một cách 'hoàn toàn', ngoài bản thân mô hình và cách chạy nó, còn cần cả chương trình có thể huấn luyện dữ liệu

    • Hãy tham khảo định nghĩa AI nguồn mở của OSI
  • Tôi đã đọc nhiều bài viết về LLM và nhìn chung hiểu cách chúng hoạt động, nhưng luôn thắc mắc vì sao các mô hình khác không hoạt động tốt bằng các mô hình SOTA

    • Tôi tò mò về lịch sử và lý do của kiến trúc mô hình hiện tại
  • Hôm nay tôi thấy một thread hay: [liên kết]

  • Thật tiếc khi LLC in C của anh ấy dường như chỉ là bàn đạp cho khóa học của anh ấy

  • Có lẽ đây là một bản tóm tắt rất tốt cho một bài giảng thực sự xuất sắc

    • Tôi đang cân nhắc theo dõi bản gốc
  • Tôi chưa xem video, nhưng tò mò về phần tokenization trong TL;DR

    • Nếu nhìn vào văn bản đã được token hóa trong bài viết được liên kết, đó thực ra là dấu gạch đứng "|" chứ không phải "I View"
    • Ở bước 3 của liên kết mà @miletus đăng trong bình luận Hacker News, văn bản đã token hóa là "|Viewing Single (Post From) . . ."
    • Cách viết hoa (View, Single) có ý nghĩa hơn khi nhìn vào phần này của câu