6 điểm bởi GN⁺ 2024-09-29 | 1 bình luận | Chia sẻ qua WhatsApp
  • AMD đã công bố AMD-135M, mô hình ngôn ngữ nhỏ đầu tiên của hãng
  • Mô hình này được huấn luyện với 670 tỷ token bằng bộ gia tốc AMD Instinct™ MI250
  • Gồm hai mô hình: AMD-Llama-135M và AMD-Llama-135M-code
    • Mô hình AMD-Llama-135M được huấn luyện trong 6 ngày với 670 tỷ token bằng dữ liệu tổng quát
    • Mô hình AMD-Llama-135M-code được tinh chỉnh thêm trong 4 ngày với 20 tỷ token dữ liệu mã nguồn
    • Mã huấn luyện, bộ dữ liệu và trọng số của mô hình được cung cấp dưới dạng mã nguồn mở
  • Tối ưu hiệu năng suy luận bằng Speculative Decoding
    • Các mô hình ngôn ngữ lớn thường suy luận bằng cách tiếp cận tự hồi quy
    • Hạn chế chính của cách tiếp cận này là mỗi forward pass chỉ có thể tạo ra một token duy nhất
    • Việc đưa vào speculative decoding đã giải quyết vấn đề này
    • Một mô hình nháp nhỏ được dùng để tạo tập token ứng viên, sau đó mô hình đích lớn hơn sẽ xác thực chúng
    • Cách tiếp cận này cho phép tạo nhiều token trong mỗi forward pass, từ đó giảm đáng kể mức tiêu thụ truy cập bộ nhớ và tăng tốc đáng kể
  • Tăng tốc hiệu năng suy luận
    • AMD đã thử nghiệm hiệu năng suy luận khi dùng AMD-Llama-135M-code làm mô hình nháp cho CodeLlama-7b
    • So sánh giữa trường hợp có và không dùng speculative decoding trên bộ gia tốc MI250 và bộ xử lý Ryzen™ AI (bao gồm NPU)
    • Đã xác nhận mức tăng tốc trong một số cấu hình cụ thể khi sử dụng speculative decoding
  • Các bước tiếp theo
    • AMD cung cấp triển khai tham chiếu mã nguồn mở để thúc đẩy đổi mới trong cộng đồng AI
    • Có thể xem thêm chi tiết về AMD-135M trên blog kỹ thuật
    • Có thể truy cập mã trên kho Github của AMD
    • Có thể tải tệp mô hình từ Hugging Face Model Card
    • Có thể đăng ký quyền truy cập thẻ tăng tốc Instinct trên AMD Developer Cloud

Tổng hợp của GN⁺

  • AMD-135M, mô hình ngôn ngữ nhỏ đầu tiên của AMD, đánh dấu một bước tiến quan trọng cho cộng đồng AI
  • Speculative decoding giúp cải thiện đáng kể hiệu năng suy luận
  • Triển khai tham chiếu mã nguồn mở hỗ trợ các nhà phát triển tái tạo mô hình và huấn luyện các SLM, LLM khác
  • Mục tiêu là thúc đẩy đổi mới trong lĩnh vực AI và hướng tới sự phát triển công nghệ toàn diện, có đạo đức hơn

1 bình luận

 
comsect62 2024-09-30

Để phát triển thành trí tuệ nhân tạo tổng quát, cần có một bước ngoặt mang tính nhảy vọt về chiều kích, và bước ngoặt đó chính là giáo dục.