- AMD đã công bố AMD-135M, mô hình ngôn ngữ nhỏ đầu tiên của hãng
- Mô hình này được huấn luyện với 670 tỷ token bằng bộ gia tốc AMD Instinct™ MI250
- Gồm hai mô hình: AMD-Llama-135M và AMD-Llama-135M-code
- Mô hình AMD-Llama-135M được huấn luyện trong 6 ngày với 670 tỷ token bằng dữ liệu tổng quát
- Mô hình AMD-Llama-135M-code được tinh chỉnh thêm trong 4 ngày với 20 tỷ token dữ liệu mã nguồn
- Mã huấn luyện, bộ dữ liệu và trọng số của mô hình được cung cấp dưới dạng mã nguồn mở
- Tối ưu hiệu năng suy luận bằng Speculative Decoding
- Các mô hình ngôn ngữ lớn thường suy luận bằng cách tiếp cận tự hồi quy
- Hạn chế chính của cách tiếp cận này là mỗi forward pass chỉ có thể tạo ra một token duy nhất
- Việc đưa vào speculative decoding đã giải quyết vấn đề này
- Một mô hình nháp nhỏ được dùng để tạo tập token ứng viên, sau đó mô hình đích lớn hơn sẽ xác thực chúng
- Cách tiếp cận này cho phép tạo nhiều token trong mỗi forward pass, từ đó giảm đáng kể mức tiêu thụ truy cập bộ nhớ và tăng tốc đáng kể
- Tăng tốc hiệu năng suy luận
- AMD đã thử nghiệm hiệu năng suy luận khi dùng AMD-Llama-135M-code làm mô hình nháp cho CodeLlama-7b
- So sánh giữa trường hợp có và không dùng speculative decoding trên bộ gia tốc MI250 và bộ xử lý Ryzen™ AI (bao gồm NPU)
- Đã xác nhận mức tăng tốc trong một số cấu hình cụ thể khi sử dụng speculative decoding
- Các bước tiếp theo
- AMD cung cấp triển khai tham chiếu mã nguồn mở để thúc đẩy đổi mới trong cộng đồng AI
- Có thể xem thêm chi tiết về AMD-135M trên blog kỹ thuật
- Có thể truy cập mã trên kho Github của AMD
- Có thể tải tệp mô hình từ Hugging Face Model Card
- Có thể đăng ký quyền truy cập thẻ tăng tốc Instinct trên AMD Developer Cloud
Tổng hợp của GN⁺
- AMD-135M, mô hình ngôn ngữ nhỏ đầu tiên của AMD, đánh dấu một bước tiến quan trọng cho cộng đồng AI
- Speculative decoding giúp cải thiện đáng kể hiệu năng suy luận
- Triển khai tham chiếu mã nguồn mở hỗ trợ các nhà phát triển tái tạo mô hình và huấn luyện các SLM, LLM khác
- Mục tiêu là thúc đẩy đổi mới trong lĩnh vực AI và hướng tới sự phát triển công nghệ toàn diện, có đạo đức hơn
1 bình luận
Để phát triển thành trí tuệ nhân tạo tổng quát, cần có một bước ngoặt mang tính nhảy vọt về chiều kích, và bước ngoặt đó chính là giáo dục.