- Qwen2.5-1M là mô hình mã nguồn mở hiệu năng cao hỗ trợ độ dài ngữ cảnh lên tới 1M token, cải tiến từ Qwen2.5-Turbo đã được công bố cách đây 2 tháng
- Công bố 2 checkpoint: Qwen2.5-7B-Instruct-1M và Qwen2.5-14B-Instruct-1M
- Lần đầu tiên trong các mô hình Qwen hỗ trợ ngữ cảnh 1M token
- Công bố framework suy luận: cung cấp framework suy luận tối ưu hóa dựa trên vLLM. Tích hợp kỹ thuật sparse attention để xử lý đầu vào 1M token nhanh hơn 3~7 lần
- Công bố báo cáo kỹ thuật: chia sẻ báo cáo kỹ thuật chi tiết về thiết kế framework huấn luyện và suy luận, cùng kết quả thực nghiệm
Hiệu năng mô hình
Tác vụ ngữ cảnh dài
- Đánh giá Passkey Retrieval: trích xuất chính xác thông tin từ tài liệu 1M token. Mô hình Qwen2.5-7B có xuất hiện một số lỗi nhỏ, còn Qwen2.5-14B duy trì độ chính xác cao
- Đánh giá tác vụ phức tạp:
- Trên RULER, LV-Eval, LongbenchChat, v.v., mô hình Qwen2.5-1M cho hiệu năng tốt hơn bản 128K
- Đặc biệt, Qwen2.5-14B nhìn chung cho hiệu năng cao hơn ngay cả khi so với GPT-4o-mini
Tác vụ ngữ cảnh ngắn
- Ngay cả ở tác vụ ngắn, mô hình Qwen2.5-1M vẫn giữ hiệu năng tương đương bản 128K
- Cho hiệu năng ở tác vụ ngắn tương tự GPT-4o-mini nhưng hỗ trợ ngữ cảnh dài hơn tới 8 lần
Công nghệ cốt lõi
Huấn luyện ngữ cảnh dài
- Mở rộng dần độ dài ngữ cảnh từ 4K lên 256K
- Áp dụng tinh chỉnh dựa trên RoPE, huấn luyện theo từng giai đoạn và reinforcement learning
- Kỹ thuật Dual Chunk Attention(DCA) hỗ trợ mở rộng lên ngữ cảnh 1M token
- DCA duy trì độ chính xác cao trên văn bản dài ngay cả khi không cần huấn luyện
Sparse Attention
- Áp dụng sparse attention dựa trên MInference
- Tích hợp Chunked Prefill: giảm 96.7% mức sử dụng bộ nhớ
- Tích hợp Length Extrapolation: kết hợp với DCA để cải thiện độ chính xác và hiệu quả suy luận
- Sparsity Refinement on Long Sequences: áp dụng cấu hình làm thưa tối ưu để giảm thiểu suy hao hiệu năng trên văn bản dài
- Kết quả là tăng tốc độ suy luận từ 3.2 lần đến 6.7 lần ở độ dài 1M token
Triển khai Qwen2.5-1M trong môi trường cục bộ
Yêu cầu hệ thống
- CUDA 12.1/12.3, Python 3.9~3.12
- Yêu cầu VRAM:
- Qwen2.5-7B: từ 120GB trở lên
- Qwen2.5-14B: từ 320GB trở lên
Cài đặt và chạy
- Clone rồi cài đặt kho lưu trữ vLLM
- Khởi động dịch vụ API tương thích OpenAI
- Có thể tương tác với mô hình bằng Curl hoặc Python
Hướng đi sắp tới
- Đang nghiên cứu các phương pháp huấn luyện, kiến trúc mô hình và suy luận hiệu quả hơn
- Phát triển với mục tiêu đạt hiệu năng xuất sắc ở cả ngữ cảnh ngắn và ngữ cảnh dài
- Có kế hoạch tiếp tục mở rộng tính ứng dụng thực tiễn của các mô hình ngữ cảnh dài
3 bình luận
Liệu chạy local có xử lý tiếng Hàn ổn không nhỉ
2023-08-03 Alibaba công bố mô hình AI mã nguồn mở QWEN
2024-04-25 Qwen1.5-110B: mô hình 100B+ đầu tiên trong dòng LLM mã nguồn mở Qwen1.5 của Alibaba
2024-06-07 Alibaba công bố mô hình Qwen 2
2024-09-19 Qwen2.5 - công bố nhiều mô hình nền tảng
2024-11-28 QwQ - LLM suy luận của Alibaba tương tự ChatGPT o1
2024-12-24 Trải nghiệm sử dụng QvQ, mô hình suy luận thị giác mới của Qwen
Ý kiến trên Hacker News
Trong lập trình với AI, cửa sổ ngữ cảnh quá lớn thực ra không hữu ích. Khi đưa vào khoảng hơn 25–30k token, mô hình bắt đầu bị rối
Ollama có tham số
num_ctxđể kiểm soát độ dài cửa sổ ngữ cảnh và giá trị mặc định là 2048Thảo luận về công nghệ tiên tiến nhất hiện nay (SOTA) trong lĩnh vực điện toán lấy bộ nhớ làm trung tâm
Muốn xác nhận liệu mô hình chạy cục bộ đầu tiên có độ dài ngữ cảnh vượt 128K đã nhảy thẳng lên 1M hay chưa
Muốn nghe ý kiến từ những người đã chạy thành công prompt dài trên Mac
Một mô hình chỉ dành cho API với cửa sổ ngữ cảnh 1M đã được phát hành vào tháng 11
Có nghe tin đồn về độ dài ngữ cảnh native, nhưng không rõ có thực sự là 1M hay không
Mọi người đều đang làm cửa sổ ngữ cảnh lớn hơn, nhưng cũng cần nghĩ đến đầu ra