Qwen2.5-1M - Tự triển khai Qwen hỗ trợ tới 1 triệu token

(qwenlm.github.io)

4 điểm bởi GN⁺ 2025-01-29 | 3 bình luận | Chia sẻ qua WhatsApp

Qwen2.5-1M là mô hình mã nguồn mở hiệu năng cao hỗ trợ độ dài ngữ cảnh lên tới 1M token, cải tiến từ Qwen2.5-Turbo đã được công bố cách đây 2 tháng
Công bố 2 checkpoint: Qwen2.5-7B-Instruct-1M và Qwen2.5-14B-Instruct-1M
- Lần đầu tiên trong các mô hình Qwen hỗ trợ ngữ cảnh 1M token
Công bố framework suy luận: cung cấp framework suy luận tối ưu hóa dựa trên vLLM. Tích hợp kỹ thuật sparse attention để xử lý đầu vào 1M token nhanh hơn 3~7 lần
Công bố báo cáo kỹ thuật: chia sẻ báo cáo kỹ thuật chi tiết về thiết kế framework huấn luyện và suy luận, cùng kết quả thực nghiệm

Hiệu năng mô hình

Tác vụ ngữ cảnh dài

Đánh giá Passkey Retrieval: trích xuất chính xác thông tin từ tài liệu 1M token. Mô hình Qwen2.5-7B có xuất hiện một số lỗi nhỏ, còn Qwen2.5-14B duy trì độ chính xác cao
Đánh giá tác vụ phức tạp:
- Trên RULER, LV-Eval, LongbenchChat, v.v., mô hình Qwen2.5-1M cho hiệu năng tốt hơn bản 128K
- Đặc biệt, Qwen2.5-14B nhìn chung cho hiệu năng cao hơn ngay cả khi so với GPT-4o-mini

Tác vụ ngữ cảnh ngắn

Ngay cả ở tác vụ ngắn, mô hình Qwen2.5-1M vẫn giữ hiệu năng tương đương bản 128K
Cho hiệu năng ở tác vụ ngắn tương tự GPT-4o-mini nhưng hỗ trợ ngữ cảnh dài hơn tới 8 lần

Công nghệ cốt lõi

Huấn luyện ngữ cảnh dài

Mở rộng dần độ dài ngữ cảnh từ 4K lên 256K
Áp dụng tinh chỉnh dựa trên RoPE, huấn luyện theo từng giai đoạn và reinforcement learning
Kỹ thuật Dual Chunk Attention(DCA) hỗ trợ mở rộng lên ngữ cảnh 1M token
DCA duy trì độ chính xác cao trên văn bản dài ngay cả khi không cần huấn luyện

Sparse Attention

Áp dụng sparse attention dựa trên MInference
Tích hợp Chunked Prefill: giảm 96.7% mức sử dụng bộ nhớ
Tích hợp Length Extrapolation: kết hợp với DCA để cải thiện độ chính xác và hiệu quả suy luận
Sparsity Refinement on Long Sequences: áp dụng cấu hình làm thưa tối ưu để giảm thiểu suy hao hiệu năng trên văn bản dài
Kết quả là tăng tốc độ suy luận từ 3.2 lần đến 6.7 lần ở độ dài 1M token

Triển khai Qwen2.5-1M trong môi trường cục bộ

Yêu cầu hệ thống

CUDA 12.1/12.3, Python 3.9~3.12
Yêu cầu VRAM:
- Qwen2.5-7B: từ 120GB trở lên
- Qwen2.5-14B: từ 320GB trở lên

Cài đặt và chạy

Clone rồi cài đặt kho lưu trữ vLLM
Khởi động dịch vụ API tương thích OpenAI
Có thể tương tác với mô hình bằng Curl hoặc Python

Hướng đi sắp tới

Đang nghiên cứu các phương pháp huấn luyện, kiến trúc mô hình và suy luận hiệu quả hơn
Phát triển với mục tiêu đạt hiệu năng xuất sắc ở cả ngữ cảnh ngắn và ngữ cảnh dài
Có kế hoạch tiếp tục mở rộng tính ứng dụng thực tiễn của các mô hình ngữ cảnh dài

3 bình luận

yangeok 2025-01-30

Liệu chạy local có xử lý tiếng Hàn ổn không nhỉ

xguru 2025-01-29

2023-08-03 Alibaba công bố mô hình AI mã nguồn mở QWEN
2024-04-25 Qwen1.5-110B: mô hình 100B+ đầu tiên trong dòng LLM mã nguồn mở Qwen1.5 của Alibaba
2024-06-07 Alibaba công bố mô hình Qwen 2
2024-09-19 Qwen2.5 - công bố nhiều mô hình nền tảng
2024-11-28 QwQ - LLM suy luận của Alibaba tương tự ChatGPT o1
2024-12-24 Trải nghiệm sử dụng QvQ, mô hình suy luận thị giác mới của Qwen

GN⁺ 2025-01-29

Ý kiến trên Hacker News

Trong lập trình với AI, cửa sổ ngữ cảnh quá lớn thực ra không hữu ích. Khi đưa vào khoảng hơn 25–30k token, mô hình bắt đầu bị rối
- Vấn đề này xuất hiện ở gpt-4o, Sonnet, DeepSeek và các mô hình khác
- Nhiều người dùng đã báo cáo vấn đề này và tạo các trang trợ giúp riêng để xử lý nó
- Ngữ cảnh lớn có thể hữu ích cho một số tác vụ cụ thể có nhiều ngữ cảnh "giá trị thấp", nhưng với lập trình thì có thể gây ra vấn đề
Ollama có tham số num_ctx để kiểm soát độ dài cửa sổ ngữ cảnh và giá trị mặc định là 2048
- Có mẹo chạy bằng MLX trên macOS
Thảo luận về công nghệ tiên tiến nhất hiện nay (SOTA) trong lĩnh vực điện toán lấy bộ nhớ làm trung tâm
- Có thể cần một mô hình mới để giảm chi phí bộ nhớ cho AI
- Có thể có cách kết nối DRAM với optical interconnects
- Tò mò liệu có thứ gì có chức năng giống transformer nhưng không phụ thuộc vào chuỗi hay không
Muốn xác nhận liệu mô hình chạy cục bộ đầu tiên có độ dài ngữ cảnh vượt 128K đã nhảy thẳng lên 1M hay chưa
Muốn nghe ý kiến từ những người đã chạy thành công prompt dài trên Mac
Một mô hình chỉ dành cho API với cửa sổ ngữ cảnh 1M đã được phát hành vào tháng 11
Có nghe tin đồn về độ dài ngữ cảnh native, nhưng không rõ có thực sự là 1M hay không
- Các mô hình như llama3 8b được nói là có ngữ cảnh lớn hơn, nhưng thực tế không phải vậy
- Trên 16gb vram rất khó vượt quá 8k
Mọi người đều đang làm cửa sổ ngữ cảnh lớn hơn, nhưng cũng cần nghĩ đến đầu ra
- Muốn tạo ra hàng nghìn dòng mã, không biết có mẹo nào cho việc này không

Qwen2.5-1M - Tự triển khai Qwen hỗ trợ tới 1 triệu token

Hiệu năng mô hình

Tác vụ ngữ cảnh dài

Tác vụ ngữ cảnh ngắn

Công nghệ cốt lõi

Huấn luyện ngữ cảnh dài

Sparse Attention

Triển khai Qwen2.5-1M trong môi trường cục bộ

Yêu cầu hệ thống

Cài đặt và chạy

Hướng đi sắp tới

Bài viết liên quan

3 bình luận

Ý kiến trên Hacker News