4 điểm bởi GN⁺ 2025-01-29 | 3 bình luận | Chia sẻ qua WhatsApp
  • Qwen2.5-1M là mô hình mã nguồn mở hiệu năng cao hỗ trợ độ dài ngữ cảnh lên tới 1M token, cải tiến từ Qwen2.5-Turbo đã được công bố cách đây 2 tháng
  • Công bố 2 checkpoint: Qwen2.5-7B-Instruct-1M và Qwen2.5-14B-Instruct-1M
    • Lần đầu tiên trong các mô hình Qwen hỗ trợ ngữ cảnh 1M token
  • Công bố framework suy luận: cung cấp framework suy luận tối ưu hóa dựa trên vLLM. Tích hợp kỹ thuật sparse attention để xử lý đầu vào 1M token nhanh hơn 3~7 lần
  • Công bố báo cáo kỹ thuật: chia sẻ báo cáo kỹ thuật chi tiết về thiết kế framework huấn luyện và suy luận, cùng kết quả thực nghiệm

Hiệu năng mô hình

Tác vụ ngữ cảnh dài

  • Đánh giá Passkey Retrieval: trích xuất chính xác thông tin từ tài liệu 1M token. Mô hình Qwen2.5-7B có xuất hiện một số lỗi nhỏ, còn Qwen2.5-14B duy trì độ chính xác cao
  • Đánh giá tác vụ phức tạp:
    • Trên RULER, LV-Eval, LongbenchChat, v.v., mô hình Qwen2.5-1M cho hiệu năng tốt hơn bản 128K
    • Đặc biệt, Qwen2.5-14B nhìn chung cho hiệu năng cao hơn ngay cả khi so với GPT-4o-mini

Tác vụ ngữ cảnh ngắn

  • Ngay cả ở tác vụ ngắn, mô hình Qwen2.5-1M vẫn giữ hiệu năng tương đương bản 128K
  • Cho hiệu năng ở tác vụ ngắn tương tự GPT-4o-mini nhưng hỗ trợ ngữ cảnh dài hơn tới 8 lần

Công nghệ cốt lõi

Huấn luyện ngữ cảnh dài

  • Mở rộng dần độ dài ngữ cảnh từ 4K lên 256K
  • Áp dụng tinh chỉnh dựa trên RoPE, huấn luyện theo từng giai đoạn và reinforcement learning
  • Kỹ thuật Dual Chunk Attention(DCA) hỗ trợ mở rộng lên ngữ cảnh 1M token
  • DCA duy trì độ chính xác cao trên văn bản dài ngay cả khi không cần huấn luyện

Sparse Attention

  • Áp dụng sparse attention dựa trên MInference
  • Tích hợp Chunked Prefill: giảm 96.7% mức sử dụng bộ nhớ
  • Tích hợp Length Extrapolation: kết hợp với DCA để cải thiện độ chính xác và hiệu quả suy luận
  • Sparsity Refinement on Long Sequences: áp dụng cấu hình làm thưa tối ưu để giảm thiểu suy hao hiệu năng trên văn bản dài
  • Kết quả là tăng tốc độ suy luận từ 3.2 lần đến 6.7 lần ở độ dài 1M token

Triển khai Qwen2.5-1M trong môi trường cục bộ

Yêu cầu hệ thống

  • CUDA 12.1/12.3, Python 3.9~3.12
  • Yêu cầu VRAM:
    • Qwen2.5-7B: từ 120GB trở lên
    • Qwen2.5-14B: từ 320GB trở lên

Cài đặt và chạy

  1. Clone rồi cài đặt kho lưu trữ vLLM
  2. Khởi động dịch vụ API tương thích OpenAI
  3. Có thể tương tác với mô hình bằng Curl hoặc Python

Hướng đi sắp tới

  • Đang nghiên cứu các phương pháp huấn luyện, kiến trúc mô hình và suy luận hiệu quả hơn
  • Phát triển với mục tiêu đạt hiệu năng xuất sắc ở cả ngữ cảnh ngắn và ngữ cảnh dài
  • Có kế hoạch tiếp tục mở rộng tính ứng dụng thực tiễn của các mô hình ngữ cảnh dài

3 bình luận

 
yangeok 2025-01-30

Liệu chạy local có xử lý tiếng Hàn ổn không nhỉ

 
GN⁺ 2025-01-29
Ý kiến trên Hacker News
  • Trong lập trình với AI, cửa sổ ngữ cảnh quá lớn thực ra không hữu ích. Khi đưa vào khoảng hơn 25–30k token, mô hình bắt đầu bị rối

    • Vấn đề này xuất hiện ở gpt-4o, Sonnet, DeepSeek và các mô hình khác
    • Nhiều người dùng đã báo cáo vấn đề này và tạo các trang trợ giúp riêng để xử lý nó
    • Ngữ cảnh lớn có thể hữu ích cho một số tác vụ cụ thể có nhiều ngữ cảnh "giá trị thấp", nhưng với lập trình thì có thể gây ra vấn đề
  • Ollama có tham số num_ctx để kiểm soát độ dài cửa sổ ngữ cảnh và giá trị mặc định là 2048

    • Có mẹo chạy bằng MLX trên macOS
  • Thảo luận về công nghệ tiên tiến nhất hiện nay (SOTA) trong lĩnh vực điện toán lấy bộ nhớ làm trung tâm

    • Có thể cần một mô hình mới để giảm chi phí bộ nhớ cho AI
    • Có thể có cách kết nối DRAM với optical interconnects
    • Tò mò liệu có thứ gì có chức năng giống transformer nhưng không phụ thuộc vào chuỗi hay không
  • Muốn xác nhận liệu mô hình chạy cục bộ đầu tiên có độ dài ngữ cảnh vượt 128K đã nhảy thẳng lên 1M hay chưa

  • Muốn nghe ý kiến từ những người đã chạy thành công prompt dài trên Mac

  • Một mô hình chỉ dành cho API với cửa sổ ngữ cảnh 1M đã được phát hành vào tháng 11

  • Có nghe tin đồn về độ dài ngữ cảnh native, nhưng không rõ có thực sự là 1M hay không

    • Các mô hình như llama3 8b được nói là có ngữ cảnh lớn hơn, nhưng thực tế không phải vậy
    • Trên 16gb vram rất khó vượt quá 8k
  • Mọi người đều đang làm cửa sổ ngữ cảnh lớn hơn, nhưng cũng cần nghĩ đến đầu ra

    • Muốn tạo ra hàng nghìn dòng mã, không biết có mẹo nào cho việc này không