- Hỗ trợ mẫu mới
- Llama 3: mẫu mới của Meta và là LLM mở có hiệu năng tốt nhất cho đến nay
- Phi 3 Mini: mẫu mở gọn nhẹ mới của Microsoft với 3,8 tỷ tham số
- Moondream: mô hình ngôn ngữ-thị giác cỡ nhỏ được thiết kế để chạy hiệu quả trên thiết bị biên
- Dolphin Llama 3: mẫu không kiểm duyệt do Eric Hartford huấn luyện dựa trên Llama 3. Bao gồm nhiều năng lực về giáo dục, hội thoại và lập trình
- Qwen 110B: mẫu kích thước 100B tham số cho thấy hiệu năng nổi bật trong các bài đánh giá (Alibaba)
- Sửa lỗi
- Sửa lỗi API bị gián đoạn do mô hình không thoát
- Sửa lỗi hết bộ nhớ trên máy Mac Apple Silicon
- Sửa lỗi hết bộ nhớ khi chạy các mẫu kiến trúc Mixtral
- Tính năng đồng thời thử nghiệm
OLLAMA_NUM_PARALLEL: xử lý nhiều yêu cầu đồng thời cho một mẫu duy nhất
OLLAMA_MAX_LOADED_MODELS: tải nhiều mẫu cùng lúc
- Cần thiết lập biến môi trường
OLLAMA_NUM_PARALLEL=4 OLLAMA_MAX_LOADED_MODELS=4 ollama serve
1 bình luận
Cần dùng nhiều mô hình nên giờ làm được rồi nhỉ. ^^=b