- Một PR giúp dự án
llama.cpp “tăng gấp đôi tốc độ WASM” đã được công bố
- Tối ưu hóa các hàm tích vô hướng (dot product)
qX_K_q8_K và qX_0_q8_0 bằng cách tận dụng các lệnh SIMD
- Phần lớn mã nguồn (99%) được tự động tạo bởi “DeepSeek-R1”
- DeepSeek-R1 mất 3~5 phút để xử lý prompt
Hiệu năng tạo mã của DeepSeek-R1
- Tác giả PR đã dùng DeepSeek-R1 để tạo và cải thiện mã tối ưu hóa, còn bản thân chỉ trực tiếp thực hiện mã kiểm thử và viết prompt
- Có thể xem tại prompt đã sử dụng
- DeepSeek-R1 cho thấy chuỗi suy luận rất ấn tượng trong quá trình tối ưu hóa
llm_groq.py
So sánh hiệu năng DeepSeek-R1 và OpenAI o1
- Tác vụ tương tự cũng được thử với OpenAI o1, nhưng kết quả của DeepSeek-R1 tốt hơn
- Quá trình suy nghĩ để tối ưu hóa
model_map trong mã ví dụ:
- Ban đầu xác định rằng cần
model_map
- Sau đó cân nhắc việc có thể cấu hình động dựa trên phản hồi API
- Cuối cùng quyết định rằng loại bỏ
model_map là giải pháp tối ưu nhất
Kết luận
- DeepSeek-R1 cho thấy hiệu năng nổi bật trong tự động tạo mã và tối ưu hóa
- Việc tối ưu hóa bằng SIMD trên WASM giúp cải thiện đáng kể hiệu năng của llama.cpp
- Nếu PR được áp dụng, tốc độ thực thi của các ứng dụng dựa trên WebAssembly được kỳ vọng sẽ được cải thiện mạnh
4 bình luận
Mình đã chạy deepseek r1 14b 30b 70b bằng ollama, khả năng suy luận tổng thể khá tốt nhưng vẫn có nhiều lỗi vặt. r1 thực sự rất xuất sắc.
Tôi đã thử bản distilled 8b nhưng hiệu năng tiếng Hàn bị giảm.
Có vẻ nó tạo ra được những kết quả khá có ý nghĩa trong việc sinh mã.
Ý kiến Hacker News
DeepSeek-R1 đã viết 99% mã cho PR của llama.cpp. Đây là một ví dụ cho thấy AI có thể đóng góp rất lớn cho việc lập trình
Đang chạy DeepSeek-R1-Distill-Qwen-32B trên laptop thông qua Ollama, và cần khoảng 20GB RAM
Việc DeepSeek-R1 viết 99% mã cho PR của llama.cpp là một cột mốc đáng chú ý
Họ đã yêu cầu DeepSeek chuyển mã ARM SIMD sang mã WASM, và điều này giúp ích cho việc tối ưu hóa mã
Khẳng định rằng LLM không hữu ích cho việc lập trình là sai
Đã dùng o1 Pro và Deepseek R1 để viết kiểm thử e2e, và Deepseek viết bài kiểm thử tốt hơn
Xuan-Son, ngoài việc chuyển ARM NEON sang SIMD, còn yêu cầu phát triển một cách tiếp cận mới
Đã viết lại plugin
llm_groq.pybằng DeepSeek R1, việc này được thực hiện vớideepseek-r1-distill-llama-70b, một mô hình đã được fine-tune từ LlamaAGI có thể xuất hiện trong vòng vài tháng tới, và việc huấn luyện sẽ diễn ra theo ba giai đoạn