DeepSeek R1 chính thức có mặt trên Ollama

(ollama.com)

5 điểm bởi GN⁺ 2025-01-22 | 4 bình luận | Chia sẻ qua WhatsApp

R1, mô hình suy luận thế hệ đầu tiên của DeepSeek, sở hữu hiệu năng có thể so sánh với OpenAI-o1
- Thể hiện hiệu năng vượt trội trong các tác vụ toán học, mã, và suy luận
Cung cấp các mô hình với nhiều kích thước: 1.5B, 7B, 8B, 14B, 32B, 70B, 671B
- Mỗi mô hình được tối ưu hóa cho các tác vụ cụ thể
Giấy phép
- Được cung cấp theo giấy phép MIT
- Có thể sử dụng miễn phí, bao gồm cả mục đích thương mại

4 bình luận

gadget5 2025-01-22

Nếu hỏi R1 về danh tính của nó, nó sẽ luôn trả lời rằng mình không hề liên quan đến DeepSeek và là OpenAI GPT.

mse9000 2025-01-31

Việc nó trả lời rằng dữ liệu huấn luyện chỉ đến tháng 10 năm 2023 nghe cứ sao sao ấy ..

xguru 2025-01-22

Đã đăng ký chính thức DeepSeek R1 trên Ollama

GN⁺ 2025-01-22

Ý kiến trên Hacker News

Có vẻ DeepSeek V3 nhận biết được mức độ nhạy cảm về chính trị. Khi được hỏi "Quảng trường Thiên An Môn nổi tiếng vì điều gì?", nó trả lời "Xin lỗi, nội dung này hiện nằm ngoài phạm vi của tôi"
- Có thể hiểu rằng cần phải chỉnh sửa để xử lý thực tế chính trị, nhưng tôi thấy không thoải mái khi một LLM nói dối về những chủ đề như thế này
- Tôi tự hỏi liệu có kế hoạch công khai mã nguồn danh sách các thay đổi được đưa vào mô hình vì lý do chính trị hay không
- Việc làm cho mô hình trở nên đúng đắn về mặt chính trị và việc chôn vùi một cuộc thảm sát là hai chuyện khác nhau. Đây là một con đường rất nguy hiểm, và sẽ không dừng lại ở đây
Nếu nhìn vào bài báo R1, thì nếu benchmark là chính xác, ngay cả các mô hình 1.5b và 7b cũng vượt trội hơn Claude 3.5 Sonnet. Việc có thể chạy các mô hình này trên MacBook 8-16GB thật đáng kinh ngạc
Tiêu đề bị sai. Chỉ có các mô hình chưng cất từ llama, qwen trên ollama, chứ không phải mô hình MoE r1 chính thức của deepseekv3
Nếu thử hỏi mô hình 1.5b rằng "làm thế nào để đảo ngược một list trong Python", nó sẽ tiếp tục tuôn ra suy nghĩ mà không dừng lại. Nó cũng không lặp lại. Khá thú vị
Cần có tài liệu. Mô tả toàn bộ dự án dường như chỉ là "bắt đầu với mô hình ngôn ngữ lớn"
- Có nhiều câu hỏi trước khi cài đặt. Nó có bị ràng buộc vào giao diện client hay không, yêu cầu hệ thống là gì, v.v.
Thật ngạc nhiên khi có thể chạy mô hình này trên một chiếc laptop đã 3 năm tuổi
- Đưa ra ví dụ viết một hàm cộng hai số trong Rust
- Trong Rust, dùng từ khóa fn để định nghĩa hàm. Vì không chỉ rõ kiểu số nên biến nó thành generic
- Dùng trait Add để thực hiện phép cộng. Cần import từ thư viện chuẩn
- Chữ ký hàm có dạng fn add_numbers<T: Add<Output = T>>(a: T, b: T) -> T
- Trong Rust không thể trộn các kiểu số khác nhau, nên cần chuyển đổi tường minh
Đưa ra một ví dụ đơn giản về hàm cộng hai số trong Rust
- Đây là hàm cộng hai số nguyên kiểu i32
- Cũng có thể xử lý các kiểu số khác bằng cách dùng generic và trait bound
Tôi tự hỏi có những lựa chọn API trả phí nào để suy luận với mô hình lớn nhất của DeepSeek R1
- Tôi cũng tự hỏi phải làm thế nào để fine-tune hoặc huấn luyện tăng cường mô hình DeepSeek R1 lớn nhất
Tôi tự hỏi nếu có RTX 4090 và 192GB RAM thì có thể chạy cục bộ mô hình DeepSeek R1 cỡ nào
Tôi tự hỏi kích thước mô hình nào phù hợp với Nvidia 4070
Ollama gần như hoàn hảo. Tuy nhiên, việc không hỗ trợ Vulkan là một vấn đề lớn

DeepSeek R1 chính thức có mặt trên Ollama

Bài viết liên quan

4 bình luận

Ý kiến trên Hacker News