5 điểm bởi GN⁺ 2025-01-22 | 4 bình luận | Chia sẻ qua WhatsApp
  • R1, mô hình suy luận thế hệ đầu tiên của DeepSeek, sở hữu hiệu năng có thể so sánh với OpenAI-o1
    • Thể hiện hiệu năng vượt trội trong các tác vụ toán học, mã, và suy luận
  • Cung cấp các mô hình với nhiều kích thước: 1.5B, 7B, 8B, 14B, 32B, 70B, 671B
    • Mỗi mô hình được tối ưu hóa cho các tác vụ cụ thể
  • Giấy phép
    • Được cung cấp theo giấy phép MIT
    • Có thể sử dụng miễn phí, bao gồm cả mục đích thương mại

4 bình luận

 
gadget5 2025-01-22

Nếu hỏi R1 về danh tính của nó, nó sẽ luôn trả lời rằng mình không hề liên quan đến DeepSeek và là OpenAI GPT.

 
mse9000 2025-01-31

Việc nó trả lời rằng dữ liệu huấn luyện chỉ đến tháng 10 năm 2023 nghe cứ sao sao ấy ..

 
GN⁺ 2025-01-22
Ý kiến trên Hacker News
  • Có vẻ DeepSeek V3 nhận biết được mức độ nhạy cảm về chính trị. Khi được hỏi "Quảng trường Thiên An Môn nổi tiếng vì điều gì?", nó trả lời "Xin lỗi, nội dung này hiện nằm ngoài phạm vi của tôi"

    • Có thể hiểu rằng cần phải chỉnh sửa để xử lý thực tế chính trị, nhưng tôi thấy không thoải mái khi một LLM nói dối về những chủ đề như thế này
    • Tôi tự hỏi liệu có kế hoạch công khai mã nguồn danh sách các thay đổi được đưa vào mô hình vì lý do chính trị hay không
    • Việc làm cho mô hình trở nên đúng đắn về mặt chính trị và việc chôn vùi một cuộc thảm sát là hai chuyện khác nhau. Đây là một con đường rất nguy hiểm, và sẽ không dừng lại ở đây
  • Nếu nhìn vào bài báo R1, thì nếu benchmark là chính xác, ngay cả các mô hình 1.5b và 7b cũng vượt trội hơn Claude 3.5 Sonnet. Việc có thể chạy các mô hình này trên MacBook 8-16GB thật đáng kinh ngạc

  • Tiêu đề bị sai. Chỉ có các mô hình chưng cất từ llama, qwen trên ollama, chứ không phải mô hình MoE r1 chính thức của deepseekv3

  • Nếu thử hỏi mô hình 1.5b rằng "làm thế nào để đảo ngược một list trong Python", nó sẽ tiếp tục tuôn ra suy nghĩ mà không dừng lại. Nó cũng không lặp lại. Khá thú vị

  • Cần có tài liệu. Mô tả toàn bộ dự án dường như chỉ là "bắt đầu với mô hình ngôn ngữ lớn"

    • Có nhiều câu hỏi trước khi cài đặt. Nó có bị ràng buộc vào giao diện client hay không, yêu cầu hệ thống là gì, v.v.
  • Thật ngạc nhiên khi có thể chạy mô hình này trên một chiếc laptop đã 3 năm tuổi

    • Đưa ra ví dụ viết một hàm cộng hai số trong Rust
    • Trong Rust, dùng từ khóa fn để định nghĩa hàm. Vì không chỉ rõ kiểu số nên biến nó thành generic
    • Dùng trait Add để thực hiện phép cộng. Cần import từ thư viện chuẩn
    • Chữ ký hàm có dạng fn add_numbers<T: Add<Output = T>>(a: T, b: T) -> T
    • Trong Rust không thể trộn các kiểu số khác nhau, nên cần chuyển đổi tường minh
  • Đưa ra một ví dụ đơn giản về hàm cộng hai số trong Rust

    • Đây là hàm cộng hai số nguyên kiểu i32
    • Cũng có thể xử lý các kiểu số khác bằng cách dùng generic và trait bound
  • Tôi tự hỏi có những lựa chọn API trả phí nào để suy luận với mô hình lớn nhất của DeepSeek R1

    • Tôi cũng tự hỏi phải làm thế nào để fine-tune hoặc huấn luyện tăng cường mô hình DeepSeek R1 lớn nhất
  • Tôi tự hỏi nếu có RTX 4090 và 192GB RAM thì có thể chạy cục bộ mô hình DeepSeek R1 cỡ nào

  • Tôi tự hỏi kích thước mô hình nào phù hợp với Nvidia 4070

  • Ollama gần như hoàn hảo. Tuy nhiên, việc không hỗ trợ Vulkan là một vấn đề lớn