Phát hành Deepseek R1-0528

(huggingface.co)

1 điểm bởi GN⁺ 2025-05-29 | 1 bình luận | Chia sẻ qua WhatsApp

Deepseek R1-0528 được công bố là LLM mới nhất
Mô hình này được cung cấp dưới dạng mã nguồn mở, giúp tăng khả năng tiếp cận và ứng dụng
Thể hiện hiệu năng mạnh mẽ trong nhiều tác vụ xử lý và sinh ngôn ngữ tự nhiên
Mang lại lợi thế cho nghiên cứu và ứng dụng thực tế nhờ kiến trúc nhanh hơn và hiệu quả hơn
Đang nổi lên như một lựa chọn bổ sung có sức cạnh tranh trong lĩnh vực AI

Giới thiệu mô hình Deepseek R1-0528

Deepseek R1-0528 là mô hình ngôn ngữ lớn mới nhất (LLM), có thể sử dụng trong các lĩnh vực hiểu và sinh ngôn ngữ tự nhiên
Mô hình này được công bố mã nguồn mở thông qua Hugging Face, cho phép bất kỳ nhà nghiên cứu hay nhà phát triển nào cũng có thể tự do sử dụng
Mô hình R1-0528 do DeepSeek-AI phát triển được huấn luyện trên bộ dữ liệu quy mô lớn, nên có thể áp dụng cho nhiều tác vụ xử lý và sinh ngôn ngữ tự nhiên như tóm tắt văn bản, dịch thuật, hỏi đáp, sinh mã
So với các mô hình mã nguồn mở đã được công bố trước đó, mô hình này nổi bật với tốc độ suy luận vượt trội hơn và cấu trúc mạng được tối ưu hóa
Nhờ những thế mạnh này, đây đang được xem là lựa chọn hấp dẫn đối với các nhà phát triển muốn có kết quả nhanh và chính xác trong môi trường nghiên cứu và công nghiệp thực tế

Điểm khác biệt và ưu điểm của mô hình

Deepseek R1-0528 tạo khác biệt so với các mô hình LLM hiện có ở các khía cạnh khả năng mở rộng, hiệu quả và tốc độ
Mô hình áp dụng cấu trúc mô-đun giúp nhà phát triển dễ dàng tùy biến và triển khai theo các ngôn ngữ hoặc lĩnh vực chuyên biệt khác nhau
Nhờ thuật toán được cải tiến, tốc độ xử lý ở giai đoạn huấn luyện và suy luận được nâng cao
Mọi người dùng đều có thể dễ dàng tải và sử dụng mô hình thông qua thư viện Hugging Face

Ứng dụng và hiệu quả kỳ vọng

Có thể ứng dụng trong nhiều kịch bản thực tế như nghiên cứu AI, chatbot, tạo tài liệu tự động, trợ lý lập trình
Việc công bố mã nguồn mở có thể giúp tự do áp dụng vào các bộ dữ liệu thực tế và kiểm chứng hiệu năng mô hình
Việc ra mắt DeepSeek R1-0528 thúc đẩy môi trường cạnh tranh lành mạnh và tiến bộ công nghệ trong cộng đồng AI toàn cầu

1 bình luận

GN⁺ 2025-05-29

Ý kiến trên Hacker News

Ban đầu biết được rằng DeepSeek R1 hiện có thể dùng qua openrouter từ 7 nhà cung cấp
Liên kết
Đây là bản cập nhật DeepSeek R1 gốc ngày 28 tháng 5, hiệu năng ở mức tương đương OpenAI o1
Với tư cách là mã nguồn mở, cả reasoning tokens cũng được công khai
Tổng số tham số là 671B, và khi suy luận chỉ kích hoạt 37B
Đây là một mô hình mã nguồn mở hoàn toàn
- Tò mò không biết có mô hình nào có thể tải xuống hay không
  Vì không quen openrouter và cũng không thấy mô hình trên ollama nên muốn tìm hiểu thêm
- Hoàn toàn không có thông tin nào được công bố về dữ liệu mà mô hình được huấn luyện
  Dù trọng số có thể tải xuống đã được phát hành, về căn bản đây không phải mã nguồn mở có thể tái lập
  Từng có dự án "Open R1" công khai cả dữ liệu huấn luyện,
  nên tò mò không biết tiến độ hiện tại ra sao
  Liên kết
- Không đồng ý với tuyên bố rằng DeepSeek R1 là mã nguồn mở
  Nhấn mạnh rằng tải xuống được không có nghĩa là mã nguồn mở
  Liên kết
Thật tiếc là gần như không có thông tin nào về DeepSeek R1
Cũng không có dữ liệu benchmark, làm nhớ lại thời Mistral ngày trước chỉ thả một magnet link torrent qua tweet
- Dạo này benchmark có vẻ không còn nhiều ý nghĩa
  Người ta chỉ tập trung chỉnh mô hình cho khớp với các bài test đã công khai,
  mà lơ là với những tiến bộ mang tính bản chất để tăng tính tổng quát
  Nhìn bảng xếp hạng của Huggingface thì nhiều bản fine-tune của các mô hình mã nguồn mở đứng top, nhưng thực tế lại không được dùng rộng rãi
  Liên kết
- Trong bảng benchmark chỉ thấy điểm "Overall" và "Median",
  nhưng không có thông tin chính xác là đã kiểm tra những hạng mục nào
  Nhìn chung có vẻ tương đương với các mô hình mới nhất, nhưng xét về chi phí thì có chút lợi thế
  Nhược điểm là tốc độ suy luận chậm giống r1 trước đó (tiêu tốn nhiều token)
  Liên kết bảng
- Cách DeepSeek công bố có vẻ giống Mistral ngày xưa, nên cũng tò mò không biết có phải là một màn tri ân có chủ ý hay không
- DeepSeek thường đăng paper vào đúng ngày hôm sau khi công bố mô hình
  Nếu điều phối lịch này tốt hơn một chút thì có lẽ sẽ gọn gàng hơn, còn hiện tại tin tức đang lan truyền hơi rối trên News YC
Điểm độc đáo là DeepSeek là một trong số rất ít LLM có thể chạy trên iPod Touch cài phiên bản ios cũ
Thích cách DeepSeek cứ thản nhiên tung ra các bản cập nhật mới
Dù có cải tiến lớn nhưng vẫn phát hành lặng lẽ, không quảng bá rầm rộ, và tôi thích kiểu đó
- Tò mò không biết cải tiến có thực sự lớn hay không
  Muốn biết có tài liệu so sánh chính thức như benchmark hay không
- Không chỉ OpenAI mà gần đây cả Anthropic cũng thường cường điệu các model mới,
  gắn thêm những câu chuyện kiểu 'mô hình này nguy hiểm đến mức nào, nó thoát ra sao, lừa con người thế nào, hack máy chủ lõi ra sao',
  tạo cảm giác như phim kinh dị, trong khi DeepSeek lại phát hành theo kiểu mộc mạc, không phô trương
- Có vẻ trên thực tế họ đã chính thức công bố qua WeChat
- Cách phát hành âm thầm như vậy cũng hay, nhưng nếu vẫn có thêm dữ liệu định lượng như benchmark thì sẽ tốt hơn
- Thời điểm công bố trùng đúng ngày Nvidia công bố kết quả kinh doanh cũng là một sự trùng hợp thú vị
Tò mò muốn biết cụ thể cần phần cứng gì để người bình thường có thể dùng những LLM cỡ lớn như thế này, dù có chậm đi nữa
Cũng muốn biết liệu người dùng phổ thông có cách nào giảm cấu hình hoặc thu nhỏ kích thước mô hình để sử dụng dễ hơn không
- Đã chạy thành công DeepSeek R1 trên máy cục bộ bằng offload và lượng tử hóa 1.58bit (quantization)
  Thông tin liên quan: Liên kết
  Hiện cũng đang làm việc trên phiên bản mới
- Bản quantized 4bit có thể chạy trên M3 Ultra 512GB
  Giá thành khá đắt
  Một cách khác là dùng hệ thống với CPU hiệu năng cao và 500GB RAM DDR5
  Cách này cũng không rẻ, và chậm hơn M3 Ultra
  Một lựa chọn khác nữa là dùng nhiều GPU Nvidia để cộng dồn thành 500GB VRAM
  Đây là phương án đắt nhất nhưng tốc độ nhanh
- Cần bo mạch chủ máy chủ dual-socket với 768GB RAM DDR5 và thêm GPU từ 16GB trở lên để xử lý prompt
  Muốn chạy ở tốc độ 8~10 token/giây thì phải chi vài triệu won
- Dùng Xeon dual-socket cũ giá 2.000 USD với 768GB DDR4
  để chạy bản quantized 4bit ở tốc độ khoảng 1,5 token mỗi giây
- Có thể dùng trên Amazon với mức khoảng 1 cent cho mỗi 10.000 token
  Cũng có hướng dẫn cấu hình thủ công EC2 instance
  Ví dụ instance g6e.48xlarge (192 vCPU, 1536GB RAM, 8 GPU L40S Tensor Core, mỗi GPU 48GB VRAM)
  Chi phí sử dụng hàng tháng vào khoảng 22.000 USD
  Hướng dẫn DeepSeek trên Bedrock
  Hướng dẫn triển khai thủ công
Rất kỳ vọng vào bản phát hành R1 mới nhất
Quy mô 685B tham số, nhưng không có model card, release note, mô tả thay đổi hay thông tin về context window
Chất lượng đầu ra của R1 gốc rất ấn tượng, nhưng điểm tiếc là tiêu tốn quá nhiều token
Hiện đang chờ thêm thông tin được công bố
Cũng thú vị khi nó có giá chỉ khoảng một nửa so với o4 mini high mà không có khác biệt hiệu năng lớn
Đồng thời cũng thấy thông tin rằng phần lớn nhà cung cấp đang đưa lên các bản lượng tử hóa
Để đạt hiệu năng tương tự DeepSeek thì tối thiểu cần 8 GPU h100 80GB
- Ước tính chi phí vào khoảng 16~24 USD mỗi giờ
  Nếu dùng nhiều token thì vẫn có thể rẻ hơn OpenAI rất nhiều
Muốn sớm được thử DeepSeek trên Groq
- Groq không thực sự hỗ trợ mô hình DeepSeek gốc
  Hiện chỉ hỗ trợ DeepSeek-r1-distill-llama-70b, và đây là mô hình được distill sang llama 70b
  Hướng dẫn mô hình Groq

Phát hành Deepseek R1-0528

Giới thiệu mô hình Deepseek R1-0528

Điểm khác biệt và ưu điểm của mô hình

Ứng dụng và hiệu quả kỳ vọng

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News