- Deepseek R1-0528 được công bố là LLM mới nhất
- Mô hình này được cung cấp dưới dạng mã nguồn mở, giúp tăng khả năng tiếp cận và ứng dụng
- Thể hiện hiệu năng mạnh mẽ trong nhiều tác vụ xử lý và sinh ngôn ngữ tự nhiên
- Mang lại lợi thế cho nghiên cứu và ứng dụng thực tế nhờ kiến trúc nhanh hơn và hiệu quả hơn
- Đang nổi lên như một lựa chọn bổ sung có sức cạnh tranh trong lĩnh vực AI
Giới thiệu mô hình Deepseek R1-0528
- Deepseek R1-0528 là mô hình ngôn ngữ lớn mới nhất (LLM), có thể sử dụng trong các lĩnh vực hiểu và sinh ngôn ngữ tự nhiên
- Mô hình này được công bố mã nguồn mở thông qua Hugging Face, cho phép bất kỳ nhà nghiên cứu hay nhà phát triển nào cũng có thể tự do sử dụng
- Mô hình R1-0528 do DeepSeek-AI phát triển được huấn luyện trên bộ dữ liệu quy mô lớn, nên có thể áp dụng cho nhiều tác vụ xử lý và sinh ngôn ngữ tự nhiên như tóm tắt văn bản, dịch thuật, hỏi đáp, sinh mã
- So với các mô hình mã nguồn mở đã được công bố trước đó, mô hình này nổi bật với tốc độ suy luận vượt trội hơn và cấu trúc mạng được tối ưu hóa
- Nhờ những thế mạnh này, đây đang được xem là lựa chọn hấp dẫn đối với các nhà phát triển muốn có kết quả nhanh và chính xác trong môi trường nghiên cứu và công nghiệp thực tế
Điểm khác biệt và ưu điểm của mô hình
- Deepseek R1-0528 tạo khác biệt so với các mô hình LLM hiện có ở các khía cạnh khả năng mở rộng, hiệu quả và tốc độ
- Mô hình áp dụng cấu trúc mô-đun giúp nhà phát triển dễ dàng tùy biến và triển khai theo các ngôn ngữ hoặc lĩnh vực chuyên biệt khác nhau
- Nhờ thuật toán được cải tiến, tốc độ xử lý ở giai đoạn huấn luyện và suy luận được nâng cao
- Mọi người dùng đều có thể dễ dàng tải và sử dụng mô hình thông qua thư viện Hugging Face
Ứng dụng và hiệu quả kỳ vọng
- Có thể ứng dụng trong nhiều kịch bản thực tế như nghiên cứu AI, chatbot, tạo tài liệu tự động, trợ lý lập trình
- Việc công bố mã nguồn mở có thể giúp tự do áp dụng vào các bộ dữ liệu thực tế và kiểm chứng hiệu năng mô hình
- Việc ra mắt DeepSeek R1-0528 thúc đẩy môi trường cạnh tranh lành mạnh và tiến bộ công nghệ trong cộng đồng AI toàn cầu
1 bình luận
Ý kiến trên Hacker News
Ban đầu biết được rằng DeepSeek R1 hiện có thể dùng qua openrouter từ 7 nhà cung cấp
Liên kết
Đây là bản cập nhật DeepSeek R1 gốc ngày 28 tháng 5, hiệu năng ở mức tương đương OpenAI o1
Với tư cách là mã nguồn mở, cả reasoning tokens cũng được công khai
Tổng số tham số là 671B, và khi suy luận chỉ kích hoạt 37B
Đây là một mô hình mã nguồn mở hoàn toàn
Tò mò không biết có mô hình nào có thể tải xuống hay không
Vì không quen openrouter và cũng không thấy mô hình trên ollama nên muốn tìm hiểu thêm
Hoàn toàn không có thông tin nào được công bố về dữ liệu mà mô hình được huấn luyện
Dù trọng số có thể tải xuống đã được phát hành, về căn bản đây không phải mã nguồn mở có thể tái lập
Từng có dự án "Open R1" công khai cả dữ liệu huấn luyện,
nên tò mò không biết tiến độ hiện tại ra sao
Liên kết
Không đồng ý với tuyên bố rằng DeepSeek R1 là mã nguồn mở
Nhấn mạnh rằng tải xuống được không có nghĩa là mã nguồn mở
Liên kết
Thật tiếc là gần như không có thông tin nào về DeepSeek R1
Cũng không có dữ liệu benchmark, làm nhớ lại thời Mistral ngày trước chỉ thả một magnet link torrent qua tweet
Dạo này benchmark có vẻ không còn nhiều ý nghĩa
Người ta chỉ tập trung chỉnh mô hình cho khớp với các bài test đã công khai,
mà lơ là với những tiến bộ mang tính bản chất để tăng tính tổng quát
Nhìn bảng xếp hạng của Huggingface thì nhiều bản fine-tune của các mô hình mã nguồn mở đứng top, nhưng thực tế lại không được dùng rộng rãi
Liên kết
Trong bảng benchmark chỉ thấy điểm "Overall" và "Median",
nhưng không có thông tin chính xác là đã kiểm tra những hạng mục nào
Nhìn chung có vẻ tương đương với các mô hình mới nhất, nhưng xét về chi phí thì có chút lợi thế
Nhược điểm là tốc độ suy luận chậm giống r1 trước đó (tiêu tốn nhiều token)
Liên kết bảng
Cách DeepSeek công bố có vẻ giống Mistral ngày xưa, nên cũng tò mò không biết có phải là một màn tri ân có chủ ý hay không
DeepSeek thường đăng paper vào đúng ngày hôm sau khi công bố mô hình
Nếu điều phối lịch này tốt hơn một chút thì có lẽ sẽ gọn gàng hơn, còn hiện tại tin tức đang lan truyền hơi rối trên News YC
Điểm độc đáo là DeepSeek là một trong số rất ít LLM có thể chạy trên iPod Touch cài phiên bản ios cũ
Thích cách DeepSeek cứ thản nhiên tung ra các bản cập nhật mới
Dù có cải tiến lớn nhưng vẫn phát hành lặng lẽ, không quảng bá rầm rộ, và tôi thích kiểu đó
Tò mò không biết cải tiến có thực sự lớn hay không
Muốn biết có tài liệu so sánh chính thức như benchmark hay không
Không chỉ OpenAI mà gần đây cả Anthropic cũng thường cường điệu các model mới,
gắn thêm những câu chuyện kiểu 'mô hình này nguy hiểm đến mức nào, nó thoát ra sao, lừa con người thế nào, hack máy chủ lõi ra sao',
tạo cảm giác như phim kinh dị, trong khi DeepSeek lại phát hành theo kiểu mộc mạc, không phô trương
Có vẻ trên thực tế họ đã chính thức công bố qua WeChat
Cách phát hành âm thầm như vậy cũng hay, nhưng nếu vẫn có thêm dữ liệu định lượng như benchmark thì sẽ tốt hơn
Thời điểm công bố trùng đúng ngày Nvidia công bố kết quả kinh doanh cũng là một sự trùng hợp thú vị
Tò mò muốn biết cụ thể cần phần cứng gì để người bình thường có thể dùng những LLM cỡ lớn như thế này, dù có chậm đi nữa
Cũng muốn biết liệu người dùng phổ thông có cách nào giảm cấu hình hoặc thu nhỏ kích thước mô hình để sử dụng dễ hơn không
Đã chạy thành công DeepSeek R1 trên máy cục bộ bằng offload và lượng tử hóa 1.58bit (quantization)
Thông tin liên quan: Liên kết
Hiện cũng đang làm việc trên phiên bản mới
Bản quantized 4bit có thể chạy trên M3 Ultra 512GB
Giá thành khá đắt
Một cách khác là dùng hệ thống với CPU hiệu năng cao và 500GB RAM DDR5
Cách này cũng không rẻ, và chậm hơn M3 Ultra
Một lựa chọn khác nữa là dùng nhiều GPU Nvidia để cộng dồn thành 500GB VRAM
Đây là phương án đắt nhất nhưng tốc độ nhanh
Cần bo mạch chủ máy chủ dual-socket với 768GB RAM DDR5 và thêm GPU từ 16GB trở lên để xử lý prompt
Muốn chạy ở tốc độ 8~10 token/giây thì phải chi vài triệu won
Dùng Xeon dual-socket cũ giá 2.000 USD với 768GB DDR4
để chạy bản quantized 4bit ở tốc độ khoảng 1,5 token mỗi giây
Có thể dùng trên Amazon với mức khoảng 1 cent cho mỗi 10.000 token
Cũng có hướng dẫn cấu hình thủ công EC2 instance
Ví dụ instance
g6e.48xlarge(192 vCPU, 1536GB RAM, 8 GPU L40S Tensor Core, mỗi GPU 48GB VRAM)Chi phí sử dụng hàng tháng vào khoảng 22.000 USD
Hướng dẫn DeepSeek trên Bedrock
Hướng dẫn triển khai thủ công
Rất kỳ vọng vào bản phát hành R1 mới nhất
Quy mô 685B tham số, nhưng không có model card, release note, mô tả thay đổi hay thông tin về context window
Chất lượng đầu ra của R1 gốc rất ấn tượng, nhưng điểm tiếc là tiêu tốn quá nhiều token
Hiện đang chờ thêm thông tin được công bố
Cũng thú vị khi nó có giá chỉ khoảng một nửa so với o4 mini high mà không có khác biệt hiệu năng lớn
Đồng thời cũng thấy thông tin rằng phần lớn nhà cung cấp đang đưa lên các bản lượng tử hóa
Để đạt hiệu năng tương tự DeepSeek thì tối thiểu cần 8 GPU h100 80GB
Nếu dùng nhiều token thì vẫn có thể rẻ hơn OpenAI rất nhiều
Muốn sớm được thử DeepSeek trên Groq
Hiện chỉ hỗ trợ DeepSeek-r1-distill-llama-70b, và đây là mô hình được distill sang llama 70b
Hướng dẫn mô hình Groq