1 điểm bởi GN⁺ 2025-05-29 | 1 bình luận | Chia sẻ qua WhatsApp
  • Deepseek R1-0528 được công bố là LLM mới nhất
  • Mô hình này được cung cấp dưới dạng mã nguồn mở, giúp tăng khả năng tiếp cận và ứng dụng
  • Thể hiện hiệu năng mạnh mẽ trong nhiều tác vụ xử lý và sinh ngôn ngữ tự nhiên
  • Mang lại lợi thế cho nghiên cứu và ứng dụng thực tế nhờ kiến trúc nhanh hơn và hiệu quả hơn
  • Đang nổi lên như một lựa chọn bổ sung có sức cạnh tranh trong lĩnh vực AI

Giới thiệu mô hình Deepseek R1-0528

  • Deepseek R1-0528 là mô hình ngôn ngữ lớn mới nhất (LLM), có thể sử dụng trong các lĩnh vực hiểu và sinh ngôn ngữ tự nhiên
  • Mô hình này được công bố mã nguồn mở thông qua Hugging Face, cho phép bất kỳ nhà nghiên cứu hay nhà phát triển nào cũng có thể tự do sử dụng
  • Mô hình R1-0528 do DeepSeek-AI phát triển được huấn luyện trên bộ dữ liệu quy mô lớn, nên có thể áp dụng cho nhiều tác vụ xử lý và sinh ngôn ngữ tự nhiên như tóm tắt văn bản, dịch thuật, hỏi đáp, sinh mã
  • So với các mô hình mã nguồn mở đã được công bố trước đó, mô hình này nổi bật với tốc độ suy luận vượt trội hơn và cấu trúc mạng được tối ưu hóa
  • Nhờ những thế mạnh này, đây đang được xem là lựa chọn hấp dẫn đối với các nhà phát triển muốn có kết quả nhanh và chính xác trong môi trường nghiên cứu và công nghiệp thực tế

Điểm khác biệt và ưu điểm của mô hình

  • Deepseek R1-0528 tạo khác biệt so với các mô hình LLM hiện có ở các khía cạnh khả năng mở rộng, hiệu quả và tốc độ
  • Mô hình áp dụng cấu trúc mô-đun giúp nhà phát triển dễ dàng tùy biến và triển khai theo các ngôn ngữ hoặc lĩnh vực chuyên biệt khác nhau
  • Nhờ thuật toán được cải tiến, tốc độ xử lý ở giai đoạn huấn luyện và suy luận được nâng cao
  • Mọi người dùng đều có thể dễ dàng tải và sử dụng mô hình thông qua thư viện Hugging Face

Ứng dụng và hiệu quả kỳ vọng

  • Có thể ứng dụng trong nhiều kịch bản thực tế như nghiên cứu AI, chatbot, tạo tài liệu tự động, trợ lý lập trình
  • Việc công bố mã nguồn mở có thể giúp tự do áp dụng vào các bộ dữ liệu thực tế và kiểm chứng hiệu năng mô hình
  • Việc ra mắt DeepSeek R1-0528 thúc đẩy môi trường cạnh tranh lành mạnh và tiến bộ công nghệ trong cộng đồng AI toàn cầu

1 bình luận

 
GN⁺ 2025-05-29
Ý kiến trên Hacker News
  • Ban đầu biết được rằng DeepSeek R1 hiện có thể dùng qua openrouter từ 7 nhà cung cấp
    Liên kết
    Đây là bản cập nhật DeepSeek R1 gốc ngày 28 tháng 5, hiệu năng ở mức tương đương OpenAI o1
    Với tư cách là mã nguồn mở, cả reasoning tokens cũng được công khai
    Tổng số tham số là 671B, và khi suy luận chỉ kích hoạt 37B
    Đây là một mô hình mã nguồn mở hoàn toàn

    • Tò mò không biết có mô hình nào có thể tải xuống hay không
      Vì không quen openrouter và cũng không thấy mô hình trên ollama nên muốn tìm hiểu thêm

    • Hoàn toàn không có thông tin nào được công bố về dữ liệu mà mô hình được huấn luyện
      Dù trọng số có thể tải xuống đã được phát hành, về căn bản đây không phải mã nguồn mở có thể tái lập
      Từng có dự án "Open R1" công khai cả dữ liệu huấn luyện,
      nên tò mò không biết tiến độ hiện tại ra sao
      Liên kết

    • Không đồng ý với tuyên bố rằng DeepSeek R1 là mã nguồn mở
      Nhấn mạnh rằng tải xuống được không có nghĩa là mã nguồn mở
      Liên kết

  • Thật tiếc là gần như không có thông tin nào về DeepSeek R1
    Cũng không có dữ liệu benchmark, làm nhớ lại thời Mistral ngày trước chỉ thả một magnet link torrent qua tweet

    • Dạo này benchmark có vẻ không còn nhiều ý nghĩa
      Người ta chỉ tập trung chỉnh mô hình cho khớp với các bài test đã công khai,
      mà lơ là với những tiến bộ mang tính bản chất để tăng tính tổng quát
      Nhìn bảng xếp hạng của Huggingface thì nhiều bản fine-tune của các mô hình mã nguồn mở đứng top, nhưng thực tế lại không được dùng rộng rãi
      Liên kết

    • Trong bảng benchmark chỉ thấy điểm "Overall" và "Median",
      nhưng không có thông tin chính xác là đã kiểm tra những hạng mục nào
      Nhìn chung có vẻ tương đương với các mô hình mới nhất, nhưng xét về chi phí thì có chút lợi thế
      Nhược điểm là tốc độ suy luận chậm giống r1 trước đó (tiêu tốn nhiều token)
      Liên kết bảng

    • Cách DeepSeek công bố có vẻ giống Mistral ngày xưa, nên cũng tò mò không biết có phải là một màn tri ân có chủ ý hay không

    • DeepSeek thường đăng paper vào đúng ngày hôm sau khi công bố mô hình
      Nếu điều phối lịch này tốt hơn một chút thì có lẽ sẽ gọn gàng hơn, còn hiện tại tin tức đang lan truyền hơi rối trên News YC

  • Điểm độc đáo là DeepSeek là một trong số rất ít LLM có thể chạy trên iPod Touch cài phiên bản ios cũ

  • Thích cách DeepSeek cứ thản nhiên tung ra các bản cập nhật mới
    Dù có cải tiến lớn nhưng vẫn phát hành lặng lẽ, không quảng bá rầm rộ, và tôi thích kiểu đó

    • Tò mò không biết cải tiến có thực sự lớn hay không
      Muốn biết có tài liệu so sánh chính thức như benchmark hay không

    • Không chỉ OpenAI mà gần đây cả Anthropic cũng thường cường điệu các model mới,
      gắn thêm những câu chuyện kiểu 'mô hình này nguy hiểm đến mức nào, nó thoát ra sao, lừa con người thế nào, hack máy chủ lõi ra sao',
      tạo cảm giác như phim kinh dị, trong khi DeepSeek lại phát hành theo kiểu mộc mạc, không phô trương

    • Có vẻ trên thực tế họ đã chính thức công bố qua WeChat

    • Cách phát hành âm thầm như vậy cũng hay, nhưng nếu vẫn có thêm dữ liệu định lượng như benchmark thì sẽ tốt hơn

    • Thời điểm công bố trùng đúng ngày Nvidia công bố kết quả kinh doanh cũng là một sự trùng hợp thú vị

  • Tò mò muốn biết cụ thể cần phần cứng gì để người bình thường có thể dùng những LLM cỡ lớn như thế này, dù có chậm đi nữa
    Cũng muốn biết liệu người dùng phổ thông có cách nào giảm cấu hình hoặc thu nhỏ kích thước mô hình để sử dụng dễ hơn không

    • Đã chạy thành công DeepSeek R1 trên máy cục bộ bằng offload và lượng tử hóa 1.58bit (quantization)
      Thông tin liên quan: Liên kết
      Hiện cũng đang làm việc trên phiên bản mới

    • Bản quantized 4bit có thể chạy trên M3 Ultra 512GB
      Giá thành khá đắt
      Một cách khác là dùng hệ thống với CPU hiệu năng cao và 500GB RAM DDR5
      Cách này cũng không rẻ, và chậm hơn M3 Ultra
      Một lựa chọn khác nữa là dùng nhiều GPU Nvidia để cộng dồn thành 500GB VRAM
      Đây là phương án đắt nhất nhưng tốc độ nhanh

    • Cần bo mạch chủ máy chủ dual-socket với 768GB RAM DDR5 và thêm GPU từ 16GB trở lên để xử lý prompt
      Muốn chạy ở tốc độ 8~10 token/giây thì phải chi vài triệu won

    • Dùng Xeon dual-socket cũ giá 2.000 USD với 768GB DDR4
      để chạy bản quantized 4bit ở tốc độ khoảng 1,5 token mỗi giây

    • Có thể dùng trên Amazon với mức khoảng 1 cent cho mỗi 10.000 token
      Cũng có hướng dẫn cấu hình thủ công EC2 instance
      Ví dụ instance g6e.48xlarge (192 vCPU, 1536GB RAM, 8 GPU L40S Tensor Core, mỗi GPU 48GB VRAM)
      Chi phí sử dụng hàng tháng vào khoảng 22.000 USD
      Hướng dẫn DeepSeek trên Bedrock
      Hướng dẫn triển khai thủ công

  • Rất kỳ vọng vào bản phát hành R1 mới nhất
    Quy mô 685B tham số, nhưng không có model card, release note, mô tả thay đổi hay thông tin về context window
    Chất lượng đầu ra của R1 gốc rất ấn tượng, nhưng điểm tiếc là tiêu tốn quá nhiều token
    Hiện đang chờ thêm thông tin được công bố

  • Cũng thú vị khi nó có giá chỉ khoảng một nửa so với o4 mini high mà không có khác biệt hiệu năng lớn
    Đồng thời cũng thấy thông tin rằng phần lớn nhà cung cấp đang đưa lên các bản lượng tử hóa

  • Để đạt hiệu năng tương tự DeepSeek thì tối thiểu cần 8 GPU h100 80GB

    • Ước tính chi phí vào khoảng 16~24 USD mỗi giờ
      Nếu dùng nhiều token thì vẫn có thể rẻ hơn OpenAI rất nhiều
  • Muốn sớm được thử DeepSeek trên Groq

    • Groq không thực sự hỗ trợ mô hình DeepSeek gốc
      Hiện chỉ hỗ trợ DeepSeek-r1-distill-llama-70b, và đây là mô hình được distill sang llama 70b
      Hướng dẫn mô hình Groq