8 điểm bởi GN⁺ 2025-01-21 | 5 bình luận | Chia sẻ qua WhatsApp
  • DeepSeek đã công bố DeepSeek-R1-Zero và DeepSeek-R1, bộ mô hình suy luận thế hệ đầu tiên của hãng
  • DeepSeek-R1-Zero được huấn luyện chỉ bằng học tăng cường quy mô lớn (RL) và đã tự học được nhiều năng lực suy luận khác nhau
  • Tuy nhiên, do xuất hiện vấn đề lặp lại/khả năng đọc hiểu và trộn lẫn ngôn ngữ, hãng đã giới thiệu DeepSeek-R1 với bước SFT được bổ sung để khắc phục các điểm này và nâng cao hiệu năng
  • DeepSeek-R1 đạt hiệu năng ở mức OpenAI-o1 trong các tác vụ toán học, mã nguồn và suy luận
  • Để hỗ trợ cộng đồng nghiên cứu, DeepSeek đã công bố DeepSeek-R1-Zero, DeepSeek-R1 và các mô hình distillation được tạo bằng cách chuyển giao mẫu hình suy luận từ các mô hình này
  • Đặc biệt, mô hình DeepSeek-R1-Distill-Qwen-32B đạt hiệu năng vượt qua OpenAI-o1-mini

Tóm tắt mô hình

  • Hậu huấn luyện: học tăng cường quy mô lớn trên mô hình nền

    • DeepSeek-R1-Zero là mô hình thế hệ đầu tiên chỉ áp dụng RL mà không có SFT
    • Thông qua quá trình RL, mô hình đã học được nhiều mẫu hình suy luận như khả năng khám phá chuỗi suy nghĩ (Chain-of-thought), tự kiểm chứng và tự phản tỉnh (reflection)
    • Điều này cho thấy rằng “ngay cả không có SFT, mô hình quy mô lớn vẫn có thể đạt năng lực suy luận mạnh chỉ với RL”
    • Dựa trên quá trình này, DeepSeek-R1 đã bổ sung SFT ở giai đoạn giữa để tiếp tục tăng cường năng lực suy luận và khả năng sử dụng ngôn ngữ nói chung
  • Distillation: mô hình nhỏ cũng có thể mạnh

    • DeepSeek đã chứng minh rằng các mẫu hình suy luận mà mô hình lớn học được có thể được chuyển sang mô hình nhỏ hơn
    • Hãng dùng dữ liệu do DeepSeek-R1 tạo ra để fine-tune các dòng Qwen, Llama và cho thấy cả các mô hình dense cỡ nhỏ cũng đạt hiệu năng tốt
    • Đã công bố các mô hình distill với nhiều kích thước khác nhau như 1.5B, 7B, 8B, 14B, 32B, 70B

Tải mô hình

DeepSeek-R1 Models

  • DeepSeek-R1-Zero / DeepSeek-R1
    • Tham số: tổng 671B (tham số thực sự được kích hoạt là 37B)
    • Độ dài ngữ cảnh 128K
    • Có thể tải từ HuggingFace, và được huấn luyện theo phương thức RL dựa trên mô hình DeepSeek-V3-Base

DeepSeek-R1-Distill Models

  • Distillation dựa trên các dòng Qwen2.5 và Llama3
  • Cung cấp nhiều kích thước tham số từ 1.5B đến 70B
  • Được fine-tune bằng dữ liệu suy luận chất lượng cao do DeepSeek-R1 tạo ra
  • Do đã chỉnh sửa một số thiết lập (tokenizer, config), cần sử dụng đúng cấu hình được hướng dẫn

Kết quả đánh giá

DeepSeek-R1-Evaluation

  • DeepSeek-R1 đạt điểm số cao ở tiếng Anh (MMLU, DROP, v.v.), mã nguồn (Codeforces, LiveCodeBench, v.v.), toán học (AIME, MATH-500, v.v.) và tiếng Trung (C-Eval, v.v.)
  • Đặc biệt, mô hình ghi nhận pass@1 cao ở các hạng mục toán học như AIME và MATH-500
  • Khi so sánh với OpenAI-o1-mini, Claude, GPT-4, v.v., mô hình cho thấy hiệu năng cạnh tranh ở nhiều hạng mục

Đánh giá mô hình distilled

  • Các mô hình distillation cũng cho kết quả nổi bật trên các benchmark toán học (AIME, MATH, v.v.) và mã nguồn (Codeforces, v.v.)
  • DeepSeek-R1-Distill-Qwen-32B, DeepSeek-R1-Distill-Llama-70B, v.v. cho thấy pass@1 cao và hiệu năng giải mã tốt, gợi mở khả năng ứng dụng của các mô hình nhỏ

Website chat & nền tảng API

Cách chạy cục bộ

DeepSeek-R1 Models

  • Có thể tham khảo repository DeepSeek-V3 để kiểm tra các chi tiết như thiết lập độ dài tối đa 128K token rồi chạy cục bộ

DeepSeek-R1-Distill Models

  • Có thể dùng theo cùng cách với các mô hình Qwen và Llama
  • Ví dụ: có thể phục vụ nhanh bằng vLLM, SGLang, v.v.
  • Khuyến nghị đặt nhiệt độ (temperature) khoảng 0.5~0.7

Giấy phép

  • Dòng DeepSeek-R1 được phát hành theo giấy phép MIT
  • Tuy nhiên, cần lưu ý các mô hình dựa trên Qwen tuân theo Apache 2.0, còn các mô hình dựa trên Llama tuân theo giấy phép llama3.x
  • Có chính sách giấy phép linh hoạt như cho phép sử dụng thương mại, chỉnh sửa và tạo mô hình phái sinh

5 bình luận

 
crawler 2025-01-21

Mình thấy có người gắn link trong bình luận rất đẹp, hoặc trích dẫn nội dung bài viết nữa, nên không biết có chỗ nào tổng hợp các cú pháp có thể dùng trong bình luận không? Mấy hôm nay xem một lúc thì càng thấy trang này hay hơn, nên cũng muốn để lại bình luận.

 
savvykang 2025-01-21

https://news.hada.io/guidelines

> Hỗ trợ Markdown
> Được hỗ trợ ở cả bài viết và bình luận.
> Về cơ bản tuân theo quy chuẩn CommonMark.
> Không hỗ trợ hình ảnh.

 
crawler 2025-01-21

Cảm ơn bạn, tôi đã định dùng trích dẫn ở bình luận khác nhưng vì không thể sửa nên để an toàn tôi không dùng, hóa ra Markdown là đúng.
Tôi sẽ dùng nó thật hữu ích haha

 
GN⁺ 2025-01-21
Ý kiến Hacker News
  • Đang tiến hành thử nghiệm bằng phiên bản đã lượng tử hóa của Llama 3. Chạy mô hình và ghi log bằng Ollama cùng plugin llm-ollama. Sau khi tải mô hình, có thể dùng uvx để thử nhiều prompt khác nhau. Đã viết kết quả thử nghiệm lên blog.

  • DeepSeek-R1-Zero gặp các vấn đề như lặp lại, khó đọc và trộn lẫn ngôn ngữ. Để giải quyết điều này, DeepSeek-R1 đã được đưa vào. Trong các thử nghiệm với OpenAI o1 và QwQ-32B-Preview, QwQ có xu hướng rơi vào vòng lặp lặp lại. DeepSeek-R1 đã khắc phục các vấn đề này. Mô hình được phát hành theo giấy phép MIT nên nhiều người hơn có thể đánh giá.

  • Với câu hỏi hỏi số lượng chữ 'r' trong "strawberry", mô hình cho thấy quá trình tự tranh luận với chính mình để tìm ra đáp án đúng. Có nhắc rằng quá trình này khá thú vị.

  • Kết quả so sánh ChatGPT o1, DeepSeek DeepThink và Gemini 2.0 Flash Thinking Experimental cho thấy ChatGPT o1 là tốt nhất, còn DeepSeek là yếu nhất. Khi thử DeepSeek-R1, hiệu năng cho thấy đã được cải thiện so với trước. Trong các trường hợp sử dụng cá nhân, cảm thấy LLM hữu ích hơn.

  • Có kết quả benchmark cho thấy mô hình Llama 8B mạnh hơn Claude 3.5 Sonnet. Bày tỏ sự ngạc nhiên khi một mô hình nhỏ lại cho thấy hiệu năng mạnh như vậy.

  • Có nhắc rằng thật đáng kinh ngạc khi một công ty nhỏ mới thành lập 1 năm trước lại có thể cạnh tranh với OpenAI. Đánh giá rằng Trung Quốc đang vượt Mỹ trong lĩnh vực AI, và vì cung cấp mô hình dưới dạng mã nguồn mở nên đây mới là công ty "Open AI" thực sự.

  • Ban đầu từng kỳ vọng vào DS3, nhưng sau đó phát hiện các vấn đề như lỗi function calling, chất lượng phản hồi giảm và thiếu hỗ trợ. Tuy nhiên, điều này lại làm giảm lưu lượng sang các API khác nên độ trễ được cải thiện.

  • Bày tỏ sự bối rối về sự khác biệt giữa phiên bản 7b và 8b. Thông báo rằng đã tải phiên bản Qwen 7B lên Ollama.