-
DeepSeek-R1: Tăng cường năng lực suy luận của LLM
- Giới thiệu các mô hình suy luận thế hệ đầu tiên là DeepSeek-R1-Zero và DeepSeek-R1
- DeepSeek-R1-Zero được huấn luyện thông qua học tăng cường quy mô lớn và cho thấy năng lực suy luận vượt trội ngay cả khi không có tinh chỉnh có giám sát
- Tuy nhiên, mô hình này gặp phải những thách thức như vấn đề về tính dễ đọc và hiện tượng trộn lẫn ngôn ngữ
- Để giải quyết các vấn đề này và cải thiện hiệu năng suy luận, DeepSeek-R1 được giới thiệu với quy trình huấn luyện nhiều giai đoạn và việc sử dụng dữ liệu ban đầu trước khi học tăng cường
- DeepSeek-R1 đạt hiệu năng tương đương với OpenAI-o1-1217
- Để hỗ trợ cộng đồng nghiên cứu, DeepSeek-R1-Zero, DeepSeek-R1 và 6 mô hình dense được chưng cất dựa trên Qwen và Llama (1.5B, 7B, 8B, 14B, 32B, 70B) được cung cấp dưới dạng mã nguồn mở
-
Chủ đề và trích dẫn
- Chủ đề: Tính toán và ngôn ngữ (cs.CL); Trí tuệ nhân tạo (cs.AI); Học máy (cs.LG)
- Trích dẫn: arXiv:2501.12948 [cs.CL]
-
Lịch sử gửi bài
- Người gửi: Wenfeng Liang
- Ngày gửi: 22 tháng 1 năm 2025
-
Cách truy cập
- Có thể truy cập bài báo dưới nhiều định dạng khác nhau như PDF, HTML, mã nguồn TeX
-
Tài liệu tham khảo và công cụ trích dẫn
- Cung cấp nhiều tài liệu tham khảo và công cụ trích dẫn khác nhau
-
Mã, dữ liệu, phương tiện
- Cung cấp mã và dữ liệu liên quan
-
Thông tin về arXivLabs
- Cung cấp phần giải thích và thông tin hỗ trợ về arXivLabs
1 bình luận
Ý kiến trên Hacker News
Bài báo DeepSeek V3 được xem là tài liệu bắt buộc nên đọc trước
Sau khi dùng thử mô hình
r1-14bcủa Ollama, cảm giác như mô hình đang thử nhiều cách tiếp cận khác nhau theo thời gian thực và chọn phương án thay thế, gợi nhớ đến hành vi của con ngườiDeepSeek V3 xuất hiện đúng lúc khi Claude Sonnet gặp vấn đề
Tính năng chat của DeepSeek dễ dùng hơn ChatGPT Pro
Ngạc nhiên khi quá trình suy nghĩ của mô hình GPT-O1 diễn ra bên trong mô hình
Không chỉ hiệu năng của DeepSeek R1 mà cả các mô hình chưng cất nhỏ cũng rất ấn tượng
Larry Ellison và Masayoshi Son nhắm tới sự bất tử thông qua ASI
Trên Arxiv, hơn 100 tác giả đã công bố bài báo dưới tên nhóm