2 điểm bởi GN⁺ 2025-08-22 | 1 bình luận | Chia sẻ qua WhatsApp
  • DeepSeek-V3.1 là bước đầu tiên cho kỷ nguyên tác tử thế hệ tiếp theo
  • Được trang bị tính năng suy luận lai, cho phép chọn sử dụng linh hoạt hai chế độ Think (dựa trên suy luận)Non-Think (không dựa trên suy luận) trong một mô hình duy nhất
  • Ở chế độ DeepSeek-V3.1-Think, có thể đưa ra đáp án trong thời gian ngắn hơn so với mô hình trước đó DeepSeek-R1-0528, giúp hiệu suất được cải thiện đáng kể
  • Thông qua huấn luyện hậu kỳ (Post-training), năng lực đảm nhiệm vai trò của mô hình trong việc sử dụng công cụ, thao tác hệ thống bên ngoài, và các tác vụ tác tử nhiều bước đã được cải thiện mạnh mẽ
  • Người dùng có thể tự do chuyển đổi giữa chế độ Think/Non-Think thông qua nút “DeepThink” trong dịch vụ chatbot DeepSeek
  • Cập nhật API
    • Đạt được kết quả tốt hơn trong các đánh giá SWE (Software Engineering) và Terminal-Bench
    • Khả năng suy luận nhiều bước và giải quyết vấn đề được tăng cường đáng kể trong các tác vụ tìm kiếm phức tạp hoặc nhiều bước
    • Hiệu suất suy luận tổng thể được nâng lên rõ rệt
  • Thay đổi gói giá (áp dụng từ 9/25)
    • API đầu vào: $0.07 cho mỗi 1M token (cache hit) / $0.56 (cache miss)
    • API đầu ra: $1.68 cho mỗi 1M token

1 bình luận

 
GN⁺ 2025-08-22
Ý kiến Hacker News
  • Khi chạy cục bộ thì đã có sẵn mô hình GGUF; để đạt hiệu năng tốt với cách động 2bit (MoE 2bit, phần còn lại 6-8bit) cần khoảng 250GB tổng RAM và VRAM, cũng có thể offload sang SSD nhưng sẽ chậm; xem tài liệu chính thức để biết chi tiết về cách chạy và các tham số tối ưu
    • Tuy nhiên khá lạ là unsloth dù là thư viện Python lại cố chạy apt-get bằng sudo; trên nixos của tôi việc này thất bại nên khá khó dùng
    • Tôi tò mò về kết quả benchmark cho thấy hiệu năng giảm bao nhiêu so với mô hình gốc trong kiểu nén động 2bit này
  • Tham khảo thêm bảng xếp hạng terminal-bench: tuy còn cách khá xa GPT-5, Claude 4, GLM-4.5, nhưng so với các mô hình open-weight khác thì hiệu năng tương đối ổn; benchmark không nói lên tất cả nên kết quả thực tế vẫn cần thời gian để kiểm chứng
    • Tôi thấy benchmark này trộn lẫn agent tool và mô hình nên kết quả thiếu nhất quán; chỉ khi cố định agent tool và chỉ so sánh mô hình thì mới có ý nghĩa. Các benchmark kiểu này thường kém tin cậy, và tốt hơn là tự dùng mô hình để áp dụng vào bài toán của mình
    • Theo cảm nhận của tôi thì chất lượng đầu ra khá tốt
    • Các công ty như Anthropic, OpenAI cũng có xu hướng phát triển agent tùy biến cho những benchmark cụ thể
    • Xin lưu ý rằng DeepSeek R1 đã là mô hình cũ và đã bị thay thế; tôi đã nắm được cập nhật này
    • Nếu giá không quá đắt thì ngay cả mô hình SOTA cũng cần đủ dễ tiếp cận mới khiến tôi quan tâm
  • Hơi tiếc vì đợt giảm giá ngoài giờ cao điểm trước đây đã biến mất; khi đó có thể dùng cực nhiều token mà gần như không tốn bao nhiêu, nhưng nhìn chung vẫn không quá phàn nàn vì giá vẫn rất cạnh tranh
  • Theo kết quả benchmark của artificialanalysis.ai, trí tuệ của nó примерно tương đương gpt-oss-120B nhưng chậm hơn khoảng 10 lần và đắt hơn 3 lần
    • Nguồn được đưa ra hiện chỉ hiển thị một provider cụ thể; sẽ chính xác hơn nếu so sánh gpt-oss-120Bdeepseek-chat-v3.1 trên cùng một nhà cung cấp. Cũng cần tính đến việc gpt-oss-120B có lợi thế vì đã có nhiều provider triển khai và tối ưu sẵn hơn
  • DeepSeek V3.1 là mô hình hybrid reasoning và có thế mạnh ở tool calling (Task Tool Calling), nhưng nó thường xuyên ngẫu nhiên dùng định dạng tool cũ thay vì JSON chuẩn; có lẽ tập dữ liệu huấn luyện của V3 chứa nhiều dữ liệu kiểu đó
    • Không biết bạn đã thử function calling strict (beta) chưa; có hướng dẫn liên quan
    • Tôi muốn hỏi “định dạng” ở đây là chỉ cái gì; tôi tưởng JSON phù hợp để buộc LLM tạo đầu ra có cấu trúc, nên không hiểu vì sao lại cố tình đi chệch khỏi JSON
  • Có vẻ nó vẫn thua Qwen3 235B 2507 Reasoning (mô hình tôi thích) hoặc gpt-oss-120B; xem benchmark, tham khảo giá
    • Tôi nghĩ dòng Qwen3 2507 hiện là lựa chọn local tốt nhất; chỉ cần GPU và khoảng 32GB RAM là mô hình A3B đã rất phù hợp cho công việc pair programming
  • Trong số các mô hình tôi đã dùng 6 tháng gần đây, DeepSeek V3.1 gây ra hallucination nhiều nhất
    • Tôi muốn hỏi bạn đã dùng context length bao nhiêu
    • Có thể lần này nó đã lấy phải dữ liệu kém chất lượng chăng
  • Nó nằm đâu đó giữa V3 và Qwen3 Coder, xem liên kết so sánh
    • Đang hỏi liệu mô hình gpt-5 Mini có được cung cấp miễn phí hay không
  • Trong nhóm mô hình open-weight thì có vẻ khá cạnh tranh, nhưng so với GPT-5 hay Claude thì khoảng cách vẫn còn lớn
  • Tôi vẫn chưa thấy bằng chứng cho thấy nó làm tốt hơn GLM-4.5 ở các tác vụ agentic coding
    • Đang hỏi liệu chỉ có vậy thôi hay còn bằng chứng nào khác mà họ chưa thấy