2 điểm bởi GN⁺ 2025-09-30 | 1 bình luận | Chia sẻ qua WhatsApp
  • Mô hình thử nghiệm dựa trên V3.1-Terminus, giới thiệu DeepSeek Sparse Attention (cơ chế attention thưa) để nâng cao hiệu quả xử lý ngữ cảnh dài
  • Sparse Attention hỗ trợ các phép toán thưa ở mức hạt mịn, cải thiện mạnh hiệu quả huấn luyện và suy luận trong khi chất lượng đầu ra vẫn duy trì ở mức tương đương trước đây
  • Trên các benchmark chính, kết quả cho thấy hiệu năng tương đương hoặc cải thiện một phần so với V3.1-Terminus, đặc biệt được xác nhận ở giải quyết bài toán lập trình, toán học và sử dụng công cụ kiểu agent
  • Để phục vụ nghiên cứu và ứng dụng, các kernel liên quan như TileLang, DeepGEMM, FlashMLA cũng được công bố cùng lúc, cung cấp cả phiên bản thiết kế dễ đọc lẫn kernel CUDA hiệu năng cao
  • Có thể chạy ngay trong nhiều môi trường như HuggingFace, SGLang, vLLM, được kỳ vọng sẽ trở thành nền tảng cho nghiên cứu và ứng dụng thực tiễn của kiến trúc transformer hiệu quả thế hệ tiếp theo

Giới thiệu

  • DeepSeek-V3.2-Exp là mô hình ở giai đoạn tiền kiến trúc thế hệ tiếp theo được phát triển dựa trên V3.1-Terminus
  • Đặc điểm cốt lõi là áp dụng DeepSeek Sparse Attention (DSA), cho phép suy luận và học tập hiệu quả trong ngữ cảnh dài
  • Mục tiêu là tối ưu hóa hiệu quả tính toánxử lý chuỗi văn bản mở rộng

Thành tựu chính

  • DSA lần đầu hiện thực hóa attention thưa tinh vi, giúp tăng hiệu quả mà vẫn giữ nguyên chất lượng đầu ra của mô hình
  • Cấu hình huấn luyện được giữ giống hệt V3.1-Terminus để đảm bảo độ tin cậy của việc so sánh hiệu năng
  • Kết quả benchmark công khai:
    • Reasoning: MMLU-Pro(85.0 vs 85.0), AIME 2025(88.4 vs 89.3), Codeforces(2046 vs 2121)
    • Agentic Tool Use: BrowseComp(38.5 vs 40.1), SimpleQA(96.8 vs 97.1)
    • Nhìn chung, kết quả cho thấy tương đương hoặc cải thiện nhẹ

Kernel mã nguồn mở

  • TileLang: cung cấp ví dụ kernel dễ đọc để phục vụ nghiên cứu
  • DeepGEMM: công bố kernel CUDA hiệu năng cao và kernel indexer logits
  • FlashMLA: cung cấp kernel sparse attention

Cách chạy

  • HuggingFace: sau khi chuyển đổi mô hình có thể chạy chat tương tác bằng torchrun
  • SGLang: cung cấp image Docker (cho H200, MI350, NPU)
  • vLLM: hỗ trợ Day-0, cung cấp tài liệu recipe chính thức

Giấy phép

  • Phát hành theo MIT License

1 bình luận

 
GN⁺ 2025-09-30
Ý kiến trên Hacker News
  • Điều đáng chú ý như một hiệu ứng bậc hai mà không nhiều người nhắc tới là giá, việc giá giảm cùng với tốc độ mở rộng nhanh của mô hình thật ấn tượng, đây là yếu tố quan trọng không kém gì mức độ phổ cập AI và trí thông minh của mô hình, về cơ bản tôi không biết có “định luật” nào có thể ngăn giá tiếp tục giảm, hiện tại cứ mỗi thế hệ phần cứng thì mọi thứ lại nhanh hơn và rẻ hơn rất nhiều, tương tự định luật Moore (hoặc chu kỳ phát triển chip AI/Nvidia), vậy nên 1 năm nữa có lẽ sẽ dùng ChatGPT-5 với giá bằng một nửa (dĩ nhiên các mô hình hiệu năng cao hơn sẽ đắt hơn, nhưng đang nói theo đơn giá trên mỗi token)

    • Như vậy là đã đánh giá thấp khá nhiều mức giảm giá, ví dụ theo nghiên cứu của Andreessen Horowitz, trong 2 năm kể từ khi GPT-3.5 xuất hiện thì chi phí suy luận đã giảm 10 lần mỗi năm tham khảo, nên ngay cả trong kịch bản tăng trưởng chậm lại thì vẫn có thể giảm 1.000 lần trong 5 năm tới, đợt giảm giá hiện nay không gắn trực tiếp với định luật Moore mà đến từ nhiều đổi mới như tối ưu hóa mô hình, chuỗi cung ứng bộ nhớ băng thông cao và đầu tư vào hạ tầng điện năng
  • Tôi hoan nghênh xu hướng các mô hình mã nguồn mở của Trung Quốc tiếp tục tiến bộ và rẻ hơn, vốn đã là mô hình giá thấp mà nay API còn giảm thêm 50%, xuống còn Input $0.28/M, (khi cache hit là $0.028/M), Output $0.42/M

    • Nếu giá đã giảm thì tôi tò mò trước đây là bao nhiêu, thậm chí còn có cảm giác gần đây giá từng tăng lên

    • Giá giảm thì tốt nhưng tôi tự hỏi mức này sẽ duy trì được bao lâu, vì trước đây đã từng rất rẻ rồi tăng mạnh một lần, giờ lại giảm xuống

  • Liên kết giới thiệu mô hình Deepseek v3.2-exp

    • Kỳ lạ là mô hình này được đánh dấu là “được huấn luyện trên dữ liệu” ("nhà cung cấp này có thể dùng prompt và kết quả đầu ra để huấn luyện các mô hình mới. Nhà cung cấp này hiện đang bị tắt nhưng có thể được bật lại nếu chính sách dữ liệu thay đổi"), thông thường các mô hình trả phí hầu như không dùng dữ liệu đầu vào để huấn luyện, nên không rõ Openrouter gắn nhãn sai hay Deepseek thực sự dùng dữ liệu người dùng để huấn luyện

    • Tôi nghi ngờ Open Router có thật sự là mã nguồn mở hay không, repo “chính” đang ở trạng thái archive và chỉ có các dự án nhỏ, có vẻ phần mã nguồn mở thực sự chỉ là các API client binding, còn dịch vụ routing cốt lõi thì bị đóng phải không

  • Không chắc mình hiểu đúng không, nhưng điểm đặc trưng của mô hình này là nó được huấn luyện để bắt chước toàn bộ phân bố attention, trong khi chỉ lọc ra top-k token quan trọng nhất (ở đây k=2048), nhờ đó dù cửa sổ ngữ cảnh lớn lên thì độ phức tạp tính toán của [query, key] không tăng tuyến tính mà giữ gần như cố định (dù nhìn trên đồ thị thực tế thì vẫn còn bước indexer quét sơ toàn bộ context một lượt nên vẫn là O(L))

  • Vấn đề lớn của các mô hình “giá rẻ” kiểu này là nếu nhà cung cấp không hỗ trợ caching thì trong môi trường sử dụng thực tế, đặc biệt là workflow agent, chi phí có thể còn cao hơn, chi phí token input/output không có nhiều ý nghĩa, phần chi phí cho cache hit (tái sử dụng) mới chiếm phần lớn tổng token, trong trường hợp đó dùng luôn GPT-5 có khi còn rẻ hơn hoặc cùng tầm giá nhưng được mô hình mạnh hơn

    • DeepSeek có hỗ trợ cache, và khi cache hit thì chi phí bằng 1/10 cache miss, cụ thể cache hit $0.028/M, cache miss $0.28/M, output $0.42/M tham khảo

    • Tôi cũng biết mô hình này có hỗ trợ caching, trang hướng dẫn giá cũng ghi rõ token đầu vào khi cache hit là $0.028

    • Bạn vừa tuyên bố đây là vấn đề nghiêm trọng nhưng lại kèm điều kiện IF, DeepSeek API chính thức có hỗ trợ caching, xin đừng tạo ra vấn đề từ chỗ không có hướng dẫn cache

  • Thật ngạc nhiên khi benchmark gần như giữ nguyên nhưng chi phí lại giảm mạnh

  • Điểm thú vị là tốc độ phát triển mô hình vẫn nhanh đến mức phần cứng chuyên dụng cho từng mô hình cụ thể chưa thật sự được săn đón mạnh, và lợi thế mở rộng quy mô chủ yếu vẫn đến từ các nền tảng đa dụng

    • Dù vậy vẫn nên nhắc tới các chip tối ưu hóa theo kiến trúc như Google TPU, Groq, Cerebras, chúng không hoàn toàn chuyên dụng nhưng là những ví dụ được tối ưu trên các cấu trúc tổng quát hơn
  • Có vẻ Deep Sparse Attention có thể thực sự hữu ích cho suy luận dài và có cấu trúc như code

  • Thật sự rất ấn tượng, tôi tò mò nó hoạt động ra sao với dữ liệu thế giới thực nơi những khác biệt tinh tế rất quan trọng, và cũng rất muốn biết họ có từng thử nghiệm với bối cảnh lớn hơn cửa sổ ngữ cảnh 128K hay chưa

  • Thật tuyệt khi được thấy sparse attention được áp dụng trong môi trường thực tế