1 điểm bởi GN⁺ 5 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • DwarfStar 4 đã lan rộng nhanh hơn dự kiến, cho thấy nhu cầu về trải nghiệm AI cục bộ xoay quanh một mô hình duy nhất
  • Sự lan rộng nhanh chóng có được nhờ DeepSeek v4 Flash và lượng tử hóa bất đối xứng 2/8-bit, cho phép chạy với 96GB hoặc 128GB RAM
  • DS4 không phải là một dự án bị trói vào một mô hình cụ thể, mà hướng tới việc lấy các mô hình trọng số mở mới nhất, chạy nhanh trên thiết bị GPU in a box, làm trung tâm
  • Trong suy luận cục bộ, cách gọi các mô hình chuyên biệt như ds4-coding, ds4-legal, ds4-medical tùy theo câu hỏi có vẻ là một hướng đi có ý nghĩa
  • Trọng tâm sắp tới là benchmark chất lượng, tác tử lập trình, CI dựa trên phần cứng tại nhà, mở rộng porting, và suy luận phân tán theo kiểu nối tiếp lẫn song song

Sự lan rộng nhanh của DS4 và bối cảnh

  • DwarfStar 4 đã trở nên phổ biến nhanh hơn dự kiến, cho thấy nhu cầu về trải nghiệm AI cục bộ tập trung vào tích hợp một mô hình duy nhất
  • Sự lan rộng nhanh này đến từ sự xuất hiện của các mô hình cận frontier như DeepSeek v4 Flash, hiệu năng và tốc độ đủ lớn để thay đổi cục diện suy luận cục bộ, cùng với tổ hợp lượng tử hóa bất đối xứng mạnh 2/8-bit
  • Tổ hợp này giúp có thể chạy mô hình chỉ với 96GB hoặc 128GB RAM
  • Kinh nghiệm tích lũy từ phong trào AI cục bộ trong vài năm gần đây đã ảnh hưởng đến tốc độ phát triển của DS4, và nếu không có sự hỗ trợ của GPT 5.5 thì có lẽ khó hoàn thành trong 1 tuần
  • Tuần đầu tiên vừa vui nhưng cũng mệt, làm việc trung bình 14 giờ mỗi ngày, với cường độ tương tự vài tháng đầu của Redis

Hướng đi sắp tới

  • DS4 không phải là dự án bắt đầu và kết thúc với DeepSeek v4 Flash, và theo thời gian mô hình trung tâm có thể thay đổi
  • Mục tiêu là đưa các mô hình trọng số mở mới nhất, thực sự chạy nhanh trên các thiết bị “GPU in a box” như Mac hiệu năng cao hay DGX Spark, trở thành trung tâm của DS4
  • Ứng viên tiếp theo là DeepSeek v4 Flash sẽ được phát hành dưới dạng checkpoint mới, và cũng có thể có các biến thể chuyên gia như bản cho lập trình hoặc cho lĩnh vực pháp lý, y tế
  • Trong suy luận cục bộ, cách gọi các mô hình như ds4-coding, ds4-legal, ds4-medical tùy theo câu hỏi có vẻ là một hướng đi hợp lý
  • Có thể xem đây là lần đầu tiên những công việc nghiêm túc vốn từng giao cho Claude hay GPT được giao cho một mô hình cục bộ
  • Trải nghiệm dùng LLM tự do hơn với vector steering cũng đã trở nên khả thi, và DS4 mang lại trải nghiệm gần với các mô hình frontier trực tuyến hơn nhiều so với các mô hình cục bộ nhỏ
  • Sau vài ngày đầu hỗn loạn, dự án sẽ tập trung vào benchmark chất lượng, tác tử lập trình, kiểm thử CI dựa trên phần cứng tại nhà, thêm nhiều bản port hơn, và suy luận phân tán
  • Suy luận phân tán bao gồm cả cách nối tiếp (serial)song song (parallel), và vẫn là một nhiệm vụ quan trọng về sau
  • AI quá quan trọng để chỉ tồn tại như một dịch vụ được cung cấp đơn thuần

1 bình luận

 
Ý kiến trên Hacker News
  • DwarfStar4 là một runtime suy luận LLM nhỏ có thể chạy DeepSeek 4, và theo bài blog thì hiện tại có vẻ cần 96GB VRAM
    Đây là giải thích dành cho những ai còn thiếu bối cảnh :-)

    • Đó không phải toàn bộ mô hình mà là bản Flash, và mức lượng tử hóa cũng chỉ khoảng Q2~Q3, nên dù ấn tượng thì vẫn khá khác so với mô hình đầy đủ
    • Có đoạn nói là cần 96GB VRAM, nên tôi tò mò không biết có ai đã thử chạy trên Mac có ít RAM hơn chưa
      Có vẻ nó vẫn có thể chạy, chỉ là sẽ chậm hơn một chút vì phải lấy các lớp mô hình từ bộ nhớ lưu trữ
    • Tôi tò mò DwarfStar4 khác llama.cpp như thế nào
  • Tôi rất tò mò trí tuệ cần cho việc lập trình sẽ đạt đến mức “đủ dùng” ở điểm nào
    Từ một thời điểm nào đó, có thể chỉ cần để một mô hình kém thông minh hơn vật lộn với bài toán lâu hơn để đạt cùng kết quả, và nếu tôi không phải can thiệp thì về cơ bản cũng là như nhau
    DeepSeek V4 Pro có cảm giác gần chạm tới điểm đó, và Flash cũng có thể như vậy
    Khi đạt đến điểm đó, tôi cũng tự hỏi mô hình kinh doanh hiện tại của Anthropic sẽ sụp đổ bao nhiêu phần
    Cho đến nay, việc trả tiền cho mô hình thông minh nhất rõ ràng vẫn rất đáng giá, nhưng giờ có vẻ khá rõ là dư địa tăng trưởng của khái niệm đó là có hạn
    Vấn đề là đường băng còn dài đến đâu, và tôi cũng tự hỏi liệu việc Anthropic đang gấp rút mở rộng sang mảng doanh nghiệp·năng suất có phải vì họ đã nhìn thấy xu hướng này hay không

    • Mô hình thông minh hơn đôi khi đơn giản là làm được những việc mà mô hình nhỏ không làm được
      Có vẻ đây không chỉ là chuyện đợi lâu hơn là xong
    • Cuối cùng thì lúc nào cũng sẽ quay về bài toán chi phí
      Đó là cân bằng giữa thời gian của lập trình viên, chi phí lập trình viên, chi phí AI, và năng suất lập trình viên
      Nhìn vào 4.6 thì có vẻ đã gần chạm ngưỡng chịu chi của doanh nghiệp phổ thông, nên có lẽ các biến số khác phải thay đổi
    • Agent lập trình mã nguồn mở Kilo đã thử nghiệm so sánh Deepseek v4 Pro và Flash với Opus 4.7, Kimi K2[1]
      Kết quả khá ổn, nhưng điểm số thấp hơn Opus khá nhiều, và ngay cả khi áp dụng giá khuyến mãi phát hành hiện tại của Deepseek thì chi phí gần như tương đương
      Cấu trúc chi phí này khá thú vị; tôi từng thấy điều tương tự với Sonnet và Opus, và khi tự benchmark cũng có những mô hình nhìn thì giá tốt nhưng lại dùng quá nhiều token đến mức chi phí bằng với mô hình “đắt hơn”
      [1] https://blog.kilo.ai/p/we-tested-deepseek-v4-pro-and-flash
    • Với lập trình viên hobby thì có lẽ sẽ nhanh chóng đạt mức đủ tốt, nhưng doanh nghiệp vẫn sẽ trả tiền cho các mô hình nhanh hơn và thông minh hơn
      Ai lại muốn bắt lập trình viên phải chờ
  • Thật vui khi thấy một công cụ tập trung hẹp như thế này
    Backend được hỗ trợ chủ yếu nhắm tới Metal, bắt đầu từ MacBook 96GB RAM
    NVIDIA CUDA thì đặc biệt chú ý tới DGX Spark, còn AMD ROCm chỉ được hỗ trợ trên nhánh rocm
    Vì antirez không trực tiếp có quyền truy cập phần cứng nên nó được tách khỏi main, và cộng đồng sẽ rebase khi cần
    Dự án này sẽ không thể tồn tại nếu không có llama.cpp và GGML, và còn có đoạn khuyên nên đọc phần cảm ơn
    Tuy vậy, có vẻ nó vẫn chưa hỗ trợ offload sang RAM hệ thống[0]
    Nên chắc tôi vẫn phải tiếp tục theo dõi issue của llama.cpp[1]
    [0] https://github.com/antirez/ds4/issues/108
    [1] https://github.com/ggml-org/llama.cpp/issues/22319

    • AMD ROCm chỉ được hỗ trợ trên nhánh rocm, nên tôi tò mò có ai đã thử thực tế chưa
      Chủ đề này nói nhiều về MacBook Pro, nhưng tôi muốn thử trên AMD Halo Strix có 128GB bộ nhớ hợp nhất
    • Giá mà tôi còn đủ khả năng mua một chiếc Mac có từng đó RAM
  • Tôi đã thử bản Q4 qua mạng nội bộ trên Mac Studio và thấy khá tốt
    Có lần tôi dùng cùng nhiều agent, và nó làm việc tốt đến mức lần đầu tiên tôi quên mất đây là mô hình chạy cục bộ
    Tuy nhiên, tôi vẫn nghi ngờ liệu có thực sự cần thêm một agent nữa không
    Tôi chạy bằng Pi, nhưng system prompt của Claude Code quá nặng nếu xét đến tốc độ prefill, dù kết quả thì rất xuất sắc
    OpenCode cũng là một lựa chọn tốt
    Tôi tự hỏi việc tạo thêm một công cụ tương tự nhưng chuyên cho Deepseek 4 có mang lại thêm gì không

    • Về mặt tính năng thì không cần thêm một agent nữa
      Nhưng nếu đi theo đúng ý tưởng của DS4, thì agent dạng API sẽ bị ép làm những việc kỳ quặc như dịch cú pháp DSML sang JSON, và kết quả là nảy sinh các vấn đề về chuẩn hóa hoặc checkpoint KV cache
      Bất kể thực tế có đúng vậy hay không, việc đưa ra một lựa chọn thay thế “bình thường” hơn vẫn có ý nghĩa
      Tôi cũng không hiểu vì sao trong lĩnh vực này người ta không viết nhiều thứ hơn bằng C/Go/Rust để có thêm quyền kiểm soát, tốc độ và giảm phụ thuộc
      Ở phía TUI cũng có rất nhiều thứ có thể tưởng tượng ra
      Phần lớn dự án chỉ gặp vấn đề là sao chép lại thứ đã thấy; ví dụ tôi đã làm một thứ như thế này chỉ trong 20 phút: https://x.com/antirez/status/2055190821373116619
      Giờ code đã rẻ hơn, còn giá trị của ý tưởng thì tăng lên
      Tôi không chắc kiểu suy nghĩ “có cần thêm một XYZ nữa không?” ngày nay còn đúng hay không
      Chỉ riêng việc khám phá ý tưởng mới thôi cũng có thể đã đáng giá
      Cá nhân tôi không thích dùng hệ sinh thái JavaScript / Node cho code, nên khi khám phá TUI mới hoặc workflow agent, nếu dùng công cụ mình thấy thoải mái hơn thì kết quả và quá trình lặp sẽ khác đi
    • DS4 là một engine suy luận, không phải execution harness
      Nó cung cấp một máy chủ API suy luận, còn coding harness thì kết nối vào đó
  • Hiện giờ tôi không dùng được vì phần cứng chưa đủ, nhưng tôi thích nó. Tôi chỉ có M2 Max với 96GB
    Tôi cũng hiểu vì sao với người dùng phổ thông hay máy tính đại chúng thì thứ này có thể không dùng được hoặc trông kém hấp dẫn hơn
    Nó làm tôi nhớ đến thời máy tính gia đình ngày xưa từng bị xem là đồ chơi trước khi trở thành máy tính cá nhân
    Trên phần cứng hiện tại của tôi, tổ hợp tạm ổn nhất là pi agent + llama.cpp + nemotron cascade-2
    Nó hỗ trợ tới 1M ngữ cảnh, và nhờ kiến trúc hybrid nên không sụp đổ kiểu 1/N² ở độ sâu ngữ cảnh 10K·50K·100K mà code agent hay dùng
    Vài ngày trước tôi đã có thể chạy pi agent với llama.cpp serving trên máy bay mà không cần Internet, và tốc độ khoảng 40~30 token/giây vừa đủ dùng, khiến tôi thấy khá buồn cười
    Tôi hiểu là tốc độ API thường gấp đôi, khoảng 60~80 token/giây
    Trong lúc suy luận, cảm biến cho thấy mức tiêu thụ là 60W, và pin có lẽ khó trụ nổi quá 3 giờ
    Mô hình chỉ có kích thước 30B nên vẫn còn dư dả cho KV cache và không gian cho các chương trình khác, và ngay cả với lượng tử hóa 8-bit khá thoáng tay thì vẫn ổn
    Có vẻ MoE A3B với chỉ 3B tham số được kích hoạt tại một thời điểm là mức tối đa mà chiếc M2 Max đã cũ của tôi có thể gánh được

    • Tôi không biết trên macOS có khác không, nhưng với tổ hợp CUDA và DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2-imatrix.gguf thì nó vừa khít trong 96GB VRAM, kể cả tính cả ngữ cảnh
      Vì vậy trừ khi macOS mặc định dùng vài GB RAM/VRAM cho hệ điều hành hoặc hiển thị, thì về mặt lý thuyết có lẽ vẫn chạy được
    • Có vẻ nó cũng sẽ chạy được trên máy đó
      Tôi đã thấy vài báo cáo tích cực
    • 96GB thì đáng lẽ phải chạy được, đặc biệt khi ngữ cảnh bị giới hạn
      Chỉ là M2 Max sẽ hơi chậm
  • Tôi ngạc nhiên vì nó cho cảm giác rất gần với Claude
    Tất nhiên nó chậm hơn nhiều, nhưng tôi không chắc nó có ngu hơn nhiều hay không
    Điều thú vị là lượng tử hóa imatrix có vẻ tốt hơn bất kỳ kiểu lượng tử hóa nào mà backend suy luận zdr của OpenRouter đang dùng
    Hôm qua nó còn tự nhận ra tiến trình máy chủ của chính nó là chính nó mà tôi không cần nói trước, và đó là lần đầu tôi thấy điều như vậy ở một mô hình cục bộ

    • Tôi tò mò bạn đã đưa prompt gì
    • Dù rõ ràng chỉ là thử nghiệm mang tính giai thoại, DeepseekV4 Pro đã tốt hơn Sonnet trong việc lập trình
      Nó chậm hơn nhiều, nhưng với mức khuyến mãi hiện tại thì rẻ hơn vài lần
  • Có vẻ như chưa có lời giải thích vì sao phải làm một engine suy luận mới cho từng mô hình
    Cứ dùng llama.cpp là được, trong khi đã có rất nhiều người đang làm tích hợp vào llama.cpp
    Đây là việc đổ rất nhiều công sức vào một mô hình duy nhất, và nếu một mô hình tốt hơn xuất hiện thì nó có thể nhanh chóng lỗi thời
    Trong một số thảo luận, mọi người đang mở PR cho cả nhánh llama.cpp lẫn ds4, nên nguồn lực phát triển vốn đã hiếm cho mô hình này đang bị phân tán

    • Làm việc trên một codebase C tập trung do mình sở hữu thì dễ hơn rất nhiều so với một codebase C++ trưởng thành, khó xử lý mà mình không sở hữu
      Và điều đó vẫn ổn. Mọi người rồi sẽ port công việc đó sang llama.cpp và ai cũng được lợi
      Trải nghiệm người dùng của ds4 cũng rất tốt. Rất dễ để có được mô hình đã được kiểm chứng và lượng tử hóa tốt
      Còn llama.cpp thì có quá nhiều núm chỉnh, cảm giác giống đang hack trong vùng hoang dã hơn nhiều
    • Có vẻ tiền đề ở đây là “code thì rẻ, còn cộng tác, ví dụ như đưa vào upstream, thì đắt”
      Liệu điều đó có đúng hay không thì vài năm nữa sẽ rõ
    • Như tác giả đã nói nhiều lần, các maintainer của llama.cpp không muốn nhận tràn lan code do AI viết mà không có con người review
      Nếu ai đó muốn upstream phần hỗ trợ đó vào dự án thì cứ tự do làm, vì code dùng giấy phép MIT
    • Từ một điểm nào đó trở đi, mức độ trừu tượng hóa·khái quát hóa cần có cho những dự án lớn và linh hoạt như llama.cpp hay Linux sẽ làm số lượng file tăng vọt
      Một dự án mới hơn và nhỏ hơn có thể di chuyển nhanh hơn
  • DeepSeekV4 Pro thực sự là một mô hình rất có năng lực, và đặc biệt là rất tốt ở mức giá đang được đưa ra
    Tôi đang mày mò một engine 2.5D trên raylib bằng C và dùng DeepSeek làm trợ lý
    Trong OpenaCode, bản ghi quá trình suy nghĩ hiện ra rất minh bạch, và việc nhìn vào dòng suy nghĩ đó thật sự đáng kinh ngạc
    Nó rất dài để đọc, nhưng không có đoạn nào vô ích hay vô nghĩa
    DeepSeek luôn đánh dấu trong quá trình suy nghĩ những giả định mà tôi chưa nghĩ tới hoặc đã sai, rồi ở đầu ra cuối cùng lại căn theo flawed request của tôi
    Lúc đó tôi lại phải bảo kiểu như “khoan đã, chính bạn cũng nghĩ vậy mà, điều đó đúng và tôi đã sai, nên hãy tính luôn khía cạnh đó”

  • Tôi muốn có thể chạy thứ này không chỉ trên máy của mình mà còn trên dự án khách hàng hay GPU đám mây
    Ý tưởng cốt lõi là có thể dùng một mô hình mạnh theo cách hiệu quả, không cần cluster, vẫn phù hợp với nhiều bài toán kinh doanh
    Tôi hy vọng cách này cũng hoạt động ở chế độ batch
    Hiện tại trên H200, với tool calling kiểu agent cho voice agent thông minh thì Qwen 3.6 27B 4-bit có MTP có cảm giác là một trong những lựa chọn tốt nhất
    Nếu DS4 Flash là 80B 2-bit, 13B active, có kiến trúc MTP, thì tôi tò mò liệu nó có thể nhanh hơn, thông minh hơn và còn cho phép nhiều sequence đồng thời hơn không
    Kiểu lượng tử hóa 2-bit đặc biệt này có vẻ khá quan trọng

  • Khi nhìn hiệu năng và tốc độ tăng rất nhanh của các mô hình cục bộ, dù gọi đó là “trí tuệ” hay gì khác, tôi tự hỏi tốc độ tăng trưởng và trần của lĩnh vực này sẽ ở đâu
    Liệu trong vài năm tới có thể đạt mức trí tuệ và hiệu năng như vậy chỉ với 16GB RAM chẳng hạn không?
    Chúng ta có thể định nghĩa một dạng định luật Moore mới ở đây không?

    • Nhét những mô hình kiểu này vào 16GB mà vẫn giữ được cả “mùi vị mô hình lớn” thì thành thật mà nói hiện nay là bất khả thi hoặc không thực tế
      Cần có đổi mới về kiến trúc, phần cứng, hoặc một đột phá nào đó trong kỹ thuật lượng tử hóa
      Vấn đề là ngay cả các tham số không được kích hoạt cũng vẫn phải nằm trong bộ nhớ
      Ngay cả với mô hình mixture-of-experts thì việc hoán đổi tham số vào ra RAM cũng quá chậm
    • Những người làm ở tuyến đầu của lĩnh vực này có vẻ cho rằng cần các mô hình song song giải quyết những bài toán khác nhau
      Quạ có bộ não nhỏ hơn con người rất nhiều mà vẫn thể hiện được một mức độ thông minh nhất định, và giữa con người ngu ngốc nhất với con quạ thông minh nhất vẫn có phần chồng lấp về khả năng giải quyết vấn đề
      Vì vậy câu hỏi là thứ đó thực ra là gì
      Yann LeCun có vẻ cho rằng đó là cái mà hiện nay chúng ta gọi là mô hình thế giới
      Mô hình thế giới không dự đoán dữ liệu có cấu trúc như ngôn ngữ, mà dự đoán hành động
      Nếu có thể dự đoán cách một thế giới vận hành, thì về mặt lý thuyết có thể suy ra nguyên nhân và kết quả
      Nếu có thể kết hợp suy luận nguyên nhân·kết quả với ngôn ngữ, thì có lẽ sẽ xuất hiện thứ gì đó gần với trí tuệ thật sự
      Có vẻ hướng đi đang là như vậy
      Khi nguyên mẫu của một hệ thống như thế xuất hiện, sẽ có rất nhiều câu hỏi về việc nó thực sự cần bao nhiêu dữ liệu
      Chúng ta đã thấy rằng ngay cả khi nén LLM xuống lượng tử hóa 1-bit thì vẫn có thể có mô hình hiểu ngôn ngữ khá mạnh
      Tôi không nghĩ việc trong vài năm tới sẽ xuất hiện các hệ thống AI rất thông minh với mức bộ nhớ tương đối thấp là điều phi lý