19 điểm bởi GN⁺ 2026-01-23 | 2 bình luận | Chia sẻ qua WhatsApp
  • Mô hình Sweep Next-Edit với 1.5B tham số cung cấp tính năng tự động hoàn thành bằng cách dự đoán lần chỉnh sửa mã tiếp theo của người dùng
  • Chạy trong môi trường cục bộ với tốc độ dưới 500ms và cho thấy hiệu năng cao hơn các mô hình lớn hơn hơn 4 lần
  • Được cung cấp dưới định dạng lượng tử hóa Q8_0 GGUF, hỗ trợ độ dài ngữ cảnh 8192 token ngay cả khi đã được tinh gọn
  • Dựa trên Qwen2.5-Coder và có thể tích hợp với plugin JetBrains
  • Được phát hành theo giấy phép Apache 2.0, là mô hình hữu ích để thử nghiệm và tích hợp cho các nhà phát triển AI mã nguồn mở

Tổng quan mô hình

  • Sweep Next-Edit 1.5Bmô hình dự đoán next-edit dành cho tự động hoàn thành mã
    • Dự đoán và đề xuất lần chỉnh sửa tiếp theo trước khi người dùng sửa mã
    • Có thể chạy với độ trễ dưới 500ms ngay cả trên môi trường laptop cục bộ
  • Cung cấp tốc độ phản hồi nhanh nhờ sử dụng speculative decoding
  • Ghi nhận hiệu năng cao hơn các mô hình lớn hơn hơn 4 lần trên benchmark next-edit

Chi tiết mô hình

  • Số tham số: 1.5B
  • Định dạng: GGUF (lượng tử hóa Q8_0)
  • Độ dài ngữ cảnh: 8192 token
  • Mô hình nền tảng: Qwen2.5-Coder
  • Giấy phép: Apache 2.0

Cách sử dụng

  • Tải run_model.py và tệp mô hình rồi chạy
    • Lệnh cài đặt:
      uv pip install llama-cpp-python huggingface_hub  
      python run_model.py  
      
  • Cấu trúc tập trung vào chạy cục bộ, không có nhà cung cấp suy luận đám mây riêng biệt

2 bình luận

 
minsuchae 2026-01-23

Gần đây các ông lớn công nghệ đã tăng trưởng bằng cách nâng số lượng tham số, nhưng liệu hướng đi đó có đang thay đổi không?
Cá nhân tôi vốn nghĩ rằng cứ tiếp tục tăng tham số để phát triển thì thực ra không có lời giải thật sự.
Có cảm giác như đang từ bỏ tương lai trước mắt để đổi lấy tăng trưởng vậy. Đặc biệt tôi thấy điều đó rõ nhất khi MoE ở giai đoạn cực thịnh.
Google Gemma 3 27b từng được xem là khá lớn, nhưng giờ trong thế giới LLM thì số tham số ở mức đó lại trông như không còn nhiều nữa.
Phát triển công nghệ cũng quan trọng, nhưng tôi nghĩ cần có thứ gì đó tính đến cả giai đoạn triển khai phục vụ thực tế, và lần này có vẻ là một thử nghiệm khá ổn.
(Lý do tôi hoài nghi về việc tăng tham số là vì tôi biết hiệu năng sẽ tốt hơn, nhưng chi phí để phục vụ nó cũng lớn hơn.)

 
GN⁺ 2026-01-23
Ý kiến trên Hacker News
  • Tôi đã dùng thử mô hình này trực tiếp và thực sự ấn tượng với hiệu năng và chất lượng của nó
    Cảm ơn vì đã phát hành dưới dạng mã nguồn mở
    Tôi là người làm plugin edit completion cho Neovim và đã tích hợp thành công với mô hình Sweep Edit
    Ai quan tâm có thể xem cursortab.nvim

    • Không biết có bản port cho Emacs hoặc bản tích hợp với gptel không
    • Trông thú vị đấy, tôi sẽ thử plugin nvim ngay
    • Tuyệt thật. Tôi cũng định tự thử
  • Trước đây tôi từng dùng Qwen 2.5 Coder cho tự động hoàn thành trong Continue.dev, nhưng trên cả JetBrains IDE lẫn VS Code đều rất tệ
    Rất mừng khi có người chia sẻ những thử nghiệm như thế này. Phần lớn plugin IDE (Cline, RooCode, KiloCode, v.v.) không thực sự hỗ trợ tốt cho thiết lập mô hình tự động hoàn thành
    Lý do tôi vẫn giữ gói Copilot gần như hoàn toàn là vì tính năng tự động hoàn thành, nên giờ có vẻ đã có một lựa chọn thay thế và tôi rất vui

    • Tôi cũng đã thử extension VS Code của llama.cpp, nhưng UX cấu hình thực sự rất tệ
  • Mỗi lần dùng những plugin kiểu này, tôi lại càng thấy việc code mà không có AI tự động hoàn thành kém hiệu quả đến mức nào
    Càng nhiều mã boilerplate thì nó càng hữu ích hơn nhiều so với Claude Code
    Tôi đã dùng JetBrains quá lâu nên rất khó chuyển sang VSCode, nhưng các tính năng AI của JetBrains lại tụt hậu quá xa
    Cuối cùng cũng có một công cụ tự động hoàn thành ổn để tôi chuyển gói Copilot sang dùng cái này
    Hơn nữa, tôi cũng thích việc công bố open weights và có chế độ riêng tư

    • Từ lâu tôi đã nhấn mạnh tính hữu ích của tự động hoàn thành, và giờ mới hiểu là thực ra có hai kiểu văn hóa phát triển
      Những lập trình viên chủ yếu viết mã mới sẽ cảm nhận rất rõ mức tăng năng suất từ tự động hoàn thành, còn những người chủ yếu làm bảo trì lại nhận được nhiều trợ giúp hơn từ các công cụ như Claude Code
    • Tôi cũng đồng ý. Tôi đang tích hợp mô hình local và gemini 3 flash trong Emacs
      Nhưng bình thường tôi vẫn tắt LLM và chỉ bật khi cần
      Tôi nghĩ tiềm năng của các mô hình nhỏ chuyên biệt đang bị đánh giá thấp
      Nhân tiện, tôi đang viết một cuốn sách tên là ‘Winning Big With Small AI’
    • Hơi lạc đề một chút, nhưng tôi tò mò vì sao lại có nhiều mã boilerplate đến vậy
      Tôi nghĩ phần lớn có thể refactor thành utility hoặc library
      Có lẽ vì tôi chủ yếu viết mã pipeline cho nghiên cứu nên cảm nhận hơi khác
      Tham khảo thêm, các công cụ như yasnippet, ultisnips, VSCode snippets cũng có thể triển khai tự động hoàn thành cơ bản
    • Junie thì không ổn lắm, nhưng nếu bạn không hài lòng với tự động hoàn thành thì IntelliJ cũng có tính năng tự động hoàn thành local/cloud
    • Hơi chua chát khi lời giải cho vấn đề boilerplate rốt cuộc lại quy về tự động sinh mã
  • Tôi đã chờ thứ này rất lâu rồi
    Tôi khó chịu vì Cursor đòi 20 USD mỗi tháng dù tôi chỉ dùng tính năng tự động hoàn thành
    Tôi cũng từng nghĩ đến việc tự làm, nhưng không chắc mô hình nhỏ đủ để chạy local có thực sự dùng được không
    Thế là tôi vội làm một extension VSCode thử, và mô hình này khá ổn
    Các mô hình local trước đây rất tệ ở inline completion, nhưng lần này tốt hơn hẳn
    Hy vọng cạnh tranh sẽ trở nên sôi động hơn

    • Nếu có gì muốn hỏi thì cứ nói
      Họ nói đã cải thiện chất lượng bằng các tính năng như token healingbài viết liên quan
  • Tôi nghe nói mô hình 1.5B đủ nhỏ để chạy local, nên muốn biết liệu plugin Sweep AI cho JetBrains có thực sự chạy local không
    Tôi muốn biết khi cài đặt thì mô hình có được tự động tải về hay không, và có giao tiếp ra bên ngoài hay không

    • Hiện tại thì không, plugin JetBrains dùng mô hình lớn được host
    • Có vẻ không có cách nào để cấu hình endpoint local trong plugin JetBrains
  • Tôi khá bất ngờ vì mức độ hoàn thiện trong phần triển khai AI của JetBrains quá thấp
    Đã nhiều năm trôi qua mà vẫn ở mức này, đến mức một công ty mới còn có thể làm tốt hơn
    Bài viết kỹ thuật cũng rất thú vị

    • Cảm ơn. Chúng tôi luôn hoan nghênh mọi phản hồi hay câu hỏi
  • Nhìn vào GLM-4.7-Flash và lần công bố này, việc phá vỡ giới hạn của các mô hình nhỏ thực sự rất thú vị
    Tôi rất kỳ vọng vì những mô hình có thể chạy được trên phần cứng tôi đang có giờ ngày càng tốt hơn

  • Thật sự rất tuyệt
    Tôi đặc biệt tò mò về cách họ tạo ra dữ liệu huấn luyện next edit từ repository
    Rất muốn nghe thêm những insight liên quan

  • Tuyệt vời. Bài blog liên quan cũng rất thú vị
    Mong sẽ sớm có plugin cho Neovim
    Bài viết liên quan

    • Tôi nghe nói đã có người làm plugin Neovim kết nối với mô hình này rồi
    • Cũng có llama.vim
      Nó hoạt động tốt với Qwen3 Coder, và miễn là hỗ trợ infill thì có lẽ không thành vấn đề
      Hôm nay tôi sẽ thử
    • Tác giả plugin đã để lại bình luận ngay trong thread này rồi
  • Tôi không hiểu rõ sự khác biệt giữa mô hình next-edit và mô hình FIM
    Nếu có ai giải thích giúp nên dùng từng loại trong trường hợp nào thì tốt quá
    Nếu được thì tôi cũng muốn làm một plugin cho Sublime để tự thử

    • Tôi cũng tò mò nên đã nhờ Claude làm thử một plugin
      Nó dùng cấu trúc tận dụng tính năng tự động hoàn thành cơ bản
      Có thể xem tại AItoComplete
    • Tôi đoán FIM là viết tắt của Fill-In-the-Middle
      Tự động hoàn thành kiểu cũ chỉ đơn giản là điền phần cuối, còn FIM thì điền vào giữa khối mã
      Tức là mô hình sẽ nhìn cả ngữ cảnh trước và sau điểm chèn để tìm ra phần hoàn thành ở giữa tự nhiên nhất