Sweep hỗ trợ tự động hoàn thành mã "chỉnh sửa tiếp theo" bằng mô hình 1.5B dựa trên trọng số mở

(huggingface.co)

19 điểm bởi GN⁺ 2026-01-23 | 2 bình luận | Chia sẻ qua WhatsApp

Mô hình Sweep Next-Edit với 1.5B tham số cung cấp tính năng tự động hoàn thành bằng cách dự đoán lần chỉnh sửa mã tiếp theo của người dùng
Chạy trong môi trường cục bộ với tốc độ dưới 500ms và cho thấy hiệu năng cao hơn các mô hình lớn hơn hơn 4 lần
Được cung cấp dưới định dạng lượng tử hóa Q8_0 GGUF, hỗ trợ độ dài ngữ cảnh 8192 token ngay cả khi đã được tinh gọn
Dựa trên Qwen2.5-Coder và có thể tích hợp với plugin JetBrains
Được phát hành theo giấy phép Apache 2.0, là mô hình hữu ích để thử nghiệm và tích hợp cho các nhà phát triển AI mã nguồn mở

Tổng quan mô hình

Sweep Next-Edit 1.5B là mô hình dự đoán next-edit dành cho tự động hoàn thành mã
- Dự đoán và đề xuất lần chỉnh sửa tiếp theo trước khi người dùng sửa mã
- Có thể chạy với độ trễ dưới 500ms ngay cả trên môi trường laptop cục bộ
Cung cấp tốc độ phản hồi nhanh nhờ sử dụng speculative decoding
Ghi nhận hiệu năng cao hơn các mô hình lớn hơn hơn 4 lần trên benchmark next-edit

Chi tiết mô hình

Số tham số: 1.5B
Định dạng: GGUF (lượng tử hóa Q8_0)
Độ dài ngữ cảnh: 8192 token
Mô hình nền tảng: Qwen2.5-Coder
Giấy phép: Apache 2.0

Cách sử dụng

Tải run_model.py và tệp mô hình rồi chạy

Lệnh cài đặt:

uv pip install llama-cpp-python huggingface_hub  
python run_model.py

Cấu trúc tập trung vào chạy cục bộ, không có nhà cung cấp suy luận đám mây riêng biệt

2 bình luận

minsuchae 2026-01-23

Gần đây các ông lớn công nghệ đã tăng trưởng bằng cách nâng số lượng tham số, nhưng liệu hướng đi đó có đang thay đổi không?
Cá nhân tôi vốn nghĩ rằng cứ tiếp tục tăng tham số để phát triển thì thực ra không có lời giải thật sự.
Có cảm giác như đang từ bỏ tương lai trước mắt để đổi lấy tăng trưởng vậy. Đặc biệt tôi thấy điều đó rõ nhất khi MoE ở giai đoạn cực thịnh.
Google Gemma 3 27b từng được xem là khá lớn, nhưng giờ trong thế giới LLM thì số tham số ở mức đó lại trông như không còn nhiều nữa.
Phát triển công nghệ cũng quan trọng, nhưng tôi nghĩ cần có thứ gì đó tính đến cả giai đoạn triển khai phục vụ thực tế, và lần này có vẻ là một thử nghiệm khá ổn.
(Lý do tôi hoài nghi về việc tăng tham số là vì tôi biết hiệu năng sẽ tốt hơn, nhưng chi phí để phục vụ nó cũng lớn hơn.)

GN⁺ 2026-01-23

Ý kiến trên Hacker News

Tôi đã dùng thử mô hình này trực tiếp và thực sự ấn tượng với hiệu năng và chất lượng của nó
Cảm ơn vì đã phát hành dưới dạng mã nguồn mở
Tôi là người làm plugin edit completion cho Neovim và đã tích hợp thành công với mô hình Sweep Edit
Ai quan tâm có thể xem cursortab.nvim
- Không biết có bản port cho Emacs hoặc bản tích hợp với gptel không
- Trông thú vị đấy, tôi sẽ thử plugin nvim ngay
- Tuyệt thật. Tôi cũng định tự thử
Trước đây tôi từng dùng Qwen 2.5 Coder cho tự động hoàn thành trong Continue.dev, nhưng trên cả JetBrains IDE lẫn VS Code đều rất tệ
Rất mừng khi có người chia sẻ những thử nghiệm như thế này. Phần lớn plugin IDE (Cline, RooCode, KiloCode, v.v.) không thực sự hỗ trợ tốt cho thiết lập mô hình tự động hoàn thành
Lý do tôi vẫn giữ gói Copilot gần như hoàn toàn là vì tính năng tự động hoàn thành, nên giờ có vẻ đã có một lựa chọn thay thế và tôi rất vui
- Tôi cũng đã thử extension VS Code của llama.cpp, nhưng UX cấu hình thực sự rất tệ
Mỗi lần dùng những plugin kiểu này, tôi lại càng thấy việc code mà không có AI tự động hoàn thành kém hiệu quả đến mức nào
Càng nhiều mã boilerplate thì nó càng hữu ích hơn nhiều so với Claude Code
Tôi đã dùng JetBrains quá lâu nên rất khó chuyển sang VSCode, nhưng các tính năng AI của JetBrains lại tụt hậu quá xa
Cuối cùng cũng có một công cụ tự động hoàn thành ổn để tôi chuyển gói Copilot sang dùng cái này
Hơn nữa, tôi cũng thích việc công bố open weights và có chế độ riêng tư
- Từ lâu tôi đã nhấn mạnh tính hữu ích của tự động hoàn thành, và giờ mới hiểu là thực ra có hai kiểu văn hóa phát triển
  Những lập trình viên chủ yếu viết mã mới sẽ cảm nhận rất rõ mức tăng năng suất từ tự động hoàn thành, còn những người chủ yếu làm bảo trì lại nhận được nhiều trợ giúp hơn từ các công cụ như Claude Code
- Tôi cũng đồng ý. Tôi đang tích hợp mô hình local và gemini 3 flash trong Emacs
  Nhưng bình thường tôi vẫn tắt LLM và chỉ bật khi cần
  Tôi nghĩ tiềm năng của các mô hình nhỏ chuyên biệt đang bị đánh giá thấp
  Nhân tiện, tôi đang viết một cuốn sách tên là ‘Winning Big With Small AI’
- Hơi lạc đề một chút, nhưng tôi tò mò vì sao lại có nhiều mã boilerplate đến vậy
  Tôi nghĩ phần lớn có thể refactor thành utility hoặc library
  Có lẽ vì tôi chủ yếu viết mã pipeline cho nghiên cứu nên cảm nhận hơi khác
  Tham khảo thêm, các công cụ như yasnippet, ultisnips, VSCode snippets cũng có thể triển khai tự động hoàn thành cơ bản
- Junie thì không ổn lắm, nhưng nếu bạn không hài lòng với tự động hoàn thành thì IntelliJ cũng có tính năng tự động hoàn thành local/cloud
- Hơi chua chát khi lời giải cho vấn đề boilerplate rốt cuộc lại quy về tự động sinh mã
Tôi đã chờ thứ này rất lâu rồi
Tôi khó chịu vì Cursor đòi 20 USD mỗi tháng dù tôi chỉ dùng tính năng tự động hoàn thành
Tôi cũng từng nghĩ đến việc tự làm, nhưng không chắc mô hình nhỏ đủ để chạy local có thực sự dùng được không
Thế là tôi vội làm một extension VSCode thử, và mô hình này khá ổn
Các mô hình local trước đây rất tệ ở inline completion, nhưng lần này tốt hơn hẳn
Hy vọng cạnh tranh sẽ trở nên sôi động hơn
- Nếu có gì muốn hỏi thì cứ nói
  Họ nói đã cải thiện chất lượng bằng các tính năng như token healing — bài viết liên quan
Tôi nghe nói mô hình 1.5B đủ nhỏ để chạy local, nên muốn biết liệu plugin Sweep AI cho JetBrains có thực sự chạy local không
Tôi muốn biết khi cài đặt thì mô hình có được tự động tải về hay không, và có giao tiếp ra bên ngoài hay không
- Hiện tại thì không, plugin JetBrains dùng mô hình lớn được host
- Có vẻ không có cách nào để cấu hình endpoint local trong plugin JetBrains
Tôi khá bất ngờ vì mức độ hoàn thiện trong phần triển khai AI của JetBrains quá thấp
Đã nhiều năm trôi qua mà vẫn ở mức này, đến mức một công ty mới còn có thể làm tốt hơn
Bài viết kỹ thuật cũng rất thú vị
- Cảm ơn. Chúng tôi luôn hoan nghênh mọi phản hồi hay câu hỏi
Nhìn vào GLM-4.7-Flash và lần công bố này, việc phá vỡ giới hạn của các mô hình nhỏ thực sự rất thú vị
Tôi rất kỳ vọng vì những mô hình có thể chạy được trên phần cứng tôi đang có giờ ngày càng tốt hơn
Thật sự rất tuyệt
Tôi đặc biệt tò mò về cách họ tạo ra dữ liệu huấn luyện next edit từ repository
Rất muốn nghe thêm những insight liên quan
- Chi tiết hơn có trong bài blog chính thức
Tuyệt vời. Bài blog liên quan cũng rất thú vị
Mong sẽ sớm có plugin cho Neovim
Bài viết liên quan
- Tôi nghe nói đã có người làm plugin Neovim kết nối với mô hình này rồi
- Cũng có llama.vim
  Nó hoạt động tốt với Qwen3 Coder, và miễn là hỗ trợ infill thì có lẽ không thành vấn đề
  Hôm nay tôi sẽ thử
- Tác giả plugin đã để lại bình luận ngay trong thread này rồi
Tôi không hiểu rõ sự khác biệt giữa mô hình next-edit và mô hình FIM
Nếu có ai giải thích giúp nên dùng từng loại trong trường hợp nào thì tốt quá
Nếu được thì tôi cũng muốn làm một plugin cho Sublime để tự thử
- Tôi cũng tò mò nên đã nhờ Claude làm thử một plugin
  Nó dùng cấu trúc tận dụng tính năng tự động hoàn thành cơ bản
  Có thể xem tại AItoComplete
- Tôi đoán FIM là viết tắt của Fill-In-the-Middle
  Tự động hoàn thành kiểu cũ chỉ đơn giản là điền phần cuối, còn FIM thì điền vào giữa khối mã
  Tức là mô hình sẽ nhìn cả ngữ cảnh trước và sau điểm chèn để tìm ra phần hoàn thành ở giữa tự nhiên nhất