- Mô hình Sweep Next-Edit với 1.5B tham số cung cấp tính năng tự động hoàn thành bằng cách dự đoán lần chỉnh sửa mã tiếp theo của người dùng
- Chạy trong môi trường cục bộ với tốc độ dưới 500ms và cho thấy hiệu năng cao hơn các mô hình lớn hơn hơn 4 lần
- Được cung cấp dưới định dạng lượng tử hóa Q8_0 GGUF, hỗ trợ độ dài ngữ cảnh 8192 token ngay cả khi đã được tinh gọn
- Dựa trên Qwen2.5-Coder và có thể tích hợp với plugin JetBrains
- Được phát hành theo giấy phép Apache 2.0, là mô hình hữu ích để thử nghiệm và tích hợp cho các nhà phát triển AI mã nguồn mở
Tổng quan mô hình
- Sweep Next-Edit 1.5B là mô hình dự đoán next-edit dành cho tự động hoàn thành mã
- Dự đoán và đề xuất lần chỉnh sửa tiếp theo trước khi người dùng sửa mã
- Có thể chạy với độ trễ dưới 500ms ngay cả trên môi trường laptop cục bộ
- Cung cấp tốc độ phản hồi nhanh nhờ sử dụng speculative decoding
- Ghi nhận hiệu năng cao hơn các mô hình lớn hơn hơn 4 lần trên benchmark next-edit
Chi tiết mô hình
- Số tham số: 1.5B
- Định dạng: GGUF (lượng tử hóa Q8_0)
- Độ dài ngữ cảnh: 8192 token
- Mô hình nền tảng: Qwen2.5-Coder
- Giấy phép: Apache 2.0
Cách sử dụng
- Tải
run_model.py và tệp mô hình rồi chạy
- Cấu trúc tập trung vào chạy cục bộ, không có nhà cung cấp suy luận đám mây riêng biệt
2 bình luận
Gần đây các ông lớn công nghệ đã tăng trưởng bằng cách nâng số lượng tham số, nhưng liệu hướng đi đó có đang thay đổi không?
Cá nhân tôi vốn nghĩ rằng cứ tiếp tục tăng tham số để phát triển thì thực ra không có lời giải thật sự.
Có cảm giác như đang từ bỏ tương lai trước mắt để đổi lấy tăng trưởng vậy. Đặc biệt tôi thấy điều đó rõ nhất khi MoE ở giai đoạn cực thịnh.
Google Gemma 3 27b từng được xem là khá lớn, nhưng giờ trong thế giới LLM thì số tham số ở mức đó lại trông như không còn nhiều nữa.
Phát triển công nghệ cũng quan trọng, nhưng tôi nghĩ cần có thứ gì đó tính đến cả giai đoạn triển khai phục vụ thực tế, và lần này có vẻ là một thử nghiệm khá ổn.
(Lý do tôi hoài nghi về việc tăng tham số là vì tôi biết hiệu năng sẽ tốt hơn, nhưng chi phí để phục vụ nó cũng lớn hơn.)
Ý kiến trên Hacker News
Tôi đã dùng thử mô hình này trực tiếp và thực sự ấn tượng với hiệu năng và chất lượng của nó
Cảm ơn vì đã phát hành dưới dạng mã nguồn mở
Tôi là người làm plugin edit completion cho Neovim và đã tích hợp thành công với mô hình Sweep Edit
Ai quan tâm có thể xem cursortab.nvim
Trước đây tôi từng dùng Qwen 2.5 Coder cho tự động hoàn thành trong Continue.dev, nhưng trên cả JetBrains IDE lẫn VS Code đều rất tệ
Rất mừng khi có người chia sẻ những thử nghiệm như thế này. Phần lớn plugin IDE (Cline, RooCode, KiloCode, v.v.) không thực sự hỗ trợ tốt cho thiết lập mô hình tự động hoàn thành
Lý do tôi vẫn giữ gói Copilot gần như hoàn toàn là vì tính năng tự động hoàn thành, nên giờ có vẻ đã có một lựa chọn thay thế và tôi rất vui
Mỗi lần dùng những plugin kiểu này, tôi lại càng thấy việc code mà không có AI tự động hoàn thành kém hiệu quả đến mức nào
Càng nhiều mã boilerplate thì nó càng hữu ích hơn nhiều so với Claude Code
Tôi đã dùng JetBrains quá lâu nên rất khó chuyển sang VSCode, nhưng các tính năng AI của JetBrains lại tụt hậu quá xa
Cuối cùng cũng có một công cụ tự động hoàn thành ổn để tôi chuyển gói Copilot sang dùng cái này
Hơn nữa, tôi cũng thích việc công bố open weights và có chế độ riêng tư
Những lập trình viên chủ yếu viết mã mới sẽ cảm nhận rất rõ mức tăng năng suất từ tự động hoàn thành, còn những người chủ yếu làm bảo trì lại nhận được nhiều trợ giúp hơn từ các công cụ như Claude Code
Nhưng bình thường tôi vẫn tắt LLM và chỉ bật khi cần
Tôi nghĩ tiềm năng của các mô hình nhỏ chuyên biệt đang bị đánh giá thấp
Nhân tiện, tôi đang viết một cuốn sách tên là ‘Winning Big With Small AI’
Tôi nghĩ phần lớn có thể refactor thành utility hoặc library
Có lẽ vì tôi chủ yếu viết mã pipeline cho nghiên cứu nên cảm nhận hơi khác
Tham khảo thêm, các công cụ như yasnippet, ultisnips, VSCode snippets cũng có thể triển khai tự động hoàn thành cơ bản
Tôi đã chờ thứ này rất lâu rồi
Tôi khó chịu vì Cursor đòi 20 USD mỗi tháng dù tôi chỉ dùng tính năng tự động hoàn thành
Tôi cũng từng nghĩ đến việc tự làm, nhưng không chắc mô hình nhỏ đủ để chạy local có thực sự dùng được không
Thế là tôi vội làm một extension VSCode thử, và mô hình này khá ổn
Các mô hình local trước đây rất tệ ở inline completion, nhưng lần này tốt hơn hẳn
Hy vọng cạnh tranh sẽ trở nên sôi động hơn
Họ nói đã cải thiện chất lượng bằng các tính năng như token healing — bài viết liên quan
Tôi nghe nói mô hình 1.5B đủ nhỏ để chạy local, nên muốn biết liệu plugin Sweep AI cho JetBrains có thực sự chạy local không
Tôi muốn biết khi cài đặt thì mô hình có được tự động tải về hay không, và có giao tiếp ra bên ngoài hay không
Tôi khá bất ngờ vì mức độ hoàn thiện trong phần triển khai AI của JetBrains quá thấp
Đã nhiều năm trôi qua mà vẫn ở mức này, đến mức một công ty mới còn có thể làm tốt hơn
Bài viết kỹ thuật cũng rất thú vị
Nhìn vào GLM-4.7-Flash và lần công bố này, việc phá vỡ giới hạn của các mô hình nhỏ thực sự rất thú vị
Tôi rất kỳ vọng vì những mô hình có thể chạy được trên phần cứng tôi đang có giờ ngày càng tốt hơn
Thật sự rất tuyệt
Tôi đặc biệt tò mò về cách họ tạo ra dữ liệu huấn luyện next edit từ repository
Rất muốn nghe thêm những insight liên quan
Tuyệt vời. Bài blog liên quan cũng rất thú vị
Mong sẽ sớm có plugin cho Neovim
Bài viết liên quan
Nó hoạt động tốt với Qwen3 Coder, và miễn là hỗ trợ infill thì có lẽ không thành vấn đề
Hôm nay tôi sẽ thử
Tôi không hiểu rõ sự khác biệt giữa mô hình next-edit và mô hình FIM
Nếu có ai giải thích giúp nên dùng từng loại trong trường hợp nào thì tốt quá
Nếu được thì tôi cũng muốn làm một plugin cho Sublime để tự thử
Nó dùng cấu trúc tận dụng tính năng tự động hoàn thành cơ bản
Có thể xem tại AItoComplete
Tự động hoàn thành kiểu cũ chỉ đơn giản là điền phần cuối, còn FIM thì điền vào giữa khối mã
Tức là mô hình sẽ nhìn cả ngữ cảnh trước và sau điểm chèn để tìm ra phần hoàn thành ở giữa tự nhiên nhất