4 điểm bởi GN⁺ 2025-01-24 | 1 bình luận | Chia sẻ qua WhatsApp
  • Cung cấp tính năng tự động hoàn thành văn bản dựa trên LLM cục bộ trong VIM
  • Tự động gợi ý khi di chuyển con trỏ trong chế độ Insert
  • Có thể chuyển sang gợi ý thủ công bằng Ctrl+F
  • Chấp nhận gợi ý bằng Tab
  • Chấp nhận gợi ý dòng đầu tiên bằng Shift+Tab
  • Có thể thiết lập thời gian tạo văn bản tối đa
  • Có thể thiết lập phạm vi ngữ cảnh xung quanh con trỏ
  • Xây dựng vòng ngữ cảnh bằng cách dùng các mảnh ngữ cảnh từ tệp đang mở, tệp đang chỉnh sửa và văn bản đã sao chép
  • Hỗ trợ ngữ cảnh rất lớn ngay cả trên phần cứng cấu hình thấp nhờ tái sử dụng ngữ cảnh thông minh
  • Hiển thị thống kê hiệu năng

Cài đặt

  • vim-plug : Plug 'ggml-org/llama.vim'
  • Vundle :

Thiết lập llama.cpp

  • Plugin yêu cầu một instance máy chủ llama.cpp đang chạy tại g:llama_config.endpoint
  • Mac OS : brew install llama.cpp
  • OS khác : build từ mã nguồn hoặc dùng binary mới nhất: llama.cpp releases

Thiết lập llama.cpp

  • Thiết lập được khuyến nghị theo dung lượng VRAM:
    • Từ 16GB VRAM trở lên: Qwen2.5-Coder-7B-Q8_0-GGUF
    • Dưới 16GB VRAM: Qwen2.5-Coder-3B-Q8_0-GGUF
    • Dưới 8GB VRAM: Qwen2.5-Coder-1.5B-Q8_0-GGUF
  • Xem :help llama để biết chi tiết

LLM được khuyến nghị

Chi tiết triển khai

  • Plugin hướng tới hoàn thành FIM cục bộ, đơn giản và gọn nhẹ, đồng thời mang lại hiệu năng chất lượng cao ngay cả trên phần cứng phổ thông

IDE khác

1 bình luận

 
GN⁺ 2025-01-24
Ý kiến Hacker News
  • Khuyến nghị xem qua các chi tiết kỹ thuật trong phần triển khai máy chủ, vì có nhiều ý tưởng thú vị và rất hay. Plugin này cũng có thể dùng trên VS Code. Hiệu năng đã được cải thiện nhờ bộ nhớ đệm phía máy khách.

  • Người này đã có nhiều đóng góp cho hệ sinh thái AI mã nguồn mở, và hy vọng họ có thể huy động đủ kinh phí để tiếp tục phát triển phần mềm và phát hành nó như mã nguồn mở "thực sự vô điều kiện".

  • Cho rằng nếu tích hợp các công cụ LLM chặt chẽ hơn với LSP, compiler và các công cụ phân tích tĩnh khác thì có thể cung cấp nhiều ngữ cảnh hơn và cho đầu ra tốt hơn. Sẽ rất tốt nếu có thể tinh chỉnh LLM theo từng ngôn ngữ và phân phối cùng với các công cụ biên tập phổ biến. Cũng chỉ ra vấn đề là các công cụ AI thường hoạt động tốt hơn với những ngôn ngữ lâu đời và phổ biến, và điều đó có thể trở thành một yếu tố quan trọng khi chọn ngôn ngữ. Nghĩ rằng sẽ rất hay nếu có thể cài một mô hình chuyên cho Gleam để nhận dữ liệu từ LSP và compiler, nhờ đó không tạo ra cú pháp sai.

  • Thắc mắc cách "ring context" hoạt động, đồng thời đề xuất một hướng giải quyết cho việc quản lý bộ đệm KV trong các dự án tương tự. Ý tưởng là duy trì một cây token, lưu snapshot toàn bộ trạng thái LLM tại các khoảng độ sâu cố định, ताकि khi buffer thay đổi chỉ cần "phát lại" một vài token. Cho rằng có thể tồn tại những đặc tính toán học liên quan đến cách các phần quan trọng của trạng thái vận hành.

  • Con trỏ nhấp nháy trong video demo khiến tim đập nhanh, nhưng vẫn thấy rất ngầu. Cũng tò mò Linux hoạt động ra sao trên phần cứng M*.

  • Thắc mắc liệu plugin này có giống với phiên bản VSCode hay không.

  • Tò mò trong 10 năm tới, với phần cứng tiêu dùng và các cải tiến về lượng tử hóa, chúng ta sẽ có thể làm được những gì. Hiện tại, ngay cả với GPU 24GB cũng vẫn chưa theo kịp hiệu năng của các dịch vụ hosting.

  • Thích viết code trong terminal, và khi bị bí có thể dùng askds để thực hiện phân tích sâu hơn ngay trong terminal.

  • Thắc mắc liệu có thể chạy llama trên phần cứng tầm trung hay không, và cho rằng nó bị crash do thiếu RAM. Cảm thấy 2GB VRAM và 16GB RAM hệ thống là không đủ; trên đa số sản phẩm Apple thì bộ nhớ được hợp nhất nên hoạt động được, nhưng nếu không thì có lẽ cần GPU Nvidia đắt tiền với nhiều VRAM. Tò mò liệu có lựa chọn nào rẻ hơn không.

  • Xin lời khuyên từ những người hiểu về lĩnh vực này, và đang tìm cách mua một card đồ họa giá vừa phải để chạy LLM cục bộ.