- LLM kích thước 3B tham số, nhỏ hơn 60% so với CodeLLaMA 7b nhưng cho hiệu năng tương tự khi sinh mã
- Có thể chạy ngoại tuyến trên các laptop phổ thông ngay cả khi không có GPU (như MacBook Air)
- Dựa trên mô hình Stable LM 3B được huấn luyện với 4 nghìn tỷ dữ liệu ngôn ngữ tự nhiên, sau đó tiếp tục được huấn luyện thêm bằng dữ liệu về kỹ thuật phần mềm/lập trình
- Tham khảo khảo sát lập trình viên StackOverflow 2023 để chọn ra 18 ngôn ngữ lập trình
5 bình luận
Vì làm trong lĩnh vực tài chính nên bên tôi chỉ phát triển trên mạng nội bộ. Trong trường hợp này thì nên tiếp cận như thế nào sẽ tốt hơn?
Ở nhà tôi dùng thử mấy thứ như Copilot, nên cũng muốn công ty có thể tận dụng phần nào nên xin hỏi.
https://github.com/janhq/jan
Đây là ứng dụng GUI cho phép sử dụng mô hình ở chế độ ngoại tuyến. Nếu bạn dùng mạng nội bộ, có vẻ bạn chỉ cần tải trước từ bên ngoài bộ cài của ứng dụng này và tệp mô hình sẽ sử dụng, rồi chuyển vào mạng nội bộ để dùng.
Cách thêm mô hình thủ công được hướng dẫn bên dưới.
https://jan.ai/guides/using-models/import-manually/
Trong môi trường bị tách mạng, nói thật thì chẳng khác nào trói tay các lập trình viên cả.
Dạo này cũng có những bàn luận về việc nới lỏng chính sách phân tách mạng và có vẻ đang có nỗ lực cải thiện, nên cũng có thể hy vọng, nhưng những nơi xử lý dữ liệu cá nhân như ngân hàng, viễn thông v.v. thì có lẽ sau này vẫn sẽ khá khó khăn. Với các lập trình viên, đó thực sự là một môi trường chẳng khác gì nhà tù.
Họ chỉ so sánh hiệu năng với những model có kích thước nhỏ tương tự, nhưng nếu nhìn vào bảng xếp hạng được mở rộng hơn thì sẽ như thế này nhé.
https://huggingface.co/spaces/bigcode/bigcode-models-leaderboard
Vì là cho code, nên tôi cũng có cảm giác rằng dù chậm hơn hoặc đắt hơn một chút thì có lẽ hiệu năng tốt hơn vẫn sẽ đáng giá hơn?