BigCode - Dự án xây dựng AI tạo mã nguồn bằng mã nguồn mở
(bigcode-project.org)- Dự án mở nhằm xây dựng LLM (Large Language Model) cho mã nguồn, cung cấp các tính năng tương tự Codex của OpenAI được dùng trong GitHub Copilot
- Dự kiến được phát triển thông qua hợp tác giữa Hugging Face và ServiceNow R&D
- Mục tiêu là cung cấp bộ dữ liệu ở quy mô cần thiết để huấn luyện hệ thống sinh mã
- Bộ tham số 15 tỷ, lớn hơn cả Codex
4 bình luận
Dù sao thì CoPilot tốn chi phí nên cũng có những ràng buộc này nọ,
hy vọng nó sẽ tạo ra một thay đổi lớn giống như Stable Diffusion.
Nếu cũng có thể chạy cục bộ như Stable Diffusion thì có vẻ sẽ rất tốt. Dù gì thì Copilot cũng cần giao tiếp ra bên ngoài (cho dù họ có nói là bảo vệ quyền riêng tư của mã nguồn rất tốt và còn mã hóa đi nữa). Vì mã nguồn được bao gồm trong quá trình giao tiếp đó nên tôi vẫn thấy ngại.
Đúng là vậy thật.
Thực tế thì vì đây là LLM (Large Language Model) nên có lẽ không thể tự chạy trực tiếp trên máy local, nhưng nếu chỉ cần ở mức kích thước có thể đưa vào on-prem thì cũng đã đủ dùng rồi. Với 15 tỷ tham số, nó nằm đâu đó giữa GPT-2 (1,5 tỷ) và GPT-3 (175 tỷ) về số lượng tham số, không biết có ổn không nữa... T_T
Tôi nhớ là GPT-2 từng có thể chạy cục bộ.. thì phải. Tabnine dựa trên mô hình đó, và họ cũng đang cung cấp mô hình chạy cục bộ.