- OpenCoder là một mô hình ngôn ngữ lớn (LLM) mã nguồn mở dành cho mã, bao gồm các mô hình nền tảng và chat 1.5B và 8B, hỗ trợ tiếng Anh và tiếng Trung
- Được huấn luyện trên dữ liệu gồm 2,5 nghìn tỷ token, trong đó 90% là mã thô và 10% là dữ liệu web liên quan đến mã
- Đạt hiệu năng ở mức các code LLM hàng đầu, đồng thời cung cấp trọng số mô hình, mã suy luận, dữ liệu huấn luyện có thể tái lập, pipeline xử lý dữ liệu, kết quả ablation thực nghiệm và giao thức huấn luyện chi tiết
- Một nền tảng mở hỗ trợ các nhà nghiên cứu phát triển và đổi mới AI cho mã
- Đặc điểm của OpenCoder
- Một code LLM hoàn toàn mã nguồn mở, được xây dựng dựa trên pipeline xử lý dữ liệu minh bạch và bộ dữ liệu có thể tái lập, đạt hiệu năng hàng đầu trên nhiều benchmark đánh giá code LLM
- RefineCode: kho ngữ liệu tiền huấn luyện mã chất lượng cao, có thể tái lập, gồm 960 tỷ token trên 607 ngôn ngữ lập trình
- Nghiên cứu ablation có ý nghĩa: bao gồm nhiều thí nghiệm ablation nhằm cung cấp những insight có giá trị về các lựa chọn thiết kế và chiến lược huấn luyện khác nhau cho code LLM
- Tài nguyên được công khai: trọng số mô hình cuối cùng, pipeline xử lý dữ liệu đầy đủ, pipeline đánh giá hiệu quả, bộ dữ liệu tiền huấn luyện có thể tái lập, bộ dữ liệu SFT quy mô lớn và các checkpoint trung gian
1 bình luận
Ý kiến trên Hacker News
Không chỉ công khai trọng số mô hình và mã suy luận, mà còn công bố dữ liệu huấn luyện có thể tái lập, pipeline xử lý dữ liệu, kết quả thực nghiệm và quy trình huấn luyện, qua đó đóng góp cho nghiên cứu khoa học.
Kết quả thử nghiệm cho thấy hiện tượng ảo giác khá nhiều và hiệu năng kém hơn các mô hình đa dụng như Qwen 2.5 hay Mistral-Nemo.
Cung cấp liên kết trang chủ của bài báo arXiv: https://opencoder-llm.github.io/
Điểm HumanEval của Qwen2.5-Coder-7B là 61.6, nhưng trong Table 1 lại hiện là 88.4, điều này gây bối rối.
Do có fork và sao chép-dán trong codebase, 75% tệp bị trùng lặp hoàn toàn.
Có ai đang huấn luyện với metadata của quá trình biên dịch và thực thi không (ví dụ như dữ liệu profiling)?
Đây là một bài báo thú vị, nhưng mô hình này dường như không tốt hơn Qwen2.5-Coder ở một số ngôn ngữ, bao gồm cả Ruby.
Tò mò không biết cần phần cứng nào để chạy mô hình này.
Pipeline rất quan trọng.
Tốt.