Đánh bại GPT-4 trên HumanEval với CodeLlama-34B được fine-tune

(phind.com)

2 điểm bởi GN⁺ 2023-08-26 | 1 bình luận | Chia sẻ qua WhatsApp

CodeLlama-34B và CodeLlama-34B-Python được fine-tune bằng bộ dữ liệu nội bộ của Phind, lần lượt đạt pass@1 là 67,6% và 69,5% trên HumanEval, vượt qua mức 67% của GPT-4
Các mô hình CodeLlama được công bố gần đây đã cho thấy hiệu năng ấn tượng trên HumanEval; CodeLlama-34B đạt pass@1 48,8%, còn CodeLlama-34B-Python đạt pass@1 53,7%
Cả hai mô hình đều được tinh chỉnh trên một bộ dữ liệu độc quyền gồm khoảng 80k bài toán lập trình chất lượng cao và lời giải, khác biệt về mặt cấu trúc với HumanEval vốn có đặc trưng là các cặp chỉ dẫn-câu trả lời thay vì ví dụ hoàn thành mã
Các mô hình được huấn luyện tổng cộng trên 160k mẫu trong hai epoch bằng DeepSpeed ZeRO 3 và Flash Attention 2, diễn ra trong ba giờ với 32 GPU A100-80GB và độ dài chuỗi 4096 token
Phương pháp luận khử nhiễm của OpenAI đã được áp dụng cho bộ dữ liệu để bảo đảm kết quả hợp lệ, và không phát hiện mẫu bị nhiễm nào. Phương pháp này lấy mẫu ngẫu nhiên ba chuỗi con gồm 50 ký tự từ mỗi mẫu đánh giá, hoặc dùng toàn bộ mẫu nếu mẫu đó ngắn hơn 50 ký tự, và xác định là trùng khớp nếu một trong các chuỗi con được lấy mẫu là chuỗi con của một mẫu huấn luyện đã qua xử lý.
Các mô hình đã fine-tune đạt điểm pass@1 trên HumanEval là 67,6% đối với Phind-CodeLlama-34B-v1 và 69,5% đối với Phind-CodeLlama-34B-Python-v1
Cả hai mô hình đều được công bố trên Huggingface để bảo đảm khả năng kiểm chứng và hỗ trợ cộng đồng mã nguồn mở; khuyến khích việc xác minh độc lập các kết quả

1 bình luận

alstjr7375 2023-08-27

Đây là bài viết trên HN.
https://news.ycombinator.com/item?id=37267597

Đánh bại GPT-4 trên HumanEval với CodeLlama-34B được fine-tune

Bài viết liên quan

1 bình luận