12 điểm bởi GN⁺ 2024-11-10 | 1 bình luận | Chia sẻ qua WhatsApp
  • OpenCoder là một mô hình ngôn ngữ lớn (LLM) mã nguồn mở dành cho mã, bao gồm các mô hình nền tảng và chat 1.5B và 8B, hỗ trợ tiếng Anh và tiếng Trung
    • Được huấn luyện trên dữ liệu gồm 2,5 nghìn tỷ token, trong đó 90% là mã thô và 10% là dữ liệu web liên quan đến mã
    • Đạt hiệu năng ở mức các code LLM hàng đầu, đồng thời cung cấp trọng số mô hình, mã suy luận, dữ liệu huấn luyện có thể tái lập, pipeline xử lý dữ liệu, kết quả ablation thực nghiệm và giao thức huấn luyện chi tiết
    • Một nền tảng mở hỗ trợ các nhà nghiên cứu phát triển và đổi mới AI cho mã
  • Đặc điểm của OpenCoder
    • Một code LLM hoàn toàn mã nguồn mở, được xây dựng dựa trên pipeline xử lý dữ liệu minh bạch và bộ dữ liệu có thể tái lập, đạt hiệu năng hàng đầu trên nhiều benchmark đánh giá code LLM
    • RefineCode: kho ngữ liệu tiền huấn luyện mã chất lượng cao, có thể tái lập, gồm 960 tỷ token trên 607 ngôn ngữ lập trình
    • Nghiên cứu ablation có ý nghĩa: bao gồm nhiều thí nghiệm ablation nhằm cung cấp những insight có giá trị về các lựa chọn thiết kế và chiến lược huấn luyện khác nhau cho code LLM
    • Tài nguyên được công khai: trọng số mô hình cuối cùng, pipeline xử lý dữ liệu đầy đủ, pipeline đánh giá hiệu quả, bộ dữ liệu tiền huấn luyện có thể tái lập, bộ dữ liệu SFT quy mô lớn và các checkpoint trung gian

1 bình luận

 
GN⁺ 2024-11-10
Ý kiến trên Hacker News
  • Không chỉ công khai trọng số mô hình và mã suy luận, mà còn công bố dữ liệu huấn luyện có thể tái lập, pipeline xử lý dữ liệu, kết quả thực nghiệm và quy trình huấn luyện, qua đó đóng góp cho nghiên cứu khoa học.

    • Nhấn mạnh rằng những nỗ lực như vậy mang lại lợi ích cho tất cả mọi người, bất kể hiệu năng của mô hình ra sao.
  • Kết quả thử nghiệm cho thấy hiện tượng ảo giác khá nhiều và hiệu năng kém hơn các mô hình đa dụng như Qwen 2.5 hay Mistral-Nemo.

  • Cung cấp liên kết trang chủ của bài báo arXiv: https://opencoder-llm.github.io/

  • Điểm HumanEval của Qwen2.5-Coder-7B là 61.6, nhưng trong Table 1 lại hiện là 88.4, điều này gây bối rối.

    • Lý do là vì đây là hai mô hình khác nhau (Qwen2.5-Coder-7B-Base là 61.6, Qwen2.5-Coder-7B-Instruct là 88.4).
  • Do có fork và sao chép-dán trong codebase, 75% tệp bị trùng lặp hoàn toàn.

    • Vì việc băm được thực hiện ở cấp độ tệp, nên không thể chắc rằng đó có phải là toàn bộ tệp được sao chép nguyên vẹn mà không chỉnh sửa hay không.
  • Có ai đang huấn luyện với metadata của quá trình biên dịch và thực thi không (ví dụ như dữ liệu profiling)?

    • Tò mò liệu việc đưa những thông tin này vào có thể hướng mô hình tạo ra mã hiệu quả hơn hay không.
  • Đây là một bài báo thú vị, nhưng mô hình này dường như không tốt hơn Qwen2.5-Coder ở một số ngôn ngữ, bao gồm cả Ruby.

  • Tò mò không biết cần phần cứng nào để chạy mô hình này.

  • Pipeline rất quan trọng.

  • Tốt.