Apple phô diễn năng lực AI mở: các mô hình mới công bố cho hiệu năng vượt Mistral

xguru · 2024-07-23T10:51:01+09:00

Nhóm nghiên cứu của dự án DataComp for Language Models của Apple đã công bố họ mô hình DCLM mở trên Hugging Face Gói này bao gồm hai mô hình chính với 7B và 1.4B tham số Mô hình 7 tỷ (7B) tham số cho thấy hiệu năng tốt trên các benchmark, vượt Mistral-7B và tiệm cận các mô hình mở lớn khác như Llama 3 và Gemma Dự án này trở thành mã nguồn mở thực sự khi công khai trọng số mô hình, mã huấn luyện và bộ dữ liệu tiền huấn luyện DCLM(DataComp for Language Models) Dự án DataComp có thể được mô tả là một nỗ lực hợp tác nhằm thiết kế các bộ dữ liệu chất lượng cao để huấn luyện mô hình AI, đặc biệt trong lĩnh vực đa phương thức Thông qua thí nghiệm, nhóm nghiên cứu phát hiện rằng lọc dựa trên mô hình — nơi các mô hình machine learning (ML) tự động lọc và chọn dữ liệu chất lượng cao từ các bộ dữ liệu lớn hơn — có thể là yếu tố then chốt để xây dựng các tập huấn luyện chất lượng cao Bộ dữ liệu kết quả, DCLM-Baseline, được dùng để huấn luyện từ đầu các mô hình ngôn ngữ tiếng Anh dạng decoder-only transformer DCLM mới với 7 tỷ và 1,4 tỷ tham số Mô hình 7 tỷ được huấn luyện với 2,5 nghìn tỷ token bằng công thức tiền huấn luyện dựa trên framework OpenLM, và đạt độ chính xác 5-shot 63,7% trên MMLU Đây là mức cải thiện 6,6 điểm phần trăm so với MAP-Neo, mô hình ngôn ngữ dữ liệu mở tốt nhất trước đó, đồng thời sử dụng ít hơn 40% tài nguyên tính toán cho huấn luyện Mô hình mạnh hơn và nhỏ hơn Phiên bản 1,4 tỷ (1.4B) tham số cũng cho thấy hiệu năng ấn tượng trong các bài kiểm tra MMLU, Core và Extended Trong bài kiểm tra MMLU 5-shot, mô hình đạt 41,9%, cao hơn đáng kể so với các mô hình khác trong cùng phân khúc, bao gồm cả SmolLM mới phát hành gần đây của Hugging Face Hiện tại, mô hình lớn hơn có sẵn theo Apple Sample Code License, còn mô hình nhỏ hơn được phát hành theo Apache 2.0, cho phép sử dụng thương mại, phân phối và chỉnh sửa Thư viện HF cũng có phiên bản instruction-tuned của mô hình 7 tỷ tham số Cần lưu ý rằng đây là nghiên cứu ban đầu nhấn mạnh hiệu quả của việc tuyển chọn dữ liệu Mô hình này không dành cho thiết bị Apple và có thể thể hiện một số thiên lệch trong dữ liệu huấn luyện thử nghiệm hoặc tạo ra các phản hồi có hại

(venturebeat.com)

4 điểm bởi xguru 2024-07-23 | 3 bình luận | Chia sẻ qua WhatsApp

Nhóm nghiên cứu của dự án DataComp for Language Models của Apple đã công bố họ mô hình DCLM mở trên Hugging Face
Gói này bao gồm hai mô hình chính với 7B và 1.4B tham số
Mô hình 7 tỷ (7B) tham số cho thấy hiệu năng tốt trên các benchmark, vượt Mistral-7B và tiệm cận các mô hình mở lớn khác như Llama 3 và Gemma
Dự án này trở thành mã nguồn mở thực sự khi công khai trọng số mô hình, mã huấn luyện và bộ dữ liệu tiền huấn luyện

DCLM(DataComp for Language Models)

Dự án DataComp có thể được mô tả là một nỗ lực hợp tác nhằm thiết kế các bộ dữ liệu chất lượng cao để huấn luyện mô hình AI, đặc biệt trong lĩnh vực đa phương thức
Thông qua thí nghiệm, nhóm nghiên cứu phát hiện rằng lọc dựa trên mô hình — nơi các mô hình machine learning (ML) tự động lọc và chọn dữ liệu chất lượng cao từ các bộ dữ liệu lớn hơn — có thể là yếu tố then chốt để xây dựng các tập huấn luyện chất lượng cao
Bộ dữ liệu kết quả, DCLM-Baseline, được dùng để huấn luyện từ đầu các mô hình ngôn ngữ tiếng Anh dạng decoder-only transformer DCLM mới với 7 tỷ và 1,4 tỷ tham số
Mô hình 7 tỷ được huấn luyện với 2,5 nghìn tỷ token bằng công thức tiền huấn luyện dựa trên framework OpenLM, và đạt độ chính xác 5-shot 63,7% trên MMLU
Đây là mức cải thiện 6,6 điểm phần trăm so với MAP-Neo, mô hình ngôn ngữ dữ liệu mở tốt nhất trước đó, đồng thời sử dụng ít hơn 40% tài nguyên tính toán cho huấn luyện

Mô hình mạnh hơn và nhỏ hơn

Phiên bản 1,4 tỷ (1.4B) tham số cũng cho thấy hiệu năng ấn tượng trong các bài kiểm tra MMLU, Core và Extended
Trong bài kiểm tra MMLU 5-shot, mô hình đạt 41,9%, cao hơn đáng kể so với các mô hình khác trong cùng phân khúc, bao gồm cả SmolLM mới phát hành gần đây của Hugging Face
Hiện tại, mô hình lớn hơn có sẵn theo Apple Sample Code License, còn mô hình nhỏ hơn được phát hành theo Apache 2.0, cho phép sử dụng thương mại, phân phối và chỉnh sửa
Thư viện HF cũng có phiên bản instruction-tuned của mô hình 7 tỷ tham số
Cần lưu ý rằng đây là nghiên cứu ban đầu nhấn mạnh hiệu quả của việc tuyển chọn dữ liệu
- Mô hình này không dành cho thiết bị Apple và có thể thể hiện một số thiên lệch trong dữ liệu huấn luyện thử nghiệm hoặc tạo ra các phản hồi có hại

3 bình luận

j2sus91 2024-07-23

Vì chỉ khi gắn vào iPhone thì hiệu quả mới được tối đa hóa.
Samsung cũng đang tập trung vào on-device.

xguru 2024-07-23

Apple phát hành 8 mô hình ngôn ngữ AI cỡ nhỏ hướng tới việc sử dụng ngay trên thiết bị

Có vẻ Apple vẫn tiếp tục tập trung vào các mô hình nhỏ cho AI on-device. Mong là sớm được thử xem sao.

godrm 2024-07-23

Có lẽ từ năm sau là có thể bắt đầu dùng một cách thực sự rồi nhỉ haha

Apple phô diễn năng lực AI mở: các mô hình mới công bố cho hiệu năng vượt Mistral

DCLM(DataComp for Language Models)

Mô hình mạnh hơn và nhỏ hơn

Bài viết liên quan

3 bình luận