Giới thiệu mô hình ngôn ngữ phi-3-mini
- phi-3-mini là mô hình ngôn ngữ với 3,8B tham số, được huấn luyện trên 3,3 nghìn tỷ token
- Theo các benchmark học thuật và kết quả thử nghiệm nội bộ, mô hình cho thấy hiệu năng sánh ngang với các mô hình như Mixtral 8x7B, GPT-3.5 (MMLU 69%, MT-bench 8,38 điểm)
- Dù có kích thước đủ nhỏ để triển khai trên điện thoại, mô hình vẫn cho thấy hiệu năng ấn tượng
- Đây là phiên bản mở rộng của bộ dữ liệu đã dùng cho phi-2, bao gồm dữ liệu web đã được lọc và dữ liệu tổng hợp
- Mô hình cũng được tinh chỉnh bổ sung để tăng độ vững, độ an toàn và khả năng trò chuyện theo định dạng chat
Giới thiệu các mô hình phi-3-small, phi-3-medium
- Cũng cung cấp kết quả scaling tham số ban đầu cho phi-3-small và phi-3-medium, là các mô hình 7B và 14B được huấn luyện trên 4,8 nghìn tỷ token
- Cho thấy hiệu năng vượt trội đáng kể so với phi-3-mini (MMLU 75%, 78%, MT-bench 8,7 điểm, 8,9 điểm)
Ý kiến của GN⁺
- Việc một mô hình ngôn ngữ nhỏ gọn có thể chạy trên điện thoại mà vẫn đạt hiệu năng cao là điều rất ấn tượng. Có vẻ khả năng ứng dụng AI trên thiết bị di động sẽ còn tăng mạnh trong thời gian tới
- Tuy nhiên, vẫn có thể tồn tại lo ngại về bảo vệ dữ liệu cá nhân và quyền riêng tư. Dù xử lý trên thiết bị cục bộ, dữ liệu người dùng vẫn cần được quản lý an toàn
- Cách huấn luyện tận dụng dữ liệu web và dữ liệu tổng hợp rất đáng chú ý. Có lẽ đã cần rất nhiều công sức cho việc thu thập và tinh lọc dữ liệu. Đây là ví dụ cho thấy dữ liệu chất lượng cao dẫn tới hiệu năng tốt
- Kết quả so sánh hiệu năng theo kích thước mô hình cũng rất thú vị. Việc chọn mô hình có kích thước phù hợp có vẻ quan trọng về mặt hiệu quả
- Các mô hình ngôn ngữ mã nguồn mở được tinh gọn như StableLM của Stability AI hay Claude của Anthropic đang xuất hiện. Có thể kỳ vọng sẽ có nhiều trường hợp ứng dụng đa dạng được đưa ra
2 bình luận
Microsoft công bố mô hình ngôn ngữ Phi-2 nhỏ nhưng mạnh mẽ với 2.7B
Ý kiến trên Hacker News
Cần diễn giải kết quả benchmark của mô hình Phi-3 một cách thận trọng. Trước đây đã có tiền lệ mô hình Phi-2 có hiệu năng thực tế thấp hơn các con số benchmark. Kết quả này có thể không chuyển hóa trực tiếp thành ứng dụng thực tế hoặc thứ hạng trên bảng xếp hạng LMSYS.
Dù vậy, Phi-3 vẫn cho thấy hiệu năng tốt với kích thước mô hình nhỏ. Điều này gợi ý rằng phương pháp chưng cất (distillation) thông qua "dữ liệu tổng hợp" để chuyển tải hiệu năng của GPT-4 sang mô hình nhỏ có thể rất hiệu quả. Nó cũng cho thấy tiềm năng của cách tiếp cận kiểu Chinchilla: huấn luyện tối ưu một mô hình lớn rồi chưng cất xuống mô hình nhỏ.
Trên bảng xếp hạng tiếng Anh của LMSYS, các mô hình Phi-3 cho thấy hiệu năng đủ sức cạnh tranh với Llama 3, GPT-3.5 và các mô hình tương tự. Đặc biệt, Phi-3-mini 3.8B với 3.8B tham số đạt mức ngang ngửa Llama 3 8B. Điều này gợi mở khả năng xuất hiện của LLM mã nguồn mở ở cấp độ GPT-4 có thể chạy trên điện thoại.
Tuy nhiên, các benchmark như vậy có giới hạn là mô hình khá dễ "gaming". Cần chú ý đến hiệu năng tổng thể hơn là từng task riêng lẻ. Có lẽ cần xem xét kỹ lưỡng từ nhiều góc độ.
Một số mô hình Phi-3 đã được công khai trên HuggingFace. Điều này được kỳ vọng sẽ giúp việc khai thác và sử dụng mô hình trở nên dễ dàng hơn.
Việc huấn luyện trên 3,3 nghìn tỷ token dữ liệu tổng hợp khổng lồ đã góp phần vào việc tinh gọn mô hình. Nó cũng có thể giúp giảm bớt các vấn đề về bản quyền.
Tuy nhiên, trong sử dụng thực tế, mô hình vẫn thường xuyên tạo ra câu trả lời vô nghĩa ở các lĩnh vực ngoài dữ liệu huấn luyện. Nó có thể hiệu quả cho finetuning các tác vụ hẹp, nhưng có lẽ khó thay thế GPT-3.5 trong hội thoại thông thường.
Trọng số mô hình đã được công khai trên HuggingFace với các phiên bản ngữ cảnh 4k và 128k. Điều này đang thu hút sự quan tâm về khả năng ứng dụng cho finetuning hoặc RAG(Retrieval-Augmented Generation).