- SLM: Mô hình ngôn ngữ nhỏ
- Dù là mô hình 2.7B, vẫn cho hiệu năng ngang bằng hoặc tốt hơn các mô hình lớn hơn tới 25 lần
- Vượt hiệu năng của Mistral 7B và Llama-7B/13B
- Trong suy luận nhiều bước như lập trình và toán học, còn vượt cả mô hình Llama-2-70B lớn hơn 25 lần
- Nhỏ hơn Google Gemini Nano 2, nhưng cho hiệu năng tương đương hoặc tốt hơn
- Có thể thực hiện các tác vụ tương tự như tạo văn bản và mô tả hình ảnh với ít sức mạnh tính toán hơn so với các mô hình như GPT-4 và Llama-2
- Nhờ kích thước nhỏ, đây là sân chơi lý tưởng cho các nhà nghiên cứu, bao gồm khả năng diễn giải theo hướng cơ học, cải thiện an toàn hoặc thử nghiệm fine-tuning cho nhiều tác vụ khác nhau
2 bình luận
Trọng số có tại đây https://huggingface.co/microsoft/phi-2
Ý kiến trên Hacker News
artifacts.