- Mô hình ngôn ngữ mở có quy mô lớn nhất với 180 tỷ tham số
- Trong số các mô hình mở, đứng hạng 1 trên bảng xếp hạng. Vượt Llama 2 70B và GPT-3.5, đồng thời cạnh tranh với PaLM-2
- Được huấn luyện với 3,5T token bằng bộ dữ liệu RefinedWeb của TII (chủ yếu là tiếng Anh)
- Lớn hơn 2,5 lần so với Llama 2 và được huấn luyện với sức mạnh tính toán nhiều hơn gấp 4 lần (sử dụng 4096 GPU trên Amazon SageMaker)
- Falcon 180B có thể được sử dụng cho mục đích thương mại, nhưng chỉ được phép trong các điều kiện rất hạn chế, ngoại trừ "hosting use". Bắt buộc phải kiểm tra giấy phép
- Yêu cầu phần cứng
- Fine-tuning đầy đủ: bộ nhớ 5120GB, 8x 8x A100 80GB
- LoRA with ZeRO-3: 1280GB, 2x 8x A100 80GB
- QLoRA: 160GB, 2x A100 80GB
- Suy luận BF16/FP16: 640GB, 8x A100 80GB
- Suy luận GPTQ/int4: 320GB, 8x A100 40GB
1 bình luận
Kích thước thật khổng lồ. Cả yêu cầu phần cứng nữa...