Ra mắt mô hình Falcon 180B

xguru · 2023-09-07T10:31:01+09:00

Mô hình ngôn ngữ mở có quy mô lớn nhất với 180 tỷ tham số Trong số các mô hình mở, đứng hạng 1 trên bảng xếp hạng. Vượt Llama 2 70B và GPT-3.5, đồng thời cạnh tranh với PaLM-2 Được huấn luyện với 3,5T token bằng bộ dữ liệu RefinedWeb của TII (chủ yếu là tiếng Anh) Lớn hơn 2,5 lần so với Llama 2 và được huấn luyện với sức mạnh tính toán nhiều hơn gấp 4 lần (sử dụng 4096 GPU trên Amazon SageMaker) Falcon 180B có thể được sử dụng cho mục đích thương mại, nhưng chỉ được phép trong các điều kiện rất hạn chế, ngoại trừ "hosting use". Bắt buộc phải kiểm tra giấy phép Yêu cầu phần cứng Fine-tuning đầy đủ: bộ nhớ 5120GB, 8x 8x A100 80GB LoRA with ZeRO-3: 1280GB, 2x 8x A100 80GB QLoRA: 160GB, 2x A100 80GB Suy luận BF16/FP16: 640GB, 8x A100 80GB Suy luận GPTQ/int4: 320GB, 8x A100 40GB

(huggingface.co)

7 điểm bởi xguru 2023-09-07 | 1 bình luận | Chia sẻ qua WhatsApp

Mô hình ngôn ngữ mở có quy mô lớn nhất với 180 tỷ tham số
Trong số các mô hình mở, đứng hạng 1 trên bảng xếp hạng. Vượt Llama 2 70B và GPT-3.5, đồng thời cạnh tranh với PaLM-2
Được huấn luyện với 3,5T token bằng bộ dữ liệu RefinedWeb của TII (chủ yếu là tiếng Anh)
- Lớn hơn 2,5 lần so với Llama 2 và được huấn luyện với sức mạnh tính toán nhiều hơn gấp 4 lần (sử dụng 4096 GPU trên Amazon SageMaker)
Falcon 180B có thể được sử dụng cho mục đích thương mại, nhưng chỉ được phép trong các điều kiện rất hạn chế, ngoại trừ "hosting use". Bắt buộc phải kiểm tra giấy phép
Yêu cầu phần cứng
- Fine-tuning đầy đủ: bộ nhớ 5120GB, 8x 8x A100 80GB
- LoRA with ZeRO-3: 1280GB, 2x 8x A100 80GB
- QLoRA: 160GB, 2x A100 80GB
- Suy luận BF16/FP16: 640GB, 8x A100 80GB
- Suy luận GPTQ/int4: 320GB, 8x A100 40GB

1 bình luận

kuroneko 2023-09-07

Kích thước thật khổng lồ. Cả yêu cầu phần cứng nữa...

Ra mắt mô hình Falcon 180B

Bài viết liên quan

1 bình luận