gigaGPT - Mô hình GPT-3 được tạo bằng 565 dòng mã

xguru · 2023-12-16T10:31:01+09:00

Cải tiến nanoGPT của Andrei Karpathy, vốn chỉ hỗ trợ 100M (100 triệu) tham số, để có thể huấn luyện tới 100B (100 tỷ) Không phụ thuộc vào mã khác hay framework bên thứ ba, và tận dụng bộ nhớ dung lượng lớn cùng năng lực tính toán của "phần cứng Cerebras" để cho phép huấn luyện quy mô lớn với mã torch.nn thuần túy Hỗ trợ độ dài ngữ cảnh dài mà không cần chỉnh sửa riêng, đồng thời hoạt động cùng nhiều công cụ tối ưu hóa khác nhau Cerebras là hãng sản xuất chipset, có tốc độ nhân ma trận tương đương GPU nhưng làm chip lớn hơn rất nhiều để đưa thêm nhiều transistor và bộ nhớ vào một chip duy nhất Nhờ kích thước này, không cần các công việc như sharding rồi hợp nhất trên nhiều thiết bị, nên có thể giữ số dòng mã ở mức thấp

(cerebras.net)

12 điểm bởi xguru 2023-12-16 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Cải tiến nanoGPT của Andrei Karpathy, vốn chỉ hỗ trợ 100M (100 triệu) tham số, để có thể huấn luyện tới 100B (100 tỷ)
Không phụ thuộc vào mã khác hay framework bên thứ ba, và tận dụng bộ nhớ dung lượng lớn cùng năng lực tính toán của "phần cứng Cerebras" để cho phép huấn luyện quy mô lớn với mã torch.nn thuần túy
Hỗ trợ độ dài ngữ cảnh dài mà không cần chỉnh sửa riêng, đồng thời hoạt động cùng nhiều công cụ tối ưu hóa khác nhau
Cerebras là hãng sản xuất chipset, có tốc độ nhân ma trận tương đương GPU nhưng làm chip lớn hơn rất nhiều để đưa thêm nhiều transistor và bộ nhớ vào một chip duy nhất
- Nhờ kích thước này, không cần các công việc như sharding rồi hợp nhất trên nhiều thiết bị, nên có thể giữ số dòng mã ở mức thấp

gigaGPT - Mô hình GPT-3 được tạo bằng 565 dòng mã

Bài viết liên quan

Chưa có bình luận nào.