Kỷ nguyên LLM 1-bit: tham số tam phân cho điện toán hiệu quả về chi phí

(arxiv.org)

17 điểm bởi GN⁺ 2024-02-29 | 2 bình luận | Chia sẻ qua WhatsApp

Kỷ nguyên mô hình ngôn ngữ lớn 1-bit: mọi mô hình ngôn ngữ lớn đều nằm ở mức 1,58 bit

Nghiên cứu gần đây BitNet đang mở ra một kỷ nguyên mới cho các mô hình ngôn ngữ lớn 1-bit (LLM).
Nghiên cứu này giới thiệu BitNet b1.58, một biến thể LLM 1-bit trong đó mọi tham số đơn lẻ (hoặc trọng số) đều ở dạng tam phân {-1, 0, 1}.
BitNet b1.58 đạt mức tương đương với các Transformer LLM độ chính xác đầy đủ (ví dụ: FP16 hoặc BF16) có cùng kích thước mô hình và số token huấn luyện, xét về độ phức tạp và hiệu năng tác vụ cuối cùng, đồng thời hiệu quả chi phí vượt trội về độ trễ, bộ nhớ, thông lượng và mức tiêu thụ năng lượng.
Đi sâu hơn, LLM 1,58-bit xác định các quy luật mở rộng và công thức huấn luyện mới để đào tạo một thế hệ LLM mới vừa hiệu năng cao vừa hiệu quả về chi phí.
Ngoài ra, nó còn mở ra cánh cửa cho các mô hình tính toán mới và cho phép thiết kế phần cứng chuyên biệt được tối ưu hóa cho LLM 1-bit.

Ý kiến của GN⁺

LLM 1-bit có tiềm năng cho phép tính toán hiệu quả hơn rất nhiều so với các mô hình ngôn ngữ lớn hiện có, qua đó có thể giảm mạnh mức tiêu thụ năng lượng và chi phí trong nghiên cứu cũng như ứng dụng AI.
Để công nghệ này thực sự được chấp nhận rộng rãi, các vấn đề về khả năng tương thích và tích hợp với hạ tầng phần cứng và phần mềm hiện có sẽ là những yếu tố cần được cân nhắc quan trọng.
Những lợi ích có thể đạt được từ LLM 1-bit sẽ càng trở nên quan trọng khi kích thước và độ phức tạp của mô hình tăng lên, điều này sẽ đặc biệt hấp dẫn với các nhà phát triển muốn sử dụng công nghệ AI trong môi trường có nguồn lực hạn chế.
Hiện tại, trong lĩnh vực này đã có phần cứng chuyên dụng cho AI như TPU của Google, nhưng việc thiết kế phần cứng chuyên biệt cho LLM 1-bit có thể tạo ra những cơ hội thị trường mới.
Lợi ích thực tế có thể có từ việc áp dụng công nghệ này là giảm điện năng tiêu thụ và chi phí trong khi vẫn duy trì độ chính xác và tốc độ phản hồi của mô hình, nhưng khi triển khai thực tế vẫn cần xem xét chênh lệch hiệu năng so với các mô hình hiện có, vấn đề tương thích và yêu cầu phần cứng mới.

2 bình luận

kuroneko 2024-02-29

Điều này thật sự quá kỳ diệu. Không phải số thực dấu phẩy động mà chỉ với {-1, 0, 1} thôi cũng có thể làm được...
Thật mong chờ xem nó sẽ phát triển như thế nào.

xguru 2024-02-29

Ý kiến Hacker News

Hai phát hiện gây sốc từ kết quả nghiên cứu:
- Có thể thay thế các giá trị tham số của mô hình ngôn ngữ lớn (LLM) hiện có bằng hệ tam phân (-1, 0, 1) thay vì số thực.
- Trong phép nhân ma trận, có thể thay phép nhân theo từng phần tử trong mỗi tích vô hướng bằng phép cộng theo từng phần tử, với dấu thay đổi tùy theo giá trị.
- Khi dùng phương pháp này trên phần cứng hiện tại, hiệu quả tính toán và bộ nhớ được cải thiện đáng kể mà không suy giảm hiệu năng.
- Nếu triển khai phương pháp này ở mức phần cứng, có thể đạt được mức cải thiện hiệu quả còn lớn hơn.
Hiệu năng và hiệu quả của BitNet b1.58:
- BitNet b1.58 cho thấy hiệu năng tương đương với mô hình chuẩn full-precision начиная từ kích thước 3B.
- Điều này mở ra các định luật scaling mới cho hiệu năng mô hình và chi phí suy luận.
- BitNet b1.58 13B hiệu quả hơn LLM FP16 3B về độ trễ, mức dùng bộ nhớ và mức tiêu thụ năng lượng.
- BitNet b1.58 30B hiệu quả hơn LLM FP16 7B, và BitNet b1.58 70B hiệu quả hơn LLM FP16 13B.
- Bài báo này đánh dấu một bước đột phá lớn về hiệu quả của LLM, với cải thiện hiệu quả mà không phải đánh đổi hiệu năng.
Có người đặt câu hỏi liệu có thể chuyển đổi các mô hình hiện có sang cách tiếp cận mới này hay không, và cũng có vài câu đùa về giá cổ phiếu NVIDIA.
Suy ngẫm về việc cần xem xét lại vai trò của transistor trong các ứng dụng AI:
- Trong AI, việc giảm entropy không phải vấn đề lớn, nên cần tận dụng dải điện áp khả dụng nhiều hơn.
- Có ý kiến cho rằng nên xem xét lại vai trò của transistor, và cổng NAND có thể không phải là khối cấu thành nền tảng.
Liên hệ với một bài blog về biểu diễn số dấu phẩy động và suy nghĩ về cách biểu diễn mới:
- Bài blog giải thích vì sao việc phân biệt +0.0 và -0.0 trong chuẩn số dấu phẩy động là hữu ích.
- Từ đó liên hệ với các giá trị {-1, 0, -1} được dùng trong bài báo LLM để đặt câu hỏi liệu biểu diễn 2 bit {-1, -0, 0, 1} có thể mang lại lợi ích bổ sung hay không.
- Cũng có thắc mắc về các giá trị lượng tử hóa 2 bit được đề xuất trong những bài báo khác về lượng tử hóa LLM.
Sự hoài nghi về tính thực tế của kết quả nghiên cứu, rồi nhận ra tầm quan trọng của nó sau khi xác nhận tác giả từ Microsoft Research và UCAS:
- Ban đầu kết quả có vẻ quá tốt đến mức khó tin, nhưng sau khi kiểm tra tác giả thì nhận ra đây là thật.
- Dự kiến điều này sẽ không chỉ hữu ích cho ứng dụng edge computing mà còn giúp giảm chi phí cung cấp LLM hiệu năng cao trên cloud.
- Có người suy nghĩ về tác động kinh tế dài hạn và suy đoán về khả năng xuất hiện các đối thủ cạnh tranh mới.
Giải thích về "bit" và "trit", cùng thảo luận về khả năng lý thuyết của điện toán tam phân:
- Có ý kiến nên dùng thuật ngữ "trit" thay vì "bit", kèm giải thích lý thuyết về tiềm năng của điện toán tam phân.
- Cũng nhắc đến các nghiên cứu thời Liên Xô về điện toán tam phân và hệ cơ số e được xem là lý tưởng về mặt lý thuyết.
Kế hoạch huấn luyện mô hình mới của GigaML và lời mời hợp tác:
- GigaML công bố kế hoạch huấn luyện một mô hình mới tương thích với llama.cpp.
- Họ dự định huấn luyện một mô hình nhỏ (3-4B, 1 bit, mã nguồn mở) trên bộ dữ liệu stack-v2 mới nhất và đang tìm cộng tác viên.
Góc nhìn hoài nghi về kết quả và nhấn mạnh sự cần thiết của việc tái lập:
- Có ý kiến nhìn nhận các cải thiện này một cách phê phán, đồng thời nhắc đến kinh nghiệm trước đây với các nỗ lực lượng tử hóa cực đoan.
Sự kinh ngạc trước bước đột phá lớn trong lĩnh vực LLM và khả năng chạy mô hình 120B trên một card đơn:
- Có người thán phục trước tiềm năng vận hành mô hình 120B trên một card đơn với 24GB VRAM, trong khi vẫn đạt hiệu năng và độ phức tạp tương đương mô hình FP16.