DBRX - LLM mở mới đạt trình độ SOTA

(databricks.com)

16 điểm bởi GN⁺ 2024-03-28 | 1 bình luận | Chia sẻ qua WhatsApp

Databricks đã công bố DBRX, một LLM mở, đa dụng mới
Đây là mức hiệu năng hàng đầu mới, vượt qua các LLM mở hiện có trên các benchmark tiêu chuẩn, đồng thời mang những khả năng trước đây bị giới hạn trong API của các mô hình đóng đến với cộng đồng mở và doanh nghiệp
- Vượt GPT-3.5 và có thể cạnh tranh với Gemini 1.0 Pro
- Trong lĩnh vực mã nguồn, cũng vượt qua các mô hình chuyên biệt như CodeLLaMA-70B
DBRX cho thấy những cải thiện rõ rệt về hiệu năng huấn luyện và suy luận
- Sử dụng kiến trúc Mixture of Experts (MoE) được phân mảnh chi tiết hơn để tăng hiệu quả
- Tốc độ suy luận nhanh hơn tối đa 2 lần so với LLaMA2-70B, đồng thời nhỏ hơn khoảng 40% so với Grok-1

Cấu trúc của DBRX

DBRX là một mô hình ngôn ngữ lớn (LLM) decoder-only dựa trên Transformer, được huấn luyện bằng cách dự đoán token tiếp theo
Trong tổng số 132B tham số, có 36B được kích hoạt, và mô hình được tiền huấn luyện trên 12T token dữ liệu văn bản và mã nguồn
DBRX được phân mảnh chi tiết hơn so với các mô hình MoE mở khác, và điều này được cho là giúp cải thiện chất lượng mô hình

Chất lượng trên benchmark

DBRX Instruct là mô hình dẫn đầu trên các benchmark tổng hợp, benchmark lập trình và toán học, cũng như MMLU
DBRX Instruct vượt qua mọi mô hình chat hoặc mô hình đã tinh chỉnh theo chỉ thị trên các benchmark tiêu chuẩn

So sánh với các mô hình đóng

DBRX Instruct vượt GPT-3.5 và có sức cạnh tranh với Gemini 1.0 Pro cùng Mistral Medium
DBRX Instruct vượt GPT-3.5 trong kiến thức tổng quát, suy luận thường thức, lập trình và suy luận toán học

Chất lượng trong tác vụ ngữ cảnh dài và RAG

DBRX Instruct được huấn luyện với cửa sổ ngữ cảnh tối đa 32K token.
DBRX Instruct được so sánh với các phiên bản mới nhất của API GPT-3.5 Turbo và GPT-4 Turbo trên benchmark ngữ cảnh dài.
DBRX Instruct cho hiệu năng tốt hơn GPT-3.5 Turbo ở mọi độ dài ngữ cảnh và trên mọi phần của chuỗi.

Hiệu quả huấn luyện

Kiến trúc DBRX MoE và toàn bộ pipeline huấn luyện đã chứng minh hiệu quả huấn luyện.
Kiến trúc DBRX MoE đạt chất lượng cao trong khi giảm số FLOP cần thiết cho huấn luyện.

Hiệu quả suy luận

DBRX cho thấy thông lượng suy luận cao trên hạ tầng suy luận được tối ưu hóa bằng NVIDIA TensorRT-LLM.
Các mô hình MoE nói chung thường có tốc độ suy luận nhanh hơn so với tổng số tham số của chúng.

Cách DBRX được xây dựng

DBRX được huấn luyện bằng NVIDIA H100 và xây dựng bằng các công cụ của Databricks.
DBRX được phát triển tiếp nối các dự án MPT và Dolly của Databricks, đồng thời đã huấn luyện hàng nghìn LLM cùng khách hàng.

Bắt đầu với DBRX trên Databricks

Có thể dễ dàng sử dụng DBRX thông qua Databricks Mosaic AI Foundation Model API.
DBRX có thể được tải xuống từ Databricks Marketplace và triển khai vào hệ thống phục vụ mô hình.

Kết luận

Databricks tin rằng mọi doanh nghiệp đều phải có khả năng kiểm soát dữ liệu và vận mệnh của mình trong thế giới GenAI.
DBRX là thành phần cốt lõi trong các sản phẩm GenAI thế hệ tiếp theo của Databricks.

Đóng góp

Việc phát triển DBRX do đội Mosaic dẫn dắt và được hoàn thiện thông qua sự hợp tác của nhiều bộ phận trong Databricks.

Ý kiến của GN⁺

DBRX là một mô hình ngôn ngữ mã nguồn mở mới có thể cạnh tranh với các mô hình GPT hiện có, và đặc biệt được kỳ vọng sẽ thể hiện hiệu năng nổi bật trong các tác vụ sinh mã và lập trình.
Nhờ sử dụng kiến trúc MoE, DBRX có vẻ đã cải thiện đáng kể hiệu quả về tốc độ suy luận và kích thước mô hình. Điều này có thể giúp khai thác mô hình hiệu năng cao ngay cả trong những môi trường bị hạn chế tài nguyên.
Cách tiếp cận mã nguồn mở của DBRX mang lại cơ hội để các nhà nghiên cứu và lập trình viên tự do thử nghiệm và cải tiến mô hình. Đây có thể là một đóng góp lớn cho cộng đồng AI.
API và các công cụ tích hợp mà DBRX cung cấp hỗ trợ doanh nghiệp phát triển và triển khai mô hình ngôn ngữ của riêng mình dễ dàng hơn. Điều này sẽ giúp doanh nghiệp tăng cường năng lực cạnh tranh bằng cách tận dụng công nghệ AI.
Việc ra mắt DBRX có thể trở thành một cột mốc quan trọng trong sự phát triển của các mô hình ngôn ngữ mã nguồn mở, và sẽ rất thú vị khi theo dõi cách mô hình này tiếp tục phát triển cũng như được áp dụng trong nhiều lĩnh vực khác nhau.

1 bình luận

GN⁺ 2024-03-28

Ý kiến trên Hacker News

Các mô hình hiện đáng chú ý:
- Miqu 70B: dùng cho hội thoại thông thường
- Deepseed 33B: dùng cho lập trình
- Yi 34B: dùng cho hội thoại với ngữ cảnh trên 32K
- Cũng có các phiên bản fine-tune của những mô hình này
- Có các mô hình khác trong khoảng 34B-70B, nhưng các mô hình Qwen không gây ấn tượng
- Các mô hình Llama 70B, Mixtral, Grok có xuất hiện trên bảng, nhưng khó xem là công nghệ mới nhất (SOTA), dù Mixtral nổi trội về tốc độ với batch size 1
Thẻ mô hình và yêu cầu tài nguyên:
- Mô hình cần khoảng 264GB RAM
- Có thắc mắc về thời điểm sẽ chuyển từ việc theo dõi số lượng tham số sang theo dõi tổng lượng (GPU RAM + CPU RAM) cùng các metric đánh giá
- Ví dụ, mô hình 7B tham số dùng float32 nhiều khả năng cho hiệu năng tốt hơn cùng mô hình số tham số đó nhưng dùng float4
- Có những trường hợp lượng tử hóa các mô hình tốt ra mắt gần đây để vừa với một GPU, nhưng mô hình đã lượng tử hóa là mô hình khác với bản gốc nên cần chạy lại metric
Tính hội tụ của mô hình ngôn ngữ lớn (LLM):
- Có bằng chứng cho thấy mọi mô hình LLM khi được huấn luyện trên cùng một tập dữ liệu sẽ hội tụ về một điểm nhất định
- Những tuyên bố về hiệu năng tác vụ chỉ là tuyên bố, và vòng lặp Llama hay Mixtral tiếp theo rồi cũng sẽ hội tụ
- Có vẻ LLM đang tiến hóa giống Linux/Windows hay iOS/Android, không có khác biệt lớn ở mô hình nền tảng
Kỳ vọng về lượng tử hóa hỗn hợp và offloading MoE:
- Với Mixed Quantization dùng MQQ và MoE Offloading, đã có thể chạy Mistral 8x7B trên rtx3080 có 10GB VRAM
- Cách này cũng có thể áp dụng cho DBRX và giảm mạnh nhu cầu VRAM
Lợi ích kinh doanh của Databricks:
- Có sự tò mò về lợi ích kinh doanh mà Databricks sẽ nhận được khi đầu tư hàng triệu USD vào LLM mã nguồn mở
So sánh biểu đồ và đánh giá:
- Đưa điểm Human Eval của LLaMa2 vào biểu đồ nhưng không so với Code Llama Instruct 70b là một “tội ác biểu đồ”
- DBRX không vượt xa mức 67.8 của Code Llama Instruct, nhưng vẫn rất ấn tượng
Kế hoạch mua GPU mới và yêu cầu VRAM:
- Có câu hỏi liệu GPU 16GB VRAM có chạy tốt mô hình 70GB không, và có chạy tốt hơn đáng kể so với GPU 12GB VRAM hay không
- Ollama chạy tốt ở máy cục bộ; mixtral (7B, 3.4GB) hoạt động tốt trên 1080ti, nhưng bản 24.6GB hơi chậm và mất thời gian khởi động khá rõ
Bất mãn về việc phê duyệt mô hình base:
- Việc phê duyệt cho mô hình base tạo cảm giác không mấy cởi mở
- Nhiều người đang chờ cơ hội tải xuống, trong khi mô hình instruct lại được phê duyệt ngay
- Mô hình base thú vị hơn cho việc fine-tune
Cải thiện hiệu quả huấn luyện:
- Có ý kiến rằng pipeline pretraining LLM đã trở nên hiệu quả tính toán gần gấp 4 lần trong 10 tháng qua
- Vì chi phí huấn luyện rất cao nên các cải thiện như vậy là rất đáng hoan nghênh, và được kỳ vọng sẽ đi theo định luật Moore
Khả năng ô nhiễm trong đánh giá lập trình:
- Các bài đánh giá lập trình có thể bị ô nhiễm bởi dữ liệu huấn luyện
- Có câu hỏi về phương pháp chuẩn để tránh việc lạm phát điểm số như vậy

DBRX - LLM mở mới đạt trình độ SOTA

Cấu trúc của DBRX

Chất lượng trên benchmark

So sánh với các mô hình đóng

Chất lượng trong tác vụ ngữ cảnh dài và RAG

Hiệu quả huấn luyện

Hiệu quả suy luận

Cách DBRX được xây dựng

Bắt đầu với DBRX trên Databricks

Kết luận

Đóng góp

Ý kiến của GN⁺

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News