- Databricks đã công bố DBRX, một LLM mở, đa dụng mới
- Đây là mức hiệu năng hàng đầu mới, vượt qua các LLM mở hiện có trên các benchmark tiêu chuẩn, đồng thời mang những khả năng trước đây bị giới hạn trong API của các mô hình đóng đến với cộng đồng mở và doanh nghiệp
- Vượt GPT-3.5 và có thể cạnh tranh với Gemini 1.0 Pro
- Trong lĩnh vực mã nguồn, cũng vượt qua các mô hình chuyên biệt như CodeLLaMA-70B
- DBRX cho thấy những cải thiện rõ rệt về hiệu năng huấn luyện và suy luận
- Sử dụng kiến trúc Mixture of Experts (MoE) được phân mảnh chi tiết hơn để tăng hiệu quả
- Tốc độ suy luận nhanh hơn tối đa 2 lần so với LLaMA2-70B, đồng thời nhỏ hơn khoảng 40% so với Grok-1
Cấu trúc của DBRX
- DBRX là một mô hình ngôn ngữ lớn (LLM) decoder-only dựa trên Transformer, được huấn luyện bằng cách dự đoán token tiếp theo
- Trong tổng số 132B tham số, có 36B được kích hoạt, và mô hình được tiền huấn luyện trên 12T token dữ liệu văn bản và mã nguồn
- DBRX được phân mảnh chi tiết hơn so với các mô hình MoE mở khác, và điều này được cho là giúp cải thiện chất lượng mô hình
Chất lượng trên benchmark
- DBRX Instruct là mô hình dẫn đầu trên các benchmark tổng hợp, benchmark lập trình và toán học, cũng như MMLU
- DBRX Instruct vượt qua mọi mô hình chat hoặc mô hình đã tinh chỉnh theo chỉ thị trên các benchmark tiêu chuẩn
So sánh với các mô hình đóng
- DBRX Instruct vượt GPT-3.5 và có sức cạnh tranh với Gemini 1.0 Pro cùng Mistral Medium
- DBRX Instruct vượt GPT-3.5 trong kiến thức tổng quát, suy luận thường thức, lập trình và suy luận toán học
Chất lượng trong tác vụ ngữ cảnh dài và RAG
- DBRX Instruct được huấn luyện với cửa sổ ngữ cảnh tối đa 32K token.
- DBRX Instruct được so sánh với các phiên bản mới nhất của API GPT-3.5 Turbo và GPT-4 Turbo trên benchmark ngữ cảnh dài.
- DBRX Instruct cho hiệu năng tốt hơn GPT-3.5 Turbo ở mọi độ dài ngữ cảnh và trên mọi phần của chuỗi.
Hiệu quả huấn luyện
- Kiến trúc DBRX MoE và toàn bộ pipeline huấn luyện đã chứng minh hiệu quả huấn luyện.
- Kiến trúc DBRX MoE đạt chất lượng cao trong khi giảm số FLOP cần thiết cho huấn luyện.
Hiệu quả suy luận
- DBRX cho thấy thông lượng suy luận cao trên hạ tầng suy luận được tối ưu hóa bằng NVIDIA TensorRT-LLM.
- Các mô hình MoE nói chung thường có tốc độ suy luận nhanh hơn so với tổng số tham số của chúng.
Cách DBRX được xây dựng
- DBRX được huấn luyện bằng NVIDIA H100 và xây dựng bằng các công cụ của Databricks.
- DBRX được phát triển tiếp nối các dự án MPT và Dolly của Databricks, đồng thời đã huấn luyện hàng nghìn LLM cùng khách hàng.
Bắt đầu với DBRX trên Databricks
- Có thể dễ dàng sử dụng DBRX thông qua Databricks Mosaic AI Foundation Model API.
- DBRX có thể được tải xuống từ Databricks Marketplace và triển khai vào hệ thống phục vụ mô hình.
Kết luận
- Databricks tin rằng mọi doanh nghiệp đều phải có khả năng kiểm soát dữ liệu và vận mệnh của mình trong thế giới GenAI.
- DBRX là thành phần cốt lõi trong các sản phẩm GenAI thế hệ tiếp theo của Databricks.
Đóng góp
- Việc phát triển DBRX do đội Mosaic dẫn dắt và được hoàn thiện thông qua sự hợp tác của nhiều bộ phận trong Databricks.
Ý kiến của GN⁺
- DBRX là một mô hình ngôn ngữ mã nguồn mở mới có thể cạnh tranh với các mô hình GPT hiện có, và đặc biệt được kỳ vọng sẽ thể hiện hiệu năng nổi bật trong các tác vụ sinh mã và lập trình.
- Nhờ sử dụng kiến trúc MoE, DBRX có vẻ đã cải thiện đáng kể hiệu quả về tốc độ suy luận và kích thước mô hình. Điều này có thể giúp khai thác mô hình hiệu năng cao ngay cả trong những môi trường bị hạn chế tài nguyên.
- Cách tiếp cận mã nguồn mở của DBRX mang lại cơ hội để các nhà nghiên cứu và lập trình viên tự do thử nghiệm và cải tiến mô hình. Đây có thể là một đóng góp lớn cho cộng đồng AI.
- API và các công cụ tích hợp mà DBRX cung cấp hỗ trợ doanh nghiệp phát triển và triển khai mô hình ngôn ngữ của riêng mình dễ dàng hơn. Điều này sẽ giúp doanh nghiệp tăng cường năng lực cạnh tranh bằng cách tận dụng công nghệ AI.
- Việc ra mắt DBRX có thể trở thành một cột mốc quan trọng trong sự phát triển của các mô hình ngôn ngữ mã nguồn mở, và sẽ rất thú vị khi theo dõi cách mô hình này tiếp tục phát triển cũng như được áp dụng trong nhiều lĩnh vực khác nhau.
1 bình luận
Ý kiến trên Hacker News
Các mô hình hiện đáng chú ý:
Thẻ mô hình và yêu cầu tài nguyên:
Tính hội tụ của mô hình ngôn ngữ lớn (LLM):
Kỳ vọng về lượng tử hóa hỗn hợp và offloading MoE:
Lợi ích kinh doanh của Databricks:
So sánh biểu đồ và đánh giá:
Kế hoạch mua GPU mới và yêu cầu VRAM:
Bất mãn về việc phê duyệt mô hình base:
Cải thiện hiệu quả huấn luyện:
Khả năng ô nhiễm trong đánh giá lập trình: