- MK-1 là một công ty mới muốn cung cấp các mô hình AI có năng lực ngang bằng hoặc tốt hơn những tên tuổi AI hàng đầu như OpenAI, Anthropic và Google.
- Sản phẩm đầu tiên của công ty, MKML, là một runtime suy luận có thể giảm một nửa chi phí suy luận mô hình ngôn ngữ lớn (LLM) trên GPU chỉ với vài dòng mã Python.
- MKML tương thích với các hệ sinh thái phổ biến như Hugging Face và PyTorch.
- MKML hiện đang ở giai đoạn closed beta và đang tìm kiếm các đối tác ban đầu.
- MKML có thể giúp tối ưu mô hình AI bằng cách giảm mức sử dụng bộ nhớ và tăng tốc độ. Ví dụ, nó có thể giảm mô hình Llama-2 13B từ 26GB xuống 10.5GB và rút ngắn thời gian suy luận của forward pass tới 2.3 lần.
- MKML có thể được dùng để tối ưu mô hình AI theo chi phí hoặc tốc độ. Trong kịch bản tối ưu chi phí, nó có thể giúp mô hình phù hợp với các GPU instance rẻ hơn, đồng thời vẫn có thể chạy nhanh hơn mô hình gốc trên các instance đắt hơn. Trong kịch bản tối ưu tốc độ, MKML có thể làm mô hình nhanh hơn tới 2.0 lần để phục vụ nhiều người dùng hơn.
- MKML có thể dễ dàng tích hợp vào workflow hiện có. Quy trình này bao gồm nén mô hình một lần bằng một trong các codec mô hình của MKML, lưu mô hình đã nén vào đĩa, rồi tải nó lên để suy luận.
- MKML hỗ trợ nhiều kích cỡ mô hình và cấu hình hệ thống khác nhau, đồng thời luôn nhanh hơn mức cơ sở trong các bài kiểm tra tốc độ.
- MKML cũng duy trì độ trung thực cao với mô hình gốc, với khác biệt không đáng kể trong các phép đo perplexity tiêu chuẩn.
- Tầm nhìn dài hạn của MK-1 là đẩy hiệu năng AI đến giới hạn trên toàn bộ stack suy luận. Họ có một lộ trình đầy tham vọng cho các phát triển trong tương lai.
1 bình luận
Ý kiến trên Hacker News