1 điểm bởi GN⁺ 2023-08-07 | 1 bình luận | Chia sẻ qua WhatsApp
  • MK-1 là một công ty mới muốn cung cấp các mô hình AI có năng lực ngang bằng hoặc tốt hơn những tên tuổi AI hàng đầu như OpenAI, Anthropic và Google.
  • Sản phẩm đầu tiên của công ty, MKML, là một runtime suy luận có thể giảm một nửa chi phí suy luận mô hình ngôn ngữ lớn (LLM) trên GPU chỉ với vài dòng mã Python.
  • MKML tương thích với các hệ sinh thái phổ biến như Hugging Face và PyTorch.
  • MKML hiện đang ở giai đoạn closed beta và đang tìm kiếm các đối tác ban đầu.
  • MKML có thể giúp tối ưu mô hình AI bằng cách giảm mức sử dụng bộ nhớ và tăng tốc độ. Ví dụ, nó có thể giảm mô hình Llama-2 13B từ 26GB xuống 10.5GB và rút ngắn thời gian suy luận của forward pass tới 2.3 lần.
  • MKML có thể được dùng để tối ưu mô hình AI theo chi phí hoặc tốc độ. Trong kịch bản tối ưu chi phí, nó có thể giúp mô hình phù hợp với các GPU instance rẻ hơn, đồng thời vẫn có thể chạy nhanh hơn mô hình gốc trên các instance đắt hơn. Trong kịch bản tối ưu tốc độ, MKML có thể làm mô hình nhanh hơn tới 2.0 lần để phục vụ nhiều người dùng hơn.
  • MKML có thể dễ dàng tích hợp vào workflow hiện có. Quy trình này bao gồm nén mô hình một lần bằng một trong các codec mô hình của MKML, lưu mô hình đã nén vào đĩa, rồi tải nó lên để suy luận.
  • MKML hỗ trợ nhiều kích cỡ mô hình và cấu hình hệ thống khác nhau, đồng thời luôn nhanh hơn mức cơ sở trong các bài kiểm tra tốc độ.
  • MKML cũng duy trì độ trung thực cao với mô hình gốc, với khác biệt không đáng kể trong các phép đo perplexity tiêu chuẩn.
  • Tầm nhìn dài hạn của MK-1 là đẩy hiệu năng AI đến giới hạn trên toàn bộ stack suy luận. Họ có một lộ trình đầy tham vọng cho các phát triển trong tương lai.

1 bình luận

 
GN⁺ 2023-08-07
Ý kiến trên Hacker News
  • Bài viết bàn về công nghệ mới MK-1, nhưng không so sánh kết quả với các phương pháp lượng tử hóa hiện có, nên một số độc giả cho rằng đây là thiếu sót quan trọng.
  • Một độc giả cung cấp biểu đồ so sánh với các dạng lượng tử hóa khác có thể dùng cho Llama 1, cho rằng hiệu năng của MK-1 tương tự Q5_1, với độ phức tạp giảm nhẹ và tốc độ nhanh hơn hơn 2 lần.
  • Một số độc giả bày tỏ sự hoài nghi về MK-1, cho rằng đây có thể chỉ là lớp wrapper bao quanh các công nghệ sẵn có như bitsandbytes hoặc ggml.
  • Có ý kiến lo ngại việc MK-1 không phải mã nguồn mở, và một số độc giả nói rằng họ sẽ không dùng nó vì lĩnh vực này thay đổi quá nhanh và nó thiếu tính tiện lợi.
  • Một độc giả cho biết từng tham gia công việc lượng tử hóa mô hình ML, và lập luận rằng lượng tử hóa mã nguồn mở 4-bit hoặc 8-bit không phải lựa chọn tốt nhất, đồng thời ám chỉ có những kỹ thuật tiên tiến hơn.
  • Có yêu cầu so sánh giữa MK-1 và mlc-llm với lượng tử hóa 4-bit; theo báo cáo, giải pháp sau chạy Llama2 13B nhanh đến mức đáng kinh ngạc.
  • Một số độc giả phàn nàn về các phụ thuộc độc quyền trong stack công nghệ, và thích các lựa chọn hàng đầu như OpenAI và Anthropic hơn, hoặc tự xây dựng giải pháp riêng.
  • Quyết định của công ty trong việc tối ưu hóa các mô hình phổ biến và bán chúng dưới giấy phép OSS thực sự, đồng thời không phải lo về các hạn chế giấy phép đối với trọng số, có vẻ là một bước đi chiến lược.
  • Một số độc giả gọi MK-1 là một trò lừa khác của startup AI, chỉ trích việc nó dùng GGML, bị đóng, và đang tìm tiền từ VC.
  • Việc MK-1 không có mã nguồn mở và mang tính đóng là nhược điểm lớn, đến mức một số độc giả tuyên bố nó là một "người chết đuối".