10 điểm bởi GN⁺ 2024-02-01 | 1 bình luận | Chia sẻ qua WhatsApp
  • Vào khoảng ngày 28/1, người dùng "Miqu Dev" đã đăng lên HuggingFace, nền tảng chia sẻ mô hình AI mã nguồn mở và mã nguồn, một bộ tệp mô hình ngôn ngữ lớn (LLM) mã nguồn mở mới có tên "miqu-1-70b"
  • Mô hình này sử dụng cùng "Prompt format" với Mixtral 8x7b do Mistral, công ty AI mã nguồn mở hiện được đánh giá là có hiệu năng tốt nhất, tạo ra
  • Cùng ngày, một người dùng ẩn danh đã đăng liên kết tới tệp miqu-1-70b trên 4chan
  • Một số người dùng cho biết mô hình này thể hiện hiệu năng vượt trội trong các tác vụ LLM thông thường và được cho là tiệm cận GPT-4 của OpenAI

Mistral lượng tử hóa?

  • Các nhà nghiên cứu machine learning (ML) trên LinkedIn đã bày tỏ sự quan tâm tới việc liệu "miqu" có nghĩa là "MIstral QUantized" hay không
  • Quantization là kỹ thuật thay thế các chuỗi số dài trong kiến trúc mô hình AI bằng các chuỗi ngắn hơn để mô hình có thể chạy trên máy tính và chip kém mạnh hơn
  • Arthur Mensch, đồng sáng lập kiêm CEO của Mistral, cho biết mô hình "Miqu" đã bị rò rỉ bởi một nhân viên quá nhiệt tình của một trong các khách hàng early access của Mistral
    • Mistral đã huấn luyện lại mô hình này từ Llama 2 và hoàn tất pretraining vào đúng ngày ra mắt Mistral 7B, sau đó đến nay vẫn đang đạt tiến triển tốt
  • Điều thú vị là thay vì yêu cầu gỡ bài đăng trái phép trên HuggingFace, Mensch lại để lại bình luận rằng "có thể cân nhắc ghi công tác giả"

Một thời khắc quan trọng của AI mã nguồn mở và xa hơn nữa?

  • Việc xuất hiện một mô hình mã nguồn mở có hiệu năng ở mức GPT-4 có thể là một thời khắc quan trọng không chỉ với AI tạo sinh mã nguồn mở mà còn với toàn bộ lĩnh vực AI và khoa học máy tính
  • OpenAI có thể vẫn duy trì lợi thế cạnh tranh với GPT-4 Turbo và GPT-4V (vision), nhưng cộng đồng AI mã nguồn mở đang nhanh chóng bắt kịp

Góc nhìn của GN⁺

  • Sự xuất hiện của mô hình "Miqu" cho thấy những khả năng mới trong lĩnh vực AI mã nguồn mở, có thể cạnh tranh với các sản phẩm AI thương mại
  • Sự việc này nhấn mạnh năng lực đổi mới của cộng đồng mã nguồn mở và tốc độ phát triển nhanh của công nghệ
  • Sự phát triển của các mô hình mã nguồn mở có thể làm thay đổi cách các doanh nghiệp ứng dụng AI, và điều này sẽ có tác động quan trọng trên toàn ngành công nghệ

1 bình luận

 
GN⁺ 2024-02-01
Ý kiến Hacker News
  • Một người dùng đang theo dõi trang của TheBloke và chờ có thể chạy mô hình lượng tử hóa Miqu Q5 trên MacBook của mình. Họ dùng Mixtral mỗi ngày, và nếu mô hình này (hoặc phiên bản chính thức mới) tiến gần đến GPT-4, họ sẽ hủy gói đăng ký OpenAI. Họ cho rằng đội ngũ nhỏ của Mistral đang vượt mặt các đối thủ, và đây mới là hình mẫu mà "Open"AI lẽ ra phải hướng tới.

    Tweet của CEO Mistral: Một nhân viên quá nhiệt tình của một trong các khách hàng được cấp quyền truy cập sớm đã làm rò rỉ một phiên bản lượng tử hóa của mô hình cũ (và có đóng watermark). Ngay khi có quyền truy cập vào toàn bộ cụm máy trong ngày phát hành Mistral 7B, họ đã tái huấn luyện mô hình này từ Llama 2, và kể từ đó đã đạt được nhiều tiến triển tốt.

  • Một người dùng nhận xét rằng dù đã hơn 1 năm kể từ khi GPT-4 ra mắt, nỗ lực tập thể nhằm bắt kịp GPT-4 mà không có bí quyết đặc biệt nào vẫn sẽ rất mệt mỏi. Nhất là khi biết rằng OpenAI có thể tung ra thứ gì đó tốt hơn rất nhiều vào bất cứ lúc nào.

  • Một người dùng khác chỉ ra về tuyên bố đã tiến gần đến GPT-4 rằng bảng xếp hạng cho thấy có khoảng cách lớn giữa GPT4-0314 và GPT4-Turbo, và nếu chỉ vừa mới tiệm cận GPT4-0314 thì vẫn còn chậm hơn trình độ tiên tiến hiện tại tới 1 năm.

  • Một người dùng khác nữa nói rằng mô hình bị rò rỉ này sẽ trở nên không còn quan trọng chỉ trong vài tháng. Sau khi mô hình chính thức được phát hành, các mô hình tốt hơn sẽ xuất hiện, và điều khiến họ hào hứng là tốc độ phát triển nhanh chứ không phải bản thân mô hình.

  • Một người dùng đặt câu hỏi vì sao mô hình này lại được gọi là mô hình mã nguồn mở. Đây là một mô hình độc quyền bị rò rỉ lên Internet, và sẽ vẫn như vậy cho đến khi Mistral chính thức phát hành nó. Về mặt sử dụng cá nhân thì họ không quá bận tâm, giống như với Llama 1, nhưng sẽ không có công ty nào dùng mô hình này.

  • Một người dùng khác nói rằng Mistral khiến họ nhớ đến những công ty công nghệ tuyệt vời của thời kỳ trước năm 2015.

  • Một người dùng tự hỏi chúng ta có thể hình dung thế nào về việc quay trở lại một thế giới nơi GPT trở nên giống như phiên bản mới nhất của Apache hay MySQL, với hàng triệu web host đang vận hành nó (xin lỗi, AI host).

  • Cuối cùng, một người dùng nhắc rằng GPT-4 đã được phát hành gần 1 năm trước, và tốc độ tung ra các công nghệ đột phá mới mỗi tháng của OpenAI có vẻ đã chững lại. Họ tự hỏi chuyện gì đang xảy ra ở OpenAI, liệu những hỗn loạn gần đây có gây chậm trễ cho công ty hay không, hay là họ đang phát triển một kiểu 'siêu vũ khí' nào đó.