1 điểm bởi GN⁺ 2026-02-21 | 1 bình luận | Chia sẻ qua WhatsApp
  • Để bảo đảm sự phát triển bền vững của hệ sinh thái AI cục bộ, ggml.ai, đội ngũ sáng lập llama.cpp, đã gia nhập Hugging Face
  • ggmlllama.cpp sẽ tiếp tục được vận hành theo định hướng mã nguồn mở, lấy cộng đồng làm trung tâm, và đội ngũ sẽ duy trì, hỗ trợ toàn thời gian
  • Hugging Face có kế hoạch bảo đảm tính bền vững dài hạn của dự án, đồng thời tập trung cải thiện trải nghiệm người dùng và khả năng tích hợp với transformers
  • Thông qua hợp tác, hai bên sẽ nâng cao khả năng tiếp cận và sự thuận tiện khi triển khai suy luận cục bộ (Local Inference), đồng thời tăng cường hỗ trợ cho nhiều kiến trúc mô hình khác nhau
  • Hai bên cùng chia sẻ tầm nhìn dài hạn về việc xây dựng siêu trí tuệ (superintelligence) mã nguồn mở theo cách mà mọi người trên toàn thế giới đều có thể tiếp cận

Thông báo ggml.ai gia nhập Hugging Face

  • ggml.ai là đội ngũ sáng lập llama.cpp, và đã gia nhập Hugging Face để giữ cho tương lai của AI thực sự mở
    • Mục tiêu là mở rộng và hỗ trợ cộng đồng ggmlllama.cpp, đồng thời thúc đẩy sự tăng trưởng bền vững của AI cục bộ
  • Dự án ggml-org sẽ tiếp tục được duy trì theo đúng định hướng mã nguồn mở và do cộng đồng dẫn dắt như trước
  • Đội ngũ ggml sẽ duy trì và quản lý toàn thời gian ggml, llama.cpp và các dự án mã nguồn mở liên quan
  • Quan hệ đối tác mới sẽ bảo đảm tính bền vững dài hạn của dự án và mang đến những cơ hội mới cho người dùng cũng như người đóng góp
  • Dự kiến sẽ nâng cao chất lượng hỗ trợ mô hình thông qua việc cải thiện tích hợp với thư viện transformers của Hugging Face

Bối cảnh và tiến trình hợp tác

  • Kể từ khi được thành lập vào năm 2023, ggml.ai đã hỗ trợ phát triển và thúc đẩy việc áp dụng thư viện học máy ggml
  • Trong 3 năm qua, một đội ngũ nhỏ đã phát triển cộng đồng mã nguồn mở và đưa ggml trở thành tiêu chuẩn cho suy luận AI cục bộ hiệu quả
  • Trong quá trình đó, Hugging Face là đối tác hợp tác mạnh mẽ nhất
    • Các kỹ sư của HF đã đóng góp các tính năng cốt lõi cho ggmlllama.cpp, bổ sung hỗ trợ đa phương thức, tích hợp Inference Endpoints, cải thiện khả năng tương thích định dạng GGUF và nhiều hơn nữa
  • Sự hợp tác giữa hai bên đã rất hiệu quả, và toàn bộ cộng đồng đều hưởng lợi; việc gia nhập lần này là sự chính thức hóa mối quan hệ hợp tác

Thay đổi đối với dự án mã nguồn mở và cộng đồng

  • Cách vận hành của ggmlllama.cpp không thay đổi
    • Đội ngũ sẽ tiếp tục tận tâm duy trì dự án, còn cộng đồng vẫn giữ quyền tự chủ trong các quyết định kỹ thuật và cấu trúc
  • Hugging Face sẽ cung cấp nguồn lực bền vững để gia tăng tiềm năng phát triển của dự án
  • Dự án sẽ tiếp tục giữ 100% mã nguồn mở, đồng thời tốc độ hỗ trợ lượng tử hóa (quantization) sau khi mô hình được phát hành cũng được kỳ vọng cải thiện

Trọng tâm kỹ thuật

  • Mục tiêu chung trong thời gian tới được xác định theo hai hướng cốt lõi
    • Tích hợp một cú nhấp với Hugging Face transformers
      • transformers đã trở thành tiêu chuẩn để định nghĩa mô hình AI, và việc cải thiện khả năng tương thích giữa hai hệ sinh thái là yếu tố thiết yếu để mở rộng hỗ trợ mô hình và quản lý chất lượng
    • Cải thiện đóng gói phần mềm và trải nghiệm người dùng của phần mềm dựa trên ggml
      • Khi suy luận cục bộ nổi lên như một lựa chọn thay thế cho suy luận đám mây, cần đơn giản hóa việc triển khai mô hình và khả năng tiếp cận đối với người dùng phổ thông
      • Mục tiêu là biến llama.cpp thành một nền tảng phổ quát có thể dùng ở mọi nơi

Tầm nhìn dài hạn

  • ggml.ai và Hugging Face cùng đặt mục tiêu xây dựng siêu trí tuệ (superintelligence) mã nguồn mở theo cách mà mọi người trên toàn thế giới đều có thể tiếp cận
  • Hai bên sẽ tiếp tục phát triển ngăn xếp suy luận hiệu quả cùng với cộng đồng AI cục bộ để đạt hiệu năng tối đa ngay cả trên thiết bị cá nhân

Phản ứng từ cộng đồng

  • Các thành viên của cộng đồng Hugging Face và ggml đã để lại nhiều lời nhắn chúc mừng và kỳ vọng
    • Những phản hồi tích cực như “một bước tiến lớn cho hệ sinh thái AI cục bộ”, “tin tức quan trọng đối với hệ sinh thái AI mở”
  • Một số người dùng yêu cầu giải thích rõ hơn về tính độc lập của dự án và quyền sở hữu mã nguồn
  • Một số ý kiến khác cũng bày tỏ lo ngại về sự thay đổi thẩm quyền pháp lý do doanh nghiệp tiếp quảntính minh bạch của mã nguồn mở
  • Nhìn chung, cộng đồng đánh giá sự hợp tác này là nền tảng cho tăng trưởng bền vững của AI cục bộ

1 bình luận

 
GN⁺ 2026-02-21
Ý kiến trên Hacker News
  • Tôi nghĩ HuggingFace mới là “Open AI” theo đúng nghĩa
    Tôi xem họ là một trong số ít những người hùng thầm lặng đã phổ biến AI on-premises tới đại chúng
    Tôi còn nhớ thời chi phí traffic từng rất đắt đỏ, nên việc họ host miễn phí nhiều model như vậy thật đáng kinh ngạc
    Mong là họ có một mô hình kinh doanh bền vững. Hệ sinh thái này sẽ nghèo nàn hơn rất nhiều nếu thiếu họ
    Để chạy Kimi hay GLM nội bộ thì vẫn cần phần cứng có hiệu năng/giá tốt, nhưng ít nhất phần weights và phân phối đã được giải quyết

    • Unsloth cũng nên được tính là một trong những người hùng thầm lặng như vậy
      Tài liệu rất xuất sắc, và họ nhanh chóng cung cấp quant chất lượng cao ở các định dạng chính. Tôi thấy đây là một thương hiệu đáng tin cậy
    • Tôi không thể tưởng tượng nổi HF phải xử lý bao nhiêu traffic
      Tôi thường xuyên tải các model cỡ hàng trăm GB, và đó là một dịch vụ khổng lồ cho cộng đồng AI có chủ quyền
    • Nếu stream weights từ SSD và mở rộng KV cache bằng swap thì tuy chậm nhưng gần như có thể chạy trên mọi thiết bị
      Nếu dùng cho các tác vụ chạy qua đêm thì vẫn đủ thực dụng, và càng tăng tài nguyên tính toán thì càng tốt hơn
    • Tôi không hiểu vì sao họ không hỗ trợ BitTorrent
      Có hf-torrent hay hf_transfer, nhưng chúng không dễ tiếp cận bằng các link dùng trực tiếp trong web UI
    • Torrent đúng là trường hợp sử dụng hoàn hảo, nên tôi vẫn thắc mắc vì sao họ không dùng
  • Không thể đánh giá thấp ảnh hưởng của Georgi Gerganovllama.cpp đối với hệ sinh thái model cục bộ
    Vào tháng 3/2023, họ đã khởi đầu cuộc cách mạng bằng việc chạy LLaMA trên laptop tiêu dùng
    Khi đó trong README có viết rằng “mục tiêu là chạy model trên MacBook với lượng tử hóa 4-bit”
    Cũng như Hugging Face đã quản lý Transformers rất tốt, tôi kỳ vọng GGML sẽ đi theo con đường tương tự
    Bài liên quan được tổng hợp ở đây

    • Tôi thắc mắc vì sao bình luận của bạn lúc nào cũng được ghim ở đầu
  • Thật đáng ngạc nhiên khi HuggingFace tạo ra nhiều ảnh hưởng tích cực đến thế cho thế giới mà vẫn kiếm được tiền
    Tôi tò mò mô hình kinh doanh của họ vững đến đâu, có bền vững dài hạn không, và liệu một lúc nào đó có khả năng “bị bán đi” không

    • Bài FT gần đây “Why AI start-up Hugging Face turned down a $500mn Nvidia deal” khá đáng tham khảo
      Link bài viết
    • Mô hình kinh doanh về cơ bản khá giống GitHub
      Xây cộng đồng miễn phí rồi bán phiên bản riêng tư cho doanh nghiệp. Họ đã có lãi rồi
    • Họ cũng có hosting trả phí (enterprise) và dịch vụ tư vấn
      Tôi nghĩ nền tảng của họ khá vững
    • Tôi khó mà tin vào câu “sẽ không bao giờ bị bán”
      Việc các nhà đầu tư như AMD, Nvidia, Intel, IBM, Qualcomm chiến đấu vì quyền tự chủ của người dùng nghe cũng khá mỉa mai
    • Trước đây tôi từng dùng HuggingFace vì một tutorial, lúc đăng ký họ yêu cầu thông tin thẻ và một tháng sau thì gửi hóa đơn
      Tôi không biết đó là phí cho dịch vụ nào nên đã hủy tài khoản. Quy trình thanh toán thiếu minh bạch này khá khó chịu
  • HuggingFace là GOAT thầm lặng của lĩnh vực AI
    Cộng đồng và nền tảng của họ đều tuyệt vời

    • Thật ngạc nhiên khi họ có thể tạo ra một nền tảng mở mà không dùng mánh khóe mập mờ mà vẫn kiếm được tiền
  • Tôi mong câu “cộng đồng sẽ được vận hành tự chủ và duy trì 100% mã nguồn mở” là sự thật
    Nhưng cuối cùng rất có thể lợi ích kinh doanh sẽ thắng thế
    Llama.cpp đã trở thành tiêu chuẩn thực tế cho suy luận cục bộ, và rất nhiều dự án phụ thuộc vào nó
    Nếu một công ty cụ thể kiểm soát nó, họ sẽ kiểm soát toàn bộ hệ sinh thái LLM cục bộ
    Hugging Face hiện giờ có vẻ tốt, nhưng Google ngày xưa cũng từng như vậy
    Để tránh hiệu ứng khóa chặt (lock-in), cần một tổ chức phi lợi nhuận độc lập quản lý hoặc cần các dự án cạnh tranh

    • Llama.cpp là mã nguồn mở nên ai cũng có thể fork
      “Kiểm soát” chỉ dừng ở mức hỗ trợ phát triển một số tính năng cụ thể
  • Thật sự biết ơn đội ngũ ggml vì đã công khai công nghệ lượng tử hóa cho mọi người
    Nỗ lực của họ đã tạo ra thay đổi lớn

  • Từ năm 2023 tôi đã tài trợ ggml/llama.cpp/Georgi qua GitHub, và giờ tôi vui vì có vẻ họ đã tìm được một mái nhà tốt
    Vì vậy tôi định ngừng tài trợ

  • Sự kết hợp giữa HuggingFace và GGML trông như một cặp đôi hoàn hảo
    Tôi thậm chí còn nghĩ chuyện này lẽ ra nên xảy ra sớm hơn
    Bây giờ đang là giai đoạn thung lũng của AI cục bộ, nhưng tôi kỳ vọng nó sẽ bùng nổ trong 2~3 năm tới

    • Thực ra HuggingFace đã hỗ trợ dự án này rất nhiều từ trước
      Các thành viên HF như @ngxson là những người đóng góp chủ chốt cho llama.cpp
  • Tôi đang tìm cách chạy model hiệu quả bằng Docker trên các hệ thống cấu hình thấp như MacBook M1 8GB
    Các model như Cybersecurity-BaronLLM trông rất hay, nhưng cuối cùng laptop của tôi chỉ biến thành cái lò sưởi
    Có phải tôi cần mua phần cứng mạnh hơn không?

    • Với 8GB thì suy luận phức tạp sẽ khó, nhưng model nhỏ thì vẫn được
      Tôi khuyên dùng các model như Whisper, SmolVLM, Phi-3-mini, Gemma3
      Xem ví dụ home-llm
      Trên Mac thì dùng Ollama hoặc MLX sẽ ổn, và có thể dựng VM bằng Docker Desktop hay Colima
      8GB thì được khoảng 5~10 token/giây, còn 32GB thì khoảng 50 token. Vậy nên vấn đề là thiếu RAM
    • Cuối cùng thì vẫn cần một hệ thống đủ mạnh
      Hoặc dùng model nhỏ hay model đã lượng tử hóa, hoặc mua hay thuê phần cứng mạnh hơn
      Cũng có thể bắt đầu với LM Studio thay vì Docker
    • Với 8GB thì vẫn có thể chạy model 32B bằng lượng tử hóa mạnh ở mức 2bit
      Không hoàn hảo, nhưng tôi nghĩ vẫn tốt hơn là ít tham số hơn
    • Những câu hỏi kiểu này sẽ được trả lời tốt hơn ở r/LocalLLM
    • Với 8GB bạn vẫn có thể chạy các model gguf rất nhỏ trên CPU bằng llamafile
      Chậm và chất lượng thấp, nhưng vẫn làm được
  • Tôi đang nghĩ xem làm sao để thực tế tham gia vào phát triển AI
    Ở công ty tôi chỉ dùng Copilot nên cảm giác khá tách biệt khỏi hệ sinh thái phát triển AI
    Tôi có nền tảng full-stack Java/React và cũng biết chút Python
    Tôi đang phân vân giữa việc tự học LLM from scratch, học Google ML Crash Course hay lấy chứng chỉ Nvidia
    Muốn xin lời khuyên

    • Nếu mục tiêu chưa rõ ràng, tốt nhất là tự làm một dự án nhỏ mà bạn thấy hứng thú
      Đừng bắt đầu bằng LLM ngay từ đầu, hãy khởi đầu nhỏ ở lĩnh vực bạn quan tâm như đồ họa chẳng hạn
    • Tôi khuyên nên học fine-tune model hoặc knowledge distillation
      Unsloth có các hướng dẫn Colab miễn phí được sắp xếp rất tốt