6 điểm bởi GN⁺ 2025-07-21 | 1 bình luận | Chia sẻ qua WhatsApp
  • Một bài viết gần đây trên MIT Technology Review đã giới thiệu ý tưởng so sánh LLM cục bộ với Wikipedia sao lưu ngoại tuyến
  • Bài viết trực tiếp đối chiếu kích thước tệp của các mô hình LLM chính trong thư viện Ollama với dung lượng của các gói Wikipedia ngoại tuyến do Kiwix cung cấp
  • Tệp LLM và dữ liệu Wikipedia có mục đích, điểm mạnh và điểm yếu khác nhau nên khó so sánh đơn giản, nhưng xét theo dung lượng thì có những khác biệt thú vị
  • Một số LLM (mô hình 1~4GB) còn lớn hơn Wikipedia tiếng Anh giản lược (khoảng 1GB), trong khi toàn bộ Wikipedia (57GB) lại lớn hơn các LLM cỡ lớn (20~32GB)
  • Ngoài kích thước tệp, còn cần cân nhắc thực tế như yêu cầu bộ nhớ và CPU, và lựa chọn có thể khác nhau tùy theo mục đích sử dụng thực tế

So sánh LLM cục bộ và Wikipedia ngoại tuyến

Giới thiệu và lý do so sánh

  • Gần đây, MIT Technology Review đã giới thiệu bài viết "How to run an LLM on your laptop"
  • Bài viết nhấn mạnh rằng chạy LLM cục bộ cho phép tận dụng tri thức ngay cả trong môi trường ngoại tuyến
  • Phép so sánh của Simon Willison rằng "LLM ngoại tuyến giống như một phiên bản tóm tắt, không hoàn chỉnh của Wikipedia; trong bối cảnh tận thế, chỉ cần có USB cũng có thể giúp khởi động lại xã hội" là một hình ảnh rất ấn tượng

So sánh kích thước mô hình và dữ liệu

  • Bài viết so sánh kích thước tệp gói Wikipedia ngoại tuyến do Kiwix cung cấp với nhiều mô hình LLM trong thư viện Ollama
  • Để so sánh, tác giả giới hạn ở các mô hình có thể chạy trên phần cứng tiêu dùng phổ thông và dữ liệu Wikipedia không có hình ảnh
  • Kết quả so sánh chính như sau:
    • Bản tóm tắt nhỏ nhất
      • Best of Wikipedia (50.000 bài hàng đầu, bản tóm tắt): 356.9MB
      • Simple English Wikipedia (bản tóm tắt): 417.5MB
    • Các mô hình LLM tiêu biểu (nhỏ)
      • Qwen 3 0.6B: 523MB
      • Deepseek-R1 1.5B: 1.1GB
      • Llama 3.2 1B: 1.3GB
    • Các mô hình LLM tiêu biểu (cỡ vừa và lớn)
      • Deepseek-R1 8B / Qwen 3 8B: 5.2GB
      • Gemma3n e4B: 7.5GB
      • Deepseek-R1 14B: 9GB
      • Qwen 3 14B: 9.3GB
    • Toàn bộ Wikipedia
      • Wikipedia (toàn bộ): 57.18GB
  • 50.000 bài viết hàng đầu của Wikipedia chỉ có 356.9MB, rất nhỏ gọn
  • LLM nhỏ nhất (0.6B, Qwen) có dung lượng 523MB, lớn hơn bản tóm lược Wikipedia đơn giản
  • Toàn bộ Wikipedia (57.18GB) lớn hơn rất nhiều so với LLM lớn nhất (20GB)

Giới hạn của phép so sánh và các điểm cần cân nhắc

  • Khó so sánh trực tiếp: bách khoa toàn thư (dữ liệu) và LLM (mô hình sinh) về bản chất khác nhau về mục đích và cấu trúc
  • Kích thước tệp không phải yếu tố duy nhất quan trọng: ngoài kích thước tệp, LLM còn đòi hỏi nhiều bộ nhớ và tài nguyên CPU khi chạy. Wikipedia ngoại tuyến dễ vận hành hơn trên thiết bị cấu hình thấp
  • Tính hữu ích theo mục đích sử dụng thực tế: ví dụ có thể chỉ tải riêng lĩnh vực hóa học, hoặc dùng LLM được tối ưu cho phần cứng cụ thể
  • Tính chủ quan trong tiêu chí lựa chọn: việc chọn các hạng mục để so sánh mang tính chủ quan

Kết luận và hàm ý

  • 50.000 bài viết hàng đầu của Wikipediamô hình Llama 3.2 3B có mức dung lượng tệp tương tự nhau
  • Các gói Wikipedia nhỏ nhất còn nhỏ hơn cả LLM nhỏ nhất, trong khi tệp Wikipedia đầy đủ lớn hơn LLM lớn nhất
  • Trong môi trường có đủ dung lượng lưu trữ, cũng đáng cân nhắc tải cả LLM lẫn dữ liệu Wikipedia để sử dụng song song

1 bình luận

 
GN⁺ 2025-07-21
Ý kiến trên Hacker News
  • Điểm mạnh của LLM không chỉ nằm ở việc lưu trữ hay truy xuất kiến thức mà ở khả năng hiểu; nó không chỉ là dữ liệu đơn thuần như Wikipedia mà còn có thể nắm bắt cả những câu hỏi mơ hồ hoặc thiếu chính xác, giải thích phù hợp với trình độ của người dùng và kết nối nhiều lĩnh vực với nhau. Trong bối cảnh phải khởi động lại xã hội, kiểu hiểu biết có tính tương tác này có thể còn giá trị hơn; không chỉ là một ảnh chụp kiến thức, mà là một công cụ giúp con người sử dụng và học từ nó.
    • Hình ảnh một chiếc máy tính không đáng tin được tôn thờ như thần thánh trong một xã hội tiền thông tin làm tôi nhớ đến một tập của Star Trek.
    • Tôi không chắc LLM có “giá trị hơn” hay không, nhưng chắc chắn là hữu ích. Tôi không thích lắm cách AI hiện nay đang được dùng; về bản chất nó giống như tự động hoàn thành được tăng cường. Dù vậy, nó hoạt động rất tốt như một công cụ tìm kiếm. Khi hỏi Copilot những câu ngắn, tôi thường nhận được câu trả lời khá ổn. Nhưng nếu hỏi những câu kỹ thuật rất sâu, nó lại nói nhảm khá nhiều. Luôn phải cảnh giác. Tôi từng yêu cầu tạo file repository cho CentOS, nhìn chung gần như hoàn hảo, nhưng nó lại đặt gpgkey qua http, khiến bảo mật bị thủng.
    • Lý tưởng nhất là nên tự mình đọc nguồn thông tin một cách phản biện thay vì dựa vào phần tóm tắt của người khác. Ai cũng được học điều này ở trường và đều đồng ý, nhưng rất ít người thực sự làm vậy. Sau khi tốt nghiệp, nhiều người có xu hướng chỉ tin vào các nguồn cấp ba. Tôi từng dùng LLM để tìm các xu hướng sử học gần đây của một chủ đề và tài liệu đáng tham khảo. Ngược lại, tôi cũng gặp nhiều biên tập viên Wikipedia phản ứng thù địch khi người ta nói Wikipedia không chính xác, và thực tế tôi đã nhiều lần bị dẫn sai nếu không tự kiểm tra tài liệu tham khảo.
    • Điều này giả định là vẫn còn máy tính hoặc điện thoại thông minh. In và lưu trữ Wikipedia hoặc vài cuốn sách có thể là một bản sao lưu an toàn hơn. Nhưng nếu xã hội thực sự phải khởi động lại, thì cũng có thể có ý nghĩa khi bắt đầu theo một cách hoàn toàn khác.
    • Tôi nghĩ phương án tốt nhất là kết hợp Wikipedia offline, các nguồn thông tin khác và một local LLM. Sẽ còn tốt hơn nếu LLM trả lời ngắn gọn và cung cấp các liên kết liên quan. Những LLM có chức năng tìm kiếm thường giải thích quá dài dòng; tốt hơn là cung cấp nhiều liên kết hơn để người dùng có thể đi đến đúng thông tin mình cần.
  • Câu “khởi động lại xã hội chỉ với một chiếc USB” chỉ là lời nói vu vơ trong lúc phỏng vấn, tôi không ngờ nó lại được đưa vào bài báo liên kết bài viết. Nhiều người nói việc chép Wikipedia vào USB là hợp lý, và tôi đồng ý. Bản dump của Wikipedia là MySQL, nhưng có lẽ chuyển sang SQLite và dùng FTS sẽ tiện hơn. USB trên 1TB giờ cũng rất dễ kiếm, nên gần như không cần lo về dung lượng lưu trữ.
    • Có lẽ sẽ có người lập công ty bán những chiếc USB được nạp sẵn loại kiến thức này. Nếu còn kèm cả hộp chống xung điện từ thì trong thảm họa thực tế có thể rất hữu ích. Theo tôi, thứ có giá trị bảo tồn cao nhất là thông tin về rủi ro thảm họa quy mô lớn. Vì vấn đề bản quyền nên không thể chép những cuốn như ‘Global Catastrophic Risks’, nhưng các trang web liên quan thì có lẽ có thể crawl được.
    • Tôi đã mang theo bản dump Wikipedia local trên điện thoại hoặc PDA hơn 10 năm nay (5 năm gần đây còn có cả ảnh). Không chỉ để phòng thảm họa mà còn thường xuyên hữu ích khi offline. Gần đây các model như LLM đã thực sự trở nên rất hữu dụng, nên tôi kỳ vọng việc kết hợp model local với Wikipedia theo kiểu RAG sẽ tạo ra hiệu ứng cộng hưởng.
    • Trích lại một bình luận cũ: toàn bộ sách đã được số hóa vào khoảng 30TB, nếu nén lại thì khoảng 5.5TB, tức là chứa vừa trong 3 thẻ microSD 2TB. Với khoảng 750 USD là có thể mang cả kho đi được.
    • Thực ra không cần phải dùng SQL, cứ dùng Kiwix là được.
    • Tôi hơi khó chịu với cách bài báo mở đầu quá khoa trương. Cảm giác như nhà báo lúc nào cũng thích đóng khung các công cụ theo kiểu quá hùng tráng, nghe khá kỳ.
  • Tôi vừa mới bắt đầu tải wikipedia_en_all_maxi_2024-01.zim, định dùng libzim để trích xuất các trang và nối với LLM. File zim lưu các trang dưới dạng HTML và nặng khoảng 100GB. Lý do là tôi muốn ghép một danh sách game được lưu số lượng lớn trong HDD (chỉ có tiêu đề, không có phân loại riêng) với các bài viết Wikipedia để sắp xếp theo thể loại hoặc thông tin khác. Thử nghiệm cho thấy LLM (Mistral Small 3.2 quantized) ngạc nhiên là dọn được đống hỗn độn này khá tốt. Có thể chạy nhanh từ script tùy chỉnh bằng llama.cpp.
    • Thực ra với kiểu tác vụ liên kết game-Wiki như thế này thì truy vấn Wikidata dễ hơn nhiều. Thậm chí nó còn có thể bao gồm cả những game chưa có trên Wikipedia tiếng Anh.
    • Chính những chia sẻ kinh nghiệm kỹ thuật kiểu này mới là lý do thực sự khiến tôi đọc HN. Việc ai đó chia sẻ thứ họ tự mày mò làm ra với đủ chi tiết khiến nó rất mới mẻ. Tôi cũng đang tự làm LLM, nhưng đây là lần đầu tiên tôi thấy một ví dụ hữu ích như vậy, nên có lẽ còn phải học thêm. Cảm ơn vì thông tin hay.
  • Bản dump Wikipedia, dump arXiv và mã nguồn mở chủ yếu là code có thể chạy được cùng thông tin đáng tin cậy, rẻ và dễ tìm kiếm. Các ứng dụng FOSS có thể dùng ngay, còn wiki giúp giới thiệu hoặc hệ thống hóa chủ đề. Trong khi đó, LLM, đặc biệt là các model nhỏ, lại bịa ra kết quả; nhưng nó vẫn cố trả lời cả những câu hỏi không gọn gàng, và (đôi khi) còn có thể tự đọc rồi tóm tắt từ một khối lượng lớn tài liệu gốc. Trong môi trường làm việc offline, tôi cảm thấy tốt nhất là tận dụng tối đa các thư viện đã tồn tại, và tôi cũng có thể hình dung ra các trường hợp dùng LLM như trợ lý lập trình. Tuy nhiên tôi chưa có kinh nghiệm dùng model local; nghe nói trong benchmark thì Qwen3 32B có thể hỗ trợ code tốt, nên có lẽ sau này sẽ hữu dụng.
  • Một trong những điểm mạnh ít được nhắc tới của LLM là khả năng tận dụng tri thức không bị giới hạn bởi ngôn ngữ. Wikipedia tiếng Anh có phần lớn nội dung, nhưng nhiều ngôn ngữ khác thì không như vậy. Cũng có những thông tin không có trên Wikipedia tiếng Anh nhưng lại có ở Wikipedia ngôn ngữ khác. LLM có thể gom tất cả những thứ đó lại và cho phép truy cập bằng nhiều ngôn ngữ khác nhau.
  • Các công ty AI đã chưng cất toàn bộ web vào LLM để tạo ra máy tính thông minh, vậy tại sao con người lại không thể đưa cả phần có bản quyền vào để tạo ra một Wikipedia siêu hạng mới? Tôi tự hỏi vì sao bọn trẻ lại kém hơn các công ty AI đến mức không làm được chuyện đó.
    • Đó thật ra là điều chúng ta từng làm, chỉ là dạo này bách khoa toàn thư không còn bán chạy nữa.
    • Đó chính là thư viện.
  • Tôi muốn nhắc tới Wikipedia Monthly, một bản dump Wikipedia hàng tháng: tổng cộng 205GB cho 341 ngôn ngữ, riêng tiếng Anh là 24GB. Nó được chuyển từ MediaWiki markup sang văn bản sạch nên rất phù hợp cho lập chỉ mục local hoặc nhiều mục đích sử dụng khác. Tôi cảm thấy Simple English Wikipedia có nội dung nông và không đủ chính xác. Liên kết blog Wikipedia Monthly
  • Điều đáng tiếc là trong các cuộc thảo luận về độ hữu ích của LLM luôn thiếu những cách dùng cụ thể theo từng tình huống. Trước khi LLM xuất hiện, trong truy hồi thông tin và machine learning đã có các tiêu chuẩn nghiêm ngặt cùng bộ đánh giá rõ ràng; nhưng đến hiện tại, dù LLM đã trở nên đa dụng hơn và có thể giải quyết nhiều loại bài toán hơn, tôi vẫn thấy khá lạ khi chưa có nhiều benchmark thực tế giữa LLM và các phương pháp khác. Cũng có thể là tôi không theo sát giới nghiên cứu nên bỏ sót.
  • Có rất nhiều tranh cãi về việc LLM cung cấp thông tin không chính xác, nhưng tôi cho rằng cấu hình tốt nhất cho một ‘cơ sở dữ liệu truy vấn thông tin ngày tận thế’ lý tưởng là LLM + kho lưu trữ file. Bước 1: LLM hiểu câu hỏi mơ hồ của con người và cung cấp danh sách các khái niệm cốt lõi cùng các liên kết như bài viết Wikipedia liên quan. Bước 2: người dùng có thể tự xác minh thông tin có độ tin cậy cao trực tiếp từ các tài liệu được cung cấp.
    • Dù là một người cực kỳ bi quan, tôi vẫn nghĩ LLM có thể dùng tốt như công cụ chuyển văn bản của con người thành từ khóa tìm kiếm. Lý tưởng nhất là dùng nó như cố vấn hoặc gia sư hơn là người trung gian. Cuối cùng, điều quan trọng là người dùng phải vượt qua được những giới hạn của nó.
  • Những model có tên kiểu “$1-distill-$2” (đôi khi không có “-distill”) là kết quả của “knowledge distillation”, tức model $2 được huấn luyện bằng đầu ra của $1, nên trái với cái tên, nó không phải chính $1. Những model như “Deepseek-R1 1.5B” được nhắc trong bài thực ra không hề tồn tại theo đúng nghĩa đó, mà là kiểu như vậy.