- Một bài viết gần đây trên MIT Technology Review đã giới thiệu ý tưởng so sánh LLM cục bộ với Wikipedia sao lưu ngoại tuyến
- Bài viết trực tiếp đối chiếu kích thước tệp của các mô hình LLM chính trong thư viện Ollama với dung lượng của các gói Wikipedia ngoại tuyến do Kiwix cung cấp
- Tệp LLM và dữ liệu Wikipedia có mục đích, điểm mạnh và điểm yếu khác nhau nên khó so sánh đơn giản, nhưng xét theo dung lượng thì có những khác biệt thú vị
- Một số LLM (mô hình 1~4GB) còn lớn hơn Wikipedia tiếng Anh giản lược (khoảng 1GB), trong khi toàn bộ Wikipedia (57GB) lại lớn hơn các LLM cỡ lớn (20~32GB)
- Ngoài kích thước tệp, còn cần cân nhắc thực tế như yêu cầu bộ nhớ và CPU, và lựa chọn có thể khác nhau tùy theo mục đích sử dụng thực tế
So sánh LLM cục bộ và Wikipedia ngoại tuyến
Giới thiệu và lý do so sánh
- Gần đây, MIT Technology Review đã giới thiệu bài viết "How to run an LLM on your laptop"
- Bài viết nhấn mạnh rằng chạy LLM cục bộ cho phép tận dụng tri thức ngay cả trong môi trường ngoại tuyến
- Phép so sánh của Simon Willison rằng "LLM ngoại tuyến giống như một phiên bản tóm tắt, không hoàn chỉnh của Wikipedia; trong bối cảnh tận thế, chỉ cần có USB cũng có thể giúp khởi động lại xã hội" là một hình ảnh rất ấn tượng
So sánh kích thước mô hình và dữ liệu
- Bài viết so sánh kích thước tệp gói Wikipedia ngoại tuyến do Kiwix cung cấp với nhiều mô hình LLM trong thư viện Ollama
- Để so sánh, tác giả giới hạn ở các mô hình có thể chạy trên phần cứng tiêu dùng phổ thông và dữ liệu Wikipedia không có hình ảnh
- Kết quả so sánh chính như sau:
- Bản tóm tắt nhỏ nhất
- Best of Wikipedia (50.000 bài hàng đầu, bản tóm tắt): 356.9MB
- Simple English Wikipedia (bản tóm tắt): 417.5MB
- Các mô hình LLM tiêu biểu (nhỏ)
- Qwen 3 0.6B: 523MB
- Deepseek-R1 1.5B: 1.1GB
- Llama 3.2 1B: 1.3GB
- Các mô hình LLM tiêu biểu (cỡ vừa và lớn)
- Deepseek-R1 8B / Qwen 3 8B: 5.2GB
- Gemma3n e4B: 7.5GB
- Deepseek-R1 14B: 9GB
- Qwen 3 14B: 9.3GB
- Toàn bộ Wikipedia
- Wikipedia (toàn bộ): 57.18GB
- 50.000 bài viết hàng đầu của Wikipedia chỉ có 356.9MB, rất nhỏ gọn
- LLM nhỏ nhất (0.6B, Qwen) có dung lượng 523MB, lớn hơn bản tóm lược Wikipedia đơn giản
- Toàn bộ Wikipedia (57.18GB) lớn hơn rất nhiều so với LLM lớn nhất (20GB)
Giới hạn của phép so sánh và các điểm cần cân nhắc
- Khó so sánh trực tiếp: bách khoa toàn thư (dữ liệu) và LLM (mô hình sinh) về bản chất khác nhau về mục đích và cấu trúc
- Kích thước tệp không phải yếu tố duy nhất quan trọng: ngoài kích thước tệp, LLM còn đòi hỏi nhiều bộ nhớ và tài nguyên CPU khi chạy. Wikipedia ngoại tuyến dễ vận hành hơn trên thiết bị cấu hình thấp
- Tính hữu ích theo mục đích sử dụng thực tế: ví dụ có thể chỉ tải riêng lĩnh vực hóa học, hoặc dùng LLM được tối ưu cho phần cứng cụ thể
- Tính chủ quan trong tiêu chí lựa chọn: việc chọn các hạng mục để so sánh mang tính chủ quan
Kết luận và hàm ý
- 50.000 bài viết hàng đầu của Wikipedia và mô hình Llama 3.2 3B có mức dung lượng tệp tương tự nhau
- Các gói Wikipedia nhỏ nhất còn nhỏ hơn cả LLM nhỏ nhất, trong khi tệp Wikipedia đầy đủ lớn hơn LLM lớn nhất
- Trong môi trường có đủ dung lượng lưu trữ, cũng đáng cân nhắc tải cả LLM lẫn dữ liệu Wikipedia để sử dụng song song
1 bình luận
Ý kiến trên Hacker News
gpgkeyquahttp, khiến bảo mật bị thủng.wikipedia_en_all_maxi_2024-01.zim, định dùng libzim để trích xuất các trang và nối với LLM. File zim lưu các trang dưới dạng HTML và nặng khoảng 100GB. Lý do là tôi muốn ghép một danh sách game được lưu số lượng lớn trong HDD (chỉ có tiêu đề, không có phân loại riêng) với các bài viết Wikipedia để sắp xếp theo thể loại hoặc thông tin khác. Thử nghiệm cho thấy LLM (Mistral Small 3.2 quantized) ngạc nhiên là dọn được đống hỗn độn này khá tốt. Có thể chạy nhanh từ script tùy chỉnh bằng llama.cpp.