Trọng số của các LLM quy mô lớn là một phần của lịch sử
(antirez.com)- Mỗi năm có rất nhiều trang web cũ biến mất, và đó là lịch sử bị mất đi vĩnh viễn
- Internet Archive là một trong những tài sản giá trị nhất của lịch sử hiện đại
- Tuy nhiên, nhiều doanh nghiệp và tổ chức đang khiến sự tồn tại và việc bảo tồn kho lưu trữ trở nên khó khăn hơn
- Việc trụ sở của Internet Archive nằm trong một tòa nhà nhà thờ cũ mang tính biểu tượng, và nơi đó nên được coi là một không gian thiêng liêng
- Những khoảng thời gian các lập trình viên đời đầu làm việc với hợp ngữ Z80, các cuộc thảo luận của thế hệ Internet đầu tiên, những tiểu văn hóa hình thành trong thập niên 90 đang dần biến mất
- Sự biến mất của blog cá nhân → hồ sơ về cuộc sống và ý thức của từng cá nhân cũng biến mất
- Các bài báo khoa học, nghệ thuật số, trò chơi điện tử, dữ liệu khí hậu, các nguồn tin tức thời kỳ đầu cũng đang dần biến mất
- Khi nhà xuất bản hoặc website biến mất, những thông tin này thường cũng biến mất vĩnh viễn
- Mọi nỗ lực nhằm bảo tồn toàn bộ thông tin nhiều khả năng sẽ thất bại trong thực tế
- Vì chi phí là rất lớn trong khi không có lợi ích kinh tế
- Thế giới hiện tại đang ở trong trạng thái khó đầu tư tài nguyên cho những việc không tạo ra tiền
- Khả năng nén thông tin của LLM (mô hình ngôn ngữ lớn) không hoàn hảo, nhưng ít nhất có thể đóng vai trò bảo tồn tối thiểu
- DeepSeek V3 đã được công khai và sử dụng như một phiên bản nén mất dữ liệu của Internet
- Không thể khôi phục mọi mất mát, nhưng chúng ta vẫn უნდა hỗ trợ những tổ chức như Internet Archive
- Đồng thời, một nhiệm vụ quan trọng là: bảo tồn để các trọng số LLM đã công khai không bị biến mất
- Cần bảo đảm rằng nội dung của Internet Archive được đưa vào các bộ dữ liệu tiền huấn luyện của LLM
2 bình luận
Ý kiến Hacker News
Thích tiêu đề "Big LLMs". Giờ đây người ta đang phân biệt LLM lớn và LLM nhỏ, và có lẽ cả LLM cỡ trung nữa. Tôi muốn đề xuất gọi là "Tall LLMs", "Grande LLMs", "Venti LLMs"
Internet Archive nên được xem là một trong những phần có giá trị nhất của lịch sử hiện đại. Tuy nhiên, nhiều doanh nghiệp và tổ chức đang ngày càng khiến việc tồn tại và tích lũy của các kho lưu trữ trở nên khó khăn hơn. Tôi hiểu vì sao trụ sở của kho lưu trữ lại nằm trong một nhà thờ cũ. Đó là cách hay nhất để nghĩ về nó như một nơi linh thiêng. Có những nỗ lực tích cực nhằm tạo ra một Internet Archive đặt tại châu Âu
Dự án llamafile của Mozilla được thiết kế để có thể lưu giữ LLM cho mục đích lịch sử. Họ cung cấp trọng số và toàn bộ phần mềm cần thiết dưới dạng một tệp thực thi đơn lẻ, có tính quyết định và không phụ thuộc. Nếu lưu trữ các llamafile, thì 50 năm sau bạn vẫn có thể nhận được cùng một đầu ra như hôm nay. Mong mọi người ủng hộ Mozilla để khoảnh khắc đặc biệt này được lưu trữ cho các thế hệ tương lai
Cũng như bản đồ không phải là lãnh thổ, bản tóm tắt không phải là nội dung hay cuốn sách thật trong thư viện. Nếu tôi muốn đọc một bài đăng, cuốn sách hay diễn đàn, thì tôi muốn đọc chính xác thứ đó, chứ không phải một bản sao do thuật toán toán học bí ẩn tạo ra
Nhớ những ngày xưa đẹp đẽ khi làm các bảng phim với liên kết poster phim bằng text-davinci. Nó thường tạo ra các URL hình ảnh trong bucket s3. Các liên kết luôn hoạt động
Tôi nghĩ việc không phải mọi thứ trên internet đều được lưu trữ mãi mãi là điều chấp nhận được. Ngày xưa, người ta viết trên giấy và phần lớn trong số đó không được lưu trữ. Đến một thời điểm nào đó, chúng просто biến mất. Tôi thừa kế từ ông bà nhiều hộp ghi chép, sách và tài liệu. Phần lớn không có ý nghĩa gì với tôi. Tôi đã phải vứt đi rất nhiều và chỉ giữ lại vài nghìn trang tài liệu đủ loại. Những thứ khác đã biến mất vĩnh viễn. Và điều đó có lẽ cũng không sao. Lưu trữ là cực kỳ quan trọng, nhưng phần khó nhất ngày nay là chọn cái gì để lưu trữ. Có quá nhiều nội dung được thêm lên internet mỗi giây, nên chỉ có thể lưu trữ một phần trong đó
Tôi tự hỏi liệu có thể dùng nhiều LLM khác nhau để tái dựng một phiên bản gần đúng của tập con chung phổ biến trong dữ liệu huấn luyện internet hay không. Không biết có ai biết tài liệu hay bài toán học nào về chuyện như vậy không
Điều này không có nhiều ý nghĩa với tôi. Tin đồn không có nguồn có giá trị lịch sử hạn chế, và phần lớn các mô hình trên web có thể dùng trọng số dường như đều dựa trên Common Crawl, nên có thể dùng cho mục đích lưu giữ
Tôi thích câu chuyện rằng LLM đang bảo tồn tri thức của con người. Cá nhân tôi mong mọi tri thức và thông tin đều dễ tiếp cận và dễ sử dụng. Tôi tin rằng đa số mọi người cũng có cảm giác như vậy, bất chấp những quyết định kinh doanh nhất quán của các chủ sở hữu bản quyền khi cố gắng thu phí mọi thứ hoặc giấu chúng sau đăng ký. Nhiều người ghét việc Google tổ chức thông tin của thế giới và phát triển nhờ quảng cáo, nhưng về lâu dài thông tin vẫn được tổ chức và lưu giữ dưới nhiều định dạng dữ liệu internet khác nhau. Sau cùng, chính Google là bên ban đầu thiết kế transformer, thứ đã làm cho trọng số LLM trở nên khả thi, và đó giờ cũng là một phần của lịch sử
Các bài báo khoa học và quy trình bị mất vĩnh viễn khi nhà xuất bản phá sản và website đóng cửa. Tôi không nghĩ các nhà xuất bản khoa học lớn sẽ phá sản (ít nhất là vào lúc này, trong thời đại của chúng ta). Họ rất giàu có
"Bản tóm tắt không phải là nội dung hay cuốn sách thực sự trong thư viện. Nếu muốn đọc bài viết, sách hoặc diễn đàn, tôi muốn đọc chính xác thứ đó, chứ không phải một bản mô phỏng được tạo ra bởi một thuật toán toán học thần bí"
Tôi đồng ý với điều này.