Internet Archive lưu trữ 1 nghìn tỷ trang web

(blog.archive.org)

4 điểm bởi GN⁺ 2025-10-07 | 1 bình luận | Chia sẻ qua WhatsApp

Internet Archive vận hành Wayback Machine đã đạt cột mốc lịch sử bảo tồn 1 nghìn tỷ trang web trên toàn thế giới
Bắt đầu từ năm 1996, dự án này là một nỗ lực hợp tác nhằm gìn giữ ký ức tập thể của web, lưu trữ nhiều loại nội dung như tin tức, blog và trang chủ cá nhân
Để kỷ niệm sự kiện này, trong suốt tháng 10 sẽ diễn ra chuỗi sự kiện như hòa nhạc, tọa đàm, diễn đàn và ngày mở cửa tại San Francisco và trực tuyến
Các sự kiện có sự tham gia của những người tiên phong Internet như cha đẻ web Tim Berners-Lee, nhà sáng lập Internet Archive Brewster Kahle và Vint Cerf của Google
Thành tựu này mang ý nghĩa nhắc lại giá trị của việc gìn giữ hồ sơ tập thể trong kỷ nguyên số, đồng thời là dịp cùng thảo luận về tương lai của một web tự do và cởi mở

Ý nghĩa của cột mốc 1 nghìn tỷ trang của Internet Archive

Từ năm 1996, Wayback Machine tự động thu thập và lưu trữ các website trên toàn thế giới để bất kỳ ai cũng có thể khám phá web trong quá khứ
Việc đạt 1 nghìn tỷ bản lưu lần này là một bước tiến lớn hướng tới mục tiêu “thư viện chung về lịch sử trực tuyến của nhân loại”
Dự án được duy trì nhờ hợp tác toàn cầu với các thư viện, tổ chức nghiên cứu và những tình nguyện viên cá nhân
Kho lưu trữ này gìn giữ các dấu vết trên web có thể biến mất như tiêu đề tin tức, blog, diễn đàn và trang chủ cá nhân thành ký ức số cho các thế hệ tương lai

Lịch sự kiện kỷ niệm trong tháng 10

7 tháng 10 — The Vast Blue We: Del Sol Quartet at the Internet Archive

Tại trụ sở ở San Francisco sẽ diễn ra buổi biểu diễn tôn vinh quy mô to lớn của sự hợp tác giữa con người với phần trình diễn âm nhạc của Del Sol Quartet
Dự kiến biểu diễn các tác phẩm mới do Erika Oba và Sam Reider sáng tác
- Thể hiện bằng âm nhạc vẻ đẹp của sự hợp tác trên web được tạo nên từ hành động của hàng tỷ cá nhân
Quảng cáo

9 tháng 10 — Tọa đàm giữa Sir Tim Berners-Lee và Brewster Kahle

Cuộc thảo luận giữa Sir Tim Berners-Lee, người sáng lập World Wide Web, và Brewster Kahle, nhà sáng lập Internet Archive
Bàn về nhiều chủ đề như sự phát triển của Internet, thay đổi xã hội và vai trò của Internet Archive
Được cấu thành như một cuộc trò chuyện chuyên sâu về sự phát triển liên tục của Internet và các vấn đề tương lai
Diễn ra tại Commonwealth Club ở San Francisco và phát trực tiếp trực tuyến

16 tháng 10 — Library Leaders Forum 2025 (trực tuyến)

Chia sẻ các dịch vụ thư viện mới của Internet Archive và các tổ chức đối tác cùng tình hình các dự án hiện có
Các lãnh đạo thư viện trên toàn thế giới sẽ tham gia thảo luận về tương lai của bảo tồn số và hỗ trợ nghiên cứu
Giới thiệu các dịch vụ mới và các trường hợp hỗ trợ nghiên cứu của Internet Archive

21 tháng 10 — Doors Open 2025: tham quan kho lưu trữ vật lý

Mở cửa cho công chúng xem môi trường lưu trữ thực tế của sách, nhạc, video và phim trong kho lưu trữ vật lý đặt tại Richmond, California
Trình diễn quy trình lưu trữ hiện vật như sách, nhạc, phim và microfiche
Cơ hội trực tiếp quan sát toàn bộ vòng đời của tài liệu vật lý, từ quyên tặng, bảo tồn, số hóa đến khả năng tiếp cận

22 tháng 10 — The Web We’ve Built: 1 Trillion Celebration

Sự kiện kỷ niệm chính thức việc Wayback Machine đạt 1 nghìn tỷ trang web
Đồng thời tổ chức tiệc phát trực tuyến toàn cầu tại trụ sở San Francisco
Với chủ đề “bảo tồn 1 nghìn tỷ ký ức, khoảnh khắc và chuyển động”,
sự kiện tôn vinh giá trị của web công khai và sức mạnh của hồ sơ tập thể

27 tháng 10 — Wayback to the Future: Celebrating the Open Web

Được tổ chức tại Riggs Library của Đại học Georgetown ở Washington D.C.
Foundation for American Innovation, Massive Data Institute, Internet Archive đồng tổ chức
Vừa nhìn lại giá trị của web trong quá khứ khi còn cởi mở và giàu tính thử nghiệm, vừa thảo luận về tính bền vững của hệ sinh thái Internet tự do và tương lai của web trong bối cảnh hiện nay đang có xu hướng tập trung hóa và khép kín
Có sự tham gia của các diễn giả như Vint Cerf(Google), Cindy Cohn(EFF) và Jon Stokes(Ars Technica)

Tương lai của ký ức số

Việc lưu trữ 1 nghìn tỷ trang web mang ý nghĩa vượt xa một con số đơn thuần
Dữ liệu này giúp Wayback Machine trở thành một nguồn lực công cốt lõi trong nhiều lĩnh vực như các trường hợp nhập cư, lịch sử cá nhân, nghiên cứu học thuật và báo chí điều tra
Internet Archive sẽ tiếp tục theo đuổi tầm nhìn về “một thư viện web công cộng mà mọi người đều có thể truy cập”
Cột mốc 1 nghìn tỷ trang không phải điểm kết thúc mà là một điểm khởi đầu mới,
và các cuộc thảo luận về cách tiếp cận và lưu giữ thông tin trong kỷ nguyên AI cũng sẽ tiếp tục
Brewster Kahle nhấn mạnh: “Web mà chúng ta cùng tạo ra là một kho tư liệu khổng lồ của trí tuệ tập thể,
và gìn giữ nó là trách nhiệm của nhân loại”

1 bình luận

GN⁺ 2025-10-07

Ý kiến Hacker News

Nếu có một điều tôi mong muốn thì đó là một mạng lưới mirror ngang hàng cho archive.org; ứng dụng web của IA có xu hướng nhanh chóng bị giới hạn truy cập khi bạn cố nhấp qua nhiều mốc ngày, nên sẽ rất tuyệt nếu nội dung của archive.org có thể được mirror phân tán chậm theo kiểu torrent, để xuất hiện như một nguồn thay thế nơi người dùng có thể chọn lọc kiểm tra và xác minh dữ liệu; hiện tại tôi đang vận hành kho lưu trữ riêng bằng ArchiveBox nhưng chỉ dùng cho nhu cầu cá nhân của mình; đa số trường hợp tôi vẫn dùng IA, vì ở đó có lượng tư liệu khổng lồ
- Archive Team từng thực hiện một dự án sao lưu phân tán một phần của Internet Archive, tách biệt với chính Internet Archive; có thể xem chi tiết và tiến độ tại wiki dự án INTERNETARCHIVE.BAK, nhưng gần đây đang ở trạng thái tạm dừng
- Tôi chắc chắn đã trải nghiệm việc web archive có thể chậm khủng khiếp; có vẻ các AI scraper cũng tạo ra nút thắt băng thông; một số kho lưu trữ số chỉ cho phép truy cập nếu có tài khoản nhà khoa học riêng như Common Crawl; vì lượng dữ liệu quá lớn và mục tiêu lưu trữ cũng rất tham vọng, họ không chỉ lưu Internet mà còn lưu cả chiều thời gian; dữ liệu nhiều đến mức việc duyệt hoặc tìm kiếm trở nên cực kỳ khó, thực tế gần như không dùng được; vì vậy tôi đã tự làm dự án liên kết metadata Internet-Places-Database để lấy thông tin domain
- Trước đây khi làm một dự án scraping, tôi đã thử tìm các snapshot cũ và nhận ra việc trích xuất thông tin từ Internet Archive khó hơn tôi tưởng rất nhiều; dùng pywaybackup thì thấy khá hơn hẳn
- Tôi thắc mắc vì sao IA không vận hành một instance IPFS, hoặc có vận hành mà không mấy phổ biến; hiện đã có khá nhiều dịch vụ mirror IPFS chạy rất nhanh; một trong những vấn đề tôi từng gặp với IA là các website rất cũ đôi khi không render đúng do lỗi JS hoặc CSS; tôi cũng nghĩ liệu có cách nào sửa hồi tố những thứ đó không; nếu có thể xuất toàn bộ mã khả dụng tại thời điểm đó thì có lẽ sẽ khôi phục site hoàn chỉnh hơn; sẽ thật tuyệt nếu khi nhấp vào một domain trên IA, một desktop client có thể từ từ tải các file WAR theo hàng đợi ưu tiên thấp bao nhiêu tùy thích, để có thể xem hoàn chỉnh ngay cả khi ngoại tuyến
- Tôi từng hình dung ra một hệ thống để “quyên góp” dung lượng lưu trữ dư thừa cho archive.org; bạn chạy một client và nói rằng mình sẽ cung cấp 1TB, rồi máy chủ sẽ gửi nội dung hiếm nhất vào máy tính của bạn; nó dựa trên torrent, và phía trên còn có thể đặt thêm một hệ thống truyền nội dung dễ dùng; cũng có thể dùng theo kiểu lấy dữ liệu từ chính mạng này; tôi đã gửi email cho vài đội archive nhưng không ai tỏ ra quan tâm nên cuối cùng không làm
Tôi đang điều hành nhóm datacenter/infrastructure tại Internet Archive; tôi muốn mời mọi người tham gia tất cả các sự kiện diễn ra vào mùa thu này; nếu giá vé là gánh nặng thì hãy gửi email cho tôi (xem hồ sơ), tôi sẽ cố gắng hết sức để tạo cơ hội tham gia cho mọi người
- Tôi tò mò không biết nhóm IA tổ chức các sự kiện phân tán trên toàn cầu hay là mọi người tụ họp ở SF, và xin cảm ơn vì các bạn thực sự đang làm một công việc quan trọng với nhân loại
- Tôi từng muốn làm việc ở IA nhưng cơ hội tuyển dụng thật sự rất hiếm
- Tôi rất muốn nghe những câu chuyện kỹ thuật phía sau thành tựu này, ví dụ như chi tiết về cách crawl web hay cách lưu trữ
- Tôi muốn biết cụ thể đó là những sự kiện nào
Thành tựu lưu trữ 1 nghìn tỷ trang web thật đáng kinh ngạc, nhưng... không có cách nào để tìm kiếm trong đó; rốt cuộc nếu bạn biết URL thì chỉ có thể tự nhập nó vào để tìm, và điều này làm giảm mạnh tính hữu ích của dịch vụ; ví dụ, sẽ rất tốt nếu có thể tìm toàn bộ theo tên nghệ sĩ cụ thể, tên tệp, hoặc nội dung hình ảnh
- Lập chỉ mục toàn bộ chỗ đó chắc sẽ là một cơn ác mộng
- Tôi nhớ tính năng này từng có ở đâu đó như Kagi, nhưng giờ không tìm ra đang dùng ở đâu
- Cần nghĩ đến vấn đề quyền riêng tư trong quá trình này; quy định robots.txt sẽ trở nên vô nghĩa, và việc xóa trang web thực tế cũng sẽ không thể hồi tố; suy cho cùng đây vẫn là tài liệu công khai nên khó mà ngăn được, nhưng biến toàn bộ IA thành có thể tìm kiếm được là một ý tưởng thực sự tệ
- Tôi dùng GPT web search để thỉnh thoảng nhờ tìm giáo trình trên IA; nó khá hợp cho việc tìm giáo trình, nhưng với trang web thông thường thì tôi không rõ hữu ích đến đâu
Nếu muốn đóng góp thêm tư liệu cho IA thì ArchiveTeam là nhóm tình nguyện liên quan; họ là nơi gửi dữ liệu tới IA và có thể xem thêm thông tin tại archiveteam.org
- Sẽ cần ai đó quyết định bằng con người xem loại tài liệu nào đáng được lưu trữ; phải có bộ lọc để ngăn ai đó dùng IA làm nơi lưu ảnh du lịch miễn phí cho riêng mình
Tôi nghĩ Internet Archive nên ký những thỏa thuận lớn với các công ty AI... ví dụ như, chúng tôi sẽ cung cấp cho công ty AI một xe tải chứa toàn bộ dữ liệu, đổi lại hãy quyên góp đáng kể để IA có thể hoạt động trong vài năm tới; nếu họ không cung cấp tiền thì vẫn cho phép truy cập như cũ nhưng giảm tốc độ tải xuống cực mạnh, khiến việc lấy hết dữ liệu mất nhiều năm
- Làm như vậy sẽ phá vỡ niềm tin mà họ đã xây dựng như một tài sản công cho đến nay; đa số mọi người thấy ổn khi IA lưu trữ nội dung họ tạo ra, nhưng nếu bắt đầu kiếm tiền từ đó thì chắc chắn sẽ có phản ứng dữ dội
Tôi tò mò liệu Internet Archive và Common Crawl đã từng hợp tác chưa; tôi muốn so sánh phạm vi và hạ tầng của hai tổ chức này; mục đích thì khác nhau nhưng trên thực tế họ đang làm những việc tương tự
- IA tiếp nhận dữ liệu được thu thập từ nhiều nhóm như ArchiveTeam, bao gồm cả các tệp WARC do CC thu thập
Nghệ sĩ Sam Reider xuất hiện tại sự kiện trực tiếp tuần này thực sự rất tuyệt, tôi rất mong đợi
Cuối cùng điều này có nghĩa là không cần crawl toàn bộ web, chỉ cần trả tiền cho Archive là có thể lấy được toàn bộ dữ liệu hay sao?
Bài blog liên quan đang thu thập các câu chuyện, xin tham khảo
https://blog.archive.org/2025/09/23/celebrating-1-trillion-webpages-archived-share-your-wayback-story/
Đây thực sự là một cột mốc vĩ đại trong lịch sử Internet

Internet Archive lưu trữ 1 nghìn tỷ trang web

Ý nghĩa của cột mốc 1 nghìn tỷ trang của Internet Archive

Lịch sự kiện kỷ niệm trong tháng 10

7 tháng 10 — The Vast Blue We: Del Sol Quartet at the Internet Archive

9 tháng 10 — Tọa đàm giữa Sir Tim Berners-Lee và Brewster Kahle

16 tháng 10 — Library Leaders Forum 2025 (trực tuyến)

21 tháng 10 — Doors Open 2025: tham quan kho lưu trữ vật lý

22 tháng 10 — The Web We’ve Built: 1 Trillion Celebration

27 tháng 10 — Wayback to the Future: Celebrating the Open Web

Tương lai của ký ức số

Bài viết liên quan

1 bình luận

Ý kiến Hacker News