3 điểm bởi GN⁺ 2025-08-18 | 1 bình luận | Chia sẻ qua WhatsApp
  • ArchiveTeam đã lưu trữ thành công toàn bộ liên kết rút gọn goo.gl
  • Bất kỳ ai cũng có thể tham gia dự án lưu trữ thông qua chương trình lưu trữ ảo có tên ArchiveTeam Warrior
  • Warrior này có thể chạy mà không gây rủi ro riêng biệt nào trên môi trường Windows, OS X và Linux
  • Người dùng có thể tham gia lựa chọn dự án và hoạt động thông qua thiết lập đơn giản
  • Cung cấp một cách dễ dàng và trực quan để hỗ trợ hoạt động lưu trữ mà không cần kỹ năng chuyên môn đặc biệt

Giới thiệu ArchiveTeam Warrior

  • ArchiveTeam Warrior là một thiết bị ảo lưu trữ mà bất kỳ ai cũng có thể dễ dàng sử dụng
  • Người dùng có thể chạy Warrior để tải xuống các website, v.v. và tham gia tải chúng lên kho lưu trữ của ArchiveTeam
  • Warrior không gây rủi ro cho môi trường máy tính thực tế và chỉ sử dụng băng thông Internet cùng một ít dung lượng đĩa
  • Hỗ trợ đầy đủ Windows, OS X và Linux, đồng thời cần phần mềm máy ảo như VirtualBox, VMware, v.v.

Cách sử dụng với VirtualBox

  • Tải xuống appliance Warrior (357MB)
  • Trong VirtualBox, nhấp menu File > Import Appliance để nạp tệp đã tải xuống
  • Khi khởi động máy ảo, hệ thống sẽ tự động nhận bản cập nhật mới nhất và yêu cầu sử dụng trình duyệt web

Quy trình sau khi chạy Warrior

  • Truy cập để kiểm tra trang Settings
  • Chọn tên người dùng để hiển thị tiến độ trên leaderboard
  • Trong tab All projects, chọn dự án mong muốn để tham gia hoặc cũng có thể chọn ArchiveTeam’s Choice để tham gia dự án khẩn cấp nhất

Lợi ích khi tham gia

  • Không cần kỹ năng chuyên biệt hay quy trình phức tạp, bất kỳ ai cũng có thể dễ dàng đóng góp cho các dự án lưu trữ
  • Thành tích hoạt động lưu trữ của người dùng được hiển thị trên bảng xếp hạng, giúp tạo động lực và tăng hiệu quả cộng tác

1 bình luận

 
GN⁺ 2025-08-18
Ý kiến trên Hacker News
  • Mỗi khi ArchiveTeam thực hiện một dự án như thế này tôi lại thật sự kinh ngạc. Vài năm trước, khi nền tảng video nơi tôi làm việc lúc đó sắp thông báo ngừng dịch vụ, tôi đã kết nối được với một thành viên của ArchiveTeam và biết rằng họ quan tâm đến việc bảo tồn dữ liệu. Tôi đã cung cấp một chút lời khuyên cho người đó (thông tin về các endpoint máy chủ có thể gây khó khăn cho việc lưu trữ) và cho mượn tạm vài EC2 instance của mình. Vì máy chủ thuộc sở hữu của tôi nên tôi có thể thấy chuyện gì đang diễn ra: chỉ trong 2 phút, các instance đã được chuẩn bị hoàn chỉnh và nhanh chóng bắt đầu lưu trữ video, mỗi instance tải xuống các video khác nhau một cách hiệu quả mà không bị trùng lặp. ArchiveTeam luôn có sứ mệnh rất đáng quý, nhưng cách họ thực thi còn thực sự gây ấn tượng hơn nữa.

  • Tiêu đề không chính xác. Thực ra là Archiveteam.org, không phải Archive.org. The Internet Archive cung cấp không gian lưu trữ, nhưng công việc lưu trữ thực tế do các thành viên của Archiveteam thực hiện.

    • Tôi thắc mắc chính xác đóng góp của Archiveteam là gì. Tôi chưa hiểu rõ lắm. Cuối cùng thì nó trông giống như một bên trung gian không thực sự cần thiết giữa đối tượng được lưu trữ và máy chủ lưu trữ. Không biết có phải tôi đang bỏ sót điều gì không.
  • Muốn chia sẻ nội dung liên quan: "Tham gia cuộc chiến chống Link Rot" (liên kết), cùng nhiều luồng thảo luận HN về thay đổi chính sách goo.gl của Google (tổng hợp bài liên quan từ 2018 đến 2025, ở đây, ở đây, ở đây, ở đây, ở đây, ở đây). Có khá nhiều thảo luận nên hy vọng sẽ hữu ích.

  • Chia sẻ bản cập nhật mới nhất từ Google: liên kết cập nhật trên blog Google

    • À, vì tôi xem đây là thông tin cực kỳ không đáng tin từ một công ty thực sự không đáng tin là Google, nên tôi hoàn toàn không tin vào "bản cập nhật" lần này.
    • Theo thông báo của Google, các liên kết rút gọn (liên kết goo.gl) sẽ "không còn hoạt động sau ngày 25 tháng 8 và nên chuyển sang dịch vụ rút gọn URL khác". Nếu vậy thì việc giữ lại chỉ một phần liên kết trên thực tế chẳng phải là vô nghĩa sao? Chẳng phải điều đó có nghĩa là các liên kết rút gọn đã được nhúng vào tài liệu và không thể sửa nữa rồi cuối cùng cũng sẽ đều bị đứt hết sao?
    • Tôi vẫn không hiểu rốt cuộc việc này có ý nghĩa gì. Những liên kết cũ hầu như không còn được dùng đến nữa (hoặc hoạt động rất ít), nên kể cả có tiếp tục redirect thì chi phí cũng đâu đáng là bao. Tôi không hiểu tại sao lại phải dừng hẳn, kể cả với chính sách chỉ tiếp tục redirect các liên kết có lưu lượng cao như thế này.
    • Tôi không hiểu chỗ này lắm. Liệu việc giữ toàn bộ cơ sở dữ liệu có thực sự tốn kém đến mức đó không, trong khi dù sao họ vẫn phải giữ lại một phần?
  • Có ai đang lưu trữ toàn bộ reddit hay twitter không? Tôi chỉ tò mò thôi, dù điều khoản của họ có thể đã thay đổi để không còn cho phép nữa.

    • reddit trước đây từng có một dự án tên là Pushshift. Trước khi reddit thay đổi API, dữ liệu này có thể được tải từ the-eye, một nhóm lưu trữ/bảo tồn dữ liệu khác. Còn với twitter thì theo tôi biết là không có. Hơn nữa, việc lưu trữ tweet trên Wayback Machine cũng đã không thể thực hiện được từ nhiều năm nay rồi.
    • Trên Academictorrents, bạn vẫn có thể nhận được các bản dump hằng tháng của toàn bộ submission và comment trên reddit ngay cả sau khi có giới hạn API.
    • Cũng có thể thử hỏi OpenAI.
  • Tôi không hiểu trang này lắm. Có vẻ như nó đăng danh sách dataset, nhưng dung lượng trông lớn đến mức 91 TiB. Chỉ riêng danh sách liên kết rút gọn của Google và URL đích có vẻ không cần tới 91 TiB. Có ai biết cơ chế hoạt động không?

    • Tôi đã thử tính sơ qua. Một URL lấy ngẫu nhiên từ Google Search dài 705 byte, liên kết ngắn goo.gl là 22 byte, còn nếu chỉ lưu ID đơn thuần thì là 6 byte. Dĩ nhiên có cái ngắn hơn hoặc dài hơn, nhưng tính đại khái thì có thể thấy đây là dung lượng tương ứng với hàng chục tỷ đến hàng nghìn tỷ URL.
  • Tôi vui vì mình đã đóng góp được đôi chút cho lần lưu trữ này.

    • Tôi cũng thấy vui khi tên mình có trên bảng xếp hạng. Thực ra tất cả những gì tôi làm chỉ là cài một docker container trong một ngày rồi quên mất nó.
  • Tôi tò mò không biết có bao nhiêu liên kết trỏ tới video YouTube riêng tư hay tài liệu Google và những thứ tương tự.

    • Tôi đã định đùa rằng "giờ chỉ cần tải xuống rồi tự tìm kiếm là được", nhưng thực tế là nếu xem ở đây thì sẽ thấy có dòng "Access-restricted-item: true", tức là bị hạn chế truy cập. Dung lượng cũng được cung cấp theo từng phần 10GB.
  • Tôi thắc mắc liệu "all" ở đây có thực sự nghĩa là toàn bộ URL được công khai, hay là họ đã lặp qua và thử toàn bộ namespace URL.

    • Trên thực tế, đó là cách các tình nguyện viên trực tiếp chạy client để lặp qua và thử toàn bộ namespace URL mà không bị chặn IP.
    • Các URL goo.gl công khai đã đều nằm trong dữ liệu crawl của Internet Archive và Common Crawl.