- Dự án khôi phục các bài đăng Li.st đã biến mất của Anthony Bourdain từ dữ liệu thu thập web công khai
- Sử dụng Common Crawl và Internet Archive để dò tìm và khôi phục phần HTML còn sót lại của miền li.st
- Dùng script Python
commoncrawl_search.py để tự động thu thập tài liệu HTML từ bucket S3 công khai
- Đã khôi phục được văn bản của nhiều bài đăng, nhưng đa số tệp hình ảnh đã mất, chỉ một số mục còn được lưu dưới dạng HTML
- Công bố kết quả khôi phục trên kho GitHub để cộng đồng có thể tiếp tục tham gia khôi phục và lưu trữ trong tương lai
Tổng quan dự án
- Một nỗ lực sử dụng dữ liệu crawl công khai để khôi phục các bài đăng Li.st bị thất lạc của Bourdain
- Sau khi thấy một phần danh sách từng được công bố trên trang GReg TeChnoLogY, tác giả đã tìm hiểu khả năng khôi phục
- Dựa trên kinh nghiệm trong lĩnh vực bảo mật và crawling, chỉ sử dụng các kho lưu trữ dữ liệu có thể truy cập công khai
- Tìm kiếm chỉ mục tài liệu của Common Crawl để thu thập dữ liệu trên đường dẫn
https://li.st/Bourdain*
- Chạy trong môi trường Python 3.14.2 sau khi cài các phụ thuộc trong
requirements.txt
- Ví dụ lệnh:
python commoncrawl_search.py "https://li.st/Bourdain*" --all --download
Quy trình và công cụ khôi phục
commoncrawl_search.py gửi yêu cầu tới chỉ mục của từng dataset cụ thể và tải các mục khớp từ bucket S3 công khai
- Tài liệu HTML có dung lượng nhỏ nên tương đối dễ khôi phục
- Kết quả khôi phục được sắp xếp trong kho GitHub (https://github.com/thecsw/bourdain)
- Mỗi tệp HTML giữ nguyên bố cục gốc, nhưng được tái dựng mà không chỉnh sửa nội dung
- Không phải nội dung do AI tạo ra; chỉ một phần mã được viết bằng công cụ tự động hóa
Các bài đăng chính đã được khôi phục
- things-i-no-longer-have-time-or-patience-for: danh sách như ‘Cocaine’, ‘True Detective’, ‘Beer nerds’...
- nice-views: phong cảnh ở Montana, Puerto Rico, Naxos, LA, Istanbul...
- if-i-were-trapped-on-a-desert-island-with-only-three-tv-series: như ‘The Wire’, ‘Tinker, Tailor, Soldier, Spy’...
- objects-of-desire: các món sưu tầm cá nhân như kính mát vintage, dụng cụ trepanation, võ phục BJJ, dao Kramer...
- four-spy-novels-by-real-spies-and-one-not-by-a-spy: gợi ý tiểu thuyết gián điệp của các tác giả như Somerset Maugham, Graham Greene...
- hotel-slut-that-s-me: danh sách khách sạn trên khắp thế giới cùng những bộc lộ tình cảm mang tính cá nhân
- some-new-york-sandwiches, great-dead-bars-of-new-york, guilty-pleasures cùng nhiều danh sách khác liên quan đến New York
- Phần lớn bài đăng đã khôi phục thành công văn bản, nhưng toàn bộ tệp hình ảnh đều đã mất
Mục không thể khôi phục
- Chỉ có bài David Bowie Related (ngày 14 tháng 1 năm 2016) là không được tìm thấy trong Common Crawl
Ý nghĩa dự án và kế hoạch tiếp theo
- Mô tả quá trình khôi phục như một nỗ lực khảo cổ số, qua đó chứng minh khả năng bảo tồn nội dung web cũ
- Dù khó khôi phục hình ảnh, việc xây dựng kho lưu trữ văn bản đã thành công
- Thông qua kho Git công khai, bất kỳ ai cũng có thể tham gia khôi phục thêm
- Cho thấy cần tiếp tục xem xét việc xây dựng kho lưu trữ công khai và các phương án bảo tồn dài hạn
1 bình luận
Ý kiến trên Hacker News
Tôi cũng rơi vào đúng rabbit hole đó và đã làm y hệt việc này vào tuần trước
Link đến thử nghiệm của tôi
Nếu bạn có cảm hứng từ đó thì sẽ tuyệt nếu nhắc đến, còn nếu không thì việc chúng ta độc lập đi đến cùng một ý tưởng như vậy cũng khá thú vị
Dù sao thì tôi đã cập nhật cả git lẫn trang web để ghi nhận rõ ràng công việc của bạn. Tôi cũng đã đặt link trực tiếp đến trang của bạn, mong bạn cho biết như vậy có ổn không
Tiếp nối bài này, tôi đã khôi phục toàn bộ các bài đăng li.st của Anthony Bourdain mà theo thời gian người ta tưởng là đã mất
Tôi nghĩ thật sự không có ai giống như Tony
Tôi từng rất thích series của ông ấy, nhưng đã thất vọng khi ông ấy ghé thăm quê tôi và miêu tả hoàn toàn sai lệch về nơi đó
Tôi hiểu góc nhìn chống dòng chính và thiên về ngoài lề, nhưng ông ấy đã giao du với những kẻ lừa đảo địa phương và những người điều hành các nhà hàng thất bại rồi giới thiệu họ như những ‘đầu bếp tiến bộ’
Từ sau đó tôi bắt đầu xem lại các tập khác của ông ấy với con mắt khác
Thật vui khi thấy những tư liệu đã được khôi phục :)
Sẽ thật tuyệt nếu cả hình ảnh cũng được phục hồi. Tôi tò mò về danh sách đĩa nhạc mà ông ấy nhắc đến
Tôi rất vui khi biết SIBERIA trong danh sách “Great Dead Bars of New York” đã mở cửa trở lại
Lần này nơi đó bắt đầu lại bên trong ga 59th Street/Columbus Circle
Dù có lẽ không nên nói về thiết kế website, nhưng phông chữ xám nhạt trên nền trắng thực sự quá khó đọc. Đặc biệt với mắt của người lớn tuổi thì gần như không thấy nổi
Quán bar ông ấy thích nhất, Siberia, đã mở cửa trở lại
Nó nằm ở đầu phía nam của ga tàu điện ngầm Columbus Circle, chủ quán Tracy vẫn ở đó và bầu không khí vẫn thô mộc như xưa
Nếu là danh sách phim có Tampopo thì với tôi mặc định đó là một danh sách hay
Tôi thật sự biết ơn vì công việc khôi phục kiểu này
Là một fan của Bourdain, tôi nghĩ rằng dù ông ấy có những khiếm khuyết rất con người, ông ấy vẫn là một trong những nhân vật thú vị nhất của tinh thần thời đại đó
Series Parts Unknown của ông ấy là một trong những nội dung mang tính nhân học xuất sắc nhất mà tôi từng xem trên TV. Tôi cũng đọc bài này rất hứng thú