1 điểm bởi GN⁺ 2025-12-15 | 1 bình luận | Chia sẻ qua WhatsApp
  • Dự án khôi phục các bài đăng Li.st đã biến mất của Anthony Bourdain từ dữ liệu thu thập web công khai
  • Sử dụng Common CrawlInternet Archive để dò tìm và khôi phục phần HTML còn sót lại của miền li.st
  • Dùng script Python commoncrawl_search.py để tự động thu thập tài liệu HTML từ bucket S3 công khai
  • Đã khôi phục được văn bản của nhiều bài đăng, nhưng đa số tệp hình ảnh đã mất, chỉ một số mục còn được lưu dưới dạng HTML
  • Công bố kết quả khôi phục trên kho GitHub để cộng đồng có thể tiếp tục tham gia khôi phục và lưu trữ trong tương lai

Tổng quan dự án

  • Một nỗ lực sử dụng dữ liệu crawl công khai để khôi phục các bài đăng Li.st bị thất lạc của Bourdain
    • Sau khi thấy một phần danh sách từng được công bố trên trang GReg TeChnoLogY, tác giả đã tìm hiểu khả năng khôi phục
    • Dựa trên kinh nghiệm trong lĩnh vực bảo mật và crawling, chỉ sử dụng các kho lưu trữ dữ liệu có thể truy cập công khai
  • Tìm kiếm chỉ mục tài liệu của Common Crawl để thu thập dữ liệu trên đường dẫn https://li.st/Bourdain*
    • Chạy trong môi trường Python 3.14.2 sau khi cài các phụ thuộc trong requirements.txt
    • Ví dụ lệnh: python commoncrawl_search.py "https://li.st/Bourdain*"; --all --download

Quy trình và công cụ khôi phục

  • commoncrawl_search.py gửi yêu cầu tới chỉ mục của từng dataset cụ thể và tải các mục khớp từ bucket S3 công khai
    • Tài liệu HTML có dung lượng nhỏ nên tương đối dễ khôi phục
  • Kết quả khôi phục được sắp xếp trong kho GitHub (https://github.com/thecsw/bourdain)
    • Mỗi tệp HTML giữ nguyên bố cục gốc, nhưng được tái dựng mà không chỉnh sửa nội dung
    • Không phải nội dung do AI tạo ra; chỉ một phần mã được viết bằng công cụ tự động hóa

Các bài đăng chính đã được khôi phục

  • things-i-no-longer-have-time-or-patience-for: danh sách như ‘Cocaine’, ‘True Detective’, ‘Beer nerds’...
  • nice-views: phong cảnh ở Montana, Puerto Rico, Naxos, LA, Istanbul...
  • if-i-were-trapped-on-a-desert-island-with-only-three-tv-series: như ‘The Wire’, ‘Tinker, Tailor, Soldier, Spy’...
  • objects-of-desire: các món sưu tầm cá nhân như kính mát vintage, dụng cụ trepanation, võ phục BJJ, dao Kramer...
  • four-spy-novels-by-real-spies-and-one-not-by-a-spy: gợi ý tiểu thuyết gián điệp của các tác giả như Somerset Maugham, Graham Greene...
  • hotel-slut-that-s-me: danh sách khách sạn trên khắp thế giới cùng những bộc lộ tình cảm mang tính cá nhân
  • some-new-york-sandwiches, great-dead-bars-of-new-york, guilty-pleasures cùng nhiều danh sách khác liên quan đến New York
  • Phần lớn bài đăng đã khôi phục thành công văn bản, nhưng toàn bộ tệp hình ảnh đều đã mất

Mục không thể khôi phục

  • Chỉ có bài David Bowie Related (ngày 14 tháng 1 năm 2016) là không được tìm thấy trong Common Crawl

Ý nghĩa dự án và kế hoạch tiếp theo

  • Mô tả quá trình khôi phục như một nỗ lực khảo cổ số, qua đó chứng minh khả năng bảo tồn nội dung web cũ
  • Dù khó khôi phục hình ảnh, việc xây dựng kho lưu trữ văn bản đã thành công
  • Thông qua kho Git công khai, bất kỳ ai cũng có thể tham gia khôi phục thêm
  • Cho thấy cần tiếp tục xem xét việc xây dựng kho lưu trữ công khai và các phương án bảo tồn dài hạn

1 bình luận

 
GN⁺ 2025-12-15
Ý kiến trên Hacker News
  • Tôi cũng rơi vào đúng rabbit hole đó và đã làm y hệt việc này vào tuần trước
    Link đến thử nghiệm của tôi
    Nếu bạn có cảm hứng từ đó thì sẽ tuyệt nếu nhắc đến, còn nếu không thì việc chúng ta độc lập đi đến cùng một ý tưởng như vậy cũng khá thú vị

    • Ồ, tôi không biết chuyện đó! Tôi bắt đầu sau khi đọc bài gốc của Greg, và sau đó anh ấy nói với tôi rằng đã có người xem qua Common Crawl rồi
      Dù sao thì tôi đã cập nhật cả git lẫn trang web để ghi nhận rõ ràng công việc của bạn. Tôi cũng đã đặt link trực tiếp đến trang của bạn, mong bạn cho biết như vậy có ổn không
  • Tiếp nối bài này, tôi đã khôi phục toàn bộ các bài đăng li.st của Anthony Bourdain mà theo thời gian người ta tưởng là đã mất
    Tôi nghĩ thật sự không có ai giống như Tony

    • Tôi đã khôi phục gần như toàn bộ, nhưng theo bài viết thì vẫn còn thiếu một bài — “David Bowie Related” (ngày 14 tháng 1 năm 2016)
  • Tôi từng rất thích series của ông ấy, nhưng đã thất vọng khi ông ấy ghé thăm quê tôi và miêu tả hoàn toàn sai lệch về nơi đó
    Tôi hiểu góc nhìn chống dòng chính và thiên về ngoài lề, nhưng ông ấy đã giao du với những kẻ lừa đảo địa phương và những người điều hành các nhà hàng thất bại rồi giới thiệu họ như những ‘đầu bếp tiến bộ’
    Từ sau đó tôi bắt đầu xem lại các tập khác của ông ấy với con mắt khác

    • Đồng cảm. Vice News cũng từng làm điều tương tự ở Chicago nên người địa phương rất ghét
    • Ở Thượng Hải cũng vậy
    • Tôi cũng cảm thấy tương tự. Chương trình của ông ấy thú vị thật, nhưng vẫn có sự kiêu ngạo tinh vi kiểu một người đàn ông da trắng giàu có đi đâu cũng giải thích tình hình địa phương như thể chuyên gia. Đồ ăn thường chỉ là yếu tố phụ
    • Tôi tò mò đó là thành phố nào. Tôi cũng từng có cảm giác như vậy ở vài nơi và luôn thắc mắc ê-kíp sản xuất chọn địa điểm theo tiêu chí nào
    • Có lẽ ông ấy không trực tiếp kiểm tra lý lịch chính trị của mọi người. Khả năng cao là ê-kíp đã sắp xếp từ trước và ông ấy chỉ tham gia thôi. Dù vậy vẫn có đủ lý do để nhìn chương trình của ông ấy một cách phê phán. Tôi tò mò đó là thành phố nào
  • Thật vui khi thấy những tư liệu đã được khôi phục :)
    Sẽ thật tuyệt nếu cả hình ảnh cũng được phục hồi. Tôi tò mò về danh sách đĩa nhạc mà ông ấy nhắc đến

  • Tôi rất vui khi biết SIBERIA trong danh sách “Great Dead Bars of New York” đã mở cửa trở lại
    Lần này nơi đó bắt đầu lại bên trong ga 59th Street/Columbus Circle

  • Dù có lẽ không nên nói về thiết kế website, nhưng phông chữ xám nhạt trên nền trắng thực sự quá khó đọc. Đặc biệt với mắt của người lớn tuổi thì gần như không thấy nổi

    • Trên màn hình của tôi thì nó không phải xám nhạt. Tôi đã kiểm tra cả desktop lẫn mobile, mã màu #2B2B2B đủ tối rồi. Có lẽ là vấn đề về thiết lập gamma màn hình. Trang web trông vẫn ổn
    • Lúc đầu tôi cũng thấy vậy, nhưng hóa ra tiện ích mở rộng dark mode đã đổi màu. Tắt nó đi là ổn
    • Tôi hiểu cảm giác mắt đau khi đột nhiên hiện ra một màn hình trắng sáng chói
    • Họa tiết chấm trên nền hơi lộ ra cũng gây khó chịu. Độ tương phản rất quan trọng
  • Quán bar ông ấy thích nhất, Siberia, đã mở cửa trở lại
    Nó nằm ở đầu phía nam của ga tàu điện ngầm Columbus Circle, chủ quán Tracy vẫn ở đó và bầu không khí vẫn thô mộc như xưa

  • Nếu là danh sách phim có Tampopo thì với tôi mặc định đó là một danh sách hay

  • Tôi thật sự biết ơn vì công việc khôi phục kiểu này
    Là một fan của Bourdain, tôi nghĩ rằng dù ông ấy có những khiếm khuyết rất con người, ông ấy vẫn là một trong những nhân vật thú vị nhất của tinh thần thời đại đó
    Series Parts Unknown của ông ấy là một trong những nội dung mang tính nhân học xuất sắc nhất mà tôi từng xem trên TV. Tôi cũng đọc bài này rất hứng thú