1 điểm bởi GN⁺ 2024-02-14 | 1 bình luận | Chia sẻ qua WhatsApp

Thử mở tệp đề xuất WWW gốc

  • Trên trang web của W3C có bản đề xuất WWW gốc do Tim Berners-Lee viết.
  • Tệp gốc của bản đề xuất là tệp Word cho Macintosh 4.0, được cho là đã được tạo vào năm 1990.
  • Tài liệu gốc có kích thước 68.608 byte, và khi kiểm tra kiểu tệp trên Mac, nó được nhận diện là tệp Microsoft Word for Macintosh 4.0.

Thử mở bằng nhiều phần mềm khác nhau

  • Microsoft Word: Tải tệp gốc lên OneDrive và mở trong Microsoft Word với phần mở rộng .doc.
  • Apple Pages: Không hiểu được các tệp Microsoft Word for Macintosh đời cũ.
  • Apache OpenOffice: Có thể mở tệp nhưng mất định dạng và thiếu sơ đồ.
  • LibreOffice: Mở được tệp và cả sơ đồ cũng hiển thị rõ, nhưng có vấn đề về lề và một số định dạng khác.

So sánh PDF của CERN và PDF do LibreOffice tạo ra

  • PDF do CERN cung cấp được tạo vào năm 1998 và dài 20 trang.
  • Phiên bản nhập bằng LibreOffice dài 24 trang.
  • Khi so sánh hai tệp PDF, có khác biệt về lề, cỡ chữ, header và footer, cách ngắt trang, v.v.

Kiểm tra tài liệu gốc qua giả lập

  • Tác giả giả lập một máy Macintosh thập niên 1990 và chạy Word for Macintosh 4.0 thật để xem tài liệu gốc trông như thế nào.
  • Tài liệu gốc và PDF của CERN khác nhau đáng kể, và tài liệu gốc hiển thị thành 22 trang khổ A4.

Kết luận

  • Việc chuyển đổi tài liệu gốc bằng phần mềm hiện đại vừa là chiến thắng của phần mềm mã nguồn mở, vừa cho thấy sự khó khăn của việc lưu trữ tài liệu.
  • Để bảo tồn tài liệu, tác giả đã tải phiên bản .odt lên GitHub.
  • Việc một tài liệu 34 năm tuổi vẫn khó mở, và ngay cả khi mở được cũng không hoàn toàn giống bản gốc, là điều khá đáng thất vọng.

Ý kiến của GN⁺

  • Bài viết blog này nhấn mạnh tầm quan trọng của việc bảo tồn số và khả năng truy cập đối với tài liệu đề xuất WWW gốc.
  • Nó cho thấy phần mềm mã nguồn mở đóng vai trò quan trọng như thế nào trong việc xử lý các định dạng tài liệu cũ.
  • Đây cũng là dịp để hiểu rõ khó khăn của việc lưu trữ tài liệu, và nhận ra tầm quan trọng của việc cân nhắc tính tương thích cũng như khả năng truy cập dài hạn khi công nghệ tiếp tục phát triển.

1 bình luận

 
GN⁺ 2024-02-14
Ý kiến trên Hacker News
  • Chia sẻ tài liệu đã được chuyển đổi sang định dạng Word hiện đại

    • Một bản tài liệu ở định dạng Word hiện đại đã được chia sẻ, trong đó toàn bộ đồ họa vector và phông chữ đều được giữ nguyên.
    • Để chuyển đổi tài liệu, trước tiên người ta mở rồi lưu lại nó bằng Word 98 chạy trên Power Mac được giả lập bằng QEMU.
    • Tuy nhiên, hình ảnh bị thiếu và Word cho rằng không có đủ bộ nhớ hoặc dung lượng đĩa để hiển thị hay in hình ảnh.
    • Để khôi phục hình ảnh, người ta dùng Acrobat trong Word 98 để in ra PDF, sau đó dùng Adobe Illustrator để trích xuất từng hình ảnh thành các tệp PDF riêng.
    • Việc khôi phục hình ảnh khá đơn giản: xóa ảnh gốc rồi kéo và thả các bản thay thế PDF từ Finder.
    • Để so sánh, người ta đã chia sẻ PDF được tạo bằng Word 98 trên Power Mac và PDF được tạo bằng Word hiện đại chạy trên macOS Sonoma.
  • Kiểm tra phông chữ và bố cục

    • Cần có đúng phông chữ gốc mới có thể xác nhận tài liệu đáng lẽ phải hiển thị như thế nào.
    • Word 4.0 có các tệp phông riêng cho màn hình và máy in để phục vụ các độ phân giải đầu ra khác nhau.
    • Nếu thiếu phông máy in, nó sẽ in bản dựng được scale từ phông màn hình; nếu thiếu phông màn hình, nó sẽ thay bằng phông hệ thống.
    • Trong trường hợp này cần các phông Palatino và Courier quen thuộc, nhưng LibreOffice lại thay bằng Times New Roman dù Palatino Linotype đã được cài đặt.
  • Tính hữu ích của lệnh file

    • Lệnh file rất hữu ích để giải đáp thắc mắc về tệp và cung cấp thông tin hữu dụng.
  • Khả năng hỗ trợ định dạng tài liệu cũ rất tốt của LibreOffice

    • LibreOffice hỗ trợ các định dạng tệp tài liệu cũ rất tốt, nên đã được dùng cho việc này.
    • Việc dùng các trình giả lập BasiliskII và InfiniteMac cũng rất thú vị.
  • Khả năng tương thích ngược của Microsoft Word

    • Tệp mở khá tốt trong phiên bản Word trên Windows, và bố cục giống hệt PDF trong bài viết.
    • Không thể mở hình ảnh do thiếu graphic filter, nhưng dự đoán rằng Word 2003 có thể mở được.
  • Các tính năng đáng kinh ngạc của LibreOffice

    • LibreOffice không chỉ mở được nhiều định dạng tài liệu khác nhau mà còn có thể tự động hóa tác vụ thông qua các tùy chọn dòng lệnh.
  • In tài liệu trong trình giả lập

    • Trong trình giả lập chạy Mac 4.0, có thể cài hàng đợi in tạo tệp .ps (PostScript), rồi chuyển đổi chúng sang PDF.
  • Sự thất vọng về khả năng tương thích tài liệu của Microsoft Word

    • Có ý kiến cho rằng Microsoft nên có trách nhiệm để Word mở được tài liệu được tạo bởi bất kỳ phiên bản Word nào.
    • Nếu lo ngại về lỗ hổng bảo mật, hãng nên cung cấp tính năng chạy trong sandbox cách ly ở tiến trình bên ngoài để chuyển đổi sang phiên bản mới hơn.
  • Vấn đề tiềm ẩn của sao lưu lưu giữ vô thời hạn

    • Một số công ty có bản sao lưu lưu giữ vô thời hạn, điều này gây ra vấn đề khi họ không hiểu sự khác biệt giữa "đọc được" và "dùng được".
  • Sử dụng Mac cũ và Word

    • Có người đang sở hữu Mac SE/30 chạy System 7.1 và đã cài Word 5; nếu gửi tài liệu, họ có thể giúp nâng cấp lên Office 2001.