Lần đầu tiên giải mã toàn bộ cuộn giấy Herculaneum

(scrollprize.org)

1 điểm bởi GN⁺ 17 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp

PHerc. 1667, vốn không thể mở ra sau vụ phun trào Vesuvius năm 79, đã được phục dựng ảo mà không cần mở vật lý, cho phép đọc văn bản được bảo tồn từ đầu đến cuối lần đầu tiên
Bằng cách kết hợp quét X-quang độ phân giải cao, tái dựng bề mặt, làm phẳng và phát hiện mực bằng machine learning, nhóm nghiên cứu đã biến cuộn giấy bị than hóa thành những trang có thể đọc được
Khoảng 1,4m papyrus và phần dưới của khoảng 22 cột chữ Hy Lạp đã được phục dựng; nội dung được xác nhận là một chuyên luận đạo đức học Khắc kỷ bàn về bản tính con người, xung lực và tiến bộ đạo đức
Ở PHerc. Paris 4, mực được nhìn thấy trực tiếp trong dữ liệu X-quang 3D; còn ở PHerc. 139, tiêu đề và tên tác giả Philodemus, On Gods, Book 8 đã được phục dựng
Dữ liệu chụp cắt lớp, bề mặt phục dựng, bản chép lại và mã nguồn được công khai để có thể kiểm chứng và tái lập; cùng cách tiếp cận này cũng có thể áp dụng cho hàng trăm cuộn giấy Herculaneum vẫn còn niêm phong

Đọc cuộn giấy niêm phong mà không cần mở

PHerc. 1667 là cuộn papyrus Herculaneum được cộng đồng Vesuvius Challenge gọi là Scroll 4
Nó đã bị niêm phong suốt khoảng 2.000 năm kể từ sau vụ phun trào Vesuvius năm 79, và do bị than hóa nên nếu mở vật lý có thể sẽ bị phá hủy
Công trình lần này đã đạt được mở cuộn hoàn toàn bằng phương pháp ảo và giải đọc liên tục mà không chạm trực tiếp vào các trang của cuộn giấy
Kết quả được công bố gồm bề mặt papyrus dài khoảng 1,4m và văn bản khoảng 22 cột chữ Hy Lạp
preprint PDF, dữ liệu và mã GitHub cũng được công bố cùng lúc

Văn bản được phục dựng từ PHerc. 1667

PHerc. 1667 ban đầu là một cuộn lớn hơn, nhưng các nỗ lực mở thủ công vào thế kỷ 19, năm 1969 và thập niên 1980 đã phá hủy các lớp bên ngoài
Phần còn lại là lõi bên trong dày đặc, tương ứng khoảng 8cm trong tổng chiều cao ban đầu 19–24cm
Nhóm nghiên cứu đã phục dựng phần dưới của khoảng 22 cột từ phần còn được bảo tồn, rồi các nhà papyrology chép lại và thẩm định
Đây là trường hợp đầu tiên văn bản được bảo tồn được đọc liên tục từ đầu đến cuối, thay vì chỉ là từng từ hay mảnh rời rạc

Nội dung và định danh học thuật

Văn bản được phục dựng là một chuyên luận triết học về đạo đức
Chủ đề về bản tính con người, xung lực và tiến bộ đạo đức của con người, cùng các đặc điểm ngôn ngữ và cái tên Aristocreon xuất hiện ở cột cuối còn bảo tồn, là cơ sở để định danh
Aristocreon được xem là cháu và môn đệ của triết gia Khắc kỷ Chrysippus, qua đó gắn văn bản với bối cảnh Khắc kỷ và thế kỷ 2 TCN
Ở những chỗ bề mặt đã mất do papyrus hư hại, bản giải đọc vẫn còn khoảng trống nên vẫn mang tính mảnh đoạn
Dù vậy, nhiều câu đoạn đã được đọc rõ lần đầu tiên sau 2.000 năm
- “Chúng ta sẽ khảo cứu một điều nào đó, nhưng nếu bằng cách nào đó tách khỏi chính mình và bản tính của mình, chúng ta sẽ không nắm bắt được nó…”
- “Sau khi tự đẩy bản thân đến mức cực hạn thông qua nghiên cứu và học hỏi… đồng thời sở hữu cùng một sự khôn ngoan thực hành…”
- “Nếu những điều ấy là thiện đối với chúng ta, thì trong cái ác đối lập cũng sẽ không có gì là tốt—lại càng không có gì là đẹp—và cũng sẽ không có gì là xấu—lại càng không có gì là xấu xí—và cũng sẽ không có hạnh phúc…”

Kiểm chứng và định danh từ các cuộn khác

PHerc. Paris 4 là cuộn giấy mà cộng đồng Vesuvius Challenge gọi là Scroll 1
Với kỹ thuật hình ảnh độ phân giải cao hơn, lần đầu tiên đã thu được kết quả cho thấy mực hiện ra trực tiếp trong dữ liệu X-quang 3D
Khi chiếu lại phần mực được phân đoạn 3D lên các trang đã mở, nó khớp từng-một với văn bản đã được đọc ở Grand Prize 2023
Đây là một trường hợp xác nhận độc lập rằng bản giải đọc trước đó là có thật, dựa trên dữ liệu tốt hơn
Ở PHerc. 139, việc tăng cường tín hiệu mực tại vùng tiêu đề đã giúp phục dựng tiêu đề và tên tác giả
- Tác phẩm được định danh là Philodemus, On Gods, Book 8
- Việc đọc được tiêu đề của một cuộn giấy còn đóng cho phép biết đó là tác phẩm nào ngay cả trước khi nghiên cứu các cột nội dung

Công nghệ được dùng và cách công khai

Việc quét được thực hiện bằng micro-CT X-quang tương phản pha độ phân giải cao tại beamline BM18 của European Synchrotron Radiation Facility ở Grenoble
Thiết bị này có thể phân giải các lớp mỏng, xếp dày đặc của cuộn giấy Herculaneum
Công việc được tiến hành với sự hợp tác của National Library of Naples “Vittorio Emanuele III”, nơi lưu giữ các papyrus Herculaneum
Quy trình xử lý gồm bốn bước
- Tái dựng cấu trúc hình học bên trong cuộn giấy
- Theo dõi bề mặt và làm phẳng chúng thành các tờ có thể đọc được
- Huấn luyện mô hình machine learning để phát hiện mực gần như không thể phân biệt với papyrus bị than hóa
- Các nhà papyrology thẩm định và chép lại từng kết quả giải đọc
Dữ liệu chụp cắt lớp, bề mặt tái dựng và bản chép lại được công bố theo giấy phép Creative Commons tại scrollprize.org/data và được lưu trữ tại ESRF
Mã nguồn được công bố trên GitHub, cho phép kiểm chứng và áp dụng cho các cuộn khác

Khoa học mở và bước tiếp theo

Công nghệ mở cuộn ảo cho các cuộn Herculaneum được giáo sư Brent Seales của EduceLab tiên phong phát triển
Năm 2023, Seales đã công khai công nghệ hình ảnh và phần mềm của phòng thí nghiệm mình cho Vesuvius Challenge
Vesuvius Challenge là dự án mở, dựa trên tài trợ và quyên góp, do Brent Seales, Nat Friedman và Daniel Gross đồng sáng lập
first letters và 2023 Grand Prize đều do những người tham gia từ khắp thế giới giành được
Hiện nay, nhiều thành viên trong nhóm nghiên cứu của Vesuvius Challenge ban đầu tham gia với tư cách thí sinh, tạo ra đột phá trong cuộc thi mở, nhận giải rồi gia nhập nhóm nghiên cứu
Vẫn còn hàng trăm cuộn Herculaneum chưa được mở; cả một thư viện gồm triết học, thơ ca và văn xuôi đang chờ được đọc lần đầu tiên kể từ thời cổ đại
Các cách tham gia đều được công khai
- Xem nội dung khoa học qua preprint PDF
- Lấy dữ liệu và mã nguồn tại scrollprize.org/data và GitHub
- Bắt đầu tham gia cộng đồng tại get started

1 bình luận

GN⁺ 17 giờ trước

Ý kiến trên Hacker News

Điều này gợi mình hình dung cảnh Aristocreon đang viết suy nghĩ của mình lên cuộn giấy vào khoảng năm 200 TCN
Có lẽ ông biết rằng cuộn giấy đó có thể được lưu giữ trong thư viện một thời gian, nhưng hẳn không thể tưởng tượng rằng 300 năm sau núi lửa sẽ phá hủy cuộn giấy mà đồng thời cũng bảo tồn nó theo một cách nào đó, rồi gần 2.000 năm sau, loài người tương lai với những cỗ máy làm từ vật liệu có thể xem là họ hàng xa của cát và sét sẽ đọc lại nó và truyền đi khắp toàn cầu ngay tức thì
Khi ấy, việc Trái Đất có hình cầu mới chỉ được chứng minh tương đối gần đây, nhưng phần lớn thế giới vẫn còn chưa được biết đến. Liệu chúng ta ngày nay có trí tưởng tượng tốt hơn không? Các tác giả SF có thể tưởng tượng ra điều gì đó xa xôi khỏi những gì ta biết hiện nay đến mức tương tự không?
- Điều đầu tiên mình nghĩ tới là những người thu thập dữ liệu đã mã hóa với hy vọng rằng điện toán lượng tử trong tương lai gần sẽ phá được nó
- Bản thân con người không thay đổi nhiều, nên nếu trí tưởng tượng chịu ảnh hưởng của tri thức thì có thể bây giờ tốt hơn, còn nếu đó là năng lực cố định thì có lẽ không
  Thị lực của con người hiện đại không khác thời đó, nhưng bây giờ gần như ai cũng biết đọc, còn khi ấy số người có thể đọc những cuộn như thế này là cực ít. SF tạo ra những tương lai đủ xa lạ để khiến người ta choáng váng. Có cả hard SF như series Orthogonal của Greg Egan nói về một vũ trụ nơi 3 chiều không gian và 1 chiều thời gian được sắp xếp khác đi, và nếu nói về những tương lai bình thường hơn như phần kéo dài của xã hội loài người thì có rất nhiều, từ Rainbows End của Vinge đến các tác phẩm tương lai xa của Stross
- Thật ra cũng không cần quay lại tận năm 200 TCN. Chỉ khoảng năm 1700 thôi thì câu chuyện này cũng đã khó tưởng tượng rồi
  Nếu là những năm 1800 thì ít nhất có lẽ người ta còn hiểu được phần “điện”
- Mình nghĩ chúng ta không thể đưa ra được một hình dung tương xứng đến vậy. Vì thực tại luôn kỳ lạ hơn tiểu thuyết
- Từ khi khung cửi Jacquard chạy chương trình đầu tiên, chúng ta gần như đã bước sang một hành tinh hoàn toàn khác
  Mà biết đâu điều đó đã đúng ngay từ lúc máy in thực hiện lần in đầu tiên
Tôi phụ trách phần phân đoạn, mở cuộn và phát hiện mực trong nhóm Vesuvius Challenge. Nếu có câu hỏi thì tôi có thể trả lời
- Không biết cảm giác lúc này phải tuyệt vời đến mức nào. Phát minh ra cỗ máy cho phép đọc từng mảnh của những cuộn giấy vốn không thể đọc suốt một thời gian dài quả là điều phi thường
  Thật kinh ngạc khi các bạn tạo ra được một cỗ máy có thể đọc những cuộn giấy mong manh hơn 2.000 năm tuổi mà không cần thật sự mở chúng ra, và còn trực tiếp đóng góp vào việc đó
- Mình rất tò mò không biết mô hình đang bắt được đặc trưng gì để phân biệt mực với papyrus
  Cũng tò mò không biết có dữ liệu gán nhãn như ảnh do chuyên gia đánh dấu phần mực hay bản quét các cuộn giấy than hóa có nội dung đã biết hay không. Với mắt thường của mình thì mình không tự tin có thể làm tốt hơn đoán ngẫu nhiên trong việc này, lại còn bị giới hạn ở chỗ rốt cuộc chỉ nhìn được lát cắt 2D của dữ liệu 3D
- Mình đã tham gia thử thách nhưng không đi được xa. Điều mình băn khoăn khi đó là nếu dùng machine learning để phát hiện mực thì liệu nó có thể tạo ra ký tự ảo giác hay tự bịa ra một phần văn bản hay không, và nếu có thì làm sao ngăn điều đó
- Xin gửi lời tán dương lớn đến toàn bộ nhóm. Tôi đã chờ đợi thông báo này suốt 30 năm kể từ lần đầu nghe nói về những cuộn giấy này, và đây thực sự là một thành tựu tuyệt vời
- Mình tò mò tốc độ xử lý hiện tại ở mức nào
  Liệu có thể tự động hóa đến mức quét khi còn đóng còn nhanh hơn việc mở sách ra để quét không?
Di chỉ Herculaneum hiện mới chỉ được khai quật khoảng 20%, nên rất có thể vẫn còn nhiều cuộn giấy hơn nữa
Những cuộn hiện có dường như không phải thư viện chính của thời đó mà gần với một bộ sưu tập tư nhân hơn. Nếu giờ đã có thể đọc chúng bằng công nghệ này, thì viễn cảnh tìm được một thư viện hoàn chỉnh chứa hàng nghìn cuộn giấy về nhiều chủ đề khác nhau sẽ thật tuyệt vời
- Cuối cùng thì điều này có thể thay đổi hoàn toàn cách chúng ta hiểu về thế giới cổ đại
  Người ta ước tính rằng các tác phẩm Hy Lạp và Latin cổ đại còn truyền lại đến nay chỉ chiếm khoảng 1% tổng số, còn những ngôn ngữ khác như Punic thì còn ít hơn [0]. Có những tác phẩm và tác giả mà ta chỉ biết tên vì được trích dẫn trong văn bản đời sau
  Ngoài ra, các văn bản còn sống sót được là nhờ suốt thời Trung cổ, các tu sĩ liên tục chép tay chúng lên da động vật đắt tiền, nên đương nhiên các chủ đề khiến họ thấy hứng thú hơn sẽ được ưu tiên. Theo đúng nghĩa đen, mọi thứ đều có thể thay đổi
  [0] https://talesoftimesforgotten.com/2021/09/25/are-there-more-...
Mỗi khi cảm thấy tình trạng của ngành công nghệ thật u ám, và nghĩ rằng những người thông minh đang dồn sức vào việc nhét thêm quảng cáo vào cổ họng mọi người, thì hãy nhớ rằng vẫn có những dự án như thế này tồn tại
Cũng có rất nhiều người thông minh đang làm những việc phi thường, chỉ là họ ít ồn ào hơn thôi
- Không chỉ những việc như thế này mới đáng kinh ngạc. AI cũng được dùng cho khám phá trong y học, và còn được dùng để phát hiện nhiễm trùng huyết sớm hơn nhằm giảm tỷ lệ tử vong
  Cũng từng có trường hợp tìm ra rằng gene Alzheimer không chỉ là một dấu hiệu mà còn kích hoạt sự khởi phát của bệnh
Mình tự hỏi liệu ví dụ song song sau 2.000 năm nữa sẽ trông như thế này không: “Đã giải mã được DVD Step Brothers sau Đại bùng phát Mặt Trời năm 2484”
- Chúng tôi đã phục hồi thành công một phương tiện nghe nhìn có vẻ như là bản tái hiện truyền miệng phần kết bị thất truyền lâu dài của “The Three Sisters” của Chekhov. Hóa ra đèn vẫn bật
- Chắc hẳn ai đó sẽ tìm thấy một chiếc áo thun hóa thạch có in mã DeCSS
- Theo hiểu biết của tôi thì Pompeii về cơ bản là một thành phố của hưởng lạc và khoái lạc
  Các văn bản trên cuộn giấy được công bố đến nay cũng phần lớn trông như dạng fanfic khiêu dâm phiên bản cổ đại. Rốt cuộc thì con người cũng chẳng thay đổi bao nhiêu
Trong số những việc AI đang làm lúc này, đây là một trong những hướng thú vị nhất. Cùng với nghiên cứu y học cũng vậy
Mình khá ám ảnh với thế giới cổ đại, nên từ lâu đã mơ đến việc có thể đọc được những văn bản mới từ khoảng 2.000 năm trước theo từng trang
Mỗi khi đọc những bản dịch như thế này, tôi luôn tự hỏi liệu giọng điệu có được dịch theo không
Tác giả nguyên bản có thật sự nhắm đến một cách nói rất trang trọng như “to the utmost”, hay chỉ là kiểu nhẹ nhàng hơn như “to the max”? Thành kiến của người dịch góp phần đến mức nào trong việc khiến những văn bản kiểu này trông giống một bài luận học thuật hơn là một bài đăng trên mạng xã hội?
- Các bản dịch văn bản cổ có ích thường đi kèm nguyên văn, để người đọc có thể tự đánh giá bản dịch trung thành đến mức nào
  Nếu muốn đọc văn bản cổ, có thể tìm các ấn bản song ngữ như “Loeb library”. Bản dịch lược bỏ nguyên văn là dành cho người chỉ muốn nắm đại ý nội dung và ít quan tâm hơn đến độ chính xác của bản dịch
  Khi có bản song ngữ, ngay cả với lượng kiến thức ngôn ngữ gốc tương đối ít, người đọc cũng dễ hiểu nguyên văn hơn. Nguyên văn quan trọng vì trong ngôn ngữ đích thường không có từ tương đương chính xác, nên người dịch nhiều khi buộc phải đưa vào một mức độ thiếu chính xác nào đó
  Đặc biệt, khi những từ cổ khác nhau lại được dịch thành cùng một từ tiếng Anh, sắc thái sẽ mất đi và dễ gây hiểu lầm. Ngược lại, việc dịch cùng một từ cổ thành các từ tiếng Anh khác nhau tùy ngữ cảnh cũng gây rối
  Nghĩa của từ có thể thay đổi theo ngữ cảnh, nhưng nếu người dịch không có đủ chuyên môn về bối cảnh khoa học hoặc kỹ thuật liên quan thì đôi khi họ cũng không phán đoán tốt hơn người đọc. Người dịch giỏi hơn thường thích đối ứng một-một giữa các từ, để người đọc có thể xem nhiều cách dùng và tự lần ra ý định của tác giả cổ dễ hơn
- Vì thế tôi thích dịch sát nghĩa và đào sâu vào từ nguyên, đồng thời cũng hay hỏi những hoạt động nào đã cấu thành đời sống thời đó
  Không cần phải trở thành một cung thủ giỏi, nhưng để hiểu một người dùng một kiểu cung cụ thể thì ít nhất cầm thử cây cung đó một lúc sẽ dễ hơn
- Nếu là văn bản triết học thì có lẽ đó sẽ là loại văn xuôi rất dày đặc
  Lối viết Hy Lạp và Latin trang trọng chuộng những câu dài gắn đầy mệnh đề phụ. Ngày nay, ngoài giới học thuật hay văn chương “cao cấp”, người ta không còn viết như vậy nhiều nữa. Thư từ thân mật hay chữ viết nguệch ngoạc khi ấy có lẽ gần với tweet hơn
- Nếu thử dịch bài thơ cổ nổi tiếng Mugger's Paradise của thi hào cổ điển Somewhat Frosty, thì sẽ thành thế này:
  Bước qua thung lũng phủ bóng tử thần,
  Ta ngẫm đời mình và thấy chẳng còn chi.
  Ta đã cười và vung vũ khí quá lâu,
  Đến mẹ ta cũng ngỡ thần trí ta đã lìa xa.
  Nhưng ta chưa từng lừa ai ngoài kẻ đáng bị lừa,
  Nên việc ta bị xem là hèn nhát quả thật chưa từng nghe thấy.
  Hãy cẩn thận với điều ngươi nói và nơi ngươi bước tới.
  Kẻo ngươi và đồng bọn bị viền quanh bởi một nét phấn
- Đôi khi manh mối rất ít, nhưng với thời Cộng hòa La Mã hậu kỳ và đầu Đế chế La Mã thì thực ra có khá nhiều thứ để đối chiếu
  Latin là một ngôn ngữ cực kỳ phong phú, mà đây cũng chẳng phải một mảnh văn bản ngắn. Dịch thuật lúc nào cũng khó, đặc biệt là văn bản từ hàng nghìn năm trước, nhưng những bản dịch kiểu này có thể thực hiện với mức độ chắc chắn khá cao
Người viết văn bản này gần với công nghệ đã dùng để giải đọc những mảnh cháy đen của chính văn bản mình hơn là với công nghệ đã xây nên kim tự tháp
Nghĩ kỹ thì khá kỳ lạ
- Nếu nói “công nghệ xây kim tự tháp” thì ý là dây thừng với xe kéo à?
Việc người ta gìn giữ nó suốt ngần ấy thời gian với hy vọng một ngày nào đó sẽ có công nghệ đọc được mà không phá hủy nó khiến tôi thấy đây như một phép thử đáng kinh ngạc về năng lực và sự lạc quan của con người
Những câu chuyện như thế này đem lại rất nhiều hy vọng cho tương lai
Thật đẹp một cách đầy mỉa mai khi chúng ta lại tìm ra được câu: “Nếu bằng cách nào đó chúng ta rời xa chính mình và bản tính của mình, chúng ta sẽ tìm hiểu điều gì đó nhưng sẽ không nắm giữ được nó…”

Lần đầu tiên giải mã toàn bộ cuộn giấy Herculaneum

Đọc cuộn giấy niêm phong mà không cần mở

Văn bản được phục dựng từ PHerc. 1667

Nội dung và định danh học thuật

Kiểm chứng và định danh từ các cuộn khác

Công nghệ được dùng và cách công khai

Khoa học mở và bước tiếp theo

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News