Lần đầu tiên giải mã toàn bộ cuộn giấy Herculaneum
(scrollprize.org)- PHerc. 1667, vốn không thể mở ra sau vụ phun trào Vesuvius năm 79, đã được phục dựng ảo mà không cần mở vật lý, cho phép đọc văn bản được bảo tồn từ đầu đến cuối lần đầu tiên
- Bằng cách kết hợp quét X-quang độ phân giải cao, tái dựng bề mặt, làm phẳng và phát hiện mực bằng machine learning, nhóm nghiên cứu đã biến cuộn giấy bị than hóa thành những trang có thể đọc được
- Khoảng 1,4m papyrus và phần dưới của khoảng 22 cột chữ Hy Lạp đã được phục dựng; nội dung được xác nhận là một chuyên luận đạo đức học Khắc kỷ bàn về bản tính con người, xung lực và tiến bộ đạo đức
- Ở PHerc. Paris 4, mực được nhìn thấy trực tiếp trong dữ liệu X-quang 3D; còn ở PHerc. 139, tiêu đề và tên tác giả Philodemus, On Gods, Book 8 đã được phục dựng
- Dữ liệu chụp cắt lớp, bề mặt phục dựng, bản chép lại và mã nguồn được công khai để có thể kiểm chứng và tái lập; cùng cách tiếp cận này cũng có thể áp dụng cho hàng trăm cuộn giấy Herculaneum vẫn còn niêm phong
Đọc cuộn giấy niêm phong mà không cần mở
- PHerc. 1667 là cuộn papyrus Herculaneum được cộng đồng Vesuvius Challenge gọi là Scroll 4
- Nó đã bị niêm phong suốt khoảng 2.000 năm kể từ sau vụ phun trào Vesuvius năm 79, và do bị than hóa nên nếu mở vật lý có thể sẽ bị phá hủy
- Công trình lần này đã đạt được mở cuộn hoàn toàn bằng phương pháp ảo và giải đọc liên tục mà không chạm trực tiếp vào các trang của cuộn giấy
- Kết quả được công bố gồm bề mặt papyrus dài khoảng 1,4m và văn bản khoảng 22 cột chữ Hy Lạp
- preprint PDF, dữ liệu và mã GitHub cũng được công bố cùng lúc
Văn bản được phục dựng từ PHerc. 1667
- PHerc. 1667 ban đầu là một cuộn lớn hơn, nhưng các nỗ lực mở thủ công vào thế kỷ 19, năm 1969 và thập niên 1980 đã phá hủy các lớp bên ngoài
- Phần còn lại là lõi bên trong dày đặc, tương ứng khoảng 8cm trong tổng chiều cao ban đầu 19–24cm
- Nhóm nghiên cứu đã phục dựng phần dưới của khoảng 22 cột từ phần còn được bảo tồn, rồi các nhà papyrology chép lại và thẩm định
- Đây là trường hợp đầu tiên văn bản được bảo tồn được đọc liên tục từ đầu đến cuối, thay vì chỉ là từng từ hay mảnh rời rạc
Nội dung và định danh học thuật
- Văn bản được phục dựng là một chuyên luận triết học về đạo đức
- Chủ đề về bản tính con người, xung lực và tiến bộ đạo đức của con người, cùng các đặc điểm ngôn ngữ và cái tên Aristocreon xuất hiện ở cột cuối còn bảo tồn, là cơ sở để định danh
- Aristocreon được xem là cháu và môn đệ của triết gia Khắc kỷ Chrysippus, qua đó gắn văn bản với bối cảnh Khắc kỷ và thế kỷ 2 TCN
- Ở những chỗ bề mặt đã mất do papyrus hư hại, bản giải đọc vẫn còn khoảng trống nên vẫn mang tính mảnh đoạn
- Dù vậy, nhiều câu đoạn đã được đọc rõ lần đầu tiên sau 2.000 năm
- “Chúng ta sẽ khảo cứu một điều nào đó, nhưng nếu bằng cách nào đó tách khỏi chính mình và bản tính của mình, chúng ta sẽ không nắm bắt được nó…”
- “Sau khi tự đẩy bản thân đến mức cực hạn thông qua nghiên cứu và học hỏi… đồng thời sở hữu cùng một sự khôn ngoan thực hành…”
- “Nếu những điều ấy là thiện đối với chúng ta, thì trong cái ác đối lập cũng sẽ không có gì là tốt—lại càng không có gì là đẹp—và cũng sẽ không có gì là xấu—lại càng không có gì là xấu xí—và cũng sẽ không có hạnh phúc…”
Kiểm chứng và định danh từ các cuộn khác
- PHerc. Paris 4 là cuộn giấy mà cộng đồng Vesuvius Challenge gọi là Scroll 1
- Với kỹ thuật hình ảnh độ phân giải cao hơn, lần đầu tiên đã thu được kết quả cho thấy mực hiện ra trực tiếp trong dữ liệu X-quang 3D
- Khi chiếu lại phần mực được phân đoạn 3D lên các trang đã mở, nó khớp từng-một với văn bản đã được đọc ở Grand Prize 2023
- Đây là một trường hợp xác nhận độc lập rằng bản giải đọc trước đó là có thật, dựa trên dữ liệu tốt hơn
- Ở PHerc. 139, việc tăng cường tín hiệu mực tại vùng tiêu đề đã giúp phục dựng tiêu đề và tên tác giả
- Tác phẩm được định danh là Philodemus, On Gods, Book 8
- Việc đọc được tiêu đề của một cuộn giấy còn đóng cho phép biết đó là tác phẩm nào ngay cả trước khi nghiên cứu các cột nội dung
Công nghệ được dùng và cách công khai
- Việc quét được thực hiện bằng micro-CT X-quang tương phản pha độ phân giải cao tại beamline BM18 của European Synchrotron Radiation Facility ở Grenoble
- Thiết bị này có thể phân giải các lớp mỏng, xếp dày đặc của cuộn giấy Herculaneum
- Công việc được tiến hành với sự hợp tác của National Library of Naples “Vittorio Emanuele III”, nơi lưu giữ các papyrus Herculaneum
- Quy trình xử lý gồm bốn bước
- Tái dựng cấu trúc hình học bên trong cuộn giấy
- Theo dõi bề mặt và làm phẳng chúng thành các tờ có thể đọc được
- Huấn luyện mô hình machine learning để phát hiện mực gần như không thể phân biệt với papyrus bị than hóa
- Các nhà papyrology thẩm định và chép lại từng kết quả giải đọc
- Dữ liệu chụp cắt lớp, bề mặt tái dựng và bản chép lại được công bố theo giấy phép Creative Commons tại scrollprize.org/data và được lưu trữ tại ESRF
- Mã nguồn được công bố trên GitHub, cho phép kiểm chứng và áp dụng cho các cuộn khác
Khoa học mở và bước tiếp theo
- Công nghệ mở cuộn ảo cho các cuộn Herculaneum được giáo sư Brent Seales của EduceLab tiên phong phát triển
- Năm 2023, Seales đã công khai công nghệ hình ảnh và phần mềm của phòng thí nghiệm mình cho Vesuvius Challenge
- Vesuvius Challenge là dự án mở, dựa trên tài trợ và quyên góp, do Brent Seales, Nat Friedman và Daniel Gross đồng sáng lập
- first letters và 2023 Grand Prize đều do những người tham gia từ khắp thế giới giành được
- Hiện nay, nhiều thành viên trong nhóm nghiên cứu của Vesuvius Challenge ban đầu tham gia với tư cách thí sinh, tạo ra đột phá trong cuộc thi mở, nhận giải rồi gia nhập nhóm nghiên cứu
- Vẫn còn hàng trăm cuộn Herculaneum chưa được mở; cả một thư viện gồm triết học, thơ ca và văn xuôi đang chờ được đọc lần đầu tiên kể từ thời cổ đại
- Các cách tham gia đều được công khai
- Xem nội dung khoa học qua preprint PDF
- Lấy dữ liệu và mã nguồn tại scrollprize.org/data và GitHub
- Bắt đầu tham gia cộng đồng tại get started
1 bình luận
Ý kiến trên Hacker News
Điều này gợi mình hình dung cảnh Aristocreon đang viết suy nghĩ của mình lên cuộn giấy vào khoảng năm 200 TCN
Có lẽ ông biết rằng cuộn giấy đó có thể được lưu giữ trong thư viện một thời gian, nhưng hẳn không thể tưởng tượng rằng 300 năm sau núi lửa sẽ phá hủy cuộn giấy mà đồng thời cũng bảo tồn nó theo một cách nào đó, rồi gần 2.000 năm sau, loài người tương lai với những cỗ máy làm từ vật liệu có thể xem là họ hàng xa của cát và sét sẽ đọc lại nó và truyền đi khắp toàn cầu ngay tức thì
Khi ấy, việc Trái Đất có hình cầu mới chỉ được chứng minh tương đối gần đây, nhưng phần lớn thế giới vẫn còn chưa được biết đến. Liệu chúng ta ngày nay có trí tưởng tượng tốt hơn không? Các tác giả SF có thể tưởng tượng ra điều gì đó xa xôi khỏi những gì ta biết hiện nay đến mức tương tự không?
Thị lực của con người hiện đại không khác thời đó, nhưng bây giờ gần như ai cũng biết đọc, còn khi ấy số người có thể đọc những cuộn như thế này là cực ít. SF tạo ra những tương lai đủ xa lạ để khiến người ta choáng váng. Có cả hard SF như series Orthogonal của Greg Egan nói về một vũ trụ nơi 3 chiều không gian và 1 chiều thời gian được sắp xếp khác đi, và nếu nói về những tương lai bình thường hơn như phần kéo dài của xã hội loài người thì có rất nhiều, từ Rainbows End của Vinge đến các tác phẩm tương lai xa của Stross
Nếu là những năm 1800 thì ít nhất có lẽ người ta còn hiểu được phần “điện”
Mà biết đâu điều đó đã đúng ngay từ lúc máy in thực hiện lần in đầu tiên
Tôi phụ trách phần phân đoạn, mở cuộn và phát hiện mực trong nhóm Vesuvius Challenge. Nếu có câu hỏi thì tôi có thể trả lời
Thật kinh ngạc khi các bạn tạo ra được một cỗ máy có thể đọc những cuộn giấy mong manh hơn 2.000 năm tuổi mà không cần thật sự mở chúng ra, và còn trực tiếp đóng góp vào việc đó
Cũng tò mò không biết có dữ liệu gán nhãn như ảnh do chuyên gia đánh dấu phần mực hay bản quét các cuộn giấy than hóa có nội dung đã biết hay không. Với mắt thường của mình thì mình không tự tin có thể làm tốt hơn đoán ngẫu nhiên trong việc này, lại còn bị giới hạn ở chỗ rốt cuộc chỉ nhìn được lát cắt 2D của dữ liệu 3D
Liệu có thể tự động hóa đến mức quét khi còn đóng còn nhanh hơn việc mở sách ra để quét không?
Di chỉ Herculaneum hiện mới chỉ được khai quật khoảng 20%, nên rất có thể vẫn còn nhiều cuộn giấy hơn nữa
Những cuộn hiện có dường như không phải thư viện chính của thời đó mà gần với một bộ sưu tập tư nhân hơn. Nếu giờ đã có thể đọc chúng bằng công nghệ này, thì viễn cảnh tìm được một thư viện hoàn chỉnh chứa hàng nghìn cuộn giấy về nhiều chủ đề khác nhau sẽ thật tuyệt vời
Người ta ước tính rằng các tác phẩm Hy Lạp và Latin cổ đại còn truyền lại đến nay chỉ chiếm khoảng 1% tổng số, còn những ngôn ngữ khác như Punic thì còn ít hơn [0]. Có những tác phẩm và tác giả mà ta chỉ biết tên vì được trích dẫn trong văn bản đời sau
Ngoài ra, các văn bản còn sống sót được là nhờ suốt thời Trung cổ, các tu sĩ liên tục chép tay chúng lên da động vật đắt tiền, nên đương nhiên các chủ đề khiến họ thấy hứng thú hơn sẽ được ưu tiên. Theo đúng nghĩa đen, mọi thứ đều có thể thay đổi
[0] https://talesoftimesforgotten.com/2021/09/25/are-there-more-...
Mỗi khi cảm thấy tình trạng của ngành công nghệ thật u ám, và nghĩ rằng những người thông minh đang dồn sức vào việc nhét thêm quảng cáo vào cổ họng mọi người, thì hãy nhớ rằng vẫn có những dự án như thế này tồn tại
Cũng có rất nhiều người thông minh đang làm những việc phi thường, chỉ là họ ít ồn ào hơn thôi
Cũng từng có trường hợp tìm ra rằng gene Alzheimer không chỉ là một dấu hiệu mà còn kích hoạt sự khởi phát của bệnh
Mình tự hỏi liệu ví dụ song song sau 2.000 năm nữa sẽ trông như thế này không: “Đã giải mã được DVD Step Brothers sau Đại bùng phát Mặt Trời năm 2484”
Các văn bản trên cuộn giấy được công bố đến nay cũng phần lớn trông như dạng fanfic khiêu dâm phiên bản cổ đại. Rốt cuộc thì con người cũng chẳng thay đổi bao nhiêu
Trong số những việc AI đang làm lúc này, đây là một trong những hướng thú vị nhất. Cùng với nghiên cứu y học cũng vậy
Mình khá ám ảnh với thế giới cổ đại, nên từ lâu đã mơ đến việc có thể đọc được những văn bản mới từ khoảng 2.000 năm trước theo từng trang
Mỗi khi đọc những bản dịch như thế này, tôi luôn tự hỏi liệu giọng điệu có được dịch theo không
Tác giả nguyên bản có thật sự nhắm đến một cách nói rất trang trọng như “to the utmost”, hay chỉ là kiểu nhẹ nhàng hơn như “to the max”? Thành kiến của người dịch góp phần đến mức nào trong việc khiến những văn bản kiểu này trông giống một bài luận học thuật hơn là một bài đăng trên mạng xã hội?
Nếu muốn đọc văn bản cổ, có thể tìm các ấn bản song ngữ như “Loeb library”. Bản dịch lược bỏ nguyên văn là dành cho người chỉ muốn nắm đại ý nội dung và ít quan tâm hơn đến độ chính xác của bản dịch
Khi có bản song ngữ, ngay cả với lượng kiến thức ngôn ngữ gốc tương đối ít, người đọc cũng dễ hiểu nguyên văn hơn. Nguyên văn quan trọng vì trong ngôn ngữ đích thường không có từ tương đương chính xác, nên người dịch nhiều khi buộc phải đưa vào một mức độ thiếu chính xác nào đó
Đặc biệt, khi những từ cổ khác nhau lại được dịch thành cùng một từ tiếng Anh, sắc thái sẽ mất đi và dễ gây hiểu lầm. Ngược lại, việc dịch cùng một từ cổ thành các từ tiếng Anh khác nhau tùy ngữ cảnh cũng gây rối
Nghĩa của từ có thể thay đổi theo ngữ cảnh, nhưng nếu người dịch không có đủ chuyên môn về bối cảnh khoa học hoặc kỹ thuật liên quan thì đôi khi họ cũng không phán đoán tốt hơn người đọc. Người dịch giỏi hơn thường thích đối ứng một-một giữa các từ, để người đọc có thể xem nhiều cách dùng và tự lần ra ý định của tác giả cổ dễ hơn
Không cần phải trở thành một cung thủ giỏi, nhưng để hiểu một người dùng một kiểu cung cụ thể thì ít nhất cầm thử cây cung đó một lúc sẽ dễ hơn
Lối viết Hy Lạp và Latin trang trọng chuộng những câu dài gắn đầy mệnh đề phụ. Ngày nay, ngoài giới học thuật hay văn chương “cao cấp”, người ta không còn viết như vậy nhiều nữa. Thư từ thân mật hay chữ viết nguệch ngoạc khi ấy có lẽ gần với tweet hơn
Bước qua thung lũng phủ bóng tử thần,
Ta ngẫm đời mình và thấy chẳng còn chi.
Ta đã cười và vung vũ khí quá lâu,
Đến mẹ ta cũng ngỡ thần trí ta đã lìa xa.
Nhưng ta chưa từng lừa ai ngoài kẻ đáng bị lừa,
Nên việc ta bị xem là hèn nhát quả thật chưa từng nghe thấy.
Hãy cẩn thận với điều ngươi nói và nơi ngươi bước tới.
Kẻo ngươi và đồng bọn bị viền quanh bởi một nét phấn
Latin là một ngôn ngữ cực kỳ phong phú, mà đây cũng chẳng phải một mảnh văn bản ngắn. Dịch thuật lúc nào cũng khó, đặc biệt là văn bản từ hàng nghìn năm trước, nhưng những bản dịch kiểu này có thể thực hiện với mức độ chắc chắn khá cao
Người viết văn bản này gần với công nghệ đã dùng để giải đọc những mảnh cháy đen của chính văn bản mình hơn là với công nghệ đã xây nên kim tự tháp
Nghĩ kỹ thì khá kỳ lạ
Việc người ta gìn giữ nó suốt ngần ấy thời gian với hy vọng một ngày nào đó sẽ có công nghệ đọc được mà không phá hủy nó khiến tôi thấy đây như một phép thử đáng kinh ngạc về năng lực và sự lạc quan của con người
Những câu chuyện như thế này đem lại rất nhiều hy vọng cho tương lai
Thật đẹp một cách đầy mỉa mai khi chúng ta lại tìm ra được câu: “Nếu bằng cách nào đó chúng ta rời xa chính mình và bản tính của mình, chúng ta sẽ tìm hiểu điều gì đó nhưng sẽ không nắm giữ được nó…”