1 điểm bởi GN⁺ 2024-10-15 | 2 bình luận | Chia sẻ qua WhatsApp

Đổi mới công nghệ để đưa tiếng Tây Tạng trở thành công dân hạng nhất trong thế giới số

  • BDRC đang thúc đẩy các đổi mới công nghệ nhằm đưa tiếng Tây Tạng trở thành một công dân hạng nhất trong thế giới số. Một thành tựu lớn gần đây là LibreOffice nay đã hỗ trợ những đoạn văn cực dài, một đặc điểm quan trọng của tiếng Tây Tạng.
  • Người Tây Tạng đã đầu tư rất nhiều năng lượng vào viết lách, đổi mới và công nghệ kể từ khi Phật giáo được du nhập vào thế kỷ 8. Chữ viết Tây Tạng được phát minh để dịch kinh điển Phật giáo từ tiếng Phạn và tiếng Trung sang tiếng Tây Tạng.
  • Đến thế kỷ 14, họ đã áp dụng công nghệ in khắc gỗ để sản xuất hàng loạt kinh điển được dịch sang tiếng Tây Tạng cũng như các văn bản Phật giáo do chính các tác giả vùng Himalaya chấp bút.
  • Gần đây, việc phát triển các phông chữ máy tính cho tiếng Tây Tạng đã trở thành một bước nhảy vọt lớn trong quá trình tiến hóa của tiếng Tây Tạng trong thế giới số. Đặc biệt đáng chú ý là việc tiếng Tây Tạng được đưa vào tiêu chuẩn Unicode, bộ tiêu chuẩn mã hóa phông chữ máy tính cho các hệ chữ viết trên toàn thế giới.
  • Tuy nhiên, tiếng Tây Tạng vẫn có một đặc điểm quan trọng chưa được hỗ trợ trong mọi công cụ hay ứng dụng. Một trong số đó là các đoạn văn cực dài. Không giống các ngôn ngữ châu Âu, văn bản tiếng Tây Tạng không có khái niệm đoạn văn và cần được xử lý như văn bản liên tục rất dài.
  • Phần mềm xử lý văn bản thông thường được thiết kế với văn bản tiếng Anh trong đầu nên chỉ hỗ trợ các đoạn văn tương đối ngắn. Nhưng vì tiếng Tây Tạng có các đoạn gần như vô hạn và hầu như không có khoảng trắng, các phần mềm này sẽ giảm hiệu năng nghiêm trọng khi mở văn bản tiếng Tây Tạng.
  • LibreOffice là một trong những trình xử lý văn bản mã nguồn mở miễn phí, trưởng thành và ổn định, có tầm quan trọng đối với nghiên cứu Tây Tạng và cộng đồng người Tây Tạng. Phần mềm thương mại thì đắt đỏ, và ở nhiều khu vực châu Á người ta vẫn dùng các bản sao lậu.
  • Năm 2015, Elie Roux, CTO của BDRC, đã báo cáo vấn đề này với LibreOffice, nhưng việc can thiệp vào mã là một dự án lớn. Tuy nhiên gần đây, nhà phát triển Jonathan Clark đã giải quyết được vấn đề này. Những văn bản dài như Yishindzö của Longchenpa nay có thể được mở nhanh và chỉnh sửa dễ dàng.
  • BDRC đã có một đóng góp nhỏ cho đổi mới này, đồng thời rất vui mừng trước công trình xuất sắc của Jonathan và việc củng cố các công cụ xuất bản mã nguồn mở cho tiếng Tây Tạng.
  • Hỗ trợ cho các đoạn văn cực dài đã được tích hợp vào LibreOffice 24.8.2, phát hành ngày 27 tháng 9 năm 2024. Mọi người được khuyến khích gửi ý kiến phản hồi về việc biên tập tiếng Tây Tạng.

Tóm tắt của GN⁺

  • Bài viết này nói về các đổi mới công nghệ nhằm hỗ trợ tốt hơn cho tiếng Tây Tạng trong thế giới số. Bản cập nhật của LibreOffice là một bước tiến lớn khi cho phép xử lý các đoạn văn dài trong văn bản tiếng Tây Tạng.
  • Việc tích hợp tiếng Tây Tạng vào môi trường số đóng vai trò quan trọng đối với bảo tồn văn hóa và nghiên cứu, đồng thời sự phát triển của phần mềm mã nguồn mở giúp giải quyết vấn đề chi phí.
  • Bài viết cho thấy vì sao hỗ trợ số cho các ngôn ngữ thiểu số như tiếng Tây Tạng lại quan trọng, và có thể trở thành hình mẫu cho việc tích hợp số của các ngôn ngữ khác.
  • Các dự án khác có chức năng tương tự gồm Google Docs và Microsoft Word.

2 bình luận

 
GN⁺ 2024-10-15
Ý kiến trên Hacker News
  • Jim Woolsey là một hacker máy tính đời đầu, người đã đóng vai trò quan trọng trong việc số hóa tiếng Tây Tạng. Công việc tận tâm của ông đã truyền cảm hứng cho nhiều người
  • Việc các đoạn văn trong tài liệu ngắn là một trong những điều mà lập trình viên thường hiểu sai về văn bản
  • Xử lý các đoạn văn dài có thể là việc khó đối với trình xử lý văn bản. Nhưng các tác giả và nhà xuất bản hẳn biết cách quản lý điều đó
  • Có một bộ HyperCard cũ dùng để dạy phát âm tiếng Tây Tạng
  • Tiếng Bengal và tiếng Assam sử dụng chữ viết Tây Tạng. Có câu hỏi về mức độ tương đồng của chúng với tiếng Tây Tạng
  • Ngôn ngữ là công cụ để dễ học hoặc để truyền đạt các khái niệm phức tạp. Có ý kiến thắc mắc tiếng Tây Tạng thuộc kiểu nào
  • Có ý kiến muốn biết chi tiết về cách hỗ trợ các đoạn văn dài
  • Sự đổi mới của người Tây Tạng cũng được nhắc đến trong "The Nine Billion Names of God"
  • Eyal là tình nguyện viên của dự án LibreOffice, bày tỏ lời cảm ơn tới Jonathan Clark, người đã triển khai các cải tiến hiệu năng cho tiếng Tây Tạng
    • Phần lớn lỗi được phát hiện trong LibreOffice là lỗi chung, không chỉ giới hạn ở một hệ chữ cụ thể
    • Các vấn đề với những hệ chữ ít được sử dụng hơn, chẳng hạn như tiếng Tây Tạng hay tiếng Mông Cổ, cũng tồn tại
    • Có thể do ít người dùng nên số lỗi được báo cáo cũng ít hơn
    • Khi có thời gian của nhà phát triển, vẫn có sự quan tâm đến việc giải quyết các vấn đề này
  • Nếu phát hiện lỗi khi sử dụng LibreOffice, mọi người được khuyến khích báo cáo lên BugZilla
  • Có lời kêu gọi hãy cân nhắc hỗ trợ tài chính cho The Document Foundation
    • LibreOffice là một dự án FOSS quy mô lớn với rất nhiều người dùng
    • Dự án được duy trì bằng đóng góp cá nhân, không có đầu tư từ các tập đoàn lớn
 
kayws426 2024-10-15

Nếu tiếng Hàn không có khoảng trắng thì chắc là khó thật.