15 điểm bởi hongminhee 2021-10-09 | 11 bình luận | Chia sẻ qua WhatsApp

Xin chào. Sau khi tạo tài khoản trên GeekNews, từ trước đến nay tôi chỉ âm thầm đọc thôi, nhưng đến Ngày Hangeul thì chợt nhớ tới bảng 《Đối chiếu thuật ngữ khoa học máy tính Hàn–Trung–Nhật》 mà tôi đã làm vào đầu năm nay, nên thử chia sẻ trên Show GN.

Lĩnh vực chuyên môn nào cũng có xu hướng như vậy, nhưng dạo gần đây vì tiện mà nhiều người không dùng các từ dịch thuật ngữ khoa học máy tính đã được định hình từ trước, mà giữ nguyên tiếng Anh như một từ vay mượn. Ví dụ như bây giờ, ngay cả “giá trị” cũng thường được nói là “value”, và khi viết cũng hay dùng như vậy.

Dù sao thì trong tiếng Hàn cũng có rất nhiều bản dịch thuật ngữ khoa học máy tính hay đã được dùng ổn định từ vài chục năm trước. Sau khi biết rằng một phần đáng kể trong số đó cũng được chia sẻ với Nhật Bản hoặc Đài Loan, vốn cùng thuộc vùng văn hóa Hán tự, tôi đã làm bảng đối chiếu này cho vui. Nhân Ngày Hangeul, nếu bạn ghé xem một chút thì thật tốt.

Mã nguồn có tại < https://github.com/dahlia/cjk-compsci-terms >. Các thuật ngữ được sắp xếp thành các tệp YAML theo từng phân loại trong thư mục tables/, vì vậy tôi cũng rất hoan nghênh các PR bổ sung thuật ngữ hoặc sửa lỗi.

Cảm ơn bạn đã đọc!

11 bình luận

 
dhsung 2021-10-10

Tôi có một thắc mắc.

Khi xem cách ghi tiếng Trung và tiếng Nhật trong YAML, tôi thấy phần chữ Hán dùng cách viết Hán tự đang được dùng ở Hàn Quốc, còn bên dưới trong term thì ghi các dạng chữ phồn thể, giản thể và shinjitai của tiếng Nhật.

Tôi muốn biết nó được phát triển với chủ đích như thế nào.

Ví dụ, với Source Code,

đối với Trung Quốc đại lục (zh-CN), có nói rằng dùng các cách biểu thị theo kiểu Hán tự tiếng Hàn là "源代碼" và "源程序",

nhưng nhìn vào việc trong term lại ghi đúng dạng giản thể thì có vẻ không nhất quán.

Tham khảo thêm, Source Code là

ở Trung Quốc đại lục chủ yếu dùng 源代码, 源码, 源程序

ở Đài Loan dùng 原始碼, 原始程式碼

và tôi được biết ở Hồng Kông dùng 原始碼, 源碼.

Ngoài ra, trong trường hợp Computer,

ở Trung Quốc đại lục, cách gọi chính thức là "电子计算机", và trong nhiều sách cùng tài liệu người ta dùng "计算机" để biểu thị Computer,

nhưng do ảnh hưởng của Đài Loan và Hồng Kông, mọi người cũng thường dùng lẫn cả "电脑".

Tham khảo 1: https://zh.wikipedia.org/wiki/…

Tham khảo 2: 电脑吧 https://tieba.baidu.com/f?kw=%B5%E7%C4%D4&fr=ala0&tpl=5

Góc CPU của JD.com: https://pcdiy.jd.com/

Góc laptop của JD.com: https://list.jd.com/list.html?cat=670,671,672

Vì vậy, có vẻ cần xác nhận xem phần này sẽ được triển khai chủ yếu theo cách ghi chính thức của chính phủ hay không.

Cách ghi được dùng trong cộng đồng Hoa ngữ không đồng nhất, và tần suất sử dụng cũng khác nhau tùy từng người, nên có lẽ sẽ có khá nhiều yếu tố cần cân nhắc.

 
hongminhee 2021-10-10

Cảm ơn bạn vì ý kiến quý báu.

Trước hết, nếu bạn kiểm tra trang đã được xuất bản trên web trước, có lẽ bạn sẽ xác nhận được rằng trong số các thuật ngữ tiếng Trung đại lục không có mục nào được hiển thị bằng cách viết Hán tự kiểu Hàn thay vì chữ giản thể. Vì trong dữ liệu YAML, chỉ có trường term là nội dung thực sự được hiển thị trên màn hình, nên đúng như bạn nói, chỉ ở term mới ghi theo cách viết được dùng tại từng khu vực (tuy nhiên, riêng tiếng Hàn thì được ghi bằng Hán tự kiểu Hàn thay vì Hangul).

Vậy thì chuỗi ký tự theo thể 《Kangxi Zidian》 được viết ở phía trên đó là gì? Đó chỉ đơn giản là một mã định danh nhóm tùy ý để gom các từ đồng nguyên giữa những ngôn ngữ (hoặc phương ngữ) khác nhau trong dữ liệu lại với nhau. Vì là tùy ý nên không nhất thiết phải là Hán tự, dùng số hay hash cũng được. Tuy nhiên, chẳng hạn như tiếng Nhật 「科学」 và tiếng Trung Đài Loan 「科學」 cần được hiển thị như là cùng một từ đồng nguyên, nên chúng phải dùng chung một mã định danh nhóm. Tương tự, tiếng Hàn "keompyuteo" và tiếng Nhật 「コンピュータ」 cũng phải được gom bằng cùng một mã định danh nhóm.

Tất nhiên có thể dùng một chuỗi tùy ý vô nghĩa như 「foobar」 làm mã định danh, nhưng tôi nghĩ rằng vì mục đích tiện lợi, sẽ dễ quản lý hơn nếu đặt theo một quy tắc nhất quán và có thể phần nào thể hiện nội dung. Vì vậy, với từ vay mượn gốc tiếng Anh thì viết bằng chữ Latinh, còn với từ gốc Hán thì viết bằng Hán tự là quy tắc dễ nghĩ ra nhất. Tuy nhiên, vì cách ghi Hán tự cũng có thể rất đa dạng, nên cần phải chuẩn hóa nhiều dạng chữ tục, dị thể tự, v.v. (vì là mã định danh nhóm nên phải gom về một), và trong quá trình này, chữ giản thể của Trung Quốc hay shinjitai của Nhật tự nhiên bị loại khỏi danh sách ứng viên. Lý do là có khá nhiều trường hợp các chữ khác nhau bị gộp lại chỉ vì cách đọc theo từng khu vực giống nhau, nên chúng không phù hợp để chuẩn hóa (mất thông tin phân loại). Vì vậy, lựa chọn chỉ còn có thể là phồn thể Hồng Kông, chính thể Đài Loan, Hán tự kiểu Hàn, v.v., và tôi đã lấy thể 《Kangxi Zidian》 làm chuẩn vì có thể xem là không gắn với hàm ý liên hệ đến bất kỳ chính thể hiện tồn nào.

Những nội dung trên đã được mô tả sẵn trong tệp CONTRIBUTING.md trong kho lưu trữ. Ngoài ra còn có những phần khác cũng được viết ở đó, nên nếu bạn tham khảo thì cũng sẽ hữu ích.

Việc nắm bắt một cách rộng rãi xem trong số nhiều từ cùng chỉ một nghĩa thì cộng đồng ngôn ngữ dùng từ nào nhiều nhất, tức là phân bố từ vựng, là điều quá tốn kém về chi phí và thời gian để một cá nhân đơn lẻ không phải nhà nghiên cứu chuyên môn có thể khảo sát. Nếu có các nghiên cứu đi trước khảo sát phân bố sử dụng thuật ngữ giữa những người làm nghiên cứu khoa học máy tính hoặc phát triển phần mềm, thì tôi cũng rất muốn tích cực tận dụng chúng; nhưng nếu thực sự không có những tài liệu như vậy, thì với tôi sự giúp đỡ từ nhiều người tham gia, đặc biệt là những đề xuất từ người bản ngữ của từng ngôn ngữ, là vô cùng cần thiết. Dĩ nhiên, vì cho đến nay tôi vẫn khảo sát một mình, nên không còn cách nào khác ngoài việc chủ yếu dựa vào Chinese Wikipedia hay Baidu Baike.

Đối với những ví dụ cụ thể mà bạn đã nêu, có lẽ nếu bạn gửi pull request thì sẽ có thể được phản ánh nhanh hơn.

Cảm ơn bạn đã đọc bình luận dài này.

 
dhsung 2021-10-10

Nếu tham khảo English-Chinese Glossary of IT Terms do Chính quyền Hồng Kông phát hành, bạn sẽ có thể sắp xếp được các thuật ngữ được sử dụng tại Hồng Kông.

https://ogcio.gov.hk/en/our_work/…

 
alstjr7375 2021-10-09

Tuyệt vời :D

 
kunggom 2021-10-09

Cảm ơn bạn đã tổng hợp rất hay.

Nếu sau này có dịp, tôi cũng muốn xem thêm tài liệu về thuật ngữ tin học của Triều Tiên. Không rõ Trung tâm Tư liệu Triều Tiên thuộc Bộ Thống nhất có tài liệu phù hợp hay không.

 
dhsung 2021-10-10

Đã có sẵn trên trang web của Bộ Thống nhất

So sánh thuật ngữ CNTT giữa Nam và Bắc Triều Tiên: https://nkinfo.unikorea.go.kr/nkp/term/skNkItTerm.do

 
hongminhee 2021-10-09

Nếu mổ xẻ thứ như Bước Sao Đỏ, bản phân phối Linux của Bắc Triều Tiên, thì có vẻ cũng có thể moi ra được chút tư liệu nào đó. Hình như trong đó cũng có cả 《Từ điển Đại ngữ Triều Tiên》… Khi nào rảnh tôi sẽ thử bổ sung cả tiếng Bắc Triều Tiên nữa!

 
dhsung 2021-10-10

So sánh thuật ngữ IT giữa Nam và Bắc Triều Tiên: https://nkinfo.unikorea.go.kr/nkp/term/skNkItTerm.do

Có vẻ nếu scrape cái này thì có thể bổ sung nhanh hơn.

 
kunggom 2021-10-10

Xem kỹ thì hóa ra họ đang cung cấp toàn bộ nội dung đó dưới dạng tệp định dạng xls, nên cũng chẳng cần phải scraping.

 
hongminhee 2021-10-09

Tôi cứ tưởng khi bọc bằng <> như trong Markdown thì ranh giới URL sẽ được nhận diện, hóa ra là không phải. 😅 Link kho lưu trữ ở đây: https://github.com/dahlia/cjk-compsci-terms

 
hongminhee 2021-10-09

Cảm ơn bạn cũng đã sửa phần nội dung!