Kẻ khao khát sự chắc chắn là kẻ khao khát điều dối trá

(etymonline.com)

1 điểm bởi GN⁺ 2023-09-27 | 1 bình luận | Chia sẻ qua WhatsApp

Biểu đồ tần suất từ của Google Ngram Viewer có thể làm méo mó sự thay đổi trong cách dùng tiếng Anh thế kỷ 20 do dữ liệu Google Books và lỗi công thức tính; ngay cả những từ thông dụng như said và toast cũng trông như đã biến mất vào thập niên 1970–1980 rồi sống lại
Kho ngữ liệu Google Books có tỷ trọng lớn từ các bộ sưu tập đại học cùng với các tạp chí khoa học, học thuật và giáo trình hiện đại, nên có thể thổi phồng tần suất của một số từ và tương đối hạ thấp tần suất của các từ khác
Do long s(ſ) trong ấn phẩm cũ, biến thể chính tả, dạng số nhiều và lỗi niên đại, Ngram không thể phân biệt chính xác các trường hợp như fuck và suck, authorise và authorize, hay dog và dogs
Phần giải thích từ nguyên của Etymonline dựa trên tài liệu in và công sức của con người, trong khi Ngram gần với một tư liệu trực quan mang tính trang trí hơn, nên khi mâu thuẫn với giải thích từ nguyên thì khó có thể tin cậy
Trên môi trường trực tuyến, hình ảnh dễ được chọn hơn chữ viết, nhưng biểu đồ Ngram không nên bị xem là bằng chứng xác quyết về cách dùng từ mà phải được coi là một hình thức trực quan hóa dữ liệu không hoàn chỉnh

Những tần suất từ kỳ quặc mà Google Ngram tạo ra

Trong Google Ngram Viewer, tần suất của said trông giống đường dao động của biểu đồ nhiệt độ thời kỳ băng hà cuối cùng hơn là phản ánh thay đổi thực tế của động từ này trong tiếng Anh thế kỷ 20
- Không phải là các tác giả tiếng Anh thập niên 1970 đột nhiên ngừng dùng said rồi sau đó lại bắt đầu dùng lại
toast trong Ngram cũng hiện ra như thể gần như biến mất khỏi tiếng Anh vào khoảng năm 1980 rồi lại tái xuất
- Điều này được ví như “nạn đói bánh mì nướng vĩ đại năm 1977”
Một phần của vấn đề nằm ở lỗi công thức Ngram đã được biết đến từ lâu kéo dài từ Google Books
- Lỗi này khiến nhiều từ tiếng Anh trông như liên tục suy giảm suốt thế kỷ 20 rồi hồi sinh vào khoảng năm 1980
Kho ngữ liệu Google Books chứa nhiều ấn phẩm được hấp thụ từ các trường đại học, và tỷ trọng của các tạp chí khoa học, học thuật cùng giáo trình hiện đại cũng lớn một cách mất cân đối
- Văn bản học thuật có xu hướng lặp đi lặp lại cùng một số từ nhất định
- Kết quả là điểm số của một số từ bị thổi phồng, còn những từ khác bị hạ thấp tương đối
- Cấu trúc này gần như tạo ra một vùng trũng giữa thế kỷ 20 trong Ngram của hầu hết mọi từ
said có lẽ ít xuất hiện trong văn bản học thuật hơn trong tiểu thuyết hay báo chí, trong khi những từ như graph lại xuất hiện thường xuyên hơn nhiều trong văn bản học thuật
- Ngram của graph trong thế kỷ 20 không cho thấy cùng một vùng trũng như vậy

Méo mó do OCR, chính tả và lỗi niên đại

Trên Ngram, F-word hiện ra như thể gần như không được dùng trước thời hiện đại, nhưng càng lùi về trước năm 1820 thì lượng dùng lại tăng vọt
- Nhiều trường hợp trong số đó thực ra không phải fuck mà là suck cổ
- long s(ſ) trong bản in xưa có thể trông giống chữ f thường trong phông chữ cũ và trên giấy rẻ tiền
- Ký tự này giảm dần vào khoảng năm 1820, và đôi khi chỉ có ngữ cảnh mới giúp phân biệt f với s
- Theo lập luận ở đây, AI không biết được khác biệt đó
Google Books không nhận diện tốt tính tương đương giữa các biến thể chính tả
- Ngram của authorise khác với authorize, và cả hai đều không bao gồm authorizes
- Ngay cả với Ngram danh từ, nó cũng không tính dạng số nhiều, nên dog và dogs bị xem riêng
Có rất nhiều tệp trong Google Books bị gắn sai niên đại
- Con số 1896 trên bìa một cuốn sách thư viện cũ có thể bị máy quét số hóa nhìn thành 1800
- Từng có trường hợp một bộ sách nhỏ Kinh Thánh từ thập niên 1910 trong một thời gian bị ghi là ấn phẩm năm 1799
- Niên đại đó không phải năm xuất bản mà là năm thành lập nằm trong logo của hội in các sách nhỏ Kinh Thánh
- Cũng có một video bàn về vấn đề liên quan
Nội dung Etymonline hoàn toàn được tạo nên từ tài liệu in và do con người thực hiện, còn Ngram thì không như vậy
- Ngram bị đánh giá là sản phẩm thô ráp do một công nghệ thiếu hiểu biết tạo ra và khó đáng tin
- Ngram xuất hiện trên trang vì trong môi trường trực tuyến, hình ảnh thắng còn chữ viết thua
Đúng hơn nên xem Ngram như một hình ảnh trực quan mang tính trang trí hoặc đổi gió, thay vì chấp nhận nó như bằng chứng xác quyết về cách dùng từ
- Quan điểm ở đây là nếu giải thích từ nguyên của Etymonline mâu thuẫn với Ngram ngay từ đầu, thì Etymonline đúng và Ngram sai

1 bình luận

GN⁺ 2023-09-27

Ý kiến trên Hacker News

Tôi cho rằng phần hay nhất của bài viết này là phê bình ngrams, và rộng hơn là phê bình cách ngrams được dùng phổ biến trong các thuật toán hiện đại
Đặc biệt sắc bén là đoạn nói rằng Etymonline dựa trên nguồn in ấn và văn bản do con người tạo ra, trong khi ngrams là sản phẩm thô sơ của một công nghệ ngu dốt còn chưa học được sự khác biệt giữa “influence” và “inform”
Nó đọc như một lời phản bác cay nghiệt đối với các thuật toán và mạng xã hội vốn cố lượng hóa lời nói và tương tác của con người, phần lớn là sai, nhưng vẫn theo đuổi tối đa hóa lợi ích cho chủ sở hữu
Trong thời đại ta nghe nói AI tạo sinh thực chất là bộ dự đoán ngram, điều này càng nặng nề hơn
- Phần “Etymonline hoàn toàn là nguồn in ấn và văn bản do con người tạo ra, còn Ngrams thì không” hơi gây bối rối
  Nếu “nguồn in ấn” có nghĩa là không bao gồm nguồn số, thì điều đó có vẻ không liên quan nhiều đến vấn đề bài viết nêu ra
  Nếu không bao gồm đầy đủ mọi ấn phẩm in, thì vẫn có thể phát sinh cùng vấn đề tập dữ liệu thiên lệch, và con người cũng có thể mắc lỗi như OCR
- “Bị ảnh hưởng” và “được cung cấp thông tin” trông như hai mặt của cùng một đồng xu đạo đức
  Kiểu như nói suy nghĩ của người khác không phải của chính họ, còn chúng ta là những người tiếp nhận thông tin đức hạnh tự rút ra kết luận
  Bộ lọc thông thấp của tâm trí chỉ tiếp nhận những gì khớp với khuôn khổ sẵn có
  Nếu bạn không bác bỏ điều gì đó, thì việc nhận thông tin từ nó và bị nó ảnh hưởng là cùng một chuyện; trong khuôn khổ ấy, người nói “tôi chỉ được cung cấp thông tin thôi” nghe có vẻ tự phụ và thiếu tự nhận thức
- Tri thức ở mức cao nhất vẫn nằm trong ấn phẩm in, và vẫn do con người tạo ra
  Phương tiện điện tử giống như một linh hồn nuốt chửng: không sản xuất mà chỉ tiêu thụ
Câu đùa trong phần bình luận của trang đó rằng “các nhà xuất bản vẫn đặt vài xe tải chở ‘is’ vào mỗi mùa băng tan mùa xuân à...” là đúng ở Dictionopolis
Có ai thích The Phantom Tollbooth không?
https://en.wikipedia.org/wiki/The_Phantom_Tollbooth
Vấn đề căn bản của phân tích dữ liệu là chất lượng phân tích chỉ tốt ngang chất lượng dữ liệu
Ngay từ việc đánh giá chất lượng dữ liệu đã khó; làm sao biết dữ liệu có tốt không, có thể chắc chắn không, đo lường và báo cáo thế nào — tất cả đều không dễ
Ngay cả khi có đánh giá định tính và định lượng về chất lượng dữ liệu, lại nảy sinh vấn đề là trình bày nó tích hợp với kết quả phân tích ra sao
Nếu muốn hiệu chỉnh kết quả theo chất lượng dữ liệu một cách định lượng, mỗi dự án sẽ cần nhiều tùy biến đáng kể, vượt xa mức một biểu đồ đường đơn giản
Với Google Ngrams, có thể chia cơ cấu nguồn dữ liệu theo thời gian thành các nhóm lớn như “học thuật”, “tin tức” rồi hiển thị bằng biểu đồ, nhưng khi đó phải gắn danh mục cho mọi tài liệu, đồng thời đặt liên kết và phần giải thích ở vị trí dễ thấy để mọi người thực sự xem
Dù vậy, điều đó vẫn không ngăn được phản ứng trực giác của con người khi nhìn thấy một chuỗi thời gian cho thấy tần suất sử dụng một từ đang giảm
Cách tốt hơn có thể là định lượng độ bất định của chuỗi thời gian về tần suất dùng từ và chồng nó lên biểu đồ
Nhưng ở đây, bản thân số lần sử dụng là chính xác, còn độ bất định đến từ việc lấy mẫu, nên phải ước tính toàn bộ tài liệu được viết tại thời điểm đó khác với các tài liệu trong mẫu đến mức nào
Có thể làm được, nhưng không có vẻ dễ; và kể cả làm vậy, vẫn còn vấn đề liệu mọi người có diễn giải đúng phần thể hiện độ bất định hay chỉ nhìn đường đang đi xuống rồi bỏ qua phần còn lại
Khi bước vào kỷ nguyên AI, chúng ta cần nhớ vấn đề này
Cuộc sống của chúng ta cũng vậy: ta học từ dữ liệu quan sát được và hình thành ý kiến, nhưng dữ liệu ta thấy tốt đến đâu và kết luận có hợp lệ hay không luôn là câu hỏi
Các tác giả khẳng định rằng thống kê ngram về “said” là sai và nói như thể có bằng chứng phản bác, nhưng thực tế lại không đưa ra bằng chứng nào
Ngay trên trang của họ cũng chỉ cung cấp thống kê Google ngram: https://www.etymonline.com/word/said#etymonline_v_25922
Thêm vào đó là thất bại lớn khi không hiển thị mốc 0 trên trục y của biểu đồ và cả cách diễn giải biểu đồ sai, nên hoàn toàn khó tin; bài viết trông có chất lượng rất thấp
- Việc sử dụng “said” giảm một nửa trong vòng 60 năm, rồi phục hồi về mức trước đó trong 20 năm tiếp theo ư? Cần phải đưa ra bằng chứng rằng tiếng Anh đã thay đổi nhanh đến mức đó theo kiểu như vậy
  Một tuyên bố như thế là phi thường, nên cần căn cứ thuyết phục
  Nếu không có căn cứ, tôi sẽ tin giả thuyết và kết luận của bài rằng ngrams là thứ nhảm nhí
  Đúng là họ đã diễn giải sai biểu đồ “toast”, và lẽ ra phải đọc cẩn thận hơn một biểu đồ tệ hại bị cắt ở phần thấp
- Lý do khó đưa ra bằng chứng là vì về cơ bản chỉ có một nguồn duy nhất
  Vì vậy, bài viết về cơ bản chỉ ra khiếm khuyết trong phương pháp luận Google Books/Ngram
  Tôi cho rằng cách tiếp cận này là hợp lý
  Nếu không, ta sẽ chấp nhận một thứ có khiếm khuyết chỉ vì nó tồn tại và dễ dùng
  Để đáp lại câu “thứ được tweet nhiều nhất là X, nên nó phổ biến và quan trọng nhất”, không nhất thiết phải làm một nghiên cứu riêng để tìm ra sự thật
  Chỉ cần nói “đó là một phương pháp luận ngớ ngẩn, đừng chấp nhận chỉ vì Twitter nói vậy” cũng đủ
- Điều bạn muốn có lẽ là ai đó kiểm tra các nguồn như báo chí để xem tỷ lệ tần suất của “said” đã thay đổi thế nào theo thời gian
  Đó là một yêu cầu hợp lý, nhưng tôi cũng thấy ổn nếu tác giả, với tư cách chuyên gia, nói rằng báo chí vẫn tiếp tục dùng said với tần suất tương tự
  Lời giải thích đó nghe có vẻ hợp lý, và tôi không nghĩ gánh nặng chứng minh nhất thiết nằm ở tác giả
- Việc “said” giảm rồi tăng trở lại như trên biểu đồ không phải là phía cần bằng chứng
  Ngược lại, chính tuyên bố phi thường rằng nó đã thay đổi theo cách đó mới cần bằng chứng
  Tuyên bố đó là từ phía Google, và trước khi trách tác giả blog, cần xem bộ dữ liệu không thấy được kia đại diện đến mức nào
  Chúng ta có phải chấp nhận nguyên xi thứ thống kê mà không biết bộ dữ liệu đầu vào, kiểu “hãy tin Google” không?
- EtymOnline không phải nơi theo dõi sự thay đổi mức độ phổ biến của từ, mà là nơi cố theo dõi sự thay đổi về nghĩa
  Vì vậy việc mục “said” không có bằng chứng phản bác cụ thể là điều dễ hiểu
  Lý do trong bài không có bằng chứng cũng là vì phía cho rằng “said” đã rơi xuống gần một phần ba mức đỉnh mới là tuyên bố phi thường hơn nhiều, nên cần bằng chứng mạnh
  Chỉ cần nói “nhìn bề ngoài đã hoàn toàn vô lý, và nhiều khả năng là do cơ cấu thể loại của bộ dữ liệu Google đã thay đổi mạnh” cũng đủ
Biểu đồ Ngram không nói rằng toast gần như biến mất khỏi tiếng Anh vào khoảng năm 1980 rồi xuất hiện trở lại
Nó chỉ có vẻ cho thấy mức sử dụng đã giảm khoảng 40% kể từ sau năm 1800
Như những người khác đã nói, rõ ràng có vấn đề trục y không bắt đầu từ 0
Nhưng nếu các tác giả etymonline không nhận ra điều đó mà đã tuyên bố sai, thì rất khó tin; đặc biệt ví dụ phía sau “nhìn này, không có suy giảm” còn mỉa mai hơn, vì trục y của nó là 0 và cũng thấy một đoạn chững lại nhỏ vào khoảng năm 1980
Càng như vậy khi xét đến tiêu đề và câu mở đầu phóng đại, công kích
- Vấn đề không chỉ nằm ở trục biểu đồ
  Không phải mức sử dụng “toast” giảm 40%, mà là bộ dữ liệu của Google đã đột ngột chuyển sang một cơ cấu thể loại rất khác so với trước
  Tôi từng nói chuyện với những người cố giải thích đợt giảm trong thập niên 1970, và không ai trong chúng tôi, kể cả tôi, nhận ra đó là một lỗi dữ liệu nghiêm trọng
Tôi nghĩ tiêu đề không hợp với bài này
Những kết quả như vậy gần với ham muốn câu kéo nhấp chuột hoặc phiên bản khoa học của nó hơn là “sự rõ ràng”
Chẳng hạn, các bài trên Science hay Nature không hẳn có xác suất đúng cao đặc biệt, nhưng nhất là trong những lĩnh vực như vật lý không phải chuyên môn trung tâm của họ, chúng dễ gây chú ý và cực đoan
Ngược lại, cái tên “Real Clear Politics” với tôi lúc nào cũng nghe chói tai
Vì tôi nghĩ trong chính trị không có gì là “Real” hay “Clear”
Tôi cho rằng cuốn sách hay nhất về chính trị là Fear and Loathing on the Campaign Trail ‘72 của Hunter S. Thompson
Đó là một ký sự trải nghiệm cá nhân: đi theo các ứng viên, đón người quá giang lúc 3 giờ sáng, phê thuốc trên tàu, nhưng vẫn có những khoảnh khắc tỉnh táo sắc bén khi hiểu được các thủ tục nghị viện đã dẫn tới việc McGovern được đề cử
Hai mươi năm nữa sẽ có một cuốn sách công phu, với lập luận mạnh mẽ rằng tất cả những gì chúng ta tin về các sự kiện chính trị hôm nay đều sai và thực ra đã xảy ra chuyện khác
Trong thời gian đó, mọi người sẽ có những góc nhìn cực kỳ khác nhau, và đó là thực tế
Những tính từ như “real” và “clear” là nỗ lực đóng lại phần lớn các góc nhìn đó và đặc quyền hóa chỉ một góc nhìn
Tôi cũng nhớ việc Baudrillard đã giải cấu trúc triệt để từ “real” trong Simulacra and Simulation
Điều đó khiến ta thấy hợp lý khi những người bán hàng giả lại đặt từ “real” lên phía trước
Việc Scientology tự gọi mình là “khoa học của sự chắc chắn” cũng cùng mạch như vậy
- Cuốn sách sẽ ra sau 20 năm đó cũng sẽ sai
  Một điểm hay của chính trị là động cơ rất rõ ràng
  Các chính trị gia trước hết muốn giữ quyền lực, còn mong muốn cải thiện tình hình đứng sau
  Một khi biết điều này thì mọi thứ đều dễ hiểu
  Ngay cả khi cuối cùng ta không bao giờ biết thực sự đã xảy ra chuyện gì thì cũng vậy
Không bao giờ có thể tạo ra một hình ảnh đại diện của quá khứ
Ta buộc phải làm việc chỉ với những nguồn hạn chế còn sống sót, và chúng không phân bố đều theo thời gian và không gian
Khi con người chết đi, sẽ có sự mất mát dữ liệu mang tính bản chất: ấn tượng, trải nghiệm không được ghi lại, thậm chí cả những mùi quen thuộc cũng biến mất
Ký ức của người còn sống cũng có thể trở nên khó tin cậy ở một thời điểm nào đó
- Vì vậy tôi luôn thấy lạ là tại sao chỉ những người có tính đại diện xã hội bị bóp méo bởi danh tiếng hoặc của cải mới có tiểu sử trên Wikipedia
- Không chỉ ở một thời điểm nào đó; trí nhớ con người đáng ngờ đến mức đáng kinh ngạc
  Một ví dụ bạn có thể tự thử: https://youtu.be/vJG698U2Mvo?si=16fwk8wG8Yyhim5t
Khó có thể nói Google Ngram là sai
Nó chỉ báo cáo thống kê về các từ được nhận diện đúng trong kho ngữ liệu
Vấn đề nằm ở ngữ cảnh của thống kê đó
Có thể nói với mức độ tự tin nhất định rằng “trong kho ngữ liệu Google Books, việc dùng từ said đã giảm ở một thời điểm nào đó”
Có thể tự tin hơn nữa trong tập con của kho ngữ liệu nơi OCR đã nhận diện đúng mọi trường hợp của từ đó
Nhưng nếu không có đủ dữ liệu thì không nên đưa ra tuyên bố rộng hơn rằng “từ này đã giảm mức sử dụng ở một thời điểm nào đó”
- Nếu meme của nhà kinh tế học là “còn tùy hoàn cảnh”, thì meme siêu việt của nhà thống kê học là cần thêm dữ liệu
  Cho đến khi giải được lý thuyết thống nhất lớn, ta không thể hoàn toàn chắc chắn về tính đầy đủ của dữ liệu hay suy luận thống kê
  Điều sai trái là khiến công chúng bị dẫn dắt rời xa cách hiểu này
- Vì vậy, khi đưa ra thống kê suy luận về tổng thể, phương pháp lấy mẫu quan trọng hơn nhiều so với cỡ mẫu
  Lấy mẫu 1 triệu cuốn sách từ một kho ngữ liệu học thuật và chọn 10 cuốn bán chạy nhất của mỗi thập niên trong thế kỷ 20 sẽ tạo ra những kho ngữ liệu ngôn ngữ rất khác nhau
Đây là sai lầm kinh điển khi trục dọc của biểu đồ không bao gồm 0
Nếu bạn nghĩ “như vậy thì thay đổi trông chẳng đáng kể mấy”, thì đúng là vậy
Bỏ 0 ra có thể khiến những thay đổi nhỏ trông lớn hơn nhiều
- Ngược lại, cũng có những trường hợp cần nhấn mạnh thay đổi nhỏ
  Nếu đó là biểu đồ kiểm soát thể hiện khối lượng nạp vào hộp ngũ cốc, bạn sẽ không muốn đưa 0 vào biểu đồ
  Cũng không cần vẽ biểu đồ nhiệt độ hằng ngày của một thành phố đến tận 0 kelvin
- Chỉ mình tôi nghĩ bản thân biểu đồ thì ổn, chỉ là phần văn bản hơi phóng đại thôi sao?
  Nó trông ổn định trong gần một thế kỷ rồi đột ngột giảm khoảng 50%
- Việc bao gồm 0 hẳn đã giúp ích cho biểu đồ “said”, nhưng không giải quyết được vấn đề
  Nó vẫn sẽ trông như thể “said” đã giảm xuống còn gần một phần ba mức phổ biến trước đây, trong khi thực tế là thành phần mẫu đã thay đổi rất lớn
Đây là n-gram sai, hay là ý nói những gì có thể nói bằng n-gram là có giới hạn?
Dữ liệu thì thú vị, nhưng không chắc nên rút ra kết luận gì
Cảm giác kỳ lạ, như thể ta đang dùng từ vựng ngày nay để truy vấn sách trong quá khứ
Một ví dụ đơn giản tôi biết là nếu tìm “þe” thì không có nhiều kết quả
Về mặt lịch sử thì nhìn chung đúng ở chỗ “þ” đã biến mất vào khoảng những năm 1400
Nhưng nếu thêm “ye” vào cùng thì sẽ thấy số lượng trường hợp sử dụng cực kỳ lớn
Đây có phải là chức năng được chủ ý của n-gram không?
Nó trông giống một lỗi mã hóa được truyền qua nhiều thời kỳ hơn
Cũng giống như nổi giận với Đại Biến đổi Nguyên âm mà không nhận ra rằng các ký hiệu ngữ âm của chúng ta không phải là chân lý phổ quát cố định

Kẻ khao khát sự chắc chắn là kẻ khao khát điều dối trá

Những tần suất từ kỳ quặc mà Google Ngram tạo ra

Méo mó do OCR, chính tả và lỗi niên đại

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News