1 điểm bởi GN⁺ 2023-09-27 | 1 bình luận | Chia sẻ qua WhatsApp
  • Bài viết về sự thiếu chính xác của các n-gram trong Google Ngram Viewer
  • Tác giả chỉ ra rằng tần suất của các từ tiếng Anh thông dụng mà Ngram hiển thị không phản ánh chính xác mức độ sử dụng thực tế trong thế kỷ 20
  • Tác giả và Talia Felix đã dùng Google Books cho nghiên cứu, nhưng phát hiện đây là một cơ sở dữ liệu được lắp ghép sai và chứa nhiều lỗi ẩn
  • Giải thích một trong những lỗi mà Ngram thừa hưởng từ Google Books trong công thức của mình: khiến nhiều từ tiếng Anh trông như đã giảm mức sử dụng trong suốt thế kỷ 20 rồi sống lại vào thập niên 1980
  • Lỗi này xảy ra vì kho ngữ liệu của Google Books phần lớn mang tính học thuật, trong khi các tạp chí khoa học và học thuật hiện đại có xu hướng lặp đi lặp lại một tập từ vựng hạn chế
  • Việc lạm dụng một số từ nhất định trong văn bản học thuật làm sai lệch mức giảm tần suất của các từ khác, tạo ra một “độ dốc đi xuống” giữa thế kỷ 20 trong Ngram của gần như mọi từ
  • Một lỗi khác là Google Books không nhận diện được tính đồng nhất giữa các biến thể chính tả và dạng số nhiều
  • Tác giả cho biết nhiều tệp trong Google Books bị gán ngày tháng sai, càng làm tổn hại độ chính xác của dữ liệu
  • Dù có những điểm thiếu chính xác này, Ngrams vẫn tiếp tục được dùng vì trên Internet hình ảnh thắng thế còn từ ngữ thất thế
  • Tác giả khuyên độc giả nên xem Ngrams như thứ mang tính trang trí và khéo léo, chứ không phải biểu đạt chính xác về cách dùng từ
  • Tác giả kết luận rằng dù thế giới có thể thích thực tại kiểu Ngram, độc giả vẫn có thể thông minh hơn điều đó.

1 bình luận

 
GN⁺ 2023-09-27
Ý kiến trên Hacker News
  • Tiêu đề bài viết "Ai khao khát sự chắc chắn là đang khao khát sự giả dối" đã khơi ra cuộc thảo luận về mong muốn có được sự chắc chắn trong lịch trình dự án.
  • Bài viết chỉ trích việc sử dụng n-gram trong các thuật toán hiện đại, cho rằng chúng là sản phẩm của một kỹ thuật không đáng tin cậy và thiếu hiểu biết.
  • Sự chỉ trích đối với n-gram được xem như một lời cảnh báo trong thời đại ngày càng bị chi phối bởi AI tạo sinh, vốn về bản chất là một bộ dự đoán n-gram.
  • Một số bình luận nghi ngờ tính xác đáng trong các lập luận của tác giả về thống kê n-gram, chỉ ra sự thiếu bằng chứng và cách diễn giải biểu đồ dễ gây hiểu lầm.
  • Vấn đề cốt lõi của phân tích dữ liệu được nhấn mạnh, cho thấy việc phân tích chỉ tốt đến mức dữ liệu tốt và việc đánh giá chất lượng dữ liệu là điều khó khăn.
  • Một số bình luận chỉ trích tiêu đề của bài viết và xu hướng giật tít câu clickbait trong các ấn phẩm khoa học.
  • Việc sử dụng Google Ngram được đem ra thảo luận, trong đó một số ý kiến cho rằng bản thân công cụ này không sai, mà vấn đề là các số liệu thống kê của nó bị tách khỏi ngữ cảnh.
  • Bài viết bị phê phán vì trục dọc của biểu đồ không bao gồm mốc 0, khiến những dao động nhỏ có thể trông như rất lớn.
  • Có thảo luận cho rằng không thể tái dựng một hình ảnh đại diện của quá khứ do sự mất mát dữ liệu vốn có.