- Bài viết về sự thiếu chính xác của các n-gram trong Google Ngram Viewer
- Tác giả chỉ ra rằng tần suất của các từ tiếng Anh thông dụng mà Ngram hiển thị không phản ánh chính xác mức độ sử dụng thực tế trong thế kỷ 20
- Tác giả và Talia Felix đã dùng Google Books cho nghiên cứu, nhưng phát hiện đây là một cơ sở dữ liệu được lắp ghép sai và chứa nhiều lỗi ẩn
- Giải thích một trong những lỗi mà Ngram thừa hưởng từ Google Books trong công thức của mình: khiến nhiều từ tiếng Anh trông như đã giảm mức sử dụng trong suốt thế kỷ 20 rồi sống lại vào thập niên 1980
- Lỗi này xảy ra vì kho ngữ liệu của Google Books phần lớn mang tính học thuật, trong khi các tạp chí khoa học và học thuật hiện đại có xu hướng lặp đi lặp lại một tập từ vựng hạn chế
- Việc lạm dụng một số từ nhất định trong văn bản học thuật làm sai lệch mức giảm tần suất của các từ khác, tạo ra một “độ dốc đi xuống” giữa thế kỷ 20 trong Ngram của gần như mọi từ
- Một lỗi khác là Google Books không nhận diện được tính đồng nhất giữa các biến thể chính tả và dạng số nhiều
- Tác giả cho biết nhiều tệp trong Google Books bị gán ngày tháng sai, càng làm tổn hại độ chính xác của dữ liệu
- Dù có những điểm thiếu chính xác này, Ngrams vẫn tiếp tục được dùng vì trên Internet hình ảnh thắng thế còn từ ngữ thất thế
- Tác giả khuyên độc giả nên xem Ngrams như thứ mang tính trang trí và khéo léo, chứ không phải biểu đạt chính xác về cách dùng từ
- Tác giả kết luận rằng dù thế giới có thể thích thực tại kiểu Ngram, độc giả vẫn có thể thông minh hơn điều đó.
1 bình luận
Ý kiến trên Hacker News