Bạn biết bao nhiêu trong số 170 nghìn từ tiếng Anh?
(vocabowl-870366514258.us-west1.run.app)- VocabOwl là công cụ Scientific Word Count ước tính số lượng từ mà người dùng thực sự biết, dựa trên 171.476 từ tiếng Anh
- Để xem kết quả, người dùng phải hoàn thành thử thách 100 câu hỏi; đây là cách dùng một bài kiểm tra ngắn để ước tính quy mô vốn từ tổng thể
- Dịch vụ cho biết phần xây dựng câu hỏi sử dụng phương pháp lấy mẫu phân tầng (stratified sampling)
- Trang web nhấn mạnh việc sử dụng Gemini 3 Flash AI, đưa AI vào cách tạo và vận hành bài kiểm tra từ vựng
- Đây là dự án được truyền cảm hứng từ podcast The Rest Is Science cùng Prof. Hannah Fry và Michael Stevens
Bài kiểm tra do VocabOwl cung cấp
- VocabOwl là dịch vụ ước tính số lượng từ vựng tiếng Anh xoay quanh câu hỏi “How many of the 171,476 English words do you actually know?”
- Người dùng có thể làm thử thách gồm 100 câu hỏi để kiểm tra mình biết bao nhiêu từ tiếng Anh
- Dịch vụ cho biết các câu hỏi trong bài kiểm tra được xây dựng theo phương pháp scientifically stratified
Cách triển khai và nguồn cảm hứng
- Trên trang web, Stratified Sampling được hiển thị là phương pháp cốt lõi
- Công nghệ được sử dụng hiển thị là Gemini 3 Flash AI
- Nguồn cảm hứng được hiển thị là podcast The Rest Is Science, Prof. Hannah Fry và Michael Stevens
1 bình luận
Ý kiến trên Hacker News
Mỗi từ đều cần quá nhiều cú nhấp chuột. Tôi thích kiểu quiz “biết bao nhiêu từ” này nên vẫn làm đến hết, nhưng nhìn chung cách phân loại khá đáng ngờ
Dù xu hướng lớn là từ đầu dễ và về sau khó hơn, mức độ trung bình lại bị trộn lẫn khá nhiều.
breviaryhiếm hơn rất nhiều so với mức gọi là trung cấp, còn mấy từ chỉ chứng sợ nhưHippopotomonstrosesquippedaliophobiathì gần với kiểu trò đùa mà học sinh tiểu học tra từ điển ra để khoe hơn là từ thực sự được dùng. Việc xếpmetamorphosisvàkineticvào mức expert cũng khó mà thấy hợp lýCác định nghĩa nhìn chung vẫn nhận ra được, nhưng gọi
lethargylà “trạng thái uể oải” thì quá hiển nhiên, xemcomplacentlà “sự tự mãn kiêu ngạo” thì hơi quá,magnanimouskhông nhất thiết phải có “đối thủ”, còngauchenếu chỉ là “vụng về trong giao tiếp xã hội” thì mất đi sắc tháitactlessHọ nói là “khoa học” nhưng chỉ đưa ra vài công thức chung chung và không giải thích ban đầu đã phân tầng các từ như thế nào. Nếu lấy mẫu phân tầng thực sự là một phương pháp được công nhận chính thức cho việc này thì tôi muốn có liên kết tới tài liệu tham khảo. Tôi nghĩ mình biết khá nhiều từ, nhưng khó tin vào mức ước tính hơn 75k mà ứng dụng này đưa ra
Hippopotomonstrosesquippedaliophobiacó vẻ không phải bắt bạn nhớ nguyên cả từ mà là nhìn các thành phần để suy ra nghĩa. Tôi biếtsesquippedalian,phobiacũng rất dễ nhận ra, cònhippothì có thể đoán gần với gốc Latin nghĩa là “lớn” hơn là con vậtTôi cũng từng thấy
complacentvàgaucheđược dùng như vậy, và trong từ điển thì tệ lắm chắc cũng phải là nghĩa thứ 2 hoặc 3, nên tôi không có vấn đề gì. Trước đây tôi từng đạt thành tích ở spelling bee, và nếu có đủ kỷ luật để ngồi học từ điển vài tiếng mỗi cuối tuần thì có lẽ còn lên cao hơn nữaZenzizenzizenzicthì tôi chưa từng nghe, nhưng hình như vẫn đoán đúngSẽ tốt hơn nhiều nếu có bản tóm tắt cho thấy đáp án đúng của những lựa chọn tôi đã chọn và những câu tôi làm sai
complacentvề bản chất không hẳn là smug, nhưng kỳ lạ là cả dictionary.com lẫn Wiktionary đều đưasmugvào như từ đồng nghĩa hoặc một phần của định nghĩaTuy vậy, bên đó cũng phân tích
smuggần vớiself-satisfiedhayself-complacent, nên có lẽ thứ lệch với trực giác của tôi lại nằm ở nghĩa củasmug. Theo cảm giác của tôi,smugkhông chỉ đơn thuần mang tính “tự-” mà còn mang tính quan hệ, kiểu tận hưởng cảm giác mình hơn người khác.complacentthì về cơ bản là hài lòng với tình trạng của bản thân, nhưng thường đi kèm hàm ý tiêu cực là đáng ra phải hành động để tốt hơn mà lại không làmHippopotomonstrosesquippedaliophobiathì trong bốn lựa chọn cũng vẫn đoán đúng rất dễMỗi từ cần quá nhiều cú nhấp nên mất rất lâu mới xong, và vì luôn có đáp án để chọn nên đoán các từ không biết cũng quá dễ
Ý tưởng thì thú vị, nhưng phải làm 100 từ là khá nhiều. Việc đi qua những từ dễ ở đầu khá chán, nên tôi nản trước khi tới được các từ thú vị hơn
Kiểu hệ thống này về mặt nội bộ có thể dùng điểm số và độ tin cậy để hiệu chỉnh nhanh hơn nhiều. Ban đầu độ tin cậy thấp rồi tăng dần theo thời gian; ở giai đoạn đầu, đúng/sai làm điểm số dao động mạnh, rồi sau đó dần ổn định
Trên thực tế, lúc đầu nó sẽ đưa ra các từ ngày càng ít phổ biến hơn, rồi nếu bạn sai thì quay lại từ dễ hơn; khi bạn lại bắt đầu trả lời đúng, cuối cùng nó sẽ lảng vảng quanh mức từ vựng của bạn. Và số cú nhấp cho mỗi từ cũng quá nhiều. Đây là một bài test nhẹ nhàng thôi, nên chỉ cần nhấp một lần vào định nghĩa là xử lý luôn; nếu lo bấm nhầm thì thêm nút hoàn tác là được
Sẽ tốt hơn nếu mỗi lựa chọn có gắn chữ cái hoặc số để có thể bấm bằng bàn phím. Hồi trước có một dịch vụ form như vậy và hoạt động khá tốt, hình như là Typeform. Tôi mở ra kiểm tra thì giờ chỗ nào cũng đầy nhắc đến AI, nên mất hứng xác nhận luôn.
Ngoài các chỉ trích khác, phép tính này chỉ đúng một nửa vì lỗi cấu trúc. Tùy cách đếm thì thậm chí có thể xem là sai 100%
Tôi là người bản ngữ tiếng Anh, kiểu mọt sách đọc rất nhiều và đạt điểm SAT tuyệt đối, đã trả lời đúng cả 100 câu mà không cần tra cứu. Thế mà phần “SCIENTIFIC ESTIMATE” vẫn chỉ hiện là tôi biết 85.000 trên 170.000 từ, nên thấy khá khó hiểu
Nếu xem trang “How is this calculated” ở cuối, họ nói theo Oxford English Dictionary Second Edition thì hiện có khoảng 171.476 từ đang được dùng, rồi chia các mức độ thành Core Basics 3.000, Intermediate 7.000, Advanced 10.000, Expert 25.000, The Obscure 40.000+. Tổng điểm được tính là tổng của độ chính xác ở từng mức × quy mô của mức đó
Nhưng cộng tất cả các mức này lại cũng chỉ được 85.000, nên dù đạt điểm hoàn hảo thì vẫn chỉ lên được 50%. Chưa kể họ còn dùng một tập con rất hạn chế của ngôn ngữ, có thể không đại diện tốt cho độ khó. Dễ thương đấy, nhưng sai ở nhiều mặt
Như thường thấy ở các bài kiểm tra từ vựng tiếng Anh, biết tiếng Hy Lạp sẽ có lợi ở phần khó
Có vài từ chuyên môn thật, nhưng đa số là những từ bạn vẫn có thể nghe trong một cuộc trò chuyện bình thường trên Radio 4
Tôi ra 78.000, khá ổn đối với ngôn ngữ thứ hai. Có vẻ giá trị tối đa của bài test này là 85.000
Các phương án trả lời trông như do LLM tạo ra, có vài mẫu lặp lại như “now” và “forever” xuất hiện thường xuyên
Vài năm trước tôi từng chơi một game tương tự: nếu trả lời đúng liên tiếp đủ nhiều thì lên cấp, sai một câu thì tụt cấp, và có thể chơi tiếp mãi. Ở cấp rất cao thì ngược lại còn dễ hơn, vì có lẫn các từ tiếng Anh cổ và chúng gần như giống hệt tiếng mẹ đẻ của tôi là tiếng Hà Lan. Hình như còn có yếu tố từ thiện nữa, chắc là https://freerice.com/, nhưng giờ có vẻ game đã bị đơn giản hóa
Đại học Ghent ở Bỉ cũng từng có một bài test thú vị, đánh giá trình độ bằng cách so sánh với điểm trung bình của từng mức học vấn. Ở đó tôi được khoảng 41.000, và hình như được xếp ngang mức trung bình của người bản ngữ tiếng Anh trình độ đại học. Ở phần cập nhật cuối bài https://languagehat.com/ghent-vocabulary-test/ có nói bài test đó đã chuyển đi đâu và có vài lựa chọn thay thế
Khá vui
Nên bỏ nút gửi, thay vào đó khi bấm thì hiện đúng/sai rồi khoảng 1 giây sau tự chuyển sang câu tiếp theo. Việc phải bấm gửi hai lần làm mất nhịp trải nghiệm
Ngoài ra, với những từ tôi gặp thì trong 4 lựa chọn thường có một đáp án đúng, một đáp án trái nghĩa với đáp án đúng, còn hai cái kia gần như ngẫu nhiên. Thực tế có thể bỏ qua mọi lựa chọn không đi kèm một đáp án trái nghĩa
Trước hết, có thể loại các đáp án tách thành những từ tiếng Anh thông dụng. Nếu một từ dễ tách như vậy thì vốn dĩ nó đã không thể là obscure
Viết đáp án nhiễu cho câu hỏi trắc nghiệm là việc khó. Trong các kỳ thi tôi biết, ngoại trừ các bài thi đòi hỏi tính toán hay học thuộc lòng, kỳ thi quốc gia LEK dành cho bác sĩ ở Ba Lan làm việc này gần như tàn nhẫn đến mức xuất sắc. Người ngoài ngành gần như không thể khoanh bừa bằng cảm tính mà đạt xác suất cao hơn ngẫu nhiên
Nên có thể trả lời bằng “không biết”. Nếu thật sự không biết mà vẫn có 1/4 xác suất đoán đúng thì không công bằng, chưa kể còn có thể làm tốt hơn nhờ các mẹo trắc nghiệm quen thuộc
Có vài từ mà tôi sẵn sàng chấp nhận bị tính sai, nhưng cuối cùng lại được tính là đúng
Cũng nên trộn độ khó một chút. Khoảng 30 câu cuối tạo cảm giác như lao động nhàm chán. Ý tưởng thì hay đấy
Ngay cả trong trường hợp tệ nhất, vẫn có thể hiệu chỉnh xác suất đoán đúng ngẫu nhiên 25%
Bài này khá dễ làm bằng mẹo. Nhiều lựa chọn trông không giống định nghĩa từ, cấu trúc “đáp án đúng + nghĩa trái ngược + 2 cái không liên quan” xuất hiện thường xuyên, và ở phần sau thì đáp án dài nhất rất hay là đáp án đúng. Thiết kế đáp án nhiễu không tốt
Mẫu từ cũng lệch mạnh về các khái niệm liên quan đến từ ngữ, lời nói, người nói và thuyết phục. Có lẽ LLM được prompt để chọn từ phù hợp cho tác vụ chọn từ, nên lại thiên về các từ liên quan đến “từ”
Nói qua bối cảnh thì tôi là người dùng tiếng Anh như ngôn ngữ thứ hai, mê ngôn ngữ học và chủ yếu dùng tiếng Anh trong môi trường học thuật/chuyên môn. Kết hợp các mẹo trên, tôi ra 75.400, nhưng thực tế có thể gần 10~15k hơn
Thiết kế cũng, ai nhìn vào cũng thấy, giống Duolingo đến đau đớn
Tôi nghĩ ai đến một độ tuổi nào đó đều sẽ đồng cảm rằng hầu như ngôn ngữ nào cũng có một từ để chỉ kiểu đau này
Tôi đúng 88/100 câu, nhưng điều duy nhất tôi học được từ đó là mình đoán khá giỏi. Chừng 20 câu tôi làm đúng bằng cách loại các lựa chọn thiếu thuyết phục, hoặc đoán từ nghĩa của một phần trong từ
Nếu muốn đánh giá trung thực hơn giữa số từ tôi thật sự biết và số từ tôi có thể làm đúng, thì nên có lựa chọn “không biết”
Để tìm đúng trình độ nhanh hơn thì nên dùng xếp hạng ELO. Việc chật vật giải 100 từ cơ bản là không có nhiều ý nghĩa.
Họ đang dùng con số 171.476 của OED một cách thiếu chính xác, và đó là cách hiểu sai nghiêm trọng về từ điển lẫn ngôn ngữ.
Con số này chỉ số lượng mục từ đầy đủ được định nghĩa là “current use” trong ấn bản Second Edition gồm 20 tập của Oxford English Dictionary. Nó không có nghĩa là số lượng từ. Nó cũng không bao gồm các cách viết biến thể, dạng biến tố, cụm từ và các mục run-on của OED.
Hơn nữa, OED hoàn toàn không phải là danh sách đầy đủ của tiếng Anh. Thực tế, do chu kỳ cập nhật rất chậm nên rất có thể đang thiếu hàng triệu từ. Với tư cách là một biên tập viên từ điển và nhà từ điển học, tôi dùng OED hằng ngày, và cả những người tạo ra nó cũng biết điều đó.