Hiệu ứng Dunning-Kruger là tự tương quan

(economicsfromthetopdown.com)

1 điểm bởi GN⁺ 2023-11-26 | 1 bình luận | Chia sẻ qua WhatsApp

Mô hình nổi tiếng “người kém năng lực đánh giá quá cao năng lực của mình” có thể không phải là một đặc điểm ổn định của tâm lý con người, mà là một sản phẩm thống kê tạo ra khi trộn điểm thi và sai số tự đánh giá trên cùng một trục
Điểm mấu chốt là tự tương quan: nếu lấy điểm thi x và tự đánh giá y, rồi đem hiệu số y−x so lại với x, thì x xuất hiện ở cả hai vế của biểu thức, khiến ngay cả dữ liệu ngẫu nhiên cũng tạo ra cùng một hình dạng
Biểu đồ năm 1999 của Dunning và Kruger chia người tham gia thành các tứ phân vị theo điểm thi rồi so sánh trung bình bách phân vị của điểm thực tế và năng lực được cảm nhận, khiến chênh lệch giữa hai đường trông như một hiệu ứng tâm lý
Ngay cả “điểm thi” và “tự đánh giá” được tạo ngẫu nhiên, nếu xử lý theo cùng cách, cũng có thể tạo ra đường cong kiểu Dunning-Kruger khiến người có thành tích thấp trông như quá tự tin còn người có thành tích cao trông như khiêm tốn
Các phê bình của Nuhfer và cộng sự vào năm 2016, 2017 cùng phê bình của Gignac và Zajenkowski năm 2020 đều chỉ ra cùng một vấn đề, nhưng tổng số trích dẫn Google Scholar của ba bài phê bình này là 88, thấp hơn rất nhiều so với 7.893 trích dẫn của bài gốc

Nhìn lại hiệu ứng Dunning-Kruger dưới góc độ thống kê

Hiệu ứng Dunning-Kruger được biết đến từ nghiên cứu năm 1999 của Justin Kruger và David Dunning, dùng để chỉ xu hướng những người có năng lực thấp đánh giá quá cao năng lực của mình
Trọng tâm của phê bình này là hiệu ứng đó có thể lặp đi lặp lại trong dữ liệu không phải vì là một hiện tượng tâm lý, mà vì tự tương quan (autocorrelation)
Tự tương quan là tình huống một biến được đem tương quan với chính nó
- Ở dạng thuần túy, đó là một vòng lặp hiển nhiên như “5 = 5”
- Nhưng khi cùng một biến bị trộn vào cả hai vế của biểu thức, điều này không dễ bị nhận ra
Ví dụ, nếu có x và y không liên quan với nhau, rồi tạo z = x + y và đem z tương quan với x, thì vì x xuất hiện ở cả hai phía nên trông như đã phát sinh tương quan

Cấu trúc của biểu đồ Dunning-Kruger gốc

Dunning và Kruger cho người tham gia làm bài kiểm tra kỹ năng, sau đó yêu cầu họ tự đánh giá năng lực của mình
Trục hoành của biểu đồ là một trục phân loại chia người tham gia thành 4 nhóm tứ phân vị (quartile) theo điểm thi
- Nhìn bề ngoài đó là trục phân loại, nhưng thực chất nó biểu diễn thứ hạng của điểm thi x
Trục tung biểu diễn điểm thực tế và năng lực được cảm nhận dưới dạng bách phân vị (percentile)
Đường màu xám biểu diễn bách phân vị trung bình của điểm thi thực tế trong từng nhóm tứ phân vị
- Về bản chất, điều này gần như là vẽ x theo chính x
Đường màu đen biểu diễn bách phân vị trung bình của tự đánh giá trong từng nhóm
- Đây là cấu trúc vẽ tự đánh giá y theo điểm thi x

Chênh lệch giữa hai đường tạo ra tự tương quan

Phần nổi bật trong biểu đồ Dunning-Kruger là chênh lệch giữa “năng lực được cảm nhận” và “điểm thi thực tế”
Về mặt toán học, chênh lệch này là y−x
- y là tự đánh giá
- x là điểm thi thực tế
Nếu diễn giải chênh lệch này theo trục hoành x, quan hệ trở thành (y−x) ~ x
Khi đó x xuất hiện ở cả hai phía của biểu thức, nên phát sinh tự tương quan khi x bị đem so với chính dạng âm của nó
Vì vậy, ngay cả khi đưa vào x và y là các con số ngẫu nhiên hoàn toàn không mang ý nghĩa tâm lý, biểu đồ có cùng cấu trúc vẫn có thể tạo ra mẫu hình trông giống hiệu ứng Dunning-Kruger

Dữ liệu ngẫu nhiên cũng tạo ra cùng một mẫu hình

Hãy giả sử trong một thí nghiệm tái hiện giả định, người ta tuyển 1.000 người và thu được điểm thi cùng tự đánh giá của họ
Nếu vẽ nguyên trạng điểm thi và tự đánh giá của từng cá nhân thành biểu đồ phân tán, nó sẽ trông hoàn toàn ngẫu nhiên và không có dấu vết của hiệu ứng Dunning-Kruger
Sau đó, người ta tính sai số tự đánh giá
- Sai số tự đánh giá = tự đánh giá − điểm thi
Khi so sánh sai số này với điểm thi, một quan hệ mạnh sẽ xuất hiện
- Người có thành tích thấp trông như quá tự tin đáng kể
- Người có thành tích cao trông như khiêm tốn quá mức
Nếu đưa cùng dữ liệu đó vào biểu đồ kiểu Dunning-Kruger, thậm chí còn có thể tạo ra một đường cong trông như hiệu ứng lớn hơn kết quả gốc
Nhưng nếu dữ liệu này thực chất chỉ là các con số ngẫu nhiên, thì mẫu hình xuất hiện không phải là hiệu ứng tâm lý mà là sản phẩm của cấu trúc thống kê

Kiểm chứng thay thế của Nuhfer và cộng sự

Để tương quan hai tập dữ liệu theo cách có giá trị thống kê, hai phép đo phải được đo độc lập với nhau
Biểu đồ Dunning-Kruger trộn điểm thi vào cả hai phía nên vi phạm nguyên tắc này
Edward Nuhfer và cộng sự đã kiểm tra xem hiệu ứng thay đổi ra sao khi “kỹ năng” được đo bằng một cách độc lập với cả thành tích bài thi lẫn tự đánh giá
Trong phân tích của Nuhfer, trục hoành là trình độ học vấn, còn trục tung là sai số tự đánh giá
- Mỗi điểm biểu diễn một cá nhân
- Sai số tự đánh giá trung bình được hiển thị bằng bong bóng màu xanh lá
Nếu hiệu ứng Dunning-Kruger thực sự tồn tại, thì khi trình độ học vấn tăng lên phải thấy xu hướng đi xuống, tức sai số tự đánh giá giảm dần
Kết quả đó không cho thấy xu hướng như vậy, và sai số đánh giá trung bình gần như nằm quanh mức 0
Tuy vậy, khi trình độ học vấn tăng lên, phương sai của sai số tự đánh giá có xu hướng giảm
- Giáo sư có xu hướng đánh giá năng lực của mình chính xác hơn sinh viên năm nhất
- Đây là một hiện tượng khác với hiệu ứng Dunning-Kruger vốn nói về thiên lệch tự tin quá mức trung bình

Thiên lệch do chuyển đổi sang bách phân vị

Việc chuyển sang bách phân vị tạo thêm một thiên lệch khác ngoài tự tương quan
Bách phân vị có đáy là 0 và trần là 100
- Người ở gần đáy khó có thể đánh giá thấp thứ hạng của mình hơn nữa
- Người ở gần trần khó có thể đánh giá cao thứ hạng của mình hơn nữa
Chính cấu trúc này khiến người có thành tích thấp dễ trông như quá tự tin, còn người có thành tích cao dễ trông như khiêm tốn
Ngoài ra, đường so sánh giữa bách phân vị điểm thi và tứ phân vị điểm thi hầu như không cung cấp thêm thông tin về điểm thi thực tế, vì theo định nghĩa mỗi tứ phân vị đã bao gồm 25 bách phân vị

Vì sao các phê bình không lan rộng

Bài báo gốc của Dunning và Kruger được công bố năm 1999
Sai sót trong cách phân tích này chỉ đến năm 2016 mới được hệ thống hóa là đã được hiểu đầy đủ
Các bài phê bình của Edward Nuhfer và cộng sự xuất hiện vào năm 2016 và 2017, còn Gilles Gignac và Marcin Zajenkowski cũng công bố một phê bình tương tự vào năm 2020
Theo Google Scholar, tổng số trích dẫn của ba bài phê bình này là 88, trong khi bài năm 1999 của Dunning và Kruger được trích dẫn 7.893 lần
Các phản biện đối với một phân tích sai thường ít được biết đến hơn bài gốc, và cũng thường xuất hiện ở những nơi kém nổi bật hơn tạp chí đã đăng bài gốc
Biểu đồ Dunning-Kruger nổi tiếng có lẽ gần với một ví dụ về sai sót phân tích khi diễn giải tự tương quan thành hiệu ứng tâm lý hơn là về “những người kém cỏi mà không biết mình kém cỏi”

1 bình luận

GN⁺ 2023-11-26

Ý kiến trên Hacker News

Cách diễn giải này khó thuyết phục, và phản biện này giải thích tốt hơn: https://andersource.dev/2022/04/19/dk-autocorrelation.html
Điểm cốt lõi là cách diễn giải tự tương quan này cho thấy “nếu thành tích và đánh giá thành tích là ngẫu nhiên và độc lập, ta sẽ thu được hình dạng giống đồ thị D-K”, rồi từ đó nói rằng hiệu ứng này chỉ là tự tương quan
Nhưng trên thực tế, kỳ vọng rằng thành tích và tự đánh giá là độc lập mới là điều kỳ lạ hơn. Ta kỳ vọng con người có thể đánh giá năng lực của mình chính xác ở một mức nào đó, và D-K cũng cho thấy có tương quan giữa hai thứ, chỉ là không mạnh như kỳ vọng. Kết quả thú vị là một thiên lệch nhất quán, và giả thuyết về nguyên nhân của nó có thể tranh luận, nhưng không nên bỏ qua thực tế rằng ta không kỳ vọng các biến là độc lập
- Nếu xem cỡ mẫu là đủ về mặt thống kê, bài báo gốc rõ ràng cho thấy hai điều
  Trung bình, mọi người ước lượng năng lực của mình không phải ở bách phân vị 50 của mô phỏng ngẫu nhiên, mà khoảng bách phân vị 65 theo kết quả thực tế; tự đánh giá cũng tăng theo năng lực thực tế, nhưng tăng ít đến đáng ngạc nhiên. Phần bàn về “tự tương quan” của tác giả về bản chất là đánh lạc hướng, và kết quả tạo ngẫu nhiên không khớp với kết quả của bài báo gốc. Tất nhiên độ vững chắc của khả năng tái lập là chuyện khác, nhưng bản thân cách trực quan hóa không có vấn đề; có thêm thanh thể hiện độ phân tán thì có lẽ sẽ tốt hơn
- Sự khác biệt giữa hiệu ứng D-K ở dạng gốc và hiệu ứng D-K trong văn hóa đại chúng có lẽ chính là ví dụ D-K theo thời gian thực lớn nhất
  Điểm thú vị trong kết quả gốc là tương quan giữa thành tích thực tế và thành tích được cảm nhận thấp hơn trực giác. Nhưng khi hiệu ứng D-K trong văn hóa đại chúng lan rộng, trực giác tập thể cũng đã thay đổi; giờ nếu giải thích hiệu ứng D-K gốc cho một người bất kỳ trên internet, họ có thể thấy thú vị rằng “tương quan lớn hơn tôi nghĩ”. Vì người đó có lẽ đã nghĩ tương quan là âm
- Đúng. Vì vậy, tóm lại, nếu dữ liệu thật sự ngẫu nhiên và không có tương quan, đường này phải phẳng ở giữa, nên tứ phân vị 1 cũng là 50%, tứ phân vị 4 cũng là 50%
  Nếu dữ liệu chính xác và chuẩn xác 100% [1], đường này sẽ là đường chéo, nên tứ phân vị 1 khoảng 12,5%, còn tứ phân vị 4 khoảng 87,5%. Nếu dữ liệu đúng nhưng không chuẩn xác, khi tính ngẫu nhiên tăng lên, đường chéo đó sẽ biến thành một đường phẳng ở giữa và cắt tại 50%. Nhưng thứ thực sự thấy được không thuộc trường hợp nào: tứ phân vị 1 vào khoảng 60%, tứ phân vị 4 là 75%. Điều này cho thấy có một mức năng lực tự đánh giá nào đó, nhưng bị lệch. Tứ phân vị trên có thể trông như đánh giá thấp do hiệu ứng bị chặn ở phía trên, nhưng sự đánh giá quá cao ở tứ phân vị dưới thì khó tránh khỏi
  [1] https://en.wikipedia.org/wiki/Accuracy_and_precision
- Tác giả đang giả định trước kết luận rồi mới quyết định cách phân tích dữ liệu
  Một mặt nói rằng “giả định mọi người có thể đánh giá thành tích của mình là hợp lý hơn nhiều”, mặt khác lại nói “tôi không phản đối lập luận rằng người càng thành thạo thì càng đánh giá thành tích của mình tốt hơn” thì rất khó giữ được độ tin cậy. Tức là vừa xử lý biến cốt lõi như thể nó cố định, rồi trong cùng một tập dữ liệu lại thừa nhận rằng biến đó thay đổi, nên thiếu tính nhất quán nội tại
- Trong bài báo D-K gốc [1], tôi thấy hai điểm thú vị làm lung lay phản biện hợp lý này
  Đồ thị tuyến tính mượt mà mà mọi người gắn với D-K chỉ là một trong bốn đồ thị; ba đồ thị còn lại lộn xộn hơn nhiều, và bài báo cũng bàn tới các trường hợp tương quan yếu hoặc hoàn toàn không có. Hơn nữa, đồ thị trông hoàn hảo đó là để đo khiếu hài hước. Hài hước rất có khả năng tạo ra gần như nhiễu hoàn toàn giữa tự đánh giá và đánh giá của chuyên gia, ở đây là đánh giá của các diễn viên hài chuyên nghiệp. Nếu trên thực tế mọi người đều đoán ngẫu nhiên thành tích của mình, một dạng D-K mạnh trong đó nhóm trên đánh giá thấp còn nhóm dưới đánh giá cao sẽ luôn xuất hiện. Thí nghiệm cố gắng đo trí thông minh theo cách đơn giản và trực tiếp nhất là thí nghiệm số 2 dựa trên các câu hỏi logic LSAT, nhưng đồ thị kết quả rất gập ghềnh. Bài báo cũng viết rằng “người tham gia không đánh giá quá cao số câu họ trả lời đúng, và nhận thức về năng lực có quan hệ dương với năng lực thực tế nhưng không có ý nghĩa thống kê”. Điều này trông giống một Zimbardo khác
  [1] - https://sci-hub.se/10.1037/0022-3514.77.6.1121
Các tác giả đã làm “X - Y so với X”, nhưng vấn đề lớn hơn là họ đã trừ hai phép đo được chuyển đổi về khoảng 0 đến 1 và có biên
Ở các cực của biên, một người có hiệu suất cao có thể đánh giá quá cao thành tích của mình đến mức nào? Vì đã gần 1 rồi nên không thể nhiều được. Ngay cả khi xét theo giá trị thô, việc đánh giá quá cao và đánh giá quá thấp xảy ra với cùng tần suất và mức độ, thì do hiệu ứng trần của các giá trị đã chuyển đổi, đồ thị sẽ trông như thể những người có hiệu suất cao thường đánh giá thấp bản thân hơn. Với những người có hiệu suất thấp nhất thì vấn đề ngược lại xảy ra. Có thể xem các Hình 7, 8, 9 trong “Random Number Simulations Reveal How Random Noise Affects the Measurements and Graphical Portrayals of Self-Assessed Competency.” Numeracy 9, Iss. 1 (2016)
- Đúng là tôi cũng nghĩ như vậy. Dù không chỉ là hồi quy về trung bình, có vẻ khó mà thu được kết quả nào khác ngoài hiệu ứng D-K
  Tứ phân vị thấp nhất không thể nói rằng mình thấp hơn tứ phân vị thấp nhất, nên bất kỳ sai số nào cũng bị tính là “quá tự tin”. Tứ phân vị cao nhất không thể nói rằng mình cao hơn tứ phân vị cao nhất, nên bất kỳ sai số nào cũng bị tính là “thiếu tự tin”
- Nếu mọi người ở mọi mức kỹ năng đều đo lường năng lực của mình khá tốt, thì hai đường cong lẽ ra phải gần như chồng lên nhau, nhưng thực tế lại ra đồ thị được trình bày
  Việc nhiễu ngẫu nhiên có thể tạo ra đường cong trung bình trên trục Y không có nghĩa là không có D-K. Nó chỉ có nghĩa là khả năng tự phân tích trung bình của D-K trông giống một mức trung bình ngẫu nhiên ở mức vừa phải, và nghĩ kỹ thì điều đó hợp lý. Phần lớn mọi người có khả năng tự đánh giá mình ở mức trung bình bất kể năng lực thực tế, nên D-K vẫn có vẻ hợp lệ
- Có thể xử lý phần nào bằng cách cắt bỏ các phần cực trị. Ngay cả trong đồ thị của bài được liên kết, chỉ nhìn vào các tứ phân vị giữa cũng thấy cùng xu hướng
- Tính log-chuẩn có thể gây tổn hại nghiêm trọng cho phương pháp luận của các nhà khoa học xã hội
  Nếu giả định một cơ chế nền, năng lực thô của những người tham gia bài kiểm tra có thể tuân theo phân phối log-chuẩn. Lý do là bản thân việc tham gia bài kiểm tra đã ngầm bao hàm một ngưỡng IQ tối thiểu, và cũng có cái đuôi dài của các lĩnh vực thành tích cao như thể thao. Bài kiểm tra cố đo thành tích nhưng lại rút gọn nó thành phân phối chuẩn hoặc 4 nhóm; con người ước lượng năng lực của mình dựa trên nhiệm vụ và trải nghiệm chấm điểm, và việc này cũng bị quy về phân phối chuẩn hoặc phân phối hằng số. Nói cách khác, giảm chiều diễn ra ngầm hoặc rõ ràng ở ba chỗ, nên tôi không ghen tị với các nhà nghiên cứu phải bóc tách củ hành này. Dù vậy, quá trình những vấn đề như vậy được tháo gỡ trong các thí nghiệm được thiết kế dễ tiếp cận giúp ta hiểu tốt hơn
- Tính có biên của dữ liệu cũng là luận điểm cốt lõi ở đây: https://www.frontiersin.org/articles/10.3389/fpsyg.2022.8401...
Cuộc tranh luận giữa Nicolas Boneel và tác giả trong phần bình luận của bài viết khá thú vị, và Nicolas đã diễn đạt tốt những nghi ngờ nảy ra khi đọc
Cốt lõi của hiệu ứng D-K là con người kém trong việc ước lượng năng lực của mình, nên nếu giả định họ ước lượng mức năng lực một cách ngẫu nhiên thì đương nhiên kết quả sẽ được tái hiện. Mô hình đúng cho một thế giới không có D-K đại khái phải là điểm kiểm tra ước lượng = điểm kiểm tra thực tế + nhiễu, và khi đó D-K giả kỳ vọng chỉ nên phát sinh do biên điểm tối thiểu/tối đa. Hiệu ứng này có lẽ tỷ lệ với phương sai của nhiễu, nhưng phương sai trong bộ dữ liệu bổ sung có vẻ quá thấp để giải thích đầy đủ hiệu ứng quan sát được. Ngoài ra, trong mô hình này, trung bình mọi người phải đoán đúng mình thuộc nửa nào của phân phối, nhưng có vẻ ngay cả tứ phân vị thấp nhất cũng ước lượng năng lực của mình ở mức trên bách phân vị 50
- Mô hình đúng có lẽ là điểm kiểm tra ước lượng + nhiễu ước lượng = điểm kiểm tra thực tế + nhiễu kiểm tra
  Bài kiểm tra có các yếu tố ngẫu nhiên như đoán mò, và con người không thể ước lượng được những yếu tố đó
  https://en.m.wikipedia.org/wiki/Regression_dilution
  https://en.m.wikipedia.org/wiki/Errors-in-variables_models
- Việc dữ liệu trông như ngẫu nhiên không có nghĩa là đã tìm ra nguyên nhân
  Những biểu đồ đó có thể phản ánh năng lực nhìn chung thấp, hoặc có thể là một cấu trúc tinh tế hơn: ở nhóm thấp thì thiếu khả năng ước lượng, đến nhóm giữa thì cải thiện, còn ở nhóm cao thì là sự pha trộn giữa năng lực cao và sự khiêm tốn học được
- Còn tùy vào loại nhiễu được áp dụng. Nếu mọi người đều có nhiễu từ -10% đến +100%, thì sẽ thu được đồ thị gần giống với đồ thị mà Dunning-Kruger có được
  Vì vậy không có lý do gì để tin rằng người giỏi nhất ước lượng năng lực của mình tốt hơn; chỉ là họ bị ràng buộc bởi việc không thể ước lượng thứ hạng của mình cao hơn mức cao nhất
Lưu ý thuật ngữ phi chuẩn: tác giả đang dùng tự tương quan theo một cách mà tôi chưa từng thấy
Thông thường, tự tương quan chỉ sự tương quan của một chuỗi thời gian với chính nó sau khi dịch đi một khoảng thời gian nào đó. Dùng như trong bài gốc sẽ khiến người biết thống kê bối rối, và chiều ngược lại cũng vậy
- Nói nhẹ thì đây là thuật ngữ phi chuẩn; chính xác hơn là nó làm hỏng cốt lõi của khái niệm tự tương quan. Vì nó không nói rõ yếu tố quan hệ theo thời gian
  Bài viết nói “tự tương quan xảy ra khi bạn tương quan một biến với chính nó”, nhưng định nghĩa chuẩn gần với “mức độ tương quan của cùng các biến giữa hai khoảng thời gian liên tiếp”, là khái niệm đo cách giá trị bị trễ trong chuỗi thời gian liên hệ với giá trị gốc, và cũng được gọi là tương quan chuỗi
- Nơi thường gặp tự tương quan nhất là chuỗi thời gian, nhưng ngay cả trong bối cảnh đó thì lời của tác giả cũng không hoàn toàn sai
  Tự tương quan chuỗi thời gian là việc liên hệ cùng một hàm chuỗi thời gian ở các thời điểm khác nhau. Đơn giản nhất, có thể lấy một mảng X với X[i] = f(t[i]) rồi vẽ để so sánh X với X; xa hơn nữa cũng có thể làm phức tạp bằng các phép biến đổi như trung bình trượt g(X) so với X
- Tôi tò mò không biết thuật ngữ nào sẽ phù hợp để mô tả điều mà tác giả đang chỉ tới
Nếu nghĩ đến một thế giới giả định mà tác giả mô tả, nơi ước lượng điểm số của mọi người độc lập với điểm số thực tế, thì liệu có thể nói rằng trong thế giới đó hiệu ứng D-K là có thật không?
Cốt lõi của hiệu ứng này là xu hướng những người đạt điểm thấp đánh giá quá cao điểm của mình, còn những người đạt điểm cao đánh giá quá thấp điểm của mình. Có thể có nhiều lý do hợp lý khiến điều đó xảy ra, bao gồm cả trường hợp như ví dụ đồ chơi của tác giả, nơi không ai thật sự cảm nhận đúng được điểm số của mình, nhưng bản thân hiện tượng thì có vẻ đúng
- Đó chính là điểm mấu chốt
  Ví dụ điểm ngẫu nhiên của tác giả không hay, vì hợp lý khi kỳ vọng con người sẽ hành xử khác với các điểm ngẫu nhiên phân bố đều. Người giỏi một việc sẽ ước đoán rằng mình giỏi, còn người kém sẽ ước đoán rằng mình kém. Con tôi thích toán và dự đoán sẽ làm tốt bài kiểm tra toán, và thường thực tế cũng làm tốt. Trong số bạn cùng lớp, có những đứa lớn tiếng nói rằng mình ghét toán, dự đoán sẽ làm không tốt, và thực tế cũng kém ở một mức nào đó. Tôi cũng không nghi ngờ rằng nếu mình tham gia một cuộc thi nấu ăn thì sẽ nhận điểm thấp từ giám khảo, vì tôi nấu ăn dở. Dữ liệu được kỳ vọng là có tương quan. Nhưng nếu trong nghiên cứu thực tế gần như không có tương quan đó, và nhiều người dự đoán mình sẽ làm tốt lại làm kém, còn nhiều người dự đoán mình sẽ làm kém lại làm tốt, tức trông giống dữ liệu ngẫu nhiên đều, thì đó là một kết quả đáng ngạc nhiên và có lẽ chính là hiệu ứng D-K. Tôi không phải nhà thống kê nên có thể đã bỏ sót điều gì đó
- Ngay cả nếu đó là ảo giác thống kê thì bản thân tương quan vẫn đúng, nhưng khi đó nhà tâm lý học không còn lý do gì để nghiên cứu nữa
  Bạn cũng có thể gieo một con xúc xắc, rồi gieo con thứ hai, sau đó nghiên cứu vì sao con xúc xắc thứ hai lại có xu hướng cộng với con thứ nhất thành 7. Nếu là xúc xắc thì ta sẽ gạt đi như một ý tưởng ngớ ngẩn, nhưng nếu đối tượng là con người thì rất dễ bị dẫn sai bởi một lý thuyết tâm lý học về họ
Định nghĩa tự tương quan trong bài là “xảy ra khi tương quan một biến với chính nó”, còn định nghĩa trên Wikipedia là “trong thời gian rời rạc còn gọi là tương quan chuỗi, là việc tương quan một tín hiệu với bản sao bị trễ của chính nó như một hàm của độ trễ”
Tất nhiên độ trễ 0 là một trường hợp hiển nhiên của độ trễ thời gian, nhưng định nghĩa trong bài, nói nhẹ thì cũng không chính xác. D-K chẳng liên quan gì đến độ trễ thời gian, và gọi nó là tự tương quan nghe như một lối chơi chữ không thuyết phục
- Công bằng mà nói, trong địa thống kê cũng có tự tương quan không gian, nên thuật ngữ tự tương quan không nhất thiết có nghĩa chiều biến thiên là thời gian
Có vẻ ở đây đang lẫn lộn “thiên lệch” nghĩa là gì
Nếu mọi người tự đánh giá ngẫu nhiên, thì tất cả những người có thành tích cao sẽ tự đánh giá thấp mình, nhưng vì bản thân lựa chọn là ngẫu nhiên nên đó không phải là thiên lệch theo hướng đánh giá thấp. Tuy nhiên, biểu đồ D-K cho thấy một thiên lệch khác và nhìn chung khớp với kỳ vọng. Người không có kiến thức giả định mình có năng lực trung bình nên thổi phồng vị trí của mình, còn người rất giỏi nghĩ rằng người khác cũng biết nhiều như mình nên không muốn đánh giá mình ở mức cao nhất. Giả định chung của hai nhóm là mình là người bình thường và người khác cũng tương tự. Có lẽ đa số sẽ nghĩ mình ở mức trung bình; điều này có thể kiểm chứng dễ dàng bằng cách yêu cầu họ đánh giá một người trung bình sẽ làm bài kiểm tra tốt đến đâu rồi so với điểm cá nhân. Gần như chắc chắn người có thành tích cao sẽ đánh giá quá cao mức trung bình, còn người có thành tích thấp sẽ đánh giá quá thấp
Nếu có quan hệ tuyến tính giữa điểm kiểm tra X, tức năng lực, và tự đánh giá Y, tức tự nhận thức, thì biến ngẫu nhiên được mô hình hóa là Y ~ aX + b + N
Ở đây N là nhiễu độc lập về mặt thống kê với trung bình 0. Khi đó hiệp phương sai là Cov(Y-X, X) = (a-1) Var[X], và để có được “hiệu ứng D-K” thì cần (a-1) < 0, tức a < 1. Nếu a=0 như trong bài blog thì chắc chắn thỏa, còn nếu là trường hợp lý tưởng a=1, b=0 thì chỉ vừa đủ không thỏa. Nếu a > 1 thì sẽ xuất hiện một hiệu ứng hoàn toàn mới về các chuyên gia kiêu ngạo. Vì vậy, từ góc nhìn tự tương quan này, điều quan trọng chỉ là tự đánh giá của cá nhân tăng nhanh đến mức nào khi năng lực tăng. Chừng nào mức tăng bị đánh giá thấp thì hiệu ứng D-K sẽ xuất hiện. Nhưng phân tích này bỏ qua b. Nếu a=0.8, b=0 thì tuy phù hợp với góc nhìn tự tương quan, tất cả mọi người đều đánh giá thấp năng lực của mình, nên cái gọi là hiệu ứng D-K không xuất hiện. Rốt cuộc b, tức giá trị năng lực tiên nghiệm mà mọi người giả định mình có, mới quan trọng. Điều bài báo D-K cho thấy là b > .5, và điều này phù hợp với tinh thần của cách diễn giải phổ biến. Không nên giả định rằng mọi người ít nhất có năng lực cao hơn trung bình. Đồng thời, vì b cũng không cao một cách phi lý so với .5, tôi cũng muốn chừa một phần cho những “người non kém và không biết mình không biết”. Lấy đường cơ sở là mức trung bình trên thực tế là bất khả thi, nhưng về trực giác thì nghe có vẻ hợp lý
Cái đó không phải là tự tương quan. Bài gốc đang đồng nhất phụ thuộc tuyến tính với tự tương quan, nhưng thuật ngữ đó không được dùng như vậy
Tự tương quan là khi một quá trình ngẫu nhiên tương quan với chính nó sau một độ trễ thời gian
Có vẻ nhiều người chưa đọc hết bài gốc. Điểm mấu chốt xuất hiện khi tham chiếu bài báo này: https://digitalcommons.usf.edu/cgi/viewcontent.cgi?article=1...
Hình 2 của bài báo này cho thấy kết quả một thí nghiệm đo độc lập năng lực và nhận thức về năng lực của bản thân. Đây là thiết kế nhằm loại bỏ hiện vật thống kê gọi là tự tương quan. Thế nhưng, tính trung bình thì năng lực không tương quan với độ chính xác của tự đánh giá, và cũng hoàn toàn không có hiệu ứng D-K. Điều thực sự xuất hiện chỉ là người có năng lực hơn ước lượng năng lực của mình nhất quán hơn, tức độ biến thiên của đánh giá thấp hơn; còn độ chính xác trung bình vẫn là 0. Do đó, tính trung bình thì năng lực thực tế và năng lực được nhận thức không tương quan với nhau, và đó cũng chính là điều mà chứng minh bằng các con số ngẫu nhiên muốn nói. Vì vậy, trong nhiều trường hợp, ta sẽ áp dụng dao cạo Occam

Hiệu ứng Dunning-Kruger là tự tương quan

Nhìn lại hiệu ứng Dunning-Kruger dưới góc độ thống kê

Cấu trúc của biểu đồ Dunning-Kruger gốc

Chênh lệch giữa hai đường tạo ra tự tương quan

Dữ liệu ngẫu nhiên cũng tạo ra cùng một mẫu hình

Kiểm chứng thay thế của Nuhfer và cộng sự

Thiên lệch do chuyển đổi sang bách phân vị

Vì sao các phê bình không lan rộng

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News