- Khi LLM được dùng cả để tạo và đánh giá CV, tự ưu ái của mô hình đánh giá đối với đầu ra do chính nó tạo ra nổi lên như một dạng thiên lệch mới trong sàng lọc tuyển dụng
- Nghiên cứu dựa trên 2.245 CV do con người viết được thu thập trước khi AI tạo sinh phổ biến, rồi so sánh và đánh giá các CV phản thực do nhiều LLM như GPT-4o, LLaMA 3.3-70B, DeepSeek-V3 tạo ra
- Ở phần lớn mô hình, tự ưu ái LLM-vs-Human xuất hiện mạnh; mức thiên lệch tự ưu ái của các mô hình thương mại và mã nguồn mở chủ chốt so với CV do con người viết nằm trong khoảng 67%~82%
- Trong mô phỏng pipeline tuyển dụng cho 24 nhóm nghề, ứng viên dùng cùng LLM với LLM chấm điểm có khả năng vào danh sách rút gọn cuối cùng cao hơn khoảng 23%~60% so với ứng viên có CV do con người viết nhưng năng lực tương đương
- System prompting yêu cầu bỏ qua nguồn gốc và tập trung vào nội dung, cùng với ensemble bỏ phiếu đa số, giúp giảm tương đối 17%~63% mức tự ưu ái LLM-vs-Human ở tất cả LLM được kiểm thử
Một dạng thiên lệch mới do tự ưu ái của AI trong đánh giá tuyển dụng
- Khi mô hình ngôn ngữ lớn (LLM) được dùng cả cho tạo nội dung lẫn đánh giá, tự ưu ái (self-preference) — tức xu hướng đánh giá cao hơn đầu ra do cùng mô hình tạo ra — đang nổi lên như một dạng thiên lệch mới trong các quy trình ra quyết định như tuyển dụng
- Trong tuyển dụng, ngày càng phổ biến cấu trúc mà ứng viên dùng LLM để viết/chỉnh sửa CV, còn nhà tuyển dụng dùng công cụ tương tự để sàng lọc hoặc xếp hạng CV, khiến tương tác AI-AI có thể ảnh hưởng trực tiếp đến kết quả đánh giá thực tế
- Khác với các thảo luận công bằng trước đây vốn chủ yếu tập trung vào phân biệt đối xử theo thuộc tính nhân khẩu học, tự ưu ái là một dạng thiên lệch phát sinh nội sinh từ quan hệ giữa mô hình đánh giá và mô hình tạo sinh
- Thiên lệch này có thể hoạt động theo hướng có lợi cho ứng viên dùng cùng mô hình với LLM được dùng để đánh giá, ngay cả khi năng lực tương đương, đồng thời bất lợi cho người dùng công cụ khác hoặc không dùng AI
- Sàng lọc CV là nút thắt cổ chai ban đầu giúp thu hẹp một tập ứng viên lớn xuống các vòng phỏng vấn và đánh giá có giới hạn, nên sai lệch ở tầng đầu có thể ảnh hưởng lâu dài đến thành phần nhóm ứng viên đi tiếp và cách phân bổ cơ hội tuyển dụng
Thiết kế thí nghiệm và cách đo lường
- Thí nghiệm dựa trên 2.245 CV do con người viết được thu thập từ một nền tảng viết CV chuyên nghiệp, sử dụng dữ liệu từ trước khi AI tạo sinh được dùng rộng rãi
- Với mỗi CV, nhóm nghiên cứu tạo các phiên bản phản thực (counterfactual) bằng nhiều LLM hiện đại, sao cho thông tin về năng lực, kinh nghiệm và nền tảng của cùng một ứng viên được giữ nguyên, chỉ khác ở cách diễn đạt
- Các mô hình được dùng gồm GPT-4o, GPT-4o-mini, GPT-4-turbo, LLaMA 3.3-70B, Mistral-7B, Qwen 2.5-72B, Deepseek-V3
- LLM đánh giá thực hiện so sánh theo cặp, chọn CV mạnh hơn trong hai CV đại diện cho cùng một ứng viên, trong đó chỉ khác nguồn gốc tạo ra CV
- Tự ưu ái được chia thành hai dạng
-
Tự ưu ái LLM-vs-Human
- Là xu hướng LLM đánh giá ưu tiên CV do chính nó tạo hơn một CV tương đương do con người viết
-
Tự ưu ái LLM-vs-LLM
- Là xu hướng LLM đánh giá ưu tiên CV do chính nó tạo hơn CV do một LLM khác tạo
- Trong bối cảnh này, LLM đánh giá hoạt động như một bộ phân loại nhị phân, và nghiên cứu sử dụng các tiêu chí statistical parity và equal opportunity trong tài liệu về công bằng để đo thiên lệch
- Thiên lệch tự ưu ái dựa trên statistical parity được định nghĩa là chênh lệch giữa xác suất một CV do LLM đánh giá tạo ra được chọn và xác suất một CV do con người hoặc LLM khác tạo ra được chọn
Statistical Parity Self-Preference Bias_f = P(Y'_f = 1 | S = 1) - P(Y'_f = 1 | S = 0)
- Ở đây,
S = 1 là CV do LLM đánh giá f tạo ra, còn S = 0 là CV do con người hoặc LLM khác tạo ra
Y'_f = 1 có nghĩa là LLM đánh giá f đã chọn CV đó là CV mạnh hơn
- Cần thận trọng khi diễn giải trực tiếp chênh lệch statistical parity là thiên lệch
- Chênh lệch này có thể xuất phát từ tự ưu ái, nhưng cũng có thể do khác biệt về chất lượng nội dung khi cùng thông tin ứng viên được diễn đạt rõ ràng, nhất quán và trôi chảy hơn
- Ở đây, chất lượng nội dung không nói đến khác biệt về năng lực hay nền tảng ứng viên, mà là độ rõ ràng, nhất quán, độ trôi chảy và khả năng tổ chức khi truyền đạt cùng một thông tin
Các kết quả thực nghiệm chính
- Ở phần lớn mô hình, tự ưu ái LLM-vs-Human xuất hiện mạnh và nhất quán
- Các mô hình lớn hơn như GPT-4o, GPT-4-turbo, DeepSeek-V3, Qwen-2.5-72B, LLaMA 3.3-70B cho thấy mức thiên lệch mạnh vượt 65% ngay cả sau khi đã kiểm soát chất lượng nội dung
- Với GPT-4o, mức tự ưu ái LLM-vs-Human vượt 80%, và trên toàn bộ các mô hình thương mại lẫn mã nguồn mở chủ chốt, thiên lệch tự ưu ái với CV do con người viết nằm trong khoảng 67%~82%
- Tự ưu ái LLM-vs-LLM khác biệt nhiều hơn theo từng mô hình
- DeepSeek-V3 cho thấy thiên lệch mạnh nhất trong thiết lập này, ưu tiên đầu ra của chính mình 69% khi so với LLaMA 3.3-70B
- DeepSeek-V3 cũng ưu tiên đầu ra của chính mình 28% khi so với GPT-4o
- GPT-4o và LLaMA 3.3-70B không cho thấy tự ưu ái nhất quán khi đánh giá nội dung do mô hình khác tạo ra
- Việc đánh giá có thể bị ảnh hưởng không chỉ bởi năng lực thực chất của ứng viên mà còn bởi mức độ phù hợp giữa CV và phong cách tạo sinh của LLM chấm điểm
- Thiên lệch này có thể tạo lợi thế không công bằng cho các ứng viên có khả năng tiếp cận kỹ thuật tạo sinh nhất định hoặc dùng được mô hình cụ thể, đồng thời gây bất lợi cho những người không có điều kiện đó
Tác động trong pipeline tuyển dụng
- Nghiên cứu mô phỏng một pipeline tuyển dụng thực tế trên 24 nhóm nghề để đo tác động vận hành của tự ưu ái lên kết quả sàng lọc ứng viên
- Ứng viên dùng cùng LLM với LLM được dùng để đánh giá có khả năng vào danh sách rút gọn cuối cùng (shortlist) cao hơn khoảng 23%~60% so với ứng viên có cùng năng lực nhưng nộp CV do con người viết
- Bất lợi xuất hiện rõ nhất ở các lĩnh vực liên quan đến kinh doanh như kế toán, bán hàng và tài chính
- Ở các lĩnh vực nông nghiệp, nghệ thuật và ô tô, mức bất lợi tương đối ít nổi bật hơn
- Nếu cùng một lợi thế tiếp tục lặp lại qua nhiều chu kỳ tuyển dụng, có thể xuất hiện hiệu ứng khóa chặt (lock-in), trong đó phong cách CV được LLM chi phối ưa thích dần trở nên cố định trong tập ứng viên
- Hiệu ứng khóa chặt như vậy có thể làm giảm tính đa dạng trong sàng lọc ứng viên và khuếch đại bất bình đẳng trong phân bổ cơ hội được đánh giá
- Vì pipeline tuyển dụng có năng lực tiếp nhận hạn chế ở các bước sau như phỏng vấn và đánh giá, nên false negative ở giai đoạn sàng lọc CV ban đầu có thể loại vĩnh viễn các ứng viên đủ năng lực, còn false positive sẽ làm tiêu tốn nguồn lực đánh giá vốn đã hạn chế
Chiến lược giảm thiểu và hàm ý về công bằng
- Tự nhận diện (self-recognition) được nêu ra như cơ chế cốt lõi của tự ưu ái
- Tự nhận diện là khả năng mô hình ngầm nhận ra nội dung do chính mình tạo ra
- Các nghiên cứu trước cho thấy những LLM như GPT-4 và LLaMA 2 có năng lực tự nhận diện đáng kể, và tồn tại tương quan dương mạnh giữa năng lực tự nhận diện với mức độ thiên lệch tự ưu ái
- Hai chiến lược giảm thiểu đơn giản được đề xuất
-
System prompting
- Chỉ thị rõ ràng cho mô hình bỏ qua nguồn gốc của CV và chỉ tập trung vào nội dung thực chất
-
Ensemble bỏ phiếu đa số
- Kết hợp mô hình đánh giá với các mô hình nhỏ hơn có năng lực tự nhận diện yếu hơn để làm loãng thiên lệch của một LLM đơn lẻ
- Trên tất cả các LLM được kiểm thử, các can thiệp này giúp giảm tương đối 17%~63% mức tự ưu ái LLM-vs-Human
- Trong nhiều trường hợp, chỉ với các can thiệp đơn giản nhắm vào năng lực tự nhận diện cũng có thể giảm hơn 50% mức thiên lệch
- Thiên lệch tự ưu ái là hiện tượng phổ biến và có ảnh hưởng thực chất đến kết quả tuyển dụng, nhưng không phải là đặc tính cố định và có thể được giảm đáng kể bằng các can thiệp thiết kế
- Khung công bằng cho tuyển dụng dựa trên AI cần xử lý không chỉ phân biệt đối xử theo thuộc tính được bảo vệ, mà cả thiên lệch tương tác phát sinh từ tương tác giữa các hệ thống AI dùng cho tạo sinh và đánh giá
- Cơ chế quản trị AI và thiết kế vận hành có trách nhiệm của doanh nghiệp không nên chỉ bao quát dữ liệu đầu vào và các thuộc tính được bảo vệ, mà còn phải bao gồm cả mô hình nào tạo tài liệu ứng viên và mô hình nào đánh giá chúng
1 bình luận
Ý kiến trên Hacker News
Nếu chép nguyên những gì đã viết trên LinkedIn thì, giả sử tôi đã đọc đúng bài báo, nghiên cứu này thực ra không chứng minh được rằng LLM ưu ái CV do chính nó tạo ra
Có vẻ phương pháp thực tế là xóa phần tóm tắt điều hành khỏi CV do con người viết, rồi để LLM viết lại phần tóm tắt đó dựa trên phần còn lại của CV, sau đó một LLM khác chỉ đánh giá phần tóm tắt ấy mà không có phần CV còn lại
Ngay cả nếu tin rằng thiết kế này nắm bắt được hiệu ứng thực, nó vẫn rất có thể phóng đại tác động lên đáng kể. Các tác giả có đưa ra lý do cho thiết kế này, nhưng tôi không thấy nó đủ thuyết phục: https://news.ycombinator.com/item?id=47987256#47987727
Thành ra HR dùng LLM thì người tìm việc cũng phải dùng, rồi sau đó vì ứng viên giỏi dùng LLM nên HR lại càng phải dùng, tạo thành một vòng lặp
Chỉ là một trường hợp cá nhân với cỡ mẫu bằng một, nhưng khi tôi bị sa thải và đi tìm vai trò tiếp theo thì CV tự viết không nhận được phản hồi tương xứng với kinh nghiệm của mình
Cho vui, tôi bảo ChatGPT phân tích CV và chấm điểm, rồi sửa nó để điểm cao nhất có thể. Sau đó tôi kiểm tra lại thông tin và chỉnh sửa rồi gửi đi, thì tỷ lệ phản hồi cao hơn hẳn trước đó
Cũng có thể do thị trường hay thời điểm, nhưng tôi vẫn phải vượt qua phỏng vấn để chứng minh năng lực, và ít nhất nó có vẻ đã giúp tôi qua được vòng cửa đầu tiên
Sau đó cô ấy nhờ ChatGPT 5.x hỗ trợ; dù khá hoài nghi vì những thay đổi được gợi ý mang văn phong AI đồng nhất, chỉ vài ngày sau thì recruiter bắt đầu liên hệ và hồ sơ ứng tuyển tiến triển
Khi LLM đã len vào nhiều điểm trong quy trình tuyển dụng, có vẻ giờ nếu CV không được LLM viết giúp thì độ khó đã tăng lên. Các LLM rà soát CV dường như đánh giá thấp những hồ sơ không dùng cùng một ngôn ngữ và không kích hoạt đúng các nơ-ron mà chúng mong đợi
Về trực giác thì điều này có vẻ hiển nhiên. Nội dung do mô hình tạo ra bị ảnh hưởng bởi dữ liệu huấn luyện, nên khi đọc lại nó có thể khớp với cùng phân phối huấn luyện và được đánh giá tích cực hơn
Kiểu như một người bảo “hãy làm CV này trông chuyên nghiệp hơn”, rồi vài ngày sau một LLM khác trong báo cáo HR lại nói “CV này thực sự rất chuyên nghiệp”
Vì thế, chính sách cá nhân dùng một họ LLM cho sinh mã và một họ LLM khác cho rà soát mã là có cơ sở. Mục tiêu là tránh tự chấm bài của mình
Tôi không nhớ link, nhưng thật sự rất thú vị
Chúng ta đang chen thêm một chủ thể nữa vào giữa con người với nhau mà không có sự đồng ý. Có vẻ đây là vấn đề khi mô hình trở thành trọng tài trung gian quyết định ai được việc và ai không
Nếu bộ phận HR dùng ChatGPT để lọc CV, rốt cuộc họ sẽ tuyển những người viết CV bằng ChatGPT. Tôi không muốn sa vào lập luận dốc trơn trượt, nhưng trực giác mách rằng chất lượng tổ chức sẽ xuống nhanh
Ngược lại, tôi là thợ sửa chữa kiêm nhà thầu phụ; công việc gần như toàn đến từ điện thoại, tin nhắn, email đơn lẻ và các giới thiệu đáng tin. Hơn 8 năm rồi tôi chưa phải đụng tới CV kiểu truyền thống
Nếu tôi bắt đầu trao đổi với ai đó mà thấy như đang nói chuyện với máy tính, đó là dấu hiệu để chuyển sang khách hàng khác ngay. Nếu họ còn không dành nổi thời gian giao tiếp trực tiếp với tôi, thì sao tôi có thể bỏ ra hàng trăm giờ lao động chân tay cho họ được?
Cuối cùng người nghèo có thể sẽ có CV kém hơn người giàu, và nếu mô hình đứng giữa lại nắm quyền phán quyết cuối cùng thì gần như cũng chẳng còn cách nào tránh chuyện đó
Trong lĩnh vực công nghệ, CV có lẽ cuối cùng sẽ trở thành, hoặc đã trở thành, thứ lỗi thời. Tỷ lệ tín hiệu trên nhiễu quá thấp nên giá trị lọc ra được rất mỏng
Ngay cả những tín hiệu tương đối mạnh như GPA, chứng chỉ hay công việc trước đây cũng không chuyển hóa tốt thành kết quả ở vòng sàng lọc phỏng vấn ban đầu
Vì vậy tôi nghĩ điều ngành này đang rất cần là một liên minh khảo thí. Thay vì suy đoán năng lực qua tên trường, các công ty công nghệ lớn nên tạo ra các bài thi chuẩn theo từng lĩnh vực, và điểm số đó sẽ trở thành CV; khi ấy lập trình viên có thể tập trung cải thiện điểm số thay vì lo việc lặt vặt là viết CV và lặp đi lặp lại các vòng sàng lọc
Suy cho cùng thì chẳng phải các chứng chỉ “doanh nghiệp” đã và đang đóng vai trò đó rồi sao
Nói thẳng ra thì đây gần như là lập luận rằng LeetCode là công cụ tuyển dụng hiệu quả, mà điều đó xứng đáng nhận rất nhiều chỉ trích
Điều này có thể dẫn tới một trò đấu trí chiến lược khá thú vị. Nếu bạn ứng tuyển vào một công ty và biết họ dùng hệ thống ATS nào, còn hệ thống đó dùng bộ lọc của nhà cung cấp mô hình nào, thì hợp lý nhất là dùng chính mô hình đó để viết phiên bản CV gửi cho công ty
Có vẻ cả ngành đang dùng bộ chấm điểm tự động. Tức là dùng các instance agent để chấm đầu ra của agent
Ý tưởng này tương tự huấn luyện sinh ảnh dựa trên mạng nơ-ron đối kháng mà bỏ qua người gán nhãn. Khi đó các đội sẽ tối ưu theo điểm của bộ chấm tự động, nên sẽ chẳng có gì ngạc nhiên nếu cuối cùng agent chấm cao nhất cho chính nội dung do nó tạo ra
Để thử nghiệm, tôi chạy qwen/qwen3-v1-30b cục bộ và đưa vào CV hoàn toàn do con người viết của mình, rồi bảo nó “hãy làm CV này trông chuyên nghiệp hơn”
Nó tạo ra những gạch đầu dòng nghe cực kỳ ấn tượng, và câu “chuyên về mô hình dữ liệu toàn doanh nghiệp và thực hiện tối ưu hóa giá vốn hàng bán trên toàn bộ cơ sở khách hàng” bị đổi thành “chuyên về mô hình dữ liệu toàn doanh nghiệp và tối ưu hiệu năng, dẫn dắt hơn 5 triệu USD tiết kiệm chi phí định kỳ trên toàn bộ tệp khách hàng”
Hơn 5 triệu USD nghe rất ngầu, và rõ ràng kho ngữ liệu CV thiên về chỉ số, nhưng điều đó không đúng sự thật và tôi cũng chưa từng bảo nó bịa số
Thậm chí dù CV chỉ có một vai trò SDE giai đoạn 1996~1998, nó còn tự bịa ra cả “Cử nhân Khoa học Máy tính, University of California, Berkeley | 1996–1998” từ hư không
Sẽ có người sửa các ảo giác đó, và trong trường hợp ấy cùng lắm chỉ là ứng viên tốn thời gian
Cũng sẽ có người không sửa; khi đó kịch bản tốt nhất là ứng viên và người phỏng vấn phát hiện sai sót về sau và cùng lãng phí thời gian. Kịch bản tệ nhất là tuyển nhầm người không có khả năng làm việc, dẫn tới một kết cục bẩn thỉu và kém hiệu quả cho tất cả mọi bên
Chủ đề này đến rất đúng lúc với tôi. CV của tôi đã dài tới 7 trang, và vì ở đâu cũng bảo không nên quá 2 trang nên tôi nhờ Gemini viết lại
Gemini rất thích phóng đại mọi thứ nên mất khá nhiều thời gian, nhưng tôi khá hài lòng với kết quả
Tuy vậy, vài recruiter đầu tiên tôi gửi cho lại thích bản CV cũ 7 trang hơn. Có vẻ họ vẫn chưa dùng AI đủ nhiều
LLM rất nhất quán trong việc đánh giá cao nội dung do LLM viết
Nếu bạn để LLM viết tài liệu thiết kế, chờ đến khi nó tạo ra một kết quả rất tệ, rồi nhờ các LLM khác phản hồi, thì chúng thường sẽ nói khá tốt
Ngược lại, nếu gửi một tài liệu được viết rất tốt, chúng thường lại tìm ra nhiều điểm yếu hơn dù tiền đề rất vững. Có lẽ ai đó nên nghiên cứu chuyện này
Rõ ràng LLM có giá trị rất lớn, nhưng hiện tượng này hé lộ một điểm yếu rất thú vị mà phạm vi ảnh hưởng của nó còn chưa rõ tới đâu
Có vẻ LLM cũng sẽ thiên vị mạnh với chính đoạn mã do nó viết. Nếu đưa vào những đoạn mã được đánh giá là viết rất tốt và phổ biến như Redis rồi xin phản hồi, có lẽ nó sẽ soi ra nhiều lỗi, mà khá nhiều trong số đó có thể hoàn toàn sai
Ngược lại, nếu đưa một repository do LLM sinh ra mà rõ ràng rất tệ vào cùng mô hình đó, liệu nó có phản ứng giống như với tài liệu thiết kế không? Nó sẽ đối xử ngôn ngữ tự nhiên và mã khác nhau, hay vẫn cùng một vấn đề? Không biết đã có ai thử chưa