- 5 LLM frontier đã đưa ra phán định khác nhau ở 67% trong số 1.000 claim do người dùng thực tế gửi lên, và chỉ có 33% trường hợp cả 5 cùng nhất trí
- Phán định theo đa số không phải là nhãn đáp án đúng mà là tiêu chuẩn để đo mức độ bất đồng; trong 67% trường hợp không đồng thuận tuyệt đối, chắc chắn sẽ có ít nhất 1 mô hình sai
- Trong rubric 4 mức, bất đồng thực chất với chênh lệch từ 2 bậc trở lên chiếm 34%, và sự phân cực cực đoan giữa True và False cũng xuất hiện ở mức 21%
- Tỷ lệ trùng khớp nhãn theo từng cặp mô hình là 53~75%, trong đó Gemini 3 Pro và phiên bản Search cùng chung mô hình nền có tỷ lệ khớp cao nhất
- Dữ liệu được lấy từ các claim thực tế gần đây của Lenz và được đo lường không dùng nhãn đáp án đúng hay LLM chấm điểm, qua đó cho thấy sự bất ổn trong cấu trúc phán định hơn là độ chính xác
Trong các claim thực tế, phán định bị chia rẽ thường xuyên đến mức nào
- Trong 1.000 claim được phân tích, có 672 claim, tương đương 67% (95% CI 64–70%) mà phán định của 5 mô hình frontier không trùng nhau
- Có 328 claim, tức 33% (95% CI 30–36%), mà cả 5 mô hình đều đưa ra cùng một phán định
- Có 224 claim, tức 22% (95% CI 20–25%), mà chỉ 1 mô hình đưa ra phán định khác
- Có 316 claim, tức 32% (95% CI 29–35%), mà 2 mô hình đưa ra phán định khác
- Có 132 claim, tức 13% (95% CI 11–15%), rơi vào tình trạng chia rẽ không hình thành được đa số nghiêm ngặt như 2-2-1 hoặc 2-1-1-1
- Có 448 claim, tức 45% (95% CI 42–48%), mà ít nhất 2 mô hình đưa ra phán định khác nhau
- Phán định theo đa số không phải là chỉ dấu thay thế cho độ chính xác mà là một tiêu chuẩn mang tính cấu trúc để đếm mức độ bất đồng
- Phán định theo đa số có thể sai, và mô hình đưa ra phán định thiểu số vẫn có thể đúng
- Nếu giả định chỉ có 1 trong 4 bucket phán định là đáp án đúng, thì ở 67% claim không đồng thuận tuyệt đối sẽ có ít nhất 1 mô hình sai
- Ở 45% trường hợp gồm các kiểu chia rẽ 3-2, 3-1-1 và không có đa số, sẽ có ít nhất 2 mô hình sai
- Ở 13% trường hợp không có đa số, không bucket nào đạt 3 phiếu nên sẽ có ít nhất 3 mô hình sai
- Ngay cả trong 33% trường hợp cả 5 mô hình đều đồng ý, vẫn có thể tồn tại những điểm mù chung
- Mức độ đồng thuận của hội đồng là Krippendorff’s α (ordinal)=0.639
- Phán định của các mô hình không đến mức gần như ngẫu nhiên, nhưng cũng chưa nhất quán đến mức có thể xem 5 mô hình là các giám khảo có thể hoán đổi cho nhau
- Vì True / Mostly True / Misleading / False là các hạng mục có thứ tự nên đã sử dụng α thứ bậc
Khác biệt sắc thái và bất đồng thực chất
- Trong 1.000 claim, có 343 claim, tương đương 34% (95% CI 31–37%) mà phán định của ít nhất 2 mô hình cách nhau từ 2 bậc trở lên trong rubric 4 mức
- Khác biệt giữa True và Mostly True được xem là khác biệt sắc thái, gần với việc điều chỉnh mức độ tin cậy
- Khác biệt giữa True và False được xem là bất đồng thực chất, tức bản thân câu trả lời đã bị chia rẽ
- Phép đo được tính bằng khoảng cách bucket tối đa theo từng cặp trong 5 phán định
- Thứ tự phán định là
True (0) → Mostly True (1) → Misleading (2) → False (3)
- Khoảng cách 0 có 328 claim, tương đương 33% (95% CI 30–36%), tức cả 5 mô hình đều chọn cùng một bucket
- Khoảng cách 1 có 329 claim, tương đương 33% (95% CI 30–36%), tương ứng với khác biệt sắc thái như True ↔ Mostly True
- Khoảng cách 2 có 132 claim, tương đương 13% (95% CI 11–15%), là bất đồng thực chất như True ↔ Misleading hoặc Mostly True ↔ False
- Khoảng cách 3 có 211 claim, tương đương 21% (95% CI 19–24%), là sự phân cực cực đoan giữa True ↔ False
- Khoảng cách bucket không phải là thước đo chính xác về mức độ nghiêm trọng của sai số mà chỉ là chỉ báo thô
- Nó bao gồm sự đơn giản hóa khi xem True / Mostly True / Misleading / False như một thang thứ tự có khoảng cách đều nhau
- Chênh lệch 2 bậc cũng có thể phát sinh từ sự mơ hồ của rubric, khác biệt về mốc thời gian, hoặc khác biệt trong cách diễn giải “Misleading”
Tỷ lệ nhất trí giữa các mô hình
- Tỷ lệ trùng khớp nhãn giữa các cặp trong 5 mô hình nằm trong khoảng 53%~75%
- Tỷ lệ cao nhất là Gemini 3 Pro × Gemini 3 Pro + Search với 75% (95% CI 72–77%), và hai mô hình này dùng chung cùng một mô hình nền
- Tỷ lệ thấp nhất là 53% (95% CI 50–56%), xuất hiện ở 3 cặp
- Các tỷ lệ trùng khớp chính theo từng cặp
- GPT-5.4 × Claude Opus 4.7: 65% (95% CI 62–68%)
- GPT-5.4 × Gemini 3 Pro: 65% (95% CI 62–68%)
- GPT-5.4 × Gemini 3 Pro + Search: 60% (95% CI 57–63%)
- GPT-5.4 × Sonar Pro: 60% (95% CI 57–63%)
- Claude Opus 4.7 × Gemini 3 Pro: 53% (95% CI 50–56%)
- Claude Opus 4.7 × Gemini 3 Pro + Search: 53% (95% CI 50–56%)
- Claude Opus 4.7 × Sonar Pro: 58% (95% CI 55–61%)
- Gemini 3 Pro × Sonar Pro: 53% (95% CI 50–56%)
- Gemini 3 Pro + Search × Sonar Pro: 58% (95% CI 55–61%)
Xu hướng phán định theo từng mô hình
-
Phân bố phán định
- Mỗi mô hình khác nhau về mức độ nghiêng về hai cực True/False và mức độ sử dụng các bucket trung gian Mostly True/Misleading
- Vì không có nhãn đáp án đúng nên không thể tách riêng ảnh hưởng từ xu hướng sẵn có của mô hình và đặc tính của claim
- GPT-5.4: True 42% (95% CI 39–45%), Mostly True 16% (14–19%), Misleading 12% (10–14%), False 30% (28–33%)
- Claude Opus 4.7: True 38% (35–41%), Mostly True 26% (23–29%), Misleading 19% (17–22%), False 17% (15–20%)
- Gemini 3 Pro: True 54% (51–57%), Mostly True 3% (2–4%), Misleading 3% (2–4%), False 40% (37–43%)
- Gemini 3 Pro + Search: True 52% (49–55%), Mostly True 4% (3–5%), Misleading 9% (7–11%), False 35% (32–38%)
- Sonar Pro: True 35% (32–38%), Mostly True 23% (21–26%), Misleading 16% (14–18%), False 26% (23–28%)
-
Mức độ trùng khớp với đa số của phần còn lại trong hội đồng
- Tỷ lệ mỗi mô hình đưa ra cùng phán định với đa số nghiêm ngặt do ít nhất 3 trong 4 mô hình còn lại tạo thành nằm trong khoảng 69%~81%
- Giá trị này phản ánh mức độ đồng bộ với các mô hình đồng cấp trên tập dữ liệu này, chứ không phải độ chính xác
- Phép tính chỉ bao gồm các claim mà 4 mô hình còn lại hình thành đa số từ 3/4 trở lên, nên eligible n khác nhau theo từng mô hình
- GPT-5.4: 81% (95% CI 78–84%), eligible n=650, ineligible=350
- Claude Opus 4.7: 70% (95% CI 67–74%), eligible n=691, ineligible=309
- Gemini 3 Pro: 77% (95% CI 74–80%), eligible n=683, ineligible=317
- Gemini 3 Pro + Search: 76% (95% CI 73–79%), eligible n=693, ineligible=307
- Sonar Pro: 69% (95% CI 66–73%), eligible n=675, ineligible=325
Mức độ bất đồng theo lĩnh vực
- Mẫu số theo từng lĩnh vực là số lượng claim của lĩnh vực đó, và ở đa số lĩnh vực, tỷ lệ bất đồng vượt xa một nửa
- Finance: 75 claim, bất đồng tùy ý 67% (KTC 95% 55–76%), bất đồng thực chất 39% (28–50%), không có đa số 20% (13–30%)
- General: 179 claim, bất đồng tùy ý 68% (60–74%), bất đồng thực chất 40% (33–48%), không có đa số 12% (8–17%)
- Health: 171 claim, bất đồng tùy ý 71% (64–78%), bất đồng thực chất 29% (23–36%), không có đa số 12% (8–17%)
- History: 131 claim, bất đồng tùy ý 53% (44–61%), bất đồng thực chất 24% (17–32%), không có đa số 13% (8–20%)
- Legal: 48 claim, bất đồng tùy ý 77% (63–87%), bất đồng thực chất 40% (27–54%), không có đa số 19% (10–32%)
- Politics: 168 claim, bất đồng tùy ý 70% (62–76%), bất đồng thực chất 38% (31–46%), không có đa số 8% (5–13%)
- Science: 151 claim, bất đồng tùy ý 68% (60–75%), bất đồng thực chất 36% (29–44%), không có đa số 21% (15–28%)
- Tech: 77 claim, bất đồng tùy ý 69% (58–78%), bất đồng thực chất 31% (22–42%), không có đa số 8% (4–16%)
- Phân loại lĩnh vực phản ánh mẫu traffic của Lenz, không phải kết quả lấy mẫu ngẫu nhiên đồng đều từ toàn bộ các claim có thể fact-check
Đồng thuận theo từng bucket phán định
- Khi hội đồng đi đến bucket trung gian, họ hầu như không hội tụ
- Với các phán định đa số là Mostly True và Misleading, tỷ lệ nhất trí tuyệt đối chỉ tối đa khoảng 5% mỗi loại
- Tỷ lệ nhất trí tuyệt đối của các phán định đa số True và False lần lượt là 47% và 43%
- Tính theo các claim mà có đa số nghiêm ngặt từ 3/5 trở lên đưa ra phán định đó
- True: eligible n=438, nhất trí tuyệt đối 47% (KTC 95% 42–51%), đa số 3~4 phiếu 53% (49–58%)
- Mostly True: eligible n=76, nhất trí tuyệt đối 0% (KTC 95% 0–5%), đa số 3~4 phiếu 100% (KTC 95% 95–100%)
- Misleading: eligible n=74, nhất trí tuyệt đối 5% (KTC 95% 2–13%), đa số 3~4 phiếu 95% (87–98%)
- False: eligible n=280, nhất trí tuyệt đối 43% (KTC 95% 37–49%), đa số 3~4 phiếu 57% (51–63%)
- Ngay cả 328 claim mà cả 5 mô hình đều đưa ra cùng một phán định cũng tập trung ở hai cực
- True: 204 claim, chiếm 62% số trường hợp nhất trí tuyệt đối (KTC 95% 57–67%)
- Mostly True: 0 claim, 0% (KTC 95% 0–1%)
- Misleading: 4 claim, 1% (KTC 95% 0–3%)
- False: 120 claim, 37% (KTC 95% 32–42%)
- Nghiên cứu ablation Llama-3 đơn hệ trên 17.856 claim PolitiFact, Schwab et al. 2025 cũng cho thấy kết quả liên quan rằng lỗi của các mô hình phán định fact-check tập trung ở các nhãn tinh vi
Bộ dữ liệu và tiêu chí loại trừ
- Đối tượng phân tích là 1.000 claim
- Đây là các claim mới nhất trong số những yêu cầu thực tế của người dùng gửi lên nền tảng fact-check Lenz và vượt qua điều kiện loại trừ
- Tất cả claim đều được tạo sau ngày 15 tháng 2 năm 2026
- Phán định riêng của Lenz không được dùng trong phân tích; phân tích này không phải so sánh giữa Lenz và các mô hình frontier mà chỉ đo mức bất đồng giữa các mô hình frontier với nhau
- Trường
atomic_claim không phải nguyên văn người dùng nhập vào, mà là mệnh đề trung lập, có thể kiểm chứng, đã được chuẩn hóa qua bước framing của Lenz
- Ví dụ, đầu vào “Canadian authorities are throwing Christians in jail for quoting the Bible!!!” được chuyển thành mệnh đề “As of April 4, 2026, Canadian authorities have jailed individuals for publicly quoting the Bible because of their Christian beliefs.”
- Các claim bị loại trừ
- Claim được người gửi đánh dấu là riêng tư
- Claim do nhân viên nền tảng, tài khoản nội bộ hoặc agent/API gửi lên
- Claim có trạng thái biên tập là
pending hoặc hidden
- Claim bị tự động gắn cờ ở bước sàng lọc PII của Lenz vì chứa thông tin cá nhân về người không phải nhân vật công chúng
- Claim trùng lặp gần với khoảng cách cosine giữa các
atomic_claim nằm trong 0.2 trên embedding 1536 chiều OpenAI text-embedding-3-small
- Claim mà dù đã thử lại một lần, vẫn có ít nhất một trong 5 mô hình không đưa ra được phán định có thể parse
- Claim cũ hơn 180 ngày tính đến thời điểm thu thập
- Trong các trường hợp trùng lặp gần, với mệnh đề phụ thuộc thời gian thì chọn claim mới hơn; còn lại thì dùng claim hiện có có nhiều lượt xem nhất trên Lenz làm dòng đại diện
Phương pháp luận
-
Mô hình và prompt
- Mô hình tham số: GPT-5.4 (OpenAI), Claude Opus 4.7 (Anthropic), Gemini 3 Pro (Google)
- Mô hình tăng cường tìm kiếm: Gemini 3 Pro + Search (Google), Sonar Pro (Perplexity)
- Mỗi claim được đưa kèm mốc ngày chuẩn “as of YYYY-MM-DD” tương ứng với ngày gửi
- Mô hình bị buộc phải chọn một trong
True, Mostly True, Misleading, False
Classify this claim as of <date>: "<atomic claim>"
Output exactly one label: True, Mostly True, Misleading, or False.
No explanations, no qualifiers.
- Không cung cấp lựa chọn abstain, để giữ phép so sánh giữa các mô hình ở trạng thái đối xứng bằng cách buộc chọn
-
Thiết lập gọi và chấm điểm
- Tất cả mô hình đều nhận cùng system placeholder
. và cùng mẫu user prompt usr_v2
- Không dùng schema đầu ra có cấu trúc, schema gọi công cụ, seed, top-p hay điều khiển logit-bias
- Khi được hỗ trợ, dùng
temperature=0.0 để yêu cầu giải mã tất định
- GPT-5.4 và Claude Opus 4.7 được gọi mà không chỉ định temperature vì adapter của nhà cung cấp từ chối thiết lập temperature tùy chỉnh
- GPT-5.4, Claude Opus 4.7 và Sonar Pro bị giới hạn độ dài đầu ra ở 16 token; Gemini 3 Pro và Gemini 3 Pro + Search dùng giới hạn 1024 token
- Gemini 3 Pro + Search bật Google Search grounding, còn Sonar Pro được xem là mô hình tăng cường tìm kiếm thông qua search-backed API của Perplexity
- Sau khi chuẩn hóa, đầu ra chỉ được coi là parse được nếu khớp chính xác một trong bốn nhãn
- Không dùng LLM chấm điểm hay nhãn đáp án tham chiếu; mọi phép đo đều xuất phát từ mức khớp trực tiếp giữa các nhãn đã parse của 5 mô hình
-
Xử lý thống kê
- Corpus là 1.000 claim eligible mới nhất được gửi lên một nền tảng fact-check duy nhất, không phải mẫu xác suất của một quần thể rộng hơn
- Khoảng tin cậy Wilson 95% là khoảng nhị thức danh nghĩa dưới mô hình giả định mỗi claim được rút độc lập từ một luồng gửi eligible tương tự, tuân theo cùng quy tắc sàng lọc
- Các claim trên Lenz thường dồn quanh các sự kiện tin tức, và cùng một người dùng có thể gửi nhiều claim liên quan trong một phiên, nên dữ liệu không độc lập và không đồng phân phối
- Với mô hình cụm trung thực hơn, độ biến thiên mẫu thực tế có thể lớn hơn khoảng Wilson
- Không thực hiện kiểm định ý nghĩa giữa các mô hình; chỉ báo cáo tỷ lệ đồng thuận theo cặp và KTC Wilson 95% như thống kê mô tả
Tái lập và đầu ra công khai
- Toàn bộ dữ liệu theo từng claim được cung cấp dưới dạng CSV
- Mỗi hàng bao gồm ID claim và URL, văn bản atomic claim, 5 phán định frontier, khoảng cách bucket cặp lớn nhất, lĩnh vực và ngày tạo
- Nếu người gửi sau đó xóa claim hoặc chuyển sang chế độ riêng tư, một số trang có thể không còn truy cập được
- PDF là bản render độc lập với trình duyệt để đọc ngoại tuyến, trích dẫn và lưu trữ preprint kiểu arXiv
- Snapshot là v1.0 và ngày chuẩn của dữ liệu là 21 tháng 5 năm 2026
- Bản ghi vĩnh viễn và trích dẫn được cung cấp tại doi.org/10.5281/zenodo.20344847
Hạn chế
- Cận dưới lỗi dựa trên nguyên lý pigeonhole là cận dưới của bất đồng trong rubric, không phải kết luận rằng mô hình nào đó sai về mặt sự thật đối với một claim cụ thể
- Vì chỉ một trong bốn bucket có thể là đáp án đúng, bất kỳ bất đồng nào cũng đồng nghĩa với ít nhất một phán định không nhất quán
- Nhưng không thể biết mô hình nào sai ở claim nào
- Tính thứ tự của khoảng cách bucket là một sự đơn giản hóa
- True / Mostly True / Misleading / False được xem như một thang đo thứ tự cách đều
- Chênh lệch 2 mức có thể xuất phát từ sự mơ hồ của rubric, khác biệt về mốc thời gian hoặc khác biệt trong cách diễn giải “Misleading”, và không nhất thiết có nghĩa là lỗi sự thật lớn hơn
- Tính mơ hồ trong phán định không chỉ là vấn đề của LLM mà còn là đặc tính của chính bài toán
- AVeriTeC là một corpus gồm 4.568 claim đã qua nhiều vòng rà soát, lấy 50 tổ chức fact-check làm chuẩn, và mức đồng thuận giữa các annotator cho phán định chỉ dừng ở κ=0.619
- Một phần bất đồng giữa các mô hình frontier phản ánh đặc tính của chính những nhãn mà ngay cả người đánh giá cũng thấy khó
- Snapshot được cố định theo một ngày cụ thể và một phiên bản mô hình cụ thể
- Frontier LLM là không tất định, nên ngay cả khi chạy lại cùng mô hình và prompt, các con số cũng có thể thay đổi ở một mức độ nào đó
- Nếu chạy lại bằng mô hình mới hoặc prompt khác, các con số có thể biến động nhiều hơn
- Các mô hình có hỗ trợ tìm kiếm có thể đã tra cứu nguồn tại thời điểm suy luận, nhưng nghiên cứu không kiểm soát hay kiểm toán việc chúng đã tìm kiếm gì
Nghiên cứu trước đây và kế hoạch tiếp theo
- Yang & Wang (2026) cho thấy các mô hình frontier hàng đầu, dù đạt cùng độ chính xác tổng thể, vẫn bất đồng ở 16~38% câu hỏi trong MMLU-Pro và GPQA
- AVeriTeC được đưa ra như mốc tham chiếu chú giải thủ công nghiêm ngặt cho kiểm chứng claim thực tế
- Một corpus fact-check lớn hơn là 17.856 claim PolitiFact trong thiết lập ablation Llama-3 một họ duy nhất
- Corpus của Lenz là các nội dung do người dùng thực gửi trong 180 ngày qua, chỉ được lập chỉ mục trên lenz.io và chưa từng được ghép với phán định chuẩn trong bộ huấn luyện công khai
- Nghiên cứu tiếp theo dự kiến sẽ để con người gán nhãn toàn bộ cùng corpus này, rồi dùng các nhãn đó làm đáp án đúng để đánh giá 5 mô hình frontier và cả phán định nội bộ của Lenz
- Mục tiêu không phải là leaderboard mà là phân tích những điểm panel frontier lệch khỏi đồng thuận của con người, những điểm Lenz lệch khỏi cả hai, và những hạng mục nào gây ra bất đồng
Đạo đức và sử dụng dữ liệu
- Các trường được sử dụng chỉ là văn bản atomic claim công khai và ngày tạo
- Không sử dụng thông tin cá nhân
- Loại trừ claim riêng tư và claim của nhân viên
- Các mô hình frontier chỉ được cung cấp văn bản claim và ngày chuẩn, không được cung cấp danh tính người gửi hay tín hiệu phân tích
- Nếu người gửi về sau chuyển claim sang riêng tư hoặc xóa đi, claim đó có thể bị loại khỏi snapshot và các bản tải xuống trong tương lai
Ví dụ về các trường hợp panel frontier bất đồng mạnh
- Phụ lục trình bày 20 claim có khoảng cách lớn nhất giữa bucket cao nhất và bucket thấp nhất
- Đây là các claim có bất đồng thực chất, trong đó phán định của ít nhất một mô hình cách các mô hình khác từ 2 mức trở lên
- Được sắp xếp theo khoảng cách bucket cặp lớn nhất giảm dần, sau đó tie-break bằng cách ưu tiên các trường hợp không có đa số, rồi sắp theo stable hash của ID claim
- Các trường hợp tiêu biểu khoảng cách 3 · không có đa số
- Claim rằng Muthiah Muralidaran nói Indian Premier League là một hoạt động kinh doanh thuần túy và các trận đấu ít điểm gây nhàm chán cho nhà tài trợ nên mặt sân phẳng được chuẩn bị: GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
- Claim rằng tính đến năm 2025, active portfolio của World Bank tại Nigeria vượt quá 16,4 tỷ USD: GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
- Claim rằng những người thích âm nhạc có ít nội dung cảm xúc tích cực hơn có xu hướng sở hữu trí thông minh cao hơn: GPT-5.4 Misleading, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search True, Sonar Pro Misleading
- Claim rằng các ký túc xá ở Kota, Rajasthan thường dùng quạt trần dạng lồng như một biện pháp ngăn ngừa tự tử ở sinh viên: GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro False
- Claim rằng tính đến ngày 6 tháng 5 năm 2026, người Hồi giáo từ nhiều quốc gia đã tập trung tại quận Hooghly, West Bengal, India: GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro True
1 bình luận
Ý kiến trên Hacker News
Classify this claim as of : ""/Output exactly one label: True, Mostly True, Misleading, or False. No explanations, no qualifiers.Danh sách các nhận định có tại https://lenz.io/research/llm-disagreement/data.csv, và đã được đưa vào Datasette Lite để dễ khám phá hơn. Ví dụ về các trường hợp bất đồng: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
Nhận định “Tất cả hạnh nhân đều được trồng ở bang California, Mỹ” là sai, nhưng chỉ riêng Opus 4.7 trả lời là “misleading”. Việc đã đưa sẵn cả “mostly true” và “misleading”, lại còn có quy tắc “cấm giải thích”, khiến luận điểm này kém sức nặng
Một ví dụ tốt hơn là nhận định “Đơn xin visa Ai Cập không đầy đủ là một trong những lý do phổ biến nhất khiến đơn xin visa Ai Cập bị từ chối”, nơi các mô hình chia thành “true” và “mostly true”, nhưng về mặt diễn đạt thì cụm “among the most” khiến hai cách đó gần như cùng nghĩa
Ví dụ mang tính quyết định hơn là nhận định “Ngày 18 tháng 5 năm 2026, Ukraine đã thực hiện một cuộc tấn công bằng drone vào Moscow, Nga”; nếu không có công cụ tìm kiếm thì câu trả lời đúng chỉ có thể là “không thể kiểm chứng”, nhưng lại không có lựa chọn đó, nên câu trả lời bị chia giữa true/false: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
Một số nhận định có thể vừa “misleading” vừa true hoặc false cùng lúc. Cũng không rõ những trường hợp “phần lớn là sai” thì nên xếp vào nhóm nào
Cũng không có tiêu chí rõ ràng về sai đến mức nào thì chuyển từ “mostly true” sang “false”. Thành ra đây không chỉ là kiểm tra hiểu biết sự thật, mà còn đang kiểm tra cả cách mô hình định nghĩa mostly và misleading, nên nói rằng các mô hình có bất đồng mang tính nền tảng về chính sự thật là cường điệu
Khi thực sự nối đánh giá nghiêm ngặt với thực tế, các lời gọi công cụ như tìm kiếm web sẽ kéo theo nguyên xi các vấn đề hạ tầng, lỗi tạm thời và đủ loại tính không xác định
Lẽ ra phải tách riêng số liệu giữa 3 mô hình không có tìm kiếm và các agent có tìm kiếm. Với các nhận định thực tế mới sau mốc kiến thức, mô hình không tìm kiếm về cơ bản rất ít ý nghĩa, và vì không có lựa chọn “không biết” nên kết quả gần như hoàn toàn mất giá trị. Không biết mà cũng không được phép nói, nên chúng chỉ đành chọn một đáp án nghe có vẻ hợp lý
Tôi cũng đồng ý rằng việc ép chọn và các biến thể “yếu/mạnh” đã thổi phồng các con số trên tiêu đề. Muốn phân biệt kiểu này thì cần một prompt nghiêm ngặt hơn nhiều, và rất có thể cũng phải có ví dụ trong ngữ cảnh (ICL) để không giao luôn cho mô hình việc tự quyết định mostly nghĩa là gì
Không rõ có phải tôi đang bỏ sót điều gì không
[1]: https://en.wikipedia.org/wiki/Almond#Production
claude-opus-4-7là 451/1000, tức 45.1%;sonar-prolà 39.1%,gpt-5.4là 27.7%,gemini-3-retrievallà 12.9%, vàgemini-3-prolà 6.0%Truy vấn Datasette ở đây: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
Nếu là một công cụ hoàn hảo với “trí tuệ cấp thiên tài” thì nó phải trả lời đúng
Với khẳng định “sự sống ngoài Trái Đất tồn tại ở đâu đó trong vũ trụ”, GPT-5.4 và Opus 4.7 trả lời là Misleading, còn Gemini 3, Gemini 3 (Retrieval) và Sonar Pro trả lời là FALSE
Đây là một khẳng định sự thật kỳ quặc. Đáp án thực sự là không ai biết chắc, nhưng lại không có lựa chọn đó
Không phải là ảo giác không phải vấn đề, nhưng đây là một cách cực tệ để kiểm tra nó
Tuy vậy lẽ ra phải có hạng mục unknown hoặc undecidable
Điểm nói rằng “đây không phải là các hạng mục benchmark có bảng đáp án công khai, mà là các tuyên bố mà người dùng thực tế đã yêu cầu xác minh trên nền tảng fact-checking” là khá hay
Nhưng nếu các tác giả không nói rõ chính xác họ đã dùng LLM đến mức nào để viết và tạo ra chính báo cáo này, thì tôi không biết điều đó có ý nghĩa đến đâu. Có cả mục “11. Ethics & data use” và bàn đến những chủ đề kiểu tính không sai sót của LLM, thế mà lại không hề nhắc một lần nào đến việc có dùng LLM để tạo báo cáo hay không
Có lẽ mọi người đều có thể đồng ý rằng việc thí nghiệm này có khiếm khuyết trên nhiều phương diện là TRUE
Dù vậy, đây vẫn là một bài tập rất tốt để tìm ra những lỗi phổ biến mà mọi người mắc phải khi dùng LLM. Có vẻ sẽ là một câu hỏi phỏng vấn hay cho vị trí prompt engineering
Các mô hình đang ngày càng giống con người hơn mỗi ngày
Vì định luật Goodhart, “benchmark” này sẽ trở nên vô nghĩa chỉ trong vài ngày, cùng lắm là vài tuần
Nó sẽ lại bị hấp thụ vào quá trình huấn luyện và trông như thể đã được “giải quyết”, nhưng không phải vì có suy luận xuất hiện, mà chỉ vì các câu trả lời đúng có vẻ hợp lý về mặt thống kê hơn cho “vấn đề” mới được chiếu đèn vào. Rồi sau đó người ta sẽ ồn ào rằng đây là một “bước tiến” khổng lồ sẽ “thay đổi mọi thứ”
Xin nói thêm rằng tôi có thể có hoặc không có bằng về chiến lược doanh nghiệp và PR
Người trong các phòng lab nhìn chung biết mình đang làm gì, chứ không phải không biết đến vấn đề này
Tôi không hiểu vì sao lại loại Grok. Vì sự khác biệt về mặt triết học trong cách Grok được huấn luyện đã được công khai, nó hẳn sẽ là một điểm dữ liệu thú vị
Có thể tranh luận cả ngày về sự khác biệt đó, nhưng thật tiếc khi đã bỏ lỡ cơ hội quan sát nó một cách khách quan
Grok được huấn luyện để có những thiên kiến mà nhiều người thích, chứ không phải là một mô hình được chủ đích làm cho chính xác
Tôi không rõ điều này cho thấy điều gì mà chúng ta chưa biết từ trước. LLM không thể đưa ra câu trả lời chính xác cho các câu hỏi về dữ liệu không có trong tập huấn luyện
Có vẻ không có nhiều nội dung
Với câu hỏi kiểu “nước súc miệng có hiệu quả không”, có vẻ phải có đâu đó một nguồn dữ liệu vững chắc như tạp chí y khoa
Cái đó còn tệ hơn
Tôi không hiểu vì sao mọi người lại ám ảnh đến vậy với việc bắt LLM làm fact-checking
Công nghệ này không dành cho mục đích đó. Trong một số tình huống cụ thể nó có thể hoạt động tàm tạm, nhưng như thế không có nghĩa là nó là công cụ phù hợp
Giống như mua tủ lạnh để cất quần áo
Con người cuối cùng muốn một cỗ máy nói với mình “sai sự thật” hoặc “đúng sự thật”. Vì họ muốn làm cho vực thẳm rằng không có chân lý tối hậu trở nên đủ nhỏ để có thể ngủ bên cạnh nó
Tôi đã làm cái này cho fact-checking CPU cục bộ 100%: https://news.ycombinator.com/item?id=48301003