1 điểm bởi GN⁺ 19 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • 5 LLM frontier đã đưa ra phán định khác nhau ở 67% trong số 1.000 claim do người dùng thực tế gửi lên, và chỉ có 33% trường hợp cả 5 cùng nhất trí
  • Phán định theo đa số không phải là nhãn đáp án đúng mà là tiêu chuẩn để đo mức độ bất đồng; trong 67% trường hợp không đồng thuận tuyệt đối, chắc chắn sẽ có ít nhất 1 mô hình sai
  • Trong rubric 4 mức, bất đồng thực chất với chênh lệch từ 2 bậc trở lên chiếm 34%, và sự phân cực cực đoan giữa True và False cũng xuất hiện ở mức 21%
  • Tỷ lệ trùng khớp nhãn theo từng cặp mô hình là 53~75%, trong đó Gemini 3 Pro và phiên bản Search cùng chung mô hình nền có tỷ lệ khớp cao nhất
  • Dữ liệu được lấy từ các claim thực tế gần đây của Lenz và được đo lường không dùng nhãn đáp án đúng hay LLM chấm điểm, qua đó cho thấy sự bất ổn trong cấu trúc phán định hơn là độ chính xác

Trong các claim thực tế, phán định bị chia rẽ thường xuyên đến mức nào

  • Trong 1.000 claim được phân tích, có 672 claim, tương đương 67% (95% CI 64–70%) mà phán định của 5 mô hình frontier không trùng nhau
    • Có 328 claim, tức 33% (95% CI 30–36%), mà cả 5 mô hình đều đưa ra cùng một phán định
    • Có 224 claim, tức 22% (95% CI 20–25%), mà chỉ 1 mô hình đưa ra phán định khác
    • Có 316 claim, tức 32% (95% CI 29–35%), mà 2 mô hình đưa ra phán định khác
    • Có 132 claim, tức 13% (95% CI 11–15%), rơi vào tình trạng chia rẽ không hình thành được đa số nghiêm ngặt như 2-2-1 hoặc 2-1-1-1
    • Có 448 claim, tức 45% (95% CI 42–48%), mà ít nhất 2 mô hình đưa ra phán định khác nhau
  • Phán định theo đa số không phải là chỉ dấu thay thế cho độ chính xác mà là một tiêu chuẩn mang tính cấu trúc để đếm mức độ bất đồng
    • Phán định theo đa số có thể sai, và mô hình đưa ra phán định thiểu số vẫn có thể đúng
    • Nếu giả định chỉ có 1 trong 4 bucket phán định là đáp án đúng, thì ở 67% claim không đồng thuận tuyệt đối sẽ có ít nhất 1 mô hình sai
    • Ở 45% trường hợp gồm các kiểu chia rẽ 3-2, 3-1-1 và không có đa số, sẽ có ít nhất 2 mô hình sai
    • Ở 13% trường hợp không có đa số, không bucket nào đạt 3 phiếu nên sẽ có ít nhất 3 mô hình sai
    • Ngay cả trong 33% trường hợp cả 5 mô hình đều đồng ý, vẫn có thể tồn tại những điểm mù chung
  • Mức độ đồng thuận của hội đồng là Krippendorff’s α (ordinal)=0.639
    • Phán định của các mô hình không đến mức gần như ngẫu nhiên, nhưng cũng chưa nhất quán đến mức có thể xem 5 mô hình là các giám khảo có thể hoán đổi cho nhau
    • Vì True / Mostly True / Misleading / False là các hạng mục có thứ tự nên đã sử dụng α thứ bậc

Khác biệt sắc thái và bất đồng thực chất

  • Trong 1.000 claim, có 343 claim, tương đương 34% (95% CI 31–37%) mà phán định của ít nhất 2 mô hình cách nhau từ 2 bậc trở lên trong rubric 4 mức
    • Khác biệt giữa True và Mostly True được xem là khác biệt sắc thái, gần với việc điều chỉnh mức độ tin cậy
    • Khác biệt giữa True và False được xem là bất đồng thực chất, tức bản thân câu trả lời đã bị chia rẽ
  • Phép đo được tính bằng khoảng cách bucket tối đa theo từng cặp trong 5 phán định
    • Thứ tự phán định là True (0) → Mostly True (1) → Misleading (2) → False (3)
    • Khoảng cách 0 có 328 claim, tương đương 33% (95% CI 30–36%), tức cả 5 mô hình đều chọn cùng một bucket
    • Khoảng cách 1 có 329 claim, tương đương 33% (95% CI 30–36%), tương ứng với khác biệt sắc thái như True ↔ Mostly True
    • Khoảng cách 2 có 132 claim, tương đương 13% (95% CI 11–15%), là bất đồng thực chất như True ↔ Misleading hoặc Mostly True ↔ False
    • Khoảng cách 3 có 211 claim, tương đương 21% (95% CI 19–24%), là sự phân cực cực đoan giữa True ↔ False
  • Khoảng cách bucket không phải là thước đo chính xác về mức độ nghiêm trọng của sai số mà chỉ là chỉ báo thô
    • Nó bao gồm sự đơn giản hóa khi xem True / Mostly True / Misleading / False như một thang thứ tự có khoảng cách đều nhau
    • Chênh lệch 2 bậc cũng có thể phát sinh từ sự mơ hồ của rubric, khác biệt về mốc thời gian, hoặc khác biệt trong cách diễn giải “Misleading”

Tỷ lệ nhất trí giữa các mô hình

  • Tỷ lệ trùng khớp nhãn giữa các cặp trong 5 mô hình nằm trong khoảng 53%~75%
    • Tỷ lệ cao nhất là Gemini 3 Pro × Gemini 3 Pro + Search với 75% (95% CI 72–77%), và hai mô hình này dùng chung cùng một mô hình nền
    • Tỷ lệ thấp nhất là 53% (95% CI 50–56%), xuất hiện ở 3 cặp
  • Các tỷ lệ trùng khớp chính theo từng cặp
    • GPT-5.4 × Claude Opus 4.7: 65% (95% CI 62–68%)
    • GPT-5.4 × Gemini 3 Pro: 65% (95% CI 62–68%)
    • GPT-5.4 × Gemini 3 Pro + Search: 60% (95% CI 57–63%)
    • GPT-5.4 × Sonar Pro: 60% (95% CI 57–63%)
    • Claude Opus 4.7 × Gemini 3 Pro: 53% (95% CI 50–56%)
    • Claude Opus 4.7 × Gemini 3 Pro + Search: 53% (95% CI 50–56%)
    • Claude Opus 4.7 × Sonar Pro: 58% (95% CI 55–61%)
    • Gemini 3 Pro × Sonar Pro: 53% (95% CI 50–56%)
    • Gemini 3 Pro + Search × Sonar Pro: 58% (95% CI 55–61%)

Xu hướng phán định theo từng mô hình

  • Phân bố phán định

    • Mỗi mô hình khác nhau về mức độ nghiêng về hai cực True/False và mức độ sử dụng các bucket trung gian Mostly True/Misleading
    • Vì không có nhãn đáp án đúng nên không thể tách riêng ảnh hưởng từ xu hướng sẵn có của mô hình và đặc tính của claim
    • GPT-5.4: True 42% (95% CI 39–45%), Mostly True 16% (14–19%), Misleading 12% (10–14%), False 30% (28–33%)
    • Claude Opus 4.7: True 38% (35–41%), Mostly True 26% (23–29%), Misleading 19% (17–22%), False 17% (15–20%)
    • Gemini 3 Pro: True 54% (51–57%), Mostly True 3% (2–4%), Misleading 3% (2–4%), False 40% (37–43%)
    • Gemini 3 Pro + Search: True 52% (49–55%), Mostly True 4% (3–5%), Misleading 9% (7–11%), False 35% (32–38%)
    • Sonar Pro: True 35% (32–38%), Mostly True 23% (21–26%), Misleading 16% (14–18%), False 26% (23–28%)
  • Mức độ trùng khớp với đa số của phần còn lại trong hội đồng

    • Tỷ lệ mỗi mô hình đưa ra cùng phán định với đa số nghiêm ngặt do ít nhất 3 trong 4 mô hình còn lại tạo thành nằm trong khoảng 69%~81%
    • Giá trị này phản ánh mức độ đồng bộ với các mô hình đồng cấp trên tập dữ liệu này, chứ không phải độ chính xác
    • Phép tính chỉ bao gồm các claim mà 4 mô hình còn lại hình thành đa số từ 3/4 trở lên, nên eligible n khác nhau theo từng mô hình
    • GPT-5.4: 81% (95% CI 78–84%), eligible n=650, ineligible=350
    • Claude Opus 4.7: 70% (95% CI 67–74%), eligible n=691, ineligible=309
    • Gemini 3 Pro: 77% (95% CI 74–80%), eligible n=683, ineligible=317
    • Gemini 3 Pro + Search: 76% (95% CI 73–79%), eligible n=693, ineligible=307
    • Sonar Pro: 69% (95% CI 66–73%), eligible n=675, ineligible=325

Mức độ bất đồng theo lĩnh vực

  • Mẫu số theo từng lĩnh vực là số lượng claim của lĩnh vực đó, và ở đa số lĩnh vực, tỷ lệ bất đồng vượt xa một nửa
    • Finance: 75 claim, bất đồng tùy ý 67% (KTC 95% 55–76%), bất đồng thực chất 39% (28–50%), không có đa số 20% (13–30%)
    • General: 179 claim, bất đồng tùy ý 68% (60–74%), bất đồng thực chất 40% (33–48%), không có đa số 12% (8–17%)
    • Health: 171 claim, bất đồng tùy ý 71% (64–78%), bất đồng thực chất 29% (23–36%), không có đa số 12% (8–17%)
    • History: 131 claim, bất đồng tùy ý 53% (44–61%), bất đồng thực chất 24% (17–32%), không có đa số 13% (8–20%)
    • Legal: 48 claim, bất đồng tùy ý 77% (63–87%), bất đồng thực chất 40% (27–54%), không có đa số 19% (10–32%)
    • Politics: 168 claim, bất đồng tùy ý 70% (62–76%), bất đồng thực chất 38% (31–46%), không có đa số 8% (5–13%)
    • Science: 151 claim, bất đồng tùy ý 68% (60–75%), bất đồng thực chất 36% (29–44%), không có đa số 21% (15–28%)
    • Tech: 77 claim, bất đồng tùy ý 69% (58–78%), bất đồng thực chất 31% (22–42%), không có đa số 8% (4–16%)
  • Phân loại lĩnh vực phản ánh mẫu traffic của Lenz, không phải kết quả lấy mẫu ngẫu nhiên đồng đều từ toàn bộ các claim có thể fact-check

Đồng thuận theo từng bucket phán định

  • Khi hội đồng đi đến bucket trung gian, họ hầu như không hội tụ
    • Với các phán định đa số là Mostly True và Misleading, tỷ lệ nhất trí tuyệt đối chỉ tối đa khoảng 5% mỗi loại
    • Tỷ lệ nhất trí tuyệt đối của các phán định đa số True và False lần lượt là 47% và 43%
  • Tính theo các claim mà có đa số nghiêm ngặt từ 3/5 trở lên đưa ra phán định đó
    • True: eligible n=438, nhất trí tuyệt đối 47% (KTC 95% 42–51%), đa số 3~4 phiếu 53% (49–58%)
    • Mostly True: eligible n=76, nhất trí tuyệt đối 0% (KTC 95% 0–5%), đa số 3~4 phiếu 100% (KTC 95% 95–100%)
    • Misleading: eligible n=74, nhất trí tuyệt đối 5% (KTC 95% 2–13%), đa số 3~4 phiếu 95% (87–98%)
    • False: eligible n=280, nhất trí tuyệt đối 43% (KTC 95% 37–49%), đa số 3~4 phiếu 57% (51–63%)
  • Ngay cả 328 claim mà cả 5 mô hình đều đưa ra cùng một phán định cũng tập trung ở hai cực
    • True: 204 claim, chiếm 62% số trường hợp nhất trí tuyệt đối (KTC 95% 57–67%)
    • Mostly True: 0 claim, 0% (KTC 95% 0–1%)
    • Misleading: 4 claim, 1% (KTC 95% 0–3%)
    • False: 120 claim, 37% (KTC 95% 32–42%)
  • Nghiên cứu ablation Llama-3 đơn hệ trên 17.856 claim PolitiFact, Schwab et al. 2025 cũng cho thấy kết quả liên quan rằng lỗi của các mô hình phán định fact-check tập trung ở các nhãn tinh vi

Bộ dữ liệu và tiêu chí loại trừ

  • Đối tượng phân tích là 1.000 claim
    • Đây là các claim mới nhất trong số những yêu cầu thực tế của người dùng gửi lên nền tảng fact-check Lenz và vượt qua điều kiện loại trừ
    • Tất cả claim đều được tạo sau ngày 15 tháng 2 năm 2026
    • Phán định riêng của Lenz không được dùng trong phân tích; phân tích này không phải so sánh giữa Lenz và các mô hình frontier mà chỉ đo mức bất đồng giữa các mô hình frontier với nhau
  • Trường atomic_claim không phải nguyên văn người dùng nhập vào, mà là mệnh đề trung lập, có thể kiểm chứng, đã được chuẩn hóa qua bước framing của Lenz
    • Ví dụ, đầu vào “Canadian authorities are throwing Christians in jail for quoting the Bible!!!” được chuyển thành mệnh đề “As of April 4, 2026, Canadian authorities have jailed individuals for publicly quoting the Bible because of their Christian beliefs.”
  • Các claim bị loại trừ
    • Claim được người gửi đánh dấu là riêng tư
    • Claim do nhân viên nền tảng, tài khoản nội bộ hoặc agent/API gửi lên
    • Claim có trạng thái biên tập là pending hoặc hidden
    • Claim bị tự động gắn cờ ở bước sàng lọc PII của Lenz vì chứa thông tin cá nhân về người không phải nhân vật công chúng
    • Claim trùng lặp gần với khoảng cách cosine giữa các atomic_claim nằm trong 0.2 trên embedding 1536 chiều OpenAI text-embedding-3-small
    • Claim mà dù đã thử lại một lần, vẫn có ít nhất một trong 5 mô hình không đưa ra được phán định có thể parse
    • Claim cũ hơn 180 ngày tính đến thời điểm thu thập
  • Trong các trường hợp trùng lặp gần, với mệnh đề phụ thuộc thời gian thì chọn claim mới hơn; còn lại thì dùng claim hiện có có nhiều lượt xem nhất trên Lenz làm dòng đại diện

Phương pháp luận

  • Mô hình và prompt

    • Mô hình tham số: GPT-5.4 (OpenAI), Claude Opus 4.7 (Anthropic), Gemini 3 Pro (Google)
    • Mô hình tăng cường tìm kiếm: Gemini 3 Pro + Search (Google), Sonar Pro (Perplexity)
    • Mỗi claim được đưa kèm mốc ngày chuẩn “as of YYYY-MM-DD” tương ứng với ngày gửi
    • Mô hình bị buộc phải chọn một trong True, Mostly True, Misleading, False
Classify this claim as of <date>: "<atomic claim>"

Output exactly one label: True, Mostly True, Misleading, or False.
No explanations, no qualifiers.
  • Không cung cấp lựa chọn abstain, để giữ phép so sánh giữa các mô hình ở trạng thái đối xứng bằng cách buộc chọn
  • Thiết lập gọi và chấm điểm

    • Tất cả mô hình đều nhận cùng system placeholder . và cùng mẫu user prompt usr_v2
    • Không dùng schema đầu ra có cấu trúc, schema gọi công cụ, seed, top-p hay điều khiển logit-bias
    • Khi được hỗ trợ, dùng temperature=0.0 để yêu cầu giải mã tất định
    • GPT-5.4 và Claude Opus 4.7 được gọi mà không chỉ định temperature vì adapter của nhà cung cấp từ chối thiết lập temperature tùy chỉnh
    • GPT-5.4, Claude Opus 4.7 và Sonar Pro bị giới hạn độ dài đầu ra ở 16 token; Gemini 3 Pro và Gemini 3 Pro + Search dùng giới hạn 1024 token
    • Gemini 3 Pro + Search bật Google Search grounding, còn Sonar Pro được xem là mô hình tăng cường tìm kiếm thông qua search-backed API của Perplexity
    • Sau khi chuẩn hóa, đầu ra chỉ được coi là parse được nếu khớp chính xác một trong bốn nhãn
    • Không dùng LLM chấm điểm hay nhãn đáp án tham chiếu; mọi phép đo đều xuất phát từ mức khớp trực tiếp giữa các nhãn đã parse của 5 mô hình
  • Xử lý thống kê

    • Corpus là 1.000 claim eligible mới nhất được gửi lên một nền tảng fact-check duy nhất, không phải mẫu xác suất của một quần thể rộng hơn
    • Khoảng tin cậy Wilson 95% là khoảng nhị thức danh nghĩa dưới mô hình giả định mỗi claim được rút độc lập từ một luồng gửi eligible tương tự, tuân theo cùng quy tắc sàng lọc
    • Các claim trên Lenz thường dồn quanh các sự kiện tin tức, và cùng một người dùng có thể gửi nhiều claim liên quan trong một phiên, nên dữ liệu không độc lập và không đồng phân phối
    • Với mô hình cụm trung thực hơn, độ biến thiên mẫu thực tế có thể lớn hơn khoảng Wilson
    • Không thực hiện kiểm định ý nghĩa giữa các mô hình; chỉ báo cáo tỷ lệ đồng thuận theo cặp và KTC Wilson 95% như thống kê mô tả

Tái lập và đầu ra công khai

  • Toàn bộ dữ liệu theo từng claim được cung cấp dưới dạng CSV
    • Mỗi hàng bao gồm ID claim và URL, văn bản atomic claim, 5 phán định frontier, khoảng cách bucket cặp lớn nhất, lĩnh vực và ngày tạo
    • Nếu người gửi sau đó xóa claim hoặc chuyển sang chế độ riêng tư, một số trang có thể không còn truy cập được
  • PDF là bản render độc lập với trình duyệt để đọc ngoại tuyến, trích dẫn và lưu trữ preprint kiểu arXiv
  • Snapshot là v1.0 và ngày chuẩn của dữ liệu là 21 tháng 5 năm 2026
  • Bản ghi vĩnh viễn và trích dẫn được cung cấp tại doi.org/10.5281/zenodo.20344847

Hạn chế

  • Cận dưới lỗi dựa trên nguyên lý pigeonhole là cận dưới của bất đồng trong rubric, không phải kết luận rằng mô hình nào đó sai về mặt sự thật đối với một claim cụ thể
    • Vì chỉ một trong bốn bucket có thể là đáp án đúng, bất kỳ bất đồng nào cũng đồng nghĩa với ít nhất một phán định không nhất quán
    • Nhưng không thể biết mô hình nào sai ở claim nào
  • Tính thứ tự của khoảng cách bucket là một sự đơn giản hóa
    • True / Mostly True / Misleading / False được xem như một thang đo thứ tự cách đều
    • Chênh lệch 2 mức có thể xuất phát từ sự mơ hồ của rubric, khác biệt về mốc thời gian hoặc khác biệt trong cách diễn giải “Misleading”, và không nhất thiết có nghĩa là lỗi sự thật lớn hơn
  • Tính mơ hồ trong phán định không chỉ là vấn đề của LLM mà còn là đặc tính của chính bài toán
    • AVeriTeC là một corpus gồm 4.568 claim đã qua nhiều vòng rà soát, lấy 50 tổ chức fact-check làm chuẩn, và mức đồng thuận giữa các annotator cho phán định chỉ dừng ở κ=0.619
    • Một phần bất đồng giữa các mô hình frontier phản ánh đặc tính của chính những nhãn mà ngay cả người đánh giá cũng thấy khó
  • Snapshot được cố định theo một ngày cụ thể và một phiên bản mô hình cụ thể
    • Frontier LLM là không tất định, nên ngay cả khi chạy lại cùng mô hình và prompt, các con số cũng có thể thay đổi ở một mức độ nào đó
    • Nếu chạy lại bằng mô hình mới hoặc prompt khác, các con số có thể biến động nhiều hơn
  • Các mô hình có hỗ trợ tìm kiếm có thể đã tra cứu nguồn tại thời điểm suy luận, nhưng nghiên cứu không kiểm soát hay kiểm toán việc chúng đã tìm kiếm gì

Nghiên cứu trước đây và kế hoạch tiếp theo

  • Yang & Wang (2026) cho thấy các mô hình frontier hàng đầu, dù đạt cùng độ chính xác tổng thể, vẫn bất đồng ở 16~38% câu hỏi trong MMLU-Pro và GPQA
  • AVeriTeC được đưa ra như mốc tham chiếu chú giải thủ công nghiêm ngặt cho kiểm chứng claim thực tế
  • Một corpus fact-check lớn hơn là 17.856 claim PolitiFact trong thiết lập ablation Llama-3 một họ duy nhất
  • Corpus của Lenz là các nội dung do người dùng thực gửi trong 180 ngày qua, chỉ được lập chỉ mục trên lenz.io và chưa từng được ghép với phán định chuẩn trong bộ huấn luyện công khai
  • Nghiên cứu tiếp theo dự kiến sẽ để con người gán nhãn toàn bộ cùng corpus này, rồi dùng các nhãn đó làm đáp án đúng để đánh giá 5 mô hình frontier và cả phán định nội bộ của Lenz
  • Mục tiêu không phải là leaderboard mà là phân tích những điểm panel frontier lệch khỏi đồng thuận của con người, những điểm Lenz lệch khỏi cả hai, và những hạng mục nào gây ra bất đồng

Đạo đức và sử dụng dữ liệu

  • Các trường được sử dụng chỉ là văn bản atomic claim công khai và ngày tạo
    • Không sử dụng thông tin cá nhân
    • Loại trừ claim riêng tư và claim của nhân viên
    • Các mô hình frontier chỉ được cung cấp văn bản claim và ngày chuẩn, không được cung cấp danh tính người gửi hay tín hiệu phân tích
  • Nếu người gửi về sau chuyển claim sang riêng tư hoặc xóa đi, claim đó có thể bị loại khỏi snapshot và các bản tải xuống trong tương lai

Ví dụ về các trường hợp panel frontier bất đồng mạnh

1 bình luận

 
Ý kiến trên Hacker News
  • Prompt được dùng là: Classify this claim as of : "" / Output exactly one label: True, Mostly True, Misleading, or False. No explanations, no qualifiers.
    Danh sách các nhận định có tại https://lenz.io/research/llm-disagreement/data.csv, và đã được đưa vào Datasette Lite để dễ khám phá hơn. Ví dụ về các trường hợp bất đồng: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
    Nhận định “Tất cả hạnh nhân đều được trồng ở bang California, Mỹ” là sai, nhưng chỉ riêng Opus 4.7 trả lời là “misleading”. Việc đã đưa sẵn cả “mostly true” và “misleading”, lại còn có quy tắc “cấm giải thích”, khiến luận điểm này kém sức nặng
    Một ví dụ tốt hơn là nhận định “Đơn xin visa Ai Cập không đầy đủ là một trong những lý do phổ biến nhất khiến đơn xin visa Ai Cập bị từ chối”, nơi các mô hình chia thành “true” và “mostly true”, nhưng về mặt diễn đạt thì cụm “among the most” khiến hai cách đó gần như cùng nghĩa
    Ví dụ mang tính quyết định hơn là nhận định “Ngày 18 tháng 5 năm 2026, Ukraine đã thực hiện một cuộc tấn công bằng drone vào Moscow, Nga”; nếu không có công cụ tìm kiếm thì câu trả lời đúng chỉ có thể là “không thể kiểm chứng”, nhưng lại không có lựa chọn đó, nên câu trả lời bị chia giữa true/false: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
    • Nếu không cung cấp cho từng bên đánh giá định nghĩa của True / Mostly True / Misleading / False, thì tôi sẽ xem chính nhận định của bài viết rằng “mỗi nhận định chỉ có một nhóm đáp án đúng duy nhất” là false
      Một số nhận định có thể vừa “misleading” vừa true hoặc false cùng lúc. Cũng không rõ những trường hợp “phần lớn là sai” thì nên xếp vào nhóm nào
      Cũng không có tiêu chí rõ ràng về sai đến mức nào thì chuyển từ “mostly true” sang “false”. Thành ra đây không chỉ là kiểm tra hiểu biết sự thật, mà còn đang kiểm tra cả cách mô hình định nghĩa mostlymisleading, nên nói rằng các mô hình có bất đồng mang tính nền tảng về chính sự thật là cường điệu
    • Một lỗi nghiêm trọng khác là không hề cố đo phương sai nội tại của mô hình
      Khi thực sự nối đánh giá nghiêm ngặt với thực tế, các lời gọi công cụ như tìm kiếm web sẽ kéo theo nguyên xi các vấn đề hạ tầng, lỗi tạm thời và đủ loại tính không xác định
      Lẽ ra phải tách riêng số liệu giữa 3 mô hình không có tìm kiếm và các agent có tìm kiếm. Với các nhận định thực tế mới sau mốc kiến thức, mô hình không tìm kiếm về cơ bản rất ít ý nghĩa, và vì không có lựa chọn “không biết” nên kết quả gần như hoàn toàn mất giá trị. Không biết mà cũng không được phép nói, nên chúng chỉ đành chọn một đáp án nghe có vẻ hợp lý
      Tôi cũng đồng ý rằng việc ép chọn và các biến thể “yếu/mạnh” đã thổi phồng các con số trên tiêu đề. Muốn phân biệt kiểu này thì cần một prompt nghiêm ngặt hơn nhiều, và rất có thể cũng phải có ví dụ trong ngữ cảnh (ICL) để không giao luôn cho mô hình việc tự quyết định mostly nghĩa là gì
    • Nếu “đa số” theo Wikipedia có nghĩa là khoảng 51%[1], thì tôi không hiểu vì sao 51% lại có thể được xem là gần với “toàn bộ” đến mức “misleading” trở thành một đáp án hợp lệ
      Không rõ có phải tôi đang bỏ sót điều gì không
      [1]: https://en.wikipedia.org/wiki/Almond#Production
    • Tôi từng có cảm giác Opus 4.7 đưa ra câu trả lời dè dặt nhiều hơn các mô hình khác, và hóa ra đúng là vậy
      claude-opus-4-7 là 451/1000, tức 45.1%; sonar-pro là 39.1%, gpt-5.4 là 27.7%, gemini-3-retrieval là 12.9%, và gemini-3-pro là 6.0%

Truy vấn Datasette ở đây: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...

  • Nếu định dùng LLM như một thần dụ, thì tôi không cho rằng prompt này là vô lý. LLM đang được bán như thể là thiên tài, và mọi người cũng đối xử với nó như vậy, nhất là vì AI trong khoa học viễn tưởng thường bị khắc họa như những thực thể chính xác quá mức
    Nếu là một công cụ hoàn hảo với “trí tuệ cấp thiên tài” thì nó phải trả lời đúng
  • Với khẳng định “sự sống ngoài Trái Đất tồn tại ở đâu đó trong vũ trụ”, GPT-5.4 và Opus 4.7 trả lời là Misleading, còn Gemini 3, Gemini 3 (Retrieval) và Sonar Pro trả lời là FALSE
    Đây là một khẳng định sự thật kỳ quặc. Đáp án thực sự là không ai biết chắc, nhưng lại không có lựa chọn đó

    • Còn lạ hơn nữa khi nói rằng sự bất nhất này cho thấy có vấn đề. Nếu bảo 5 con người có nhiều hiểu biết về chủ đề này chọn đáp án đúng trong một câu hỏi trắc nghiệm, rất có thể họ sẽ bất đồng còn nhiều hơn 5 LLM này
      Không phải là ảo giác không phải vấn đề, nhưng đây là một cách cực tệ để kiểm tra nó
    • Trong các lựa chọn được đưa ra thì có lẽ “Misleading” là tốt nhất. Vì nó trình bày một điều chưa được chứng minh nhưng rất có vẻ hợp lý như thể đó là sự thật
      Tuy vậy lẽ ra phải có hạng mục unknown hoặc undecidable
    • Kiểu mẫu này cứ lặp lại, và với tư cách là một benchmark thì nó có vẻ rất yếu. Hoàn toàn không phải những khẳng định mà tôi từng mong đợi
    • Vậy thì ở đây misleading chẳng phải là lựa chọn đúng sao?
    • Tôi không hiểu “misleading” có thể thay thế cho “unknown” như thế nào
  • Điểm nói rằng “đây không phải là các hạng mục benchmark có bảng đáp án công khai, mà là các tuyên bố mà người dùng thực tế đã yêu cầu xác minh trên nền tảng fact-checking” là khá hay
    Nhưng nếu các tác giả không nói rõ chính xác họ đã dùng LLM đến mức nào để viết và tạo ra chính báo cáo này, thì tôi không biết điều đó có ý nghĩa đến đâu. Có cả mục “11. Ethics & data use” và bàn đến những chủ đề kiểu tính không sai sót của LLM, thế mà lại không hề nhắc một lần nào đến việc có dùng LLM để tạo báo cáo hay không

    • Việc thu thập và xử lý dữ liệu được làm thủ công, còn LLM được dùng để hỗ trợ soạn bản nháp báo cáo. Trước khi xuất bản, tất cả đều đã được con người rà soát
  • Có lẽ mọi người đều có thể đồng ý rằng việc thí nghiệm này có khiếm khuyết trên nhiều phương diện là TRUE
    Dù vậy, đây vẫn là một bài tập rất tốt để tìm ra những lỗi phổ biến mà mọi người mắc phải khi dùng LLM. Có vẻ sẽ là một câu hỏi phỏng vấn hay cho vị trí prompt engineering

  • Các mô hình đang ngày càng giống con người hơn mỗi ngày

    • Dạo này nhiều con người cũng không thể thống nhất điều gì là sự thật. Có vẻ ngày càng tệ hơn, và tôi không rõ giải pháp là gì
  • Vì định luật Goodhart, “benchmark” này sẽ trở nên vô nghĩa chỉ trong vài ngày, cùng lắm là vài tuần
    Nó sẽ lại bị hấp thụ vào quá trình huấn luyện và trông như thể đã được “giải quyết”, nhưng không phải vì có suy luận xuất hiện, mà chỉ vì các câu trả lời đúng có vẻ hợp lý về mặt thống kê hơn cho “vấn đề” mới được chiếu đèn vào. Rồi sau đó người ta sẽ ồn ào rằng đây là một “bước tiến” khổng lồ sẽ “thay đổi mọi thứ”
    Xin nói thêm rằng tôi có thể có hoặc không có bằng về chiến lược doanh nghiệp và PR

    • Có hiệu ứng đó, nhưng không phải đòn chí mạng. Cũng có nhiều benchmark không công khai dựa trên lưu lượng sản phẩm thực tế, và cũng có các bài toán công khai chưa bị nhiễm bẩn
      Người trong các phòng lab nhìn chung biết mình đang làm gì, chứ không phải không biết đến vấn đề này
    • Chẳng phải trí tuệ con người cũng vậy sao? Ngay cả trong số những người thông minh mà tôi biết cũng có nhiều người giữ những niềm tin dường như không có giá trị chân lý rõ ràng
  • Tôi không hiểu vì sao lại loại Grok. Vì sự khác biệt về mặt triết học trong cách Grok được huấn luyện đã được công khai, nó hẳn sẽ là một điểm dữ liệu thú vị
    Có thể tranh luận cả ngày về sự khác biệt đó, nhưng thật tiếc khi đã bỏ lỡ cơ hội quan sát nó một cách khách quan

    • Tiêu đề có chữ “Frontier”, nên Grok sẽ bị loại
      Grok được huấn luyện để có những thiên kiến mà nhiều người thích, chứ không phải là một mô hình được chủ đích làm cho chính xác
    • Đồng ý. Chắc sẽ vui nếu xem Grok làm tệ hơn đến mức nào
  • Tôi không rõ điều này cho thấy điều gì mà chúng ta chưa biết từ trước. LLM không thể đưa ra câu trả lời chính xác cho các câu hỏi về dữ liệu không có trong tập huấn luyện
    Có vẻ không có nhiều nội dung

    • LLM có thể trả lời không chính xác ngay cả với các câu hỏi về dữ liệu có trong tập huấn luyện, và đó là bản chất của mạng nơ-ron. Chỉ là khả năng đó cao hơn khi dữ liệu không có trong tập huấn luyện mà thôi
    • Đáng tiếc là phần lớn mọi người không biết điều này và đối xử với LLM như một bộ não siêu năng lực biết mọi thứ và làm được mọi thứ
    • Vậy thì điều này cho thấy các mô hình đó dùng những tập huấn luyện rất khác nhau, và chúng vẫn thể hiện độ tự tin cao ngay cả khi lẽ ra không nên chắc chắn
      Với câu hỏi kiểu “nước súc miệng có hiệu quả không”, có vẻ phải có đâu đó một nguồn dữ liệu vững chắc như tạp chí y khoa
    • Tôi sẵn sàng tìm kiếm thay bạn rồi trả lời bằng bình luận đứng đầu Reddit
      Cái đó còn tệ hơn
  • Tôi không hiểu vì sao mọi người lại ám ảnh đến vậy với việc bắt LLM làm fact-checking
    Công nghệ này không dành cho mục đích đó. Trong một số tình huống cụ thể nó có thể hoạt động tàm tạm, nhưng như thế không có nghĩa là nó là công cụ phù hợp
    Giống như mua tủ lạnh để cất quần áo

    • Nếu là Nietzsche, có lẽ ông ấy sẽ nói đây không phải là ảo tưởng về chân lý mà là ảo tưởng về sự thoải mái
      Con người cuối cùng muốn một cỗ máy nói với mình “sai sự thật” hoặc “đúng sự thật”. Vì họ muốn làm cho vực thẳm rằng không có chân lý tối hậu trở nên đủ nhỏ để có thể ngủ bên cạnh nó
    • Người ta đặt câu hỏi để nhận câu trả lời. Cá nhân tôi thấy điều đó khá quan trọng. Nhất là khi các công cụ tìm kiếm bắt đầu ép câu trả lời từ LLM vào trước mặt mọi người
    • Nhưng mọi người thực sự đang dùng nó theo cách đó. Vậy thì vấn đề là gì?
  • Tôi đã làm cái này cho fact-checking CPU cục bộ 100%: https://news.ycombinator.com/item?id=48301003

    • Không có bài báo, benchmark, hay chí ít là một README do con người viết, vậy tại sao tôi phải tin cái này?