Bài kiểm tra “tiệm rửa xe” với 53 mô hình AI: “Nếu tiệm rửa xe cách 50m, bạn sẽ đi bộ hay lái xe?”

(opper.ai)

10 điểm bởi GN⁺ 2026-02-25 | 3 bình luận | Chia sẻ qua WhatsApp

Kết quả thử nghiệm trên 53 mô hình AI lớn cho thấy phần lớn thất bại trong suy luận cơ bản
Đáp án đúng là “lái xe”, nhưng trong số 53 mô hình có 42 mô hình chọn “đi bộ”
Chỉ 5 mô hình như Claude Opus 4.6, dòng Gemini 3, Grok-4 cho ra đáp án đúng nhất quán 100% ngay cả trong bài kiểm tra lặp lại 10 lần
GPT-5 chỉ trả lời đúng 7/10 lần, được đánh giá ở mức tương tự tỷ lệ trả lời đúng trung bình của con người (71,5%)
Thí nghiệm cho thấy sự thiếu nhất quán trong khả năng suy luận của AI và giới hạn của phán đoán dựa trên ngữ cảnh, đồng thời nhấn mạnh tầm quan trọng của “context engineering” để khắc phục điều này

Tổng quan về bài kiểm tra tiệm rửa xe

Bài kiểm tra được cấu thành từ câu hỏi: “Nếu tiệm rửa xe cách 50m, bạn sẽ đi bộ hay lái xe?”
- Đáp án đúng là “lái xe”, vì muốn rửa xe thì chiếc xe phải có mặt ở tiệm rửa xe
53 mô hình được đánh giá trong cùng điều kiện thông qua LLM Gateway của Opper
- Không dùng system prompt, thiết lập để buộc chọn một trong hai phương án: walk hoặc drive
- Sau 1 lần kiểm tra cho mỗi mô hình, tiếp tục kiểm tra lặp lại 10 lần để xác minh tính nhất quán

Kết quả chạy đơn lần đầu

Trong số 53 mô hình, chỉ 11 mô hình trả lời đúng (lái xe), còn 42 mô hình trả lời sai (đi bộ)
Các mô hình trả lời đúng: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
Có thể thấy khác biệt hiệu năng theo từng họ mô hình lớn như Anthropic, OpenAI, Google, xAI, Perplexity, Meta, Mistral
- Anthropic: 1/9 (chỉ Opus 4.6 trả lời đúng)
- OpenAI: 1/12 (chỉ GPT-5 trả lời đúng)
- Meta (Llama), Mistral, DeepSeek đều thất bại hoàn toàn
Phần lớn câu trả lời sai đến từ lỗi heuristic thiên về khoảng cách, kiểu “50m là quãng đường ngắn nên đi bộ sẽ hiệu quả hơn”
Một số mô hình trả lời đúng nhưng lại đưa ra lý do thiếu logic
- Ví dụ: Perplexity Sonar cho rằng “đi bộ tiêu tốn nhiều năng lượng sản xuất thực phẩm hơn nên ngược lại còn gây ô nhiễm hơn”

Bài kiểm tra lặp lại 10 lần lần hai

Qua tổng cộng 530 lần gọi, tỷ lệ trả lời đúng một cách nhất quán còn thấp hơn nữa
Các mô hình đạt 10/10 lần đúng (5 mô hình): Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
Các mô hình đạt 8/10 lần đúng (2 mô hình): GLM-5, Grok-4-1 Reasoning
GPT-5 đạt 7/10 lần đúng, 3 lần còn lại trả lời sai theo logic về mức tiêu hao nhiên liệu và môi trường
33 mô hình trả lời sai cả 10 lần, bao gồm GPT-4.1, GPT-5.1, Llama, Mistral...
Một số mô hình đúng ở lần thử đầu nhưng kết quả không ổn định khi lặp lại
- Sonar: đúng 1 lần đầu → sai cả 10 lần sau
- Kimi K2.5: đúng 5 lần, sai 5 lần
- GLM-4.7: sai ở lần đầu → cải thiện thành đúng 6/10 lần

Thí nghiệm so sánh với con người

Thực hiện cùng một câu hỏi với 10.000 người trên nền tảng Rapidata
- 71,5% chọn “lái xe”, được đặt làm tỷ lệ trả lời đúng trung bình của con người
Tỷ lệ đúng 70% của GPT-5 tương đương mức trung bình của con người
Trong 53 mô hình, chỉ 7 mô hình vượt mức trung bình của con người, 46 mô hình còn lại có hiệu năng thấp hơn con người

Một số ví dụ suy luận tiêu biểu

GLM-4.7 Flash: đưa ra logic rõ ràng rằng “nếu đi bộ thì sẽ phải đẩy hoặc khiêng chiếc xe, nên là không thể”
Claude Sonnet 4.5: nhận ra “nếu là rửa xe tự động thì cần lái xe”, nhưng đáp án cuối cùng vẫn chọn “đi bộ”
Gemini 2.5 Pro: khi trả lời đúng thì mô tả chính xác rằng “muốn rửa xe thì xe phải ở tiệm rửa xe”; khi trả lời sai thì dùng logic “50m là quãng đường ngắn”

Vấn đề về độ tin cậy của AI

Dù đây là một bài toán đơn giản chỉ cần một bước suy luận logic, trong 53 mô hình chỉ có 5 mô hình hoàn toàn đúng
Có thể chia các kiểu thất bại thành ba nhóm
- Luôn trả lời sai (33 mô hình): bị mắc kẹt với heuristic thiên về khoảng cách
- Thỉnh thoảng trả lời đúng (15 mô hình): có khả năng suy luận nhưng thiếu nhất quán
- Luôn trả lời đúng (5 mô hình): suy luận theo ngữ cảnh vượt qua heuristic một cách ổn định
Việc 90% mô hình thất bại ngay cả với bài toán đơn giản cho thấy rủi ro trong logic nghiệp vụ thực tế hoặc các bài toán suy luận nhiều bước

Vai trò của context engineering

Bài kiểm tra này được thực hiện trong môi trường “zero context”, nhằm đánh giá năng lực suy luận thuần túy của mô hình
Nguyên nhân thất bại của nhiều mô hình là do heuristic lấn át suy luận theo ngữ cảnh
Context engineering giúp giảm các lỗi này bằng cách cung cấp ví dụ, mẫu miền, và thông tin liên quan
- Trong một thí nghiệm riêng của Opper, khi thêm context cho một mô hình mở nhỏ, họ đã đạt chất lượng ngang mô hình lớn với chi phí giảm 98,6%
Bài toán tiệm rửa xe thì đơn giản, nhưng công việc thực tế đòi hỏi sự mơ hồ và kiến thức miền, nên thiết kế context là điều thiết yếu

Phương pháp thí nghiệm

Tất cả mô hình đều được kiểm tra bằng cùng một prompt thông qua Opper LLM Gateway
- I want to wash my car. The car wash is 50 meters away. Should I walk or drive?
- Không có system prompt, buộc chọn drive hoặc walk
- Thực hiện một lần chạy đơn và lặp lại 10 lần (tổng 530 lần), ghi lại toàn bộ log gọi và lưu văn bản suy luận
Nhóm đối chứng là con người được khảo sát cùng định dạng qua Rapidata với 10.000 người tham gia
Toàn bộ dữ liệu được công khai dưới dạng JSON
- Có thể tải riêng kết quả chạy đơn, kết quả lặp lại 10 lần, và kết quả của con người

3 bình luận

armila 2026-02-26

Gemini Pro thì,
đã trả lời rằng nếu có thể mang xe đi thì cứ đi bộ cũng được, nên tôi đã cười nghiêng ngả.

grenade 2026-02-27

Câu trả lời dí dỏm ghê haha

GN⁺ 2026-02-25

Ý kiến trên Hacker News

Thật thú vị khi kết quả trả lời của con người trùng khớp chính xác với ChatGPT
Trên thực tế, điều đó có vẻ đồng nghĩa với việc “dịch vụ trả lời của con người” về cơ bản đã chết. Cuối cùng thì con người sẽ tìm ra cách đẩy việc cho AI bất kể chất lượng ra sao
- Trông có vẻ là ngẫu nhiên, nhưng thực ra câu trả lời của con người không được thu thập theo cách như vậy
  Rapidata tích hợp khảo sát vi mô vào những nơi như Duolingo hay các app game để người dùng tham gia thay cho quảng cáo. Người dùng là nhóm đã được xác thực, và không có động lực phải trả lời đúng
- Mô hình mặc định của ChatGPT là GPT‑5.2 Instant. Mô hình khớp với kết quả của con người là GPT‑5
  Việc đi đến kết luận với sự tự tin vô căn cứ như bình luận phía trên cũng là một hiện tượng thú vị
- Kiểu chuyện này từ lâu đã thường thấy ở các dịch vụ lao động con người bên thứ ba
Tôi đang duy trì một bộ đánh giá cá nhân gồm các câu hỏi kiểu “misguided attention”
Cốt lõi của những bài này không phải là thất bại về logic mà là sự mơ hồ và thiếu ngữ cảnh. Con người tự điền vào các giả định ngầm, còn mô hình thì không làm được
Phần lớn các ví dụ kiểu “AI cũng sai những câu hỏi đơn giản” đều là những câu được thiết kế để dẫn đến thiên lệch thống kê. Chỉ cần đổi ngữ cảnh một chút là kết quả đảo chiều
Nói cách khác, thất bại của mô hình là do độ nhạy với cách đóng khung vấn đề, chứ không phải do thiếu năng lực suy luận
- Nói vậy thì rốt cuộc vẫn có nghĩa là AI rất tệ. Huấn luyện cho đúng một dạng câu hỏi thì chỗ khác lại hỏng. Chuyện này sẽ cứ lặp lại như thế thôi
- Có người cho rằng cách nói “nhạy với framing và thiên lệch phân phối” thực chất chỉ là một cách nói vòng vo của việc thiếu năng lực suy luận
- Nghe như một bộ câu hỏi thú vị. Nếu có thể thì không biết bạn có thể chia sẻ các câu hỏi đó không
- Sẽ rất hay nếu công khai bộ đánh giá đó, đặc biệt là tôi tò mò câu nào thú vị nhất
Con số 71.5% theo chuẩn con người cho thấy độ mơ hồ của bài toán
Câu hỏi “đi bộ hay lái xe đến tiệm rửa xe” có thể được hiểu là “quãng ngắn như vậy mà cũng phải lái xe sao?”. Nghĩa là đây không chỉ là bài toán logic đơn thuần mà còn là vấn đề diễn giải ngữ dụng
- Không phải bản thân câu hỏi mơ hồ ngay từ đầu, mà bối cảnh đối thoại tự nó đã là thông tin
  Con người giả định câu hỏi xuất phát từ tình huống thực tế, rồi diễn giải theo nguyên tắc hội thoại hợp tác (nguyên tắc Cooperative principle của Grice).
  Vì vậy, trước khi nhận ra “à, đây là câu hỏi gài bẫy”, họ sẽ nghĩ “hẳn là có lý do gì đó để đi bộ”
- Tỷ lệ 70:30 kiểu này cũng thường thấy trong nhiều thống kê xã hội khác. Đơn giản là có thể 30% là những người thiếu năng lực suy luận
- Nhưng câu hỏi có kèm theo “Tôi muốn rửa xe của mình. Tiệm rửa xe cách 50m.” Tức là thông tin đã được nêu khá đầy đủ
- Nếu dịch vụ như Rapidata thuộc kiểu Mechanical Turk, cũng có thể người trả lời đã không đọc kỹ câu hỏi
- Vấn đề là đã bỏ sót câu ở nửa đầu: “Tôi muốn rửa xe của mình”
Nếu báo trước cho Sonnet 4.6 rằng “đây là bài kiểm tra trí thông minh”, nó trả lời đúng 100%
Có vẻ mô hình có xu hướng giả định câu hỏi của con người là tình huống thực tế, nên nêu rõ đây là bài test sẽ làm giảm lỗi
Hiện tượng tương tự cũng có ở các coding agent. Ban đầu câu hỏi có vẻ vô lý, nhưng khi tải file code vào thì lại hiểu ra
- Bản chất của vấn đề này là thất bại trong suy luận/lập kế hoạch. Nó có xu hướng đưa ra câu trả lời mà không rà soát lại kết quả
  Hiện tượng này cũng lặp lại trong giải quyết vấn đề thực tế (ví dụ: thiết kế phần mềm).
  LLM vẫn chủ yếu dựa vào pattern matching, chứ không phân tích ý nghĩa của kết quả
- Tôi đã thử một thí nghiệm thú vị: đặt gợi ý ở phía trước thì đúng 3/3, đặt ở phía sau thì 1.5/3, còn không có gợi ý thì 0/3
- Đây là vấn đề về độ liên quan. Cụm “đang làm bài test” đóng vai trò như tín hiệu “đừng tin vào ngữ cảnh”
  Mô hình thường giả định câu hỏi là tình huống thật, nên nếu học các tín hiệu ngầm như vậy thì độ chính xác có thể tăng, nhưng độ thân thiện có thể giảm
- Chỉ cần thêm “Exam Question: {prompt}” là ChatGPT trả lời đúng. Nhưng Llama3.3 hay gpt‑oss‑120b thì vẫn thất bại
Nếu thêm cụm “kiểm tra các giả định” vào cuối câu hỏi thì phần lớn mô hình sẽ trả lời đúng
Nếu chỉ một câu đơn giản mà xóa được lỗi, có lẽ lý do các nhà cung cấp AI không đưa nó vào system prompt là vì tối ưu chi phí
Thảo luận liên quan đã được tổng hợp trong bình luận trước
- Tôi cũng từng thấy khi hỏi Claude hay Codex sau khi xong việc rằng “chúng ta đã bỏ sót điều gì nhỉ?”, nhiều khi lại có thêm cải thiện
Cuộc hội thoại “Car Wash Test” tôi thấy trên Google Search khá buồn cười
Phần lớn AI trả lời “50m thì đi bộ đi”, nhưng đáp án đúng là “phải lái xe vì cần đưa chiếc xe đến tiệm rửa”
Bài test này cho thấy sự khác biệt giữa pattern matching và suy luận thực sự
- LLM dài dòng một cách không cần thiết, giống như bài luận của học sinh cấp ba cố kéo cho đủ số từ
- Tôi cũng tò mò không biết LLM của Google Search là do thông minh hơn thật, hay chỉ là nhạy hơn với xu hướng mới nhất
- Câu trả lời của Gemini cũng khá buồn cười. Nó gọi đây là “thế tiến thoái lưỡng nan giữa hiệu quả và logic”, rồi giải thích rằng “nếu đi bộ thì cuối cùng vẫn phải quay lại lấy xe, nên lái xe mới đúng”
- Trước đây khi hỏi ngày tháng, LLM sẽ nói ra ngày tại thời điểm nó được huấn luyện, còn giờ thì nó cho biết ngày thực tế. Tức là nó đang tận dụng tìm kiếm web
Mốc chuẩn con người thu được qua Rapidata là 71.5% chọn “lái xe”
Đáp án đúng là đặt câu hỏi làm rõ: “xe đang ở đâu?”
Nhưng kể cả khi nói với ChatGPT rằng “xe của tôi đang cách tiệm rửa xe 50m” thì nó vẫn trả lời sai
- Câu “xe đang ở đâu?” không phải là câu hỏi làm rõ, mà là tiền đề đã nằm sẵn trong các lựa chọn khả dĩ
- Có thể 30% người trả lời của Rapidata là bot
- Rapidata đã được tích hợp vào hơn 3.000 app và có hơn 10 triệu người dùng tham gia. Họ nhận phản hồi thời gian thực từ 160 quốc gia trên toàn thế giới
- Cũng có một phương án sáng tạo là “đừng di chuyển, hãy gọi tiệm rửa xe đến”. Dù sao vẫn hợp lý hơn là bỏ xe lại rồi đi bộ đi rửa xe
- Claude cũng trả lời “đi bộ đi” với câu hỏi “tôi nên đi đến gara cách 200m để thay bugi chứ?”. Tức là đây là vấn đề sụp đổ ngữ cảnh
Câu hỏi này không hề đơn giản. Một người thông minh sẽ tự hỏi vì sao lại có câu hỏi như vậy, có phải đang thiếu ngữ cảnh nào không
Vì thế đáp án có thể không phải là “lái xe” hay “đi bộ”, mà là “hãy làm rõ câu hỏi”
- Chỉ cần bổ sung một ít ngữ cảnh là hiệu năng mô hình cải thiện rõ rệt. Ví dụ có thể nói cụ thể hơn như “tiệm rửa xe là một tòa nhà mà chiếc xe phải đi qua”
  Ví dụ liên quan: ảnh dung dịch rửa xe Rain‑x
- Câu hỏi kiểu này quá hiển nhiên nên con người nghi là bẫy
- LLM thì cố trả lời ngay, còn con người thường đặt câu hỏi làm rõ trước
- Thực ra đây có vẻ là vấn đề về quy ước diễn đạt trong tiếng Anh. Kiểu phản ứng “bạn phải nói rõ muốn đi đâu thì tôi mới giúp được” nghe tự nhiên hơn
- Phần lớn mọi người sẽ kiểu “lái xe á?” rồi coi như một câu đùa và bỏ qua
Sonnet 4.6 có điểm common sense cao hơn nhưng lại thấp hơn Opus
Ở chế độ Opus 4.6 Extended Reasoning, nó trả lời “đi bộ”, trong khi tác giả nói mình đạt 10/10 câu đúng.
Có lẽ tính năng bộ nhớ của app đã tự chèn vào prompt, làm cản trở suy luận. Khi tắt memory và bio thì nó đổi sang “hãy lái xe”
Nghĩa là pre-prompt ẩn có thể bóp méo suy luận của mô hình
- Tôi cũng đã thử Opus 4.6 ngay ngày ra mắt mà nó vẫn thất bại. Ngay cả với người dùng trả phí thì vẫn có chênh lệch chất lượng mô hình
- Theo model card của Opus 4.6, có hiện tượng nỗ lực suy luận quá mức nên hợp lý hóa đáp án sai. Có vẻ việc huấn luyện RL đã bị quá tay
- Đã thử 9 mô hình Claude, bao gồm Sonnet 4.6, và có thể xem kết quả trong gallery liên kết ở đó