- Kết quả thử nghiệm trên 53 mô hình AI lớn cho thấy phần lớn thất bại trong suy luận cơ bản
- Đáp án đúng là “lái xe”, nhưng trong số 53 mô hình có 42 mô hình chọn “đi bộ”
- Chỉ 5 mô hình như Claude Opus 4.6, dòng Gemini 3, Grok-4 cho ra đáp án đúng nhất quán 100% ngay cả trong bài kiểm tra lặp lại 10 lần
- GPT-5 chỉ trả lời đúng 7/10 lần, được đánh giá ở mức tương tự tỷ lệ trả lời đúng trung bình của con người (71,5%)
- Thí nghiệm cho thấy sự thiếu nhất quán trong khả năng suy luận của AI và giới hạn của phán đoán dựa trên ngữ cảnh, đồng thời nhấn mạnh tầm quan trọng của “context engineering” để khắc phục điều này
Tổng quan về bài kiểm tra tiệm rửa xe
- Bài kiểm tra được cấu thành từ câu hỏi: “Nếu tiệm rửa xe cách 50m, bạn sẽ đi bộ hay lái xe?”
- Đáp án đúng là “lái xe”, vì muốn rửa xe thì chiếc xe phải có mặt ở tiệm rửa xe
- 53 mô hình được đánh giá trong cùng điều kiện thông qua LLM Gateway của Opper
- Không dùng system prompt, thiết lập để buộc chọn một trong hai phương án:
walk hoặc drive
- Sau 1 lần kiểm tra cho mỗi mô hình, tiếp tục kiểm tra lặp lại 10 lần để xác minh tính nhất quán
Kết quả chạy đơn lần đầu
- Trong số 53 mô hình, chỉ 11 mô hình trả lời đúng (lái xe), còn 42 mô hình trả lời sai (đi bộ)
- Các mô hình trả lời đúng: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
- Có thể thấy khác biệt hiệu năng theo từng họ mô hình lớn như Anthropic, OpenAI, Google, xAI, Perplexity, Meta, Mistral
- Anthropic: 1/9 (chỉ Opus 4.6 trả lời đúng)
- OpenAI: 1/12 (chỉ GPT-5 trả lời đúng)
- Meta (Llama), Mistral, DeepSeek đều thất bại hoàn toàn
- Phần lớn câu trả lời sai đến từ lỗi heuristic thiên về khoảng cách, kiểu “50m là quãng đường ngắn nên đi bộ sẽ hiệu quả hơn”
- Một số mô hình trả lời đúng nhưng lại đưa ra lý do thiếu logic
- Ví dụ: Perplexity Sonar cho rằng “đi bộ tiêu tốn nhiều năng lượng sản xuất thực phẩm hơn nên ngược lại còn gây ô nhiễm hơn”
Bài kiểm tra lặp lại 10 lần lần hai
- Qua tổng cộng 530 lần gọi, tỷ lệ trả lời đúng một cách nhất quán còn thấp hơn nữa
- Các mô hình đạt 10/10 lần đúng (5 mô hình): Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
- Các mô hình đạt 8/10 lần đúng (2 mô hình): GLM-5, Grok-4-1 Reasoning
- GPT-5 đạt 7/10 lần đúng, 3 lần còn lại trả lời sai theo logic về mức tiêu hao nhiên liệu và môi trường
- 33 mô hình trả lời sai cả 10 lần, bao gồm GPT-4.1, GPT-5.1, Llama, Mistral...
- Một số mô hình đúng ở lần thử đầu nhưng kết quả không ổn định khi lặp lại
- Sonar: đúng 1 lần đầu → sai cả 10 lần sau
- Kimi K2.5: đúng 5 lần, sai 5 lần
- GLM-4.7: sai ở lần đầu → cải thiện thành đúng 6/10 lần
Thí nghiệm so sánh với con người
- Thực hiện cùng một câu hỏi với 10.000 người trên nền tảng Rapidata
- 71,5% chọn “lái xe”, được đặt làm tỷ lệ trả lời đúng trung bình của con người
- Tỷ lệ đúng 70% của GPT-5 tương đương mức trung bình của con người
- Trong 53 mô hình, chỉ 7 mô hình vượt mức trung bình của con người, 46 mô hình còn lại có hiệu năng thấp hơn con người
Một số ví dụ suy luận tiêu biểu
- GLM-4.7 Flash: đưa ra logic rõ ràng rằng “nếu đi bộ thì sẽ phải đẩy hoặc khiêng chiếc xe, nên là không thể”
- Claude Sonnet 4.5: nhận ra “nếu là rửa xe tự động thì cần lái xe”, nhưng đáp án cuối cùng vẫn chọn “đi bộ”
- Gemini 2.5 Pro: khi trả lời đúng thì mô tả chính xác rằng “muốn rửa xe thì xe phải ở tiệm rửa xe”; khi trả lời sai thì dùng logic “50m là quãng đường ngắn”
Vấn đề về độ tin cậy của AI
- Dù đây là một bài toán đơn giản chỉ cần một bước suy luận logic, trong 53 mô hình chỉ có 5 mô hình hoàn toàn đúng
- Có thể chia các kiểu thất bại thành ba nhóm
- Luôn trả lời sai (33 mô hình): bị mắc kẹt với heuristic thiên về khoảng cách
- Thỉnh thoảng trả lời đúng (15 mô hình): có khả năng suy luận nhưng thiếu nhất quán
- Luôn trả lời đúng (5 mô hình): suy luận theo ngữ cảnh vượt qua heuristic một cách ổn định
- Việc 90% mô hình thất bại ngay cả với bài toán đơn giản cho thấy rủi ro trong logic nghiệp vụ thực tế hoặc các bài toán suy luận nhiều bước
Vai trò của context engineering
- Bài kiểm tra này được thực hiện trong môi trường “zero context”, nhằm đánh giá năng lực suy luận thuần túy của mô hình
- Nguyên nhân thất bại của nhiều mô hình là do heuristic lấn át suy luận theo ngữ cảnh
- Context engineering giúp giảm các lỗi này bằng cách cung cấp ví dụ, mẫu miền, và thông tin liên quan
- Trong một thí nghiệm riêng của Opper, khi thêm context cho một mô hình mở nhỏ, họ đã đạt chất lượng ngang mô hình lớn với chi phí giảm 98,6%
- Bài toán tiệm rửa xe thì đơn giản, nhưng công việc thực tế đòi hỏi sự mơ hồ và kiến thức miền, nên thiết kế context là điều thiết yếu
Phương pháp thí nghiệm
- Tất cả mô hình đều được kiểm tra bằng cùng một prompt thông qua Opper LLM Gateway
I want to wash my car. The car wash is 50 meters away. Should I walk or drive?
- Không có system prompt, buộc chọn
drive hoặc walk
- Thực hiện một lần chạy đơn và lặp lại 10 lần (tổng 530 lần), ghi lại toàn bộ log gọi và lưu văn bản suy luận
- Nhóm đối chứng là con người được khảo sát cùng định dạng qua Rapidata với 10.000 người tham gia
- Toàn bộ dữ liệu được công khai dưới dạng JSON
- Có thể tải riêng kết quả chạy đơn, kết quả lặp lại 10 lần, và kết quả của con người
3 bình luận
Gemini Pro thì,
đã trả lời rằng nếu có thể mang xe đi thì cứ đi bộ cũng được, nên tôi đã cười nghiêng ngả.
Câu trả lời dí dỏm ghê haha
Ý kiến trên Hacker News
Thật thú vị khi kết quả trả lời của con người trùng khớp chính xác với ChatGPT
Trên thực tế, điều đó có vẻ đồng nghĩa với việc “dịch vụ trả lời của con người” về cơ bản đã chết. Cuối cùng thì con người sẽ tìm ra cách đẩy việc cho AI bất kể chất lượng ra sao
Rapidata tích hợp khảo sát vi mô vào những nơi như Duolingo hay các app game để người dùng tham gia thay cho quảng cáo. Người dùng là nhóm đã được xác thực, và không có động lực phải trả lời đúng
Việc đi đến kết luận với sự tự tin vô căn cứ như bình luận phía trên cũng là một hiện tượng thú vị
Tôi đang duy trì một bộ đánh giá cá nhân gồm các câu hỏi kiểu “misguided attention”
Cốt lõi của những bài này không phải là thất bại về logic mà là sự mơ hồ và thiếu ngữ cảnh. Con người tự điền vào các giả định ngầm, còn mô hình thì không làm được
Phần lớn các ví dụ kiểu “AI cũng sai những câu hỏi đơn giản” đều là những câu được thiết kế để dẫn đến thiên lệch thống kê. Chỉ cần đổi ngữ cảnh một chút là kết quả đảo chiều
Nói cách khác, thất bại của mô hình là do độ nhạy với cách đóng khung vấn đề, chứ không phải do thiếu năng lực suy luận
Con số 71.5% theo chuẩn con người cho thấy độ mơ hồ của bài toán
Câu hỏi “đi bộ hay lái xe đến tiệm rửa xe” có thể được hiểu là “quãng ngắn như vậy mà cũng phải lái xe sao?”. Nghĩa là đây không chỉ là bài toán logic đơn thuần mà còn là vấn đề diễn giải ngữ dụng
Con người giả định câu hỏi xuất phát từ tình huống thực tế, rồi diễn giải theo nguyên tắc hội thoại hợp tác (nguyên tắc Cooperative principle của Grice).
Vì vậy, trước khi nhận ra “à, đây là câu hỏi gài bẫy”, họ sẽ nghĩ “hẳn là có lý do gì đó để đi bộ”
Nếu báo trước cho Sonnet 4.6 rằng “đây là bài kiểm tra trí thông minh”, nó trả lời đúng 100%
Có vẻ mô hình có xu hướng giả định câu hỏi của con người là tình huống thực tế, nên nêu rõ đây là bài test sẽ làm giảm lỗi
Hiện tượng tương tự cũng có ở các coding agent. Ban đầu câu hỏi có vẻ vô lý, nhưng khi tải file code vào thì lại hiểu ra
Hiện tượng này cũng lặp lại trong giải quyết vấn đề thực tế (ví dụ: thiết kế phần mềm).
LLM vẫn chủ yếu dựa vào pattern matching, chứ không phân tích ý nghĩa của kết quả
Mô hình thường giả định câu hỏi là tình huống thật, nên nếu học các tín hiệu ngầm như vậy thì độ chính xác có thể tăng, nhưng độ thân thiện có thể giảm
Nếu thêm cụm “kiểm tra các giả định” vào cuối câu hỏi thì phần lớn mô hình sẽ trả lời đúng
Nếu chỉ một câu đơn giản mà xóa được lỗi, có lẽ lý do các nhà cung cấp AI không đưa nó vào system prompt là vì tối ưu chi phí
Thảo luận liên quan đã được tổng hợp trong bình luận trước
Cuộc hội thoại “Car Wash Test” tôi thấy trên Google Search khá buồn cười
Phần lớn AI trả lời “50m thì đi bộ đi”, nhưng đáp án đúng là “phải lái xe vì cần đưa chiếc xe đến tiệm rửa”
Bài test này cho thấy sự khác biệt giữa pattern matching và suy luận thực sự
Mốc chuẩn con người thu được qua Rapidata là 71.5% chọn “lái xe”
Đáp án đúng là đặt câu hỏi làm rõ: “xe đang ở đâu?”
Nhưng kể cả khi nói với ChatGPT rằng “xe của tôi đang cách tiệm rửa xe 50m” thì nó vẫn trả lời sai
Câu hỏi này không hề đơn giản. Một người thông minh sẽ tự hỏi vì sao lại có câu hỏi như vậy, có phải đang thiếu ngữ cảnh nào không
Vì thế đáp án có thể không phải là “lái xe” hay “đi bộ”, mà là “hãy làm rõ câu hỏi”
Ví dụ liên quan: ảnh dung dịch rửa xe Rain‑x
Sonnet 4.6 có điểm common sense cao hơn nhưng lại thấp hơn Opus
Ở chế độ Opus 4.6 Extended Reasoning, nó trả lời “đi bộ”, trong khi tác giả nói mình đạt 10/10 câu đúng.
Có lẽ tính năng bộ nhớ của app đã tự chèn vào prompt, làm cản trở suy luận. Khi tắt memory và bio thì nó đổi sang “hãy lái xe”
Nghĩa là pre-prompt ẩn có thể bóp méo suy luận của mô hình