- Một câu hỏi bẫy logic dành cho các LLM. Nhiều mô hình đã bỏ qua tiền đề rằng phải đưa chiếc xe đến tiệm rửa và bảo hãy đi bộ
- Nhiều mô hình nổi tiếng như ChatGPT, Claude, Deepseek, Qwen đã cho thấy các câu trả lời khác nhau và những lỗi logic
- Trường hợp này cho thấy giới hạn và sự thiếu nhất quán trong suy luận thường thức của LLM
Bài toán tiệm rửa xe cách 50 mét và phản ứng của LLM
- Câu hỏi là: “Nếu tiệm rửa xe cách 50 mét, bạn sẽ đi bộ hay lái xe?”, nhằm kiểm tra tiền đề cơ bản rằng phải đưa ô tô đến tiệm rửa
- Perplexity: "Vì khoảng 50m là ngắn nên tôi sẽ đi bộ. Di chuyển xe một quãng ngắn như vậy là không hiệu quả"
- ChatGPT 5.2: "Nếu là 50m thì đi bộ là thực tế hơn. Mất khoảng 30~40 giây. Nếu thời tiết xấu hoặc có đồ nặng thì sẽ lái xe, còn không thì đi bộ là đơn giản và hợp lý"
- Claude: "50m thì tôi sẽ đi bộ. Lái xe thì vô lý. Có khi còn chưa kịp vào số đã phải đạp phanh. Chỉ mất 30-45 giây và cũng không cần đỗ xe"
- DeepSeek: "Nếu đi bộ thì sau đó vẫn phải quay lại lái xe đi. Nếu muốn tiện thì lái xe, còn vì môi trường thì đi bộ (rồi sau đó vẫn sẽ lái xe)"
- Qwen3-Max: "Chắc chắn phải đi bộ. Lái xe một đoạn ngắn như vậy cũng không tốt cho môi trường. Đi bộ còn là vận động nữa"
Phản ứng và bình luận của người dùng
- “Muốn đi bộ thì phải xách cả chiếc ô tô theo”
- “Dù sao thì Deepseek cũng đã nhận ra là phải đưa xe đến tiệm rửa”
- Gemini và ChatGPT đôi khi cũng nhận ra cái bẫy của vấn đề và đưa ra câu trả lời đúng
- Khi được hỏi “Có cần ống nước dài 50m không?”, GPT-OSS trả lời rằng “25m là đủ”
- “Cái này giống như ‘bài toán lập trình viên đi chợ’”
10 bình luận
Gemini 3.1 thì bảo đi xe
còn chatgpt 5.2 thì nói đi bộ mới hợp lý.
Thử nghiệm thì ra như thế này
Gemini 3.0 Pro (Google AI Studio)
Đương nhiên là bạn nên lái xe đi! 😄
Muốn rửa xe thì chiếc xe phải ở tiệm rửa xe chứ. Nếu bạn đi bộ thì chỉ có mỗi bạn đến nơi, còn chiếc xe cần được rửa vẫn nằm nguyên ở điểm xuất phát.
50 mét là khoảng cách rất gần, nhưng để rửa xe cho sạch thì hãy lái xe đến đó nhé!
Claude 4.5 Extended
50 mét đúng là khoảng cách rất gần nhỉ!
Nếu là đi rửa xe thì lái xe đến mới đúng. Dù sao thì cũng phải mang xe đến tiệm rửa xe mà.
Với khoảng 50 mét thì:
Nếu bạn đi để kiểm tra xem tiệm rửa xe có đang mở cửa hay không thì có thể đi bộ ra xem trước rồi mới mang xe đến, nhưng thông thường thì cứ lái xe thẳng đến là được.
ChatGPT 5.2 Thinking Heavy Mode
Muốn rửa xe thì xe phải ở tiệm rửa xe, nên thông thường lái xe đi 50m là hợp lý. (Nếu đi bộ thì chỉ có bạn đi đến nơi nên không thể rửa xe được.)
Tuy nhiên, nếu chia theo từng trường hợp ngoại lệ thì sẽ rõ ràng hơn.
Kết luận: nếu đúng như câu hỏi thì hãy lái xe đi. 50m thì gần như không khác biệt về nhiên liệu/thời gian, đồng thời cũng giảm bớt việc phải mang theo thiết bị hay đồ đạc (dụng cụ rửa xe).
Bản thân câu đó đã mang sắc thái rằng đi bộ mới là lựa chọn hợp lý. Cũng giống như bài thi lý thuyết bằng lái xe.
Nếu có người cho rằng chuỗi suy nghĩ (chain of thought) cũng chính là suy luận (inference) hay tư duy logic (reasoning), thì chẳng phải đó là một sự phóng đại sao?
> Nếu cách 50 mét thì đi bộ còn chưa tới 1 phút, nhưng vẫn phải lái xe đến. Vì đi rửa xe thì phải mang xe đi chứ! 😄
Opus 4.6!
Càng dùng GPT 5.2 (Instant) càng lộ rõ đây là một model nhỏ. Hoàn toàn không thể tin cậy được, đến mức với cả những truy vấn thông thường cũng buộc phải dùng model Thinking...
Phản hồi của GPT-5.2:
Dù hỏi bằng Thinking thì nó vẫn bảo là đi bộ.
Đi bộ.
50 mét là quãng đường rất ngắn; nếu tính cả thời gian nổ máy, xoay xở và đỗ xe thì lái xe còn mất thời gian hơn đi bộ, lại còn gây hao mòn động cơ và phát thải không cần thiết. Chỉ nên lái xe nếu bạn có lý do cụ thể (mang đồ nặng, gặp vấn đề về khả năng di chuyển, thời tiết khắc nghiệt hoặc lo ngại về an toàn như không có vỉa hè/giao thông đông đúc).
Ý kiến trên Hacker News
Đang thử nhiều LLM để xác định “ranh giới trí tuệ” của chúng
Sonnet, Opus 4.5, Gemini 3 Pro đều trả lời “nên lái xe”, nhưng OpenAI 5.2 reasoning lại trả lời “hãy đi bộ”
Vì vậy khi nói rõ “xe ở nhà và tiệm rửa xe cách 50m”, GPT 5.2 trả lời “hãy lái xe, nhưng vì quãng đường ngắn nên hãy đi chậm và cẩn thận”
Kết luận là việc cung cấp ngữ cảnh một cách tường minh rất quan trọng
Rất khó không làm hỏng bài test nếu không ngầm ám chỉ vị trí của chiếc xe, nhưng Claude Opus 4.6 đã trả lời chính xác là “nên lái xe”
“Nếu Alice lái xe về nhà sau giờ làm, lấy giấy tờ rồi phải đến gara cách đó 100m thì sao?” → đáp án là “lái xe”
Những thông tin con người có thể lược bỏ lại là thứ thiết yếu với mô hình
Ngay cả với ví dụ đơn giản như vậy, trong các tình huống phức tạp hơn sẽ rất khó lần ra vì sao nó thất bại
Ngược lại, có vẻ đây là hiện tượng phát sinh vì cụm “walk or drive for <short distance>” trong dữ liệu huấn luyện liên kết rất mạnh với ‘walk’
Đây cũng là lý do khi viết prompt dài hơn để thay đổi tỷ trọng ngữ cảnh thì lại cho ra đáp án đúng
Cuộc thảo luận này đã được đề cập trong bài blog của Matt Shumer
Bài viết tổng hợp nhiều điểm như khác biệt giữa mô hình miễn phí/trả phí, lựa chọn mô hình, v.v.
Có nhiều phản ứng kiểu “người ta đâu hỏi người khác những câu như vậy”, nhưng thực tế con người cũng thường đặt câu hỏi mơ hồ
LLM cần phải diễn giải chính xác cả những câu hỏi như thế
Câu “phải viết prompt cho tốt” nghe giống một kiểu né trách nhiệm, như câu “bạn cầm điện thoại sai cách” thời AntennaGate
Gemini fast tiếp cận theo thế lưỡng nan “hiệu quả vs logic”
Nó trả lời rõ ràng rằng “nếu muốn rửa xe thì cuối cùng vẫn phải mang chiếc xe đến đó”
Tuy nhiên, nó cũng đưa ra ngoại lệ có điều kiện rằng “nếu đi mua nước hoa hoặc kiểm tra hàng chờ thì có thể đi bộ”
Mẹo này từng lan truyền trên TikTok, và giờ đã được patch
Nếu muốn ra kết quả tương tự thì chỉ cần đổi thành “45m”
Xu hướng mới là bài toán “chiếc cốc thủy tinh úp ngược” (https://www.tiktok.com/t/ZP89Khv9t/)
Khi thử nhiều biến thể prompt, có vẻ mô hình thường chọn “walk” trước rồi mới hợp lý hóa lý do sau đó
Nhưng nếu yêu cầu “hãy giải thích các điều kiện cần thiết trước khi trả lời”,
thì nó đi đến kết luận “để rửa xe thì phải đưa xe đến tiệm rửa xe, vì vậy cần lái xe”
Tức là nếu ép nó thể hiện quá trình suy nghĩ, câu trả lời sẽ logic hơn
Điều này tương tự với tư duy System-1 vs System-2 của con người
Có khả năng các nhà cung cấp mô hình không đưa những cụm này vào prompt mặc định vì muốn tiết kiệm chi phí token
Các mô hình mới nhất phần lớn đều vượt qua bài test này
Tuy vậy, chúng có xu hướng dùng cách diễn đạt thận trọng như “đa số tiệm rửa xe chỉ có thể rửa khi có xe ở đó”
Sự mơ hồ như vậy cho thấy tính rủi ro của AI
Trong lĩnh vực y tế cũng xảy ra những thất bại suy luận thường thức tương tự
Ví dụ: có trường hợp mô hình phán đoán sai rằng phải đo huyết áp trên trán của một đứa trẻ không có tay (https://www.nature.com/articles/s41598-025-22940-0)
Đáp án đúng là “bắt đầu truyền dịch”
Chỉ với kiểu ‘học từ sách vở’ mà đã đi được đến đây cũng rất ấn tượng
Có lẽ bước tiếp theo sẽ là học dựa trên trình mô phỏng y khoa
Có vẻ giải pháp thực tế sẽ là để nhiều AI cùng đưa ra đáp án rồi con người đối chiếu chéo
Nếu thích kiểu câu hỏi này thì SimpleBench khá thú vị
Bề ngoài trông như bài tập trong sách giáo khoa, nhưng thực ra nhiều bài lại đòi hỏi phán đoán thường thức
Đây là một benchmark kiểm tra khả năng không bị đánh lừa bởi các mẫu ngôn ngữ đơn thuần mà phải lôi được trực giác kiểu con người ra sử dụng
Một số cái cũng tương tự.
Nếu tiệm rửa xe cách 50 mét thì sẽ đi bộ hay lái xe?
Ban đầu họ cũng nói là nên đi bộ, nhưng
khi bật chế độ suy luận
theo điều kiện, hoặc nếu muốn rửa xe thì phải mang xe đến.
Có thêm một điểm hợp lý nữa là
ngay cả tôi cũng đặt câu hỏi đó mà không nghĩ xem đến tiệm rửa xe để làm gì,
nhưng một phần câu trả lời lại hỏi ngược rằng
mục đích đến tiệm rửa xe là để rửa xe hay mua đồ ở đó?
Tôi đã sao chép nguyên văn câu hỏi trong bài, nhưng
không có tân ngữ.
Và thực tế
con người cũng bỏ sót mục đích hay chủ ngữ trong đầu mình
rồi truyền đạt cho người khác
và hy vọng đối phương sẽ tự hiểu đúng,
nhưng phía bên kia tùy theo trọng tâm suy nghĩ
lại hiểu khác với ý định
và hành động theo cách khác....
Nếu bản thân vấn đề đúng là nguyên văn câu đó,
thì ngay cả con người cũng sẽ phán đoán khác nhau tùy theo chủ quan...
nên thay vì thất vọng với câu trả lời của AI, tôi nghĩ
việc phải chỉ dẫn rõ ràng và làm rõ chủ ngữ, tân ngữ cũng giống hệt khi giao tiếp với con người,
với một prompt mơ hồ
không thể đạt được giá trị kỳ vọng tối đa,
nên tôi lại nhớ đến những người nói rằng
AI vẫn còn quá sớm hoặc thường đưa ra câu trả lời sai.
👍👍👍