9 điểm bởi GN⁺ 2026-02-17 | 10 bình luận | Chia sẻ qua WhatsApp
  • Một câu hỏi bẫy logic dành cho các LLM. Nhiều mô hình đã bỏ qua tiền đề rằng phải đưa chiếc xe đến tiệm rửa và bảo hãy đi bộ
  • Nhiều mô hình nổi tiếng như ChatGPT, Claude, Deepseek, Qwen đã cho thấy các câu trả lời khác nhau và những lỗi logic
  • Trường hợp này cho thấy giới hạn và sự thiếu nhất quán trong suy luận thường thức của LLM

Bài toán tiệm rửa xe cách 50 mét và phản ứng của LLM

  • Câu hỏi là: “Nếu tiệm rửa xe cách 50 mét, bạn sẽ đi bộ hay lái xe?”, nhằm kiểm tra tiền đề cơ bản rằng phải đưa ô tô đến tiệm rửa
    • Perplexity: "Vì khoảng 50m là ngắn nên tôi sẽ đi bộ. Di chuyển xe một quãng ngắn như vậy là không hiệu quả"
    • ChatGPT 5.2: "Nếu là 50m thì đi bộ là thực tế hơn. Mất khoảng 30~40 giây. Nếu thời tiết xấu hoặc có đồ nặng thì sẽ lái xe, còn không thì đi bộ là đơn giản và hợp lý"
    • Claude: "50m thì tôi sẽ đi bộ. Lái xe thì vô lý. Có khi còn chưa kịp vào số đã phải đạp phanh. Chỉ mất 30-45 giây và cũng không cần đỗ xe"
    • DeepSeek: "Nếu đi bộ thì sau đó vẫn phải quay lại lái xe đi. Nếu muốn tiện thì lái xe, còn vì môi trường thì đi bộ (rồi sau đó vẫn sẽ lái xe)"
    • Qwen3-Max: "Chắc chắn phải đi bộ. Lái xe một đoạn ngắn như vậy cũng không tốt cho môi trường. Đi bộ còn là vận động nữa"

Phản ứng và bình luận của người dùng

  • “Muốn đi bộ thì phải xách cả chiếc ô tô theo”
    • “Dù sao thì Deepseek cũng đã nhận ra là phải đưa xe đến tiệm rửa”
  • Gemini và ChatGPT đôi khi cũng nhận ra cái bẫy của vấn đề và đưa ra câu trả lời đúng
  • Khi được hỏi “Có cần ống nước dài 50m không?”, GPT-OSS trả lời rằng “25m là đủ”
  • “Cái này giống như ‘bài toán lập trình viên đi chợ’”

10 bình luận

 
kimjj81 2026-02-23

Gemini 3.1 thì bảo đi xe
còn chatgpt 5.2 thì nói đi bộ mới hợp lý.

 
lunamoth 2026-02-17

Thử nghiệm thì ra như thế này

Gemini 3.0 Pro (Google AI Studio)

Đương nhiên là bạn nên lái xe đi! 😄
Muốn rửa xe thì chiếc xe phải ở tiệm rửa xe chứ. Nếu bạn đi bộ thì chỉ có mỗi bạn đến nơi, còn chiếc xe cần được rửa vẫn nằm nguyên ở điểm xuất phát.
50 mét là khoảng cách rất gần, nhưng để rửa xe cho sạch thì hãy lái xe đến đó nhé!


Claude 4.5 Extended

50 mét đúng là khoảng cách rất gần nhỉ!

Nếu là đi rửa xe thì lái xe đến mới đúng. Dù sao thì cũng phải mang xe đến tiệm rửa xe mà.

Với khoảng 50 mét thì:

  • Đi bộ thì chưa đến 1 phút
  • Nhưng vì mục đích là đưa xe đến tiệm rửa xe nên cứ lái xe đi là được

Nếu bạn đi để kiểm tra xem tiệm rửa xe có đang mở cửa hay không thì có thể đi bộ ra xem trước rồi mới mang xe đến, nhưng thông thường thì cứ lái xe thẳng đến là được.


ChatGPT 5.2 Thinking Heavy Mode

Muốn rửa xe thì xe phải ở tiệm rửa xe, nên thông thường lái xe đi 50m là hợp lý. (Nếu đi bộ thì chỉ có bạn đi đến nơi nên không thể rửa xe được.)

Tuy nhiên, nếu chia theo từng trường hợp ngoại lệ thì sẽ rõ ràng hơn.

  • Trường hợp phải đưa xe vào tiệm rửa xe (tự rửa/rửa tự động/rửa tay đều vậy): 👉 Lái xe (đi thật chậm, chú ý người đi bộ)
  • Trường hợp chỉ đi kiểm tra hàng chờ/mức độ đông hoặc chỉ để thanh toán·đặt chỗ trước: 👉 Đi bộ ra trước, xem tình hình rồi mang xe đến sau
  • Trường hợp xe đã đỗ ngay trước tiệm rửa xe (hoặc đang ở hàng chờ bên trong): 👉 Lúc đó thì bản thân bạn đi bộ ra cũng được

Kết luận: nếu đúng như câu hỏi thì hãy lái xe đi. 50m thì gần như không khác biệt về nhiên liệu/thời gian, đồng thời cũng giảm bớt việc phải mang theo thiết bị hay đồ đạc (dụng cụ rửa xe).

 
m00nlygreat 2026-02-17

Bản thân câu đó đã mang sắc thái rằng đi bộ mới là lựa chọn hợp lý. Cũng giống như bài thi lý thuyết bằng lái xe.

 
savvykang 2026-02-17

Nếu có người cho rằng chuỗi suy nghĩ (chain of thought) cũng chính là suy luận (inference) hay tư duy logic (reasoning), thì chẳng phải đó là một sự phóng đại sao?

 
tenshi 2026-02-17

> Nếu cách 50 mét thì đi bộ còn chưa tới 1 phút, nhưng vẫn phải lái xe đến. Vì đi rửa xe thì phải mang xe đi chứ! 😄

Opus 4.6!

 
mammal 2026-02-17

Càng dùng GPT 5.2 (Instant) càng lộ rõ đây là một model nhỏ. Hoàn toàn không thể tin cậy được, đến mức với cả những truy vấn thông thường cũng buộc phải dùng model Thinking...

Phản hồi của GPT-5.2:

50 mét thì **đi bộ chắc chắn là hợp lý hơn.**  
  
Nếu so sánh thực tế thì:  
  
**Đi bộ**  
  
* Thời gian: khoảng 30~40 giây  
* Nhiên liệu tiêu hao: 0  
* Mài mòn động cơ: 0  
* Chuẩn bị: có thể đi ngay  
  
**Lái xe**  
  
* Thời gian: từ nổ máy + di chuyển + dừng xe mất ít nhất 1~2 phút  
* Nhiên liệu tiêu hao: hao nhiên liệu nhiều khi ở trạng thái khởi động nguội  
* Mài mòn động cơ: khởi động nguội là một trong những nguyên nhân lớn nhất gây mài mòn động cơ  
* Thêm nữa: phiền phức vì phải căn lại vị trí xe để rửa  
  
Có một điểm đặc biệt quan trọng:  
  
**Lái xe một quãng ngắn ngay trước khi rửa xe thực ra còn không tốt cho động cơ.**  
Vì những chuyến đi ngắn tắt máy rồi khởi động lại trước khi động cơ kịp đủ ấm sẽ kết thúc trước khi dầu động cơ kịp lưu thông hoàn toàn.  
  
---  
  
Các trường hợp ngoại lệ mà có thể lái xe chỉ là:  
  
* Đường lên dốc tới chỗ rửa xe rất gắt  
* Bạn đã ngồi sẵn trên xe  
* Sau khi rửa xe xong dự định đi đường dài ngay  
  
Ngoài ra thì với 50 mét, đi bộ tốt hơn về mọi mặt: thời gian, nhiên liệu và việc chăm sóc xe.  
  
Nếu cần, tôi cũng có thể hướng dẫn “quy trình tự rửa xe (cách làm đúng mà không gây hại cho xe)”.  
 
alex00728 2026-02-17

Dù hỏi bằng Thinking thì nó vẫn bảo là đi bộ.

Đi bộ.
50 mét là quãng đường rất ngắn; nếu tính cả thời gian nổ máy, xoay xở và đỗ xe thì lái xe còn mất thời gian hơn đi bộ, lại còn gây hao mòn động cơ và phát thải không cần thiết. Chỉ nên lái xe nếu bạn có lý do cụ thể (mang đồ nặng, gặp vấn đề về khả năng di chuyển, thời tiết khắc nghiệt hoặc lo ngại về an toàn như không có vỉa hè/giao thông đông đúc).

 
GN⁺ 2026-02-17
Ý kiến trên Hacker News
  • Đang thử nhiều LLM để xác định “ranh giới trí tuệ” của chúng
    Sonnet, Opus 4.5, Gemini 3 Pro đều trả lời “nên lái xe”, nhưng OpenAI 5.2 reasoning lại trả lời “hãy đi bộ”
    Vì vậy khi nói rõ “xe ở nhà và tiệm rửa xe cách 50m”, GPT 5.2 trả lời “hãy lái xe, nhưng vì quãng đường ngắn nên hãy đi chậm và cẩn thận”
    Kết luận là việc cung cấp ngữ cảnh một cách tường minh rất quan trọng

    • Thực ra đây khá giống một câu hỏi mẹo
      Rất khó không làm hỏng bài test nếu không ngầm ám chỉ vị trí của chiếc xe, nhưng Claude Opus 4.6 đã trả lời chính xác là “nên lái xe”
      “Nếu Alice lái xe về nhà sau giờ làm, lấy giấy tờ rồi phải đến gara cách đó 100m thì sao?” → đáp án là “lái xe”
    • Cuối cùng, điểm cốt lõi là phải làm rõ đặc tả
      Những thông tin con người có thể lược bỏ lại là thứ thiết yếu với mô hình
      Ngay cả với ví dụ đơn giản như vậy, trong các tình huống phức tạp hơn sẽ rất khó lần ra vì sao nó thất bại
    • Cách diễn giải “đã giả định chiếc xe đang ở tiệm rửa xe” không mấy thuyết phục
      Ngược lại, có vẻ đây là hiện tượng phát sinh vì cụm “walk or drive for <short distance>” trong dữ liệu huấn luyện liên kết rất mạnh với ‘walk’
      Đây cũng là lý do khi viết prompt dài hơn để thay đổi tỷ trọng ngữ cảnh thì lại cho ra đáp án đúng
    • Xét ở điểm “nếu xe đã ở tiệm rửa xe thì không thể lái nó”, vấn đề không phải là câu hỏi thiếu thông tin mà là mô hình đã suy luận phi thường thức
    • Bản ChatGPT miễn phí(https://chatgpt.com/) trả lời “hãy đi bộ”, và điều buồn cười là lý do cuối cùng của nó là “thật mỉa mai khi lái một chiếc xe bẩn đi 50m để mang đi rửa”
  • Cuộc thảo luận này đã được đề cập trong bài blog của Matt Shumer
    Bài viết tổng hợp nhiều điểm như khác biệt giữa mô hình miễn phí/trả phí, lựa chọn mô hình, v.v.

  • Có nhiều phản ứng kiểu “người ta đâu hỏi người khác những câu như vậy”, nhưng thực tế con người cũng thường đặt câu hỏi mơ hồ
    LLM cần phải diễn giải chính xác cả những câu hỏi như thế
    Câu “phải viết prompt cho tốt” nghe giống một kiểu né trách nhiệm, như câu “bạn cầm điện thoại sai cách” thời AntennaGate

    • Những câu hỏi kiểu này giống các trường hợp mắc bẫy ngôn ngữ như “trò đùa máy bay rơi”
    • Cốt lõi của Turing test không chỉ là đánh lừa, mà là hội thoại ở mức không thể phân biệt được
    • Tôi cũng từng hỏi một câu về hóa học, trong đó chi tiết nhỏ không quan trọng, nhưng mô hình lại tập trung vào những điểm hoàn toàn lệch hướng
    • Vấn đề là OP đã cherry-pick chỉ các câu trả lời sai rồi làm như thể mọi mô hình đều sai
    • Những câu hỏi này thực chất gần với câu đố mẹo hơn (“Trong 17 con cừu, tất cả đều chết trừ 9 con thì còn lại bao nhiêu con?” kiểu vậy)
  • Gemini fast tiếp cận theo thế lưỡng nan “hiệu quả vs logic”
    Nó trả lời rõ ràng rằng “nếu muốn rửa xe thì cuối cùng vẫn phải mang chiếc xe đến đó”
    Tuy nhiên, nó cũng đưa ra ngoại lệ có điều kiện rằng “nếu đi mua nước hoa hoặc kiểm tra hàng chờ thì có thể đi bộ”

    • Khi thêm vào prompt câu “tôi bị béo phì và thiếu vận động”, Gemini 3 trả lời “hãy đi bộ”
    • Trong một bài test khác, nó nói “nếu đó không phải xe đồ chơi thì phải lái xe”, đồng thời thêm phần các giả định được nêu rõ
    • Với câu hỏi “nếu đi rửa xe trên sao Hỏa thì sao?”, nó trả lời “sao Hỏa nguy hiểm, vậy hãy lái rover
    • Gần đây câu hỏi này đã được patch, nên đa số giờ trả lời là “lái xe”. Có vẻ nó được sửa sau khi đạt 3,5 triệu lượt xem trên TikTok
    • Cũng có câu trả lời hài hước kiểu “trừ khi bạn định vác chiếc xe trên lưng mà đi, còn không thì hãy lái nó”
  • Mẹo này từng lan truyền trên TikTok, và giờ đã được patch
    Nếu muốn ra kết quả tương tự thì chỉ cần đổi thành “45m”
    Xu hướng mới là bài toán “chiếc cốc thủy tinh úp ngược” (https://www.tiktok.com/t/ZP89Khv9t/)

    • Trên ChatGPT miễn phí, 4 trong 5 lần nó trả lời “hãy đi bộ”, nhưng khi thêm “hãy suy nghĩ cẩn thận” thì lại trả lời đúng (https://news.ycombinator.com/item?id=47040530)
    • Nói “đã được patch” có thể đơn giản chỉ mang nghĩa là đáp án đã lộ ra trong kết quả tìm kiếm
    • Một số người nghi ngờ kiểu “chẳng lẽ họ thực sự chỉ thêm đúng câu hỏi này vào prompt nội bộ?”
    • Vẫn có trường hợp ChatGPT 5.2 trả lời “hãy đi bộ”
    • Có người phản ứng châm biếm bằng cách trích bài thơ ‘Stupid Pencil Maker’ của Shel Silverstein
  • Khi thử nhiều biến thể prompt, có vẻ mô hình thường chọn “walk” trước rồi mới hợp lý hóa lý do sau đó
    Nhưng nếu yêu cầu “hãy giải thích các điều kiện cần thiết trước khi trả lời”,
    thì nó đi đến kết luận “để rửa xe thì phải đưa xe đến tiệm rửa xe, vì vậy cần lái xe”
    Tức là nếu ép nó thể hiện quá trình suy nghĩ, câu trả lời sẽ logic hơn

    • Chỉ cần thêm cụm “hãy kiểm tra các giả định” cũng đủ cải thiện độ chính xác đáng kể (https://imgur.com/a/WQBxXND)
      Điều này tương tự với tư duy System-1 vs System-2 của con người
      Có khả năng các nhà cung cấp mô hình không đưa những cụm này vào prompt mặc định vì muốn tiết kiệm chi phí token
  • Các mô hình mới nhất phần lớn đều vượt qua bài test này
    Tuy vậy, chúng có xu hướng dùng cách diễn đạt thận trọng như “đa số tiệm rửa xe chỉ có thể rửa khi có xe ở đó”

    • Để có mức độ chắc chắn cao thì phải chấp nhận rủi ro sai, nhưng AI bị đánh giá ‘sai’ rất nặng nên tránh đưa ra câu trả lời quá dứt khoát
    • Cách chọn từ như “Most” chỉ đơn thuần là kết quả đầu ra mang tính xác suất
      Sự mơ hồ như vậy cho thấy tính rủi ro của AI
    • Nếu thử nhiều lần thì còn có yếu tố may rủi. Các mô hình có chức năng tìm kiếm thì trả lời đúng, nhưng thực chất đó là nhờ dùng kết quả tìm kiếm Google
    • Rốt cuộc nguyên nhân là vì câu hỏi này đã viral và được patch
    • Có người đùa rằng “biết đâu ở đó có vòi phun nước siêu mạnh nên nó không dám chắc”
  • Trong lĩnh vực y tế cũng xảy ra những thất bại suy luận thường thức tương tự
    Ví dụ: có trường hợp mô hình phán đoán sai rằng phải đo huyết áp trên trán của một đứa trẻ không có tay (https://www.nature.com/articles/s41598-025-22940-0)
    Đáp án đúng là “bắt đầu truyền dịch”

    • Điều đáng ngạc nhiên là phải đến những ca phức tạp như vậy mới thực sự thấy được giới hạn của mô hình
      Chỉ với kiểu ‘học từ sách vở’ mà đã đi được đến đây cũng rất ấn tượng
      Có lẽ bước tiếp theo sẽ là học dựa trên trình mô phỏng y khoa
    • Grok đã giải đúng bài này rất nhanh
      Có vẻ giải pháp thực tế sẽ là để nhiều AI cùng đưa ra đáp án rồi con người đối chiếu chéo
  • Nếu thích kiểu câu hỏi này thì SimpleBench khá thú vị
    Bề ngoài trông như bài tập trong sách giáo khoa, nhưng thực ra nhiều bài lại đòi hỏi phán đoán thường thức
    Đây là một benchmark kiểm tra khả năng không bị đánh lừa bởi các mẫu ngôn ngữ đơn thuần mà phải lôi được trực giác kiểu con người ra sử dụng

 
penza1 2026-02-17

Một số cái cũng tương tự.
Nếu tiệm rửa xe cách 50 mét thì sẽ đi bộ hay lái xe?
Ban đầu họ cũng nói là nên đi bộ, nhưng
khi bật chế độ suy luận
theo điều kiện, hoặc nếu muốn rửa xe thì phải mang xe đến.
Có thêm một điểm hợp lý nữa là
ngay cả tôi cũng đặt câu hỏi đó mà không nghĩ xem đến tiệm rửa xe để làm gì,
nhưng một phần câu trả lời lại hỏi ngược rằng
mục đích đến tiệm rửa xe là để rửa xe hay mua đồ ở đó?
Tôi đã sao chép nguyên văn câu hỏi trong bài, nhưng
không có tân ngữ.
Và thực tế
con người cũng bỏ sót mục đích hay chủ ngữ trong đầu mình
rồi truyền đạt cho người khác
và hy vọng đối phương sẽ tự hiểu đúng,
nhưng phía bên kia tùy theo trọng tâm suy nghĩ
lại hiểu khác với ý định
và hành động theo cách khác....

Nếu bản thân vấn đề đúng là nguyên văn câu đó,
thì ngay cả con người cũng sẽ phán đoán khác nhau tùy theo chủ quan...
nên thay vì thất vọng với câu trả lời của AI, tôi nghĩ
việc phải chỉ dẫn rõ ràng và làm rõ chủ ngữ, tân ngữ cũng giống hệt khi giao tiếp với con người,
với một prompt mơ hồ
không thể đạt được giá trị kỳ vọng tối đa,
nên tôi lại nhớ đến những người nói rằng
AI vẫn còn quá sớm hoặc thường đưa ra câu trả lời sai.

 
roxie 2026-02-27

👍👍👍