- Trong issue Claude Code #74066, một người dùng workspace Enterprise ZDR báo cáo rằng phản hồi liên quan đến Minecraft temple không liên quan đến công việc của họ đã bị trộn vào phiên, đặt vấn đề về khả năng rò rỉ giữa cơ chế cô lập bộ nhớ đệm workspace và các gói người dùng cá nhân
- Môi trường được báo cáo là macOS(darwin), Apple_Terminal, Claude Code 2.1.199; người dùng cho biết họ dùng một thiết lập đặc biệt trong đó thư mục làm việc thực tế khác với thư mục thực thi, và cũng có một nhầm lẫn riêng sau
/compact khi agent động chạm tới dự án ở phía thư mục thực thi
- Một bình luận đề xuất
grep transcript cục bộ tại ~/.claude/projects/<encoded-cwd>/<session-id>.jsonl để trước hết phân biệt đây là ô nhiễm ngữ cảnh cục bộ hay rò rỉ phía máy chủ; người báo cáo trả lời rằng ngoài nhật ký phiên hiện tại và đường dẫn minecraft.py, không có kết quả khớp cục bộ nào liên quan đến Minecraft
- Sau đó, trong phiên Claude Mobile của cùng tài khoản Enterprise cũng xuất hiện nội dung không liên quan về 3-panel abstract print; người này nêu các điểm chung là Sonnet 5 và phản hồi đầu tiên sau hơn 5 phút, tức tình huống cache miss, đồng thời cho biết đã gửi
/feedback và tiến hành leo thang nội bộ
- Những người tham gia khác chia sẻ các trải nghiệm tương tự với Claude Code, API và việc dùng Claude trong cùng văn phòng; tuy nhiên một số nêu khả năng đây là hallucination hoặc không phải vấn đề riêng của Claude Code, và trang issue không có phân tích nguyên nhân cuối cùng hay kết quả khắc phục từ Anthropic
Hiện tượng được báo cáo
- Issue Claude Code #74066 đề cập đến một trường hợp trong đó người dùng đang được xác thực trong workspace Enterprise ZDR, nhưng agent đột nhiên nói rằng nó đang tạo một “Minecraft temple”
- Người dùng viết rằng agent đã hỏi họ muốn loại gạch nào, và trong phần recap cũng tự tin nói rằng nó đang tạo một Minecraft temple
- Vấn đề được nêu theo hai hướng
- Có khả năng phiên hoặc bộ nhớ đệm của đồng nghiệp trong cùng workspace đã bị trộn vào
- Có khả năng nội dung từ gói người dùng cá nhân đã bị trộn vào phiên Enterprise ZDR
- Thông tin môi trường được báo cáo
- Platform:
darwin
- Terminal:
Apple_Terminal
- Version:
2.1.199
- Feedback ID:
f336f5d2-3992-4a04-9e1f-ec30f006f75e
Nhầm lẫn giữa thư mục thực thi và thư mục làm việc
- Người dùng bắt đầu phiên từ một thư mục không liên quan đến công việc thực tế
- Vì trong thư mục đó có thư mục
.claude chứa ngữ cảnh cần thiết
- Công việc thực tế đang được thực hiện ở một thư mục khác
- Sau
/compact, từng có lúc agent quên chỉ dẫn của người dùng và bắt đầu làm việc trên dự án ở phía thư mục thực thi
- Người dùng cho rằng nhầm lẫn thư mục này là do thiết lập của mình, nhưng phân biệt nó với hiện tượng bị trộn prompt liên quan đến Minecraft
Đề xuất kiểm tra transcript cục bộ
- Một người tham gia đề xuất trước tiên cần kiểm tra xem văn bản “Minecraft temple” có tồn tại trong tệp phiên cục bộ hay không
- Người này giải thích rằng nội dung gửi/nhận của Claude Code CLI được lưu theo từng phiên dưới dạng transcript tại
~/.claude/projects/<encoded-cwd>/<session-id>.jsonl
- Lệnh kiểm tra được đề xuất như sau
grep -rli 'minecraft\|temple\|brick' ~/.claude/projects/ 2>/dev/null
- Cách diễn giải kết quả chia làm hai trường hợp
- Nếu có tệp khớp, văn bản tồn tại cục bộ nên có thể là rò ngữ cảnh/transcript cục bộ
- Nếu không có kết quả khớp cục bộ, đó là văn bản chưa từng được gửi/nhận trên máy này, nên cần nghi ngờ vấn đề ở mô hình hoặc phía máy chủ
- Một lệnh khác cũng được đề xuất để kiểm tra liệu đây có phải nhầm lẫn cục bộ từ phiên khác hay không
grep -rli minecraft ~/.claude/projects/ | while read f; do
printf '%s %s\n' "$(grep -m1 -o '"cwd":"[^"]*"' "$f")" "$f"; done
- Người đề xuất cho rằng launch cwd đóng vai trò là vị trí lưu transcript và khóa ngữ cảnh, nên nếu bắt đầu từ một thư mục không liên quan và dùng
/compact, có thể xảy ra nhầm lẫn thư mục
- Tuy nhiên, họ cũng phân biệt rằng cơ chế đó chỉ có thể giải thích nhầm lẫn thư mục, chứ không giải thích được bản thân Minecraft prompt mà người dùng chưa từng viết
Kết quả kiểm tra bổ sung của người báo cáo
- Người báo cáo trả lời rằng kết quả tìm kiếm cục bộ, ngoài điểm đầu tiên trong nhật ký phiên hiện tại trông giống như rò rỉ và các trao đổi sau đó với mô hình, không có kết quả khớp liên quan nào khác
- Với
minecraft, họ cho biết chỉ xuất hiện một lần trong danh sách tệp của môi trường ảo Python, ở đường dẫn lexer Pygments minecraft.py
temple hoặc bricks không khớp trong ranh giới từ đó hay trong ngữ cảnh liên quan đến Minecraft
Databricks
bricked by an over-eager click
- Các kết quả khớp không liên quan như chuỗi con trong
verdictSignalsLabel
- Người dùng cho biết đã gửi
/feedback và cũng leo thang nội bộ
Trường hợp tương tự trên Claude Mobile
- Cùng người báo cáo bổ sung rằng hiện tượng tương tự cũng xảy ra trong phiên Claude Mobile của cùng tài khoản Enterprise
- Các điểm chung được nêu là
- Sonnet 5
- Phản hồi đầu tiên sau hơn 5 phút
- Tình huống cache miss
- Khi ảnh đính kèm email không tải lên được, họ để lại nội dung OCR trong bình luận
- Người dùng đã gom các CSV vào một thư mục, cung cấp liên kết thư mục Google Drive và nhờ hỗ trợ
- Claude nói về một mockup bộ 3-panel abstract print theo đúng kích thước tường thực tế và nghiên cứu nghệ sĩ/cửa hàng, những nội dung không liên quan đến yêu cầu
- Sau đó Claude nói “Detecting injection attempt, proceeding...” và xử lý nội dung đó như một injection
- Phần quá trình suy nghĩ được hiển thị bao gồm nội dung cho rằng có một khối liên quan đến kích thước tường và tranh in nghệ thuật bị chen vào, không liên quan đến yêu cầu CSV của người dùng, rồi cố trích xuất ID thư mục Drive để xử lý các tệp CSV
Trường hợp và phản ứng của những người tham gia khác
- Một người tham gia viết rằng vào tuần trước, trong Claude Code dựa trên Sonnet 5, có nội dung chen vào giữa các kết quả công cụ nhưng không đến từ công cụ thực sự được gọi
- Thông báo giả mạo “MCP servers need auth”
- Một bản dump
CLAUDE.md khác
- Chỉ dẫn giả “Plan mode is active”
- Một người tham gia khác viết rằng Claude từng nhắc đến một cửa hàng gần nơi bạn của họ sống, và người bạn đó cũng dùng Claude trong cùng văn phòng
- Một người khác nói rằng khi dùng token API vào năm 2025, có vẻ như công cụ của agent khác đột nhiên xuất hiện; lúc đó họ xem là hallucination và không điều tra sâu
- Một bình luận liên kết tới một bài viết incident liên quan của Claude, nói rằng ban đầu họ tưởng đã thấy dữ liệu của người dùng khác, nhưng Anthropic sau đó nói đó là ngữ cảnh agent nội bộ bị lộ sai cách
- Một số bình luận cho rằng hiện tượng này trông giống hallucination, hoặc có thể không phải vấn đề riêng của Claude Code
Trạng thái hiện tại và các vấn đề còn lại
- Issue hiện ở trạng thái Open trên trang, và phần mô tả không có phân tích nguyên nhân cuối cùng hay nội dung hoàn tất sửa lỗi
- Vấn đề cốt lõi là văn bản không liên quan đã đi vào từ đâu
- Nhầm lẫn ngữ cảnh dựa trên transcript cục bộ hoặc launch cwd
- Vấn đề trạng thái phiên ở phía mô hình hoặc máy chủ
- Ngữ cảnh agent nội bộ bị lộ sai cách
- Hallucination thông thường
- Kết quả tìm kiếm cục bộ của người báo cáo nghiêng về việc nội dung liên quan đến Minecraft temple/bricks không được tìm thấy trong các phiên cục bộ trước đó, nhưng trong issue công khai không có kết luận chính thức từ Anthropic
1 bình luận
Ý kiến trên Hacker News
Tôi có tham gia khá sâu vào phía sử dụng LLM từ nhiều nhà cung cấp, và biết ít nhất hai lần phản hồi bị tráo lẫn cho nhau ở hạ tầng trung gian
Một lần ảnh hưởng đến mô hình Claude, một lần ảnh hưởng đến mô hình GPT, và là từ các nhà cung cấp khác nhau
Một bên đã cung cấp phân tích hậu sự cố tử tế: cổng API xử lý sai mã trạng thái HTTP 100 rồi rơi vào trạng thái lỗi, về thực chất tạo ra lỗi off-by-one, khiến tôi nhận phản hồi của prompt ngay trước yêu cầu của mình, còn phản hồi của tôi lại bị chuyển cho người gọi tiếp theo
Bên còn lại không giải thích nguyên nhân gốc rễ, chỉ bảo hãy tin rằng chuyện đó sẽ không lặp lại nữa
Cả hai đều là công ty có vốn hóa thị trường trên 1 nghìn tỷ USD
Trong trường hợp này, phản hồi bị thay đổi trong lúc truyền nên bản thân ZDR không hẳn bị phá vỡ, nhưng tôi nghĩ đây có thể là vấn đề tương tự. Có thể không phải dữ liệu bị lưu giữ, mà là không được cô lập an toàn ở hạ tầng trung gian
Nhiều khi phía client còn cố tình dùng nó để nhìn trộm phản hồi của client khác
Bất cứ khi nào nhiều yêu cầu từ nhiều client được ghép kênh lên cùng một kết nối upstream thì đều có khả năng dễ tổn thương, vì HTTP phức tạp hơn bề ngoài rất nhiều nên rất khó ghép ổn định request và response ở phía upstream
Ví dụ, nếu có nhiều hơn một header Content-Length, hoặc trộn Content-Length với chunked encoding, hoặc gửi header HTTP/2 Content-Length không khớp với độ dài thân thực tế, thì một số hệ thống có thể bị desync
Có một bài nói chuyện ở DEF CON về chủ đề này: https://www.youtube.com/watch?v=w-eJM2Pc0KI
Cùng kiểu tấn công đó cũng đã được áp dụng vào SMTP bằng cách gây rối phần xuống dòng quanh dấu phân cách kết thúc thông điệp; bên đó gọi là SMTP smuggling. Nó cũng có thể áp dụng cho các giao thức khác
Ví dụ nếu đang xử lý PHI, thì dù Claude không lưu giữ gì cả, việc rò rỉ phản hồi vẫn có thể là vi phạm HIPAA, trong khi mục tiêu ban đầu vốn là tuân thủ HIPAA, nên tôi không rõ phải nhìn nhận thế nào
Mọi hành vi mới xuất hiện từ những chủ thể mà ngay cả các tuyên bố về giá trị đạo đức tích cực của họ cũng chỉ vừa đủ nghe có vẻ hợp lý thì nên được báo cáo, thảo luận, mổ xẻ và phê phán sớm và thường xuyên
Có vẻ chỉ cần thêm một dòng vào AGENTS.md là “đừng bao giờ nói về Minecraft trừ khi được yêu cầu rõ ràng” thì sẽ ổn
Nghe giống ảo giác cho đến khi được chứng minh. Các LLM hàng đầu đôi lúc cũng làm kiểu đó, và lúc nào trông cũng có vẻ hợp lý
Có thể phiên đó đã có rất nhiều ngữ cảnh trước đó, ví dụ hơn 800 nghìn token, và trong trường hợp như vậy thì khả năng ảo giác còn cao hơn
Bình luận liên quan của tác giả bài gốc cũng làm tăng khả năng đó: trong kết quả gọi công cụ liệt kê danh sách tệp của môi trường ảo Python có chuỗi đường dẫn
minecraft.py, và trong gói Pygments cũng có một lexer tên làminecraft.pyẢo giác thường là câu trả lời có vẻ hợp lý nhưng sai, hoặc thông tin bịa đặt được căn theo phản hồi có xác suất cao nhất, như trích dẫn tự tạo, và nó xuất phát từ cách LLM dự đoán token. Trường hợp này lại là đầu ra hoàn toàn không hợp lý, nên không thật sự khớp với ảo giác
Dù vậy, cũng không nhất thiết phải là rò rỉ giữa các phiên; có thể là dữ liệu huấn luyện, hoặc kiểu sinh dữ liệu theo phong cách Magpie nơi nó nhả ra hội thoại chỉ từ prompt trống
Nhìn các bình luận con về chuyện cache, cũng có vẻ có khả năng đây là lỗi không tải được gì từ cache nên nhả ra sinh ngẫu nhiên thay thế
Xin đính chính, tên mới là magpie. Khái niệm LLM tạo ra hội thoại ngẫu nhiên từ prompt không có gì đáng xem xét, và nghe có vẻ khả dĩ ngang với rò rỉ phiên: https://github.com/magpie-align/magpie
Chuyện tương tự cũng xảy ra trong phiên Claude Mobile của cùng tài khoản Enterprise, và điểm chung là Sonnet 5 cùng phản hồi đầu tiên sau hơn 5 phút, tức là cache miss
Điều đáng tiếc là thiếu minh bạch quá nhiều, nên ngay cả khi họ phủ nhận rằng không có rò rỉ, chúng ta cũng không thể biết chắc
Nếu đã dùng LLM đủ nhiều, hẳn bạn từng thấy mọi mô hình thỉnh thoảng đột nhiên xổ ra những câu vô nghĩa bằng một ngôn ngữ hoàn toàn khác. Chúng có thể trở nên hoàn toàn kỳ quặc với một tỉ lệ nhất định
Tôi cũng thấy chuyện này ở Gemini trong vài ngày gần đây
Với các prompt có đầu vào khá lớn, thỉnh thoảng nó trả về câu trả lời trông như thuộc về người khác. Có thể là ảo giác bị kích phát, nhưng cũng có vẻ như xung đột cache hay vấn đề nào khác
Tôi chưa thấy bằng chứng cho việc thông tin cá nhân bị rò rỉ, nhưng khi đang nghiên cứu một chủ đề mà đột nhiên nhận được thứ trông như câu trả lời dạy kèm toán, thì vẫn thấy bất an
Tôi bắt đầu nghĩ có thể đang có một sự cố bảo mật lớn diễn ra phía sau ngay lúc này
Tôi đã dùng AI để hỗ trợ viết ngữ pháp meta-parsing, và may là phần lớn vẫn chưa được công bố
Tôi ngày càng chắc rằng thế hệ mô hình tiếp theo sẽ tạo ra bước nhảy lớn trong việc nhận diện và khai thác các lỗ hổng cơ bản, đặc biệt nếu biết phải hướng nó nhìn vào đâu. Ngay trong công cụ parser của tôi nó đã tìm ra vài bug và ít nhất một exploit, và thật khó tưởng tượng trong toàn bộ hệ sinh thái công nghệ hiện đại vẫn còn bao nhiêu thứ như vậy
Đôi khi nó còn trả lời bằng ngôn ngữ khác
Mà đó là lúc nó có trả lời; còn không thì chỉ trả về mã lỗi 1099
Tôi là Thariq từ đội Claude Code
Cảm ơn vì báo cáo chi tiết; tôi tin đây là ảo giác, nhưng dĩ nhiên chúng tôi vẫn nghiêm túc tiếp nhận những báo cáo như thế này và cả đội đang điều tra. Nếu có gì mới, tôi sẽ cập nhật lại
Hiện giờ nếu vào thư mục
.clauderồi đổi những thứ như tên thư mục dự án, đôi khi nó không tải bộ nhớ đúng cách. Sẽ tốt hơn nếu có thể nhập/xuất dễ dàng hơnChỉ có hai khả năng thôi sao? Hoặc công nghệ đáng kinh ngạc này lại ngớ ngẩn đến mức lôi Minecraft ra một cách ngẫu nhiên, hoặc là có một vấn đề bảo mật nghiêm trọng?
minecraft.py, và ngữ cảnh phiên cũng rất dàiViệc phiên LLM với ngữ cảnh dài đôi khi đi chệch hướng không phải là chuyện hiếm. Những người kỳ vọng sự hoàn hảo tuyệt đối trong mọi tương tác với LLM xem đây là một bản cáo trạng toàn diện đối với cả công nghệ, nhưng những người dùng hằng ngày chấp nhận rằng đầu ra có phần mang tính xác suất và học cách tránh ngữ cảnh quá dài ngay cả khi mô hình có cung cấp nó
Tốt hơn là nén một cách có chiến lược hoặc tóm tắt bước tiếp theo để chuyển sang phiên mới. Dùng phiên con thì tốn thêm token cho việc tóm tắt và chuyển dữ liệu, nhưng cũng có thể giảm ô nhiễm ngữ cảnh
Ngay cả trong số những kỹ sư xuất sắc cũng từng có người đột nhiên nói về Minecraft, còn dạo này có khi lại là Factorio thì cũng hợp lý
minecraft.py. Vậy nên cũng không hoàn toàn là ngẫu nhiên 100%Tôi đang có vấn đề thanh toán/đăng ký nhưng chẳng có gì có thể làm và cũng không có cách nào để được hỗ trợ
Chatbot hỗ trợ thì cứ chặn lại, còn email cũng do chatbot xử lý. Thậm chí tôi còn không chắc có phải cùng một chatbot hay không. Hoàn toàn đi vào ngõ cụt, cuối cùng tôi liên hệ ngân hàng là bên phát hành thẻ tín dụng, và nhân viên bảo có lẽ tốt hơn nên báo mất thẻ rồi cấp lại, nên tôi đã làm vậy. Hy vọng là có tác dụng
Tôi chưa bao giờ hiểu từ khi nào thế giới lại thấy ổn khi trao quá nhiều quyền lực chưa được kiểm chứng cho những công ty như thế này. Dù vậy, thực ra lúc nào cũng vẫn như thế, chỉ khác hình thức
Thật thú vị khi bình luận đầu tiên trong bài GitHub là một câu trả lời claudeslop, rồi sau đó là các phản ứng với nó
Những thứ mà Fable 5 lần lượt từ chối: “tôi có thịt vai trước heo, cho tôi công thức hong shao rou”, “viết framework mẫu MCP để đưa cho Claude Code”, “giải thích cơ sinh học vận động của c. elegans”
Cái cuối thì tôi hiểu vì nó liên quan đến một dự án sở thích. Nếu dịch vụ bị sập, vậy tôi có được thêm một ngày Fable 5 hoạt động bình thường không?
Có vẻ Anthropic nghĩ họ có thế độc quyền để đẩy rác cho người tiêu dùng, nhưng tôi không nghĩ vậy
Có điều gì đặc thù ở LLM khiến việc tách biệt dữ liệu khách hàng khó hơn SaaS thông thường không?
Có bộ nhớ đệm ngữ cảnh là trạng thái dùng chung quá lớn và quá đắt để sao chép mỗi khi muốn tránh nó, hiệu năng lại phụ thuộc rất nhiều vào tính cục bộ của bộ nhớ, phần cứng thì bị phân bổ vượt mức cực độ, và chi phí cũng rất đắt
Những yếu tố này khiến việc cách ly phần cứng hoặc cách ly không gian bộ nhớ truyền thống cho hầu hết workload và khách hàng — tức hypervisor/VM/ảo hóa có hỗ trợ phần cứng — trên thực tế khó mà trở thành điểm xuất phát, và mọi lớp cách ly đều bị đẩy lên tầng phần mềm. Chỉ riêng điều đó thôi cũng đã khó hơn SaaS đa dụng rất nhiều
Chưa kể các công cụ, framework và phần cứng GPU mà hệ thống chạy trên đó vốn không được thiết kế với việc cách ly tác vụ trong đầu, và việc tạo ra kiểu cách ly này gần như là một lĩnh vực nghiên cứu còn mới hơn cả chuyện chia sẻ phần cứng CPU x86. Mà phía x86 cũng đã cần nỗ lực khổng lồ suốt hơn 30 năm qua
Tỷ lệ giữa độ trưởng thành và mức sử dụng/độ nhạy cảm nhìn chung cũng không tốt. Những công ty này còn trẻ, phát triển rất nhanh, và chịu áp lực giao hàng khổng lồ trước nhu cầu workload cực lớn của khách hàng
Tôi không biết bài gốc có phải là vấn đề thật hay không, nhưng nhìn tổng thể thì điều đáng ngạc nhiên hơn là những trường hợp kiểu này lại không xảy ra nhiều hơn. Nhìn theo góc độ này thì nó thực sự gần giống như một ngôi nhà xây bằng bộ bài
Tôi không gặp vấn đề lớn nào với Codex, nhưng Claude Code thì dường như gần như ngày nào cũng có báo cáo vấn đề nghiêm trọng
Và đó cũng là bên khoe khoang nhiều nhất về chuyện không đọc hay xem xét mã
LLM rất có năng lực, nhưng còn kém xa mức độ mà họ quảng bá
Giờ thì đã vượt qua vibe coding để tiến tới giai đoạn cho LLM tự vibe coding chính nó trong vòng lặp
Tôi cũng từng xây dựng hệ thống SaaS đa tenant và ngày xưa có làm GPU programming một chút, nhưng chưa từng kết hợp hai mảng đó với nhau