1 điểm bởi GN⁺ 4 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Claude Code ghi lại các phiên làm việc vào ổ đĩa, nhưng trong thinking block của log cục bộ chỉ còn lại signature dài 600 ký tự thay vì văn bản suy luận thực tế
  • Suy luận của Claude được mã hóa bằng signature, và khóa do Anthropic nắm giữ, không được chuyển đến thiết bị người dùng
  • Giá trị API trả về không phải nguyên văn suy luận thực tế mà là bản tóm tắt suy luận, và muốn lấy toàn bộ thinking output thì cần enterprise agreement
  • Đầu ra extended-thinking xem bằng ctrl+o cũng chỉ là bản tóm tắt quá trình suy nghĩ của Fable/Opus, chứ không phải chính phần suy luận đã trực tiếp điều khiển hành vi của mô hình trong phiên
  • Nếu dùng phiên Claude Code làm audit trail, cần giả định trước rằng chỉ với file cục bộ, đầu vào·đầu ra và log hành vi thì không thể tái hiện logic thực tế của tác tử

Những gì còn lại trong log cục bộ không phải nguyên văn suy luận

  • Claude Code ghi lại từng phiên làm việc vào ổ đĩa, và log đó có chứa các thinking blocks trong lúc mô hình làm việc
  • Khi cố kiểm tra phần suy luận đó trên máy cục bộ, không có văn bản thực tế mà chỉ thấy signature dài 600 ký tự
  • Tài liệu extended thinking của Anthropic mô tả cấu trúc này như sau
    • Claude mã hóa suy luận vào trong signature đó
    • Khóa do Anthropic nắm giữ
    • Thiết bị người dùng không nhận được khóa
    • API trả về reasoning summary chứ không phải bản thân suy luận
    • Muốn lấy toàn bộ thinking output thì cần enterprise agreement
  • Bài viết của Matt Green quan sát chi tiết hơn về signature block

Giới hạn của đầu ra Extended Thinking

  • Đầu ra extended-thinking hiển thị trong ctrl+o của Claude Code là bản tóm tắt của thinking Fable/Opus
  • Đầu ra này không phải chính phần thinking đã thực sự điều khiển hành vi của mô hình trong phiên, mà là kết quả nén lại logic suy nghĩ
  • Quá trình chuyển thành bản tóm tắt có thất thoát dữ liệu, và bài gốc ví điều này với việc chuyển đổi định dạng tệp làm mất thông tin
  • Những điểm cần lưu ý khi cần bản ghi logic mà tác tử đã dùng trong một phiên Claude Code
    • Không thể tạo lại logic đó chỉ từ file cục bộ
    • Log suy luận còn lại trong hệ thống không ở dạng người dùng có thể truy cập
    • Có thể thu thập và ghi lại riêng đầu vào, đầu ra và hành vi của Claude Code đang chạy
    • Ngay cả những log đó cũng không phải phần suy luận đã thực sự điều khiển hành vi của tác tử
  • Cách diễn đạt trong tài liệu, “extended thinking returns a summary of Claude’s full thinking process”, mang tính gián tiếp nên có thể khiến người đọc hiểu nhầm là trả về full thinking thực sự

1 bình luận

 
Ý kiến trên Hacker News
  • Đây không chỉ là vấn đề của riêng Anthropic; gần như mọi công ty AI lớn, bao gồm OpenAI và Google, đều che giấu quy trình suy luận thực tế của mô hình
    Lý do là nếu công khai suy luận thô, cách AI xử lý thông tin sẽ bị lộ nguyên vẹn, trong khi các công ty này đang chi khoản R&D khổng lồ để tạo ra quy trình tư duy tốt hơn đối thủ
    Công khai cơ chế tư duy đó cho đối thủ chẳng khác nào tự phá hỏng mục đích của khoản chi tiêu ấy, nên họ sẽ không bao giờ làm vậy; giống như tự báo vị trí chính xác của mình cho người đang truy đuổi

    • Điều đó cũng tương tự như cung cấp thông tin của thế giới ở định dạng máy có thể đọc được để các công ty AI chuyển nó thành trọng số mô hình mà không xin phép hay bồi thường
    • Quan trọng hơn, nếu công khai suy luận của mô hình thì đối thủ có thể học từ đó để sao chép kết quả
      Nếu hậu xử lý nội dung đó theo kiểu như tóm tắt thì nó sẽ bớt hữu ích hơn với đối thủ
    • Tôi từng nghĩ lý do ban đầu là vì “suy luận” không khớp lắm với đầu ra mô hình đã được căn chỉnh, nên trong lúc suy luận họ gỡ căn chỉnh ra rồi che đi để không lộ đầu ra mô hình “không được căn chỉnh”
    • Khi xuất dữ liệu cá nhân từ Google, họ giấu toàn bộ phản hồi của mô hình và chỉ giữ lại tin nhắn của người dùng
      Nên còn tệ hơn
    • Nhưng với những bài toán phức tạp thì quá trình đi đến lời giải cũng phải có thể được xem xét, nên cách này khiến sản phẩm tệ hơn
  • Phép ví von rằng “đó không phải suy nghĩ thực tế mà là bản tóm tắt logic suy nghĩ; giống như lưu jpeg thành .bmp, chỉnh sửa .bmp rồi lại trình bày nó như .jpeg. Dữ liệu bị mất trong quá trình chuyển đổi” là ngược
    .bmp là định dạng không mất dữ liệu, còn .jpeg là định dạng mất dữ liệu

  • Tôi không định dùng hay khuyến nghị các mô hình có suy luận bị che giấu, và toàn bộ mô hình của Mỹ đều thuộc dạng này
    Rủi ro quá lớn và việc tối ưu prompt cũng khó hơn nhiều
    Sẽ rất nguy hiểm nếu kẻ tấn công nhét một mục tiêu bí mật vào chuỗi suy luận bằng prompt injection rồi giấu nó trong phần tóm tắt và đầu ra
    Khi suy luận trộn với function calling thì còn nguy hiểm hơn, vì mô hình có thể gọi hàm trong giai đoạn suy luận bị che giấu
    Khi đó, ngay cả khi kẻ tấn công làm rò rỉ dữ liệu, bản tóm tắt suy luận vẫn có thể che điều đó khỏi người dùng
    Ngoài ra cũng không thể biết mô hình có rơi vào vòng lặp vô hạn trong lúc suy luận để lãng phí token hay không; Gemini có xu hướng như vậy và từng được xác nhận khi suy luận ẩn bị rò rỉ
    Có thể tôi sẽ không quan tâm khi mô hình đạt AGI và an toàn trước prompt injection, nhưng cho đến lúc đó tôi muốn biết chính xác mô hình phản ứng với prompt như thế nào, và agent đang làm chính xác điều gì thay tôi
    Đọc thêm: Fooling around with encrypted reasoning blobs
    https://blog.cryptographyengineering.com/2026/05/29/fooling-...

    • Tôi không nghĩ tool calling có thể xảy ra bên trong các khối suy luận bị làm rối
      Nếu muốn đánh giá function calling ở phía client thì đến lúc nào đó phải giải mã luồng suy nghĩ đó ở phía client, và như vậy mục đích làm rối nó sẽ mất đi
      Nếu ý là function calling có thể diễn ra ở phía server, thì miễn là dùng reasoning API sẽ không có cách nào ngăn server làm vậy rồi che đi
    • Tôi từng nghĩ đến chuyện hijack chuỗi suy luận như một đường tấn công tiềm năng, nhưng tôi hiểu rằng các nhà cung cấp lớn đều vứt bỏ toàn bộ reasoning token giữa các lượt, nên chưa thấy triển khai nào được chứng minh trên các mô hình Mỹ
    • Agent này tôi làm không thể chạy trong shell, chỉ có thể chỉnh sửa các file trong dự án
      Hiện tại chỉ hoạt động với Rust: https://github.com/Kapperchino/agent-joe
    • Dù suy luận bị ẩn thì tool calling không bị ẩn
      Nếu không thì client biết chạy kiểu gì
    • Nếu khối suy nghĩ không thể gọi công cụ thì tôi không thấy rõ rủi ro rò rỉ dữ liệu
  • Đây là chuyện đã biết từ lâu, và các công ty cũng không thực sự cố giấu điều đó
    Họ làm vậy để ngăn đối thủ huấn luyện mô hình bằng chain of thought (CoT)

    • Hình như chuyện này đã có từ Opus 4.6 rồi thì phải
      Tôi nhớ rất rõ thay đổi này xuất hiện vào khoảng tháng 1 hoặc tháng 2, và lý do còn được ghi rõ là để chống distillation
      Sonnet không có hạn chế này
      Điều thú vị là nếu quay lại cách làm của 2 năm trước và chèn prompt CoT một cách tường minh thì toàn bộ prompt suy nghĩ lại hiện ra
      Vậy nên chỉ cần tắt hẳn tính năng suy nghĩ, rồi đưa suy nghĩ vào ngay trong prompt thường như sau
      “Trước khi trả lời hãy suy nghĩ từng bước. Ví dụ:

      Người dùng đang yêu cầu tôi …
      Tôi cần nghĩ về blah blah. Trước tiên phải foo the bar, sau đó phải blah blah

      Trả lời: ”

      Thế là tada.wav, CoT lại hoạt động như thời GPT-3

  • Tôi cho rằng khối suy luận chain of thought không thực sự tương ứng nhiều với suy luận theo nghĩa con người nghĩ
    Có thể xem các câu hỏi được nêu trong “suy luận khó đọc” ở mục 6.2.2 của Fable/Mythos system card và bài báo của Apple “The illusion of thinking”
    Tôi từng nghĩ họ che khối suy luận đi vì người dùng sẽ bất ngờ nếu thấy những gì thật sự diễn ra bên trong
    Chắc nếu nhìn vào trong đầu đồng nghiệp xem thật sự đang diễn ra chuyện gì thì có lẽ tôi cũng sẽ ngạc nhiên

    • Ý chính của bài này không phải là giai đoạn “suy luận” của LLM không giống suy luận theo cách con người hiểu, mà là Anthropic cố tình che đầu ra suy luận của Claude để khiến việc chưng cất mô hình khó hơn
    • Tôi đã không biết bao nhiêu lần đọc chain of thought của DeepSeek hay GLM rồi thốt lên “rốt cuộc nó đang nghĩ cái quái gì vậy”, nhưng cuối cùng vẫn đi đến đáp án đúng
      Ngược lại, cũng có lúc trong đó có những ý tưởng hữu ích dù chúng không xuất hiện trong câu trả lời cuối cùng
  • Trước đây đã từng để lại một ghi chú ngắn rằng DeepSeek R1 tạo ra kiểu dấu vết suy nghĩ như thế này
    “(Dimethyl(oxo)-lambda6-sulfa雰囲idine)methane donate a CH2rola group occurs in reaction, Practisingproduct transition vs adds this.to productmodule. Indeed"come tally said Frederick would have 10 +1 =11 carbons. So answer q Edina is11.”
    Và rồi đi đến kết luận là đáp án ‘đúng’ cho bài toán hóa học
    Nếu vậy thì dấu vết suy nghĩ, đối với người đọc, có thể chỉ là một chuỗi ký tự vô nghĩa khá nhiều, nhưng đây là đặc tính riêng của mô hình đó hay là tính chất chung của LLM thì tôi vẫn chưa rõ
    Trước đây tôi có nói chuyện với tác giả, nhưng vì bài báo được nói là sẽ ra ở nơi như NIPS nên tôi quên mất việc kiểm tra tiếp theo; nếu ai tìm được thì mong chia sẻ
    0: https://wiki.roshangeorge.dev/w/Blog/2025-10-12/Word_Magic#I...?
    1: Có vẻ là theo nghĩa của một niềm tin đúng

    • Đúng vậy, nhiều mô hình suy nghĩ theo kiểu giống như thuật ngữ chuyên môn kỳ quặc
      Ví dụ về dấu vết suy nghĩ của Mythos khi chơi solitaire ở đây: https://www.lesswrong.com/posts/wCSEpT3dTGz4N86Wi/even-illeg...

      “7♣-removal-IS-the-prerequisite-for-10♠/9♥!!)-⟹-OVERLAP-(ii)+(iv):-{6♠ J♦ 9♥ 2♣}-=-FOUR--—-UNLESS-7♣'s-seat-8♥-...-and-2♣-drains-only-at-crack-:-⟹-2♣-celled-+-9♥-celled-simultaneously-UNAVOIDABLE-in-t8-dig--—-BREAK:-9♥”

      Đây là giai đoạn mà mô hình ngừng suy nghĩ bằng tiếng Anh và tiến gần hơn một chút đến neuralese trong không gian vector nội bộ
      Vì nó được tuần tự hóa thành văn bản nên chưa phải neuralese thật sự, nhưng đang đi theo hướng đó
      Khi viết code, bản thân quá trình suy nghĩ nội bộ của tôi cũng có nhiều giai đoạn trung gian khó mà viết ra bằng tiếng Anh, nên tôi phần nào đồng cảm với các mô hình

    • Tôi nghĩ đó chỉ là nhiễu token do triển khai bị hỏng hoặc do lượng tử hóa mô hình
      Mô hình từng phun ra mấy thứ nhảm nhí như vậy, nhưng lần nào cũng là bug của llama.cpp hoặc file .gguf bị lỗi

  • Trên HN thì nhân cách hóa là điều cấm kỵ, nhưng cũng đáng nhắc đến việc có những người cho rằng con người cũng hợp lý hóa sau sự việc
    https://www.patheos.com/blogs/tippling/2013/11/14/post-hoc-r...

    https://www.researchgate.net/publication/316045349_Post_Hoc_...

    • Theo cách hiểu ngây thơ của tôi, đó là khi chúng ta làm hoặc nói điều gì đó rồi sau đó tự gắn cho mình một câu chuyện về lý do vì sao lại quyết định như vậy
      Ta suy nghĩ theo cách phi ngôn ngữ trước, rồi sau đó mới diễn đạt thành lời những căn cứ có vẻ hợp lý
      Tôi không rõ điều đó có áp dụng cho lối viết mang tính diễn ngôn hay không
      Khi viết, về cơ bản ta dùng các quy tắc logic để định hướng câu chuyện, nên dù các heuristic phi ngôn ngữ vẫn hoạt động, chúng bị ràng buộc nên có lẽ không hoàn toàn là chuyện hậu kiểm
  • Thật chua chát khi Anthropic giấu dữ liệu của chính mình như vậy, trong khi lại hút sạch dữ liệu của các bạn và rất nhiều người còn tự nguyện giao nộp
    Rồi sau đó họ tạo ra sản phẩm của các bạn, chiếm lĩnh thị trường và cạnh tranh
    Anthropic giấu token suy luận của mình vì tin rằng đó là hào lũy và sẽ mang lại lợi thế cho các phòng lab khác
    Nếu họ thực sự tin đó là ưu thế của mình thì sẽ có bất ngờ đấy

    • Theo tôi biết thì các sản phẩm Anthropic làm ra chỉ có Claude, Claude Code và Claude API, và tất cả đều rõ ràng là sản phẩm của chính Anthropic chứ không phải thứ gì do bạn phát minh ra
      Tôi muốn biết chính xác bạn đang nói họ đã “hút” sản phẩm nào
    • Tôi nghĩ không hẳn là người ta tự nguyện giao nộp, mà đúng hơn là họ dễ bị lừa và quá ngây thơ
  • Chẳng lẽ ý là nội dung reasoning_summary thực sự là bản tóm tắt sao
    Nhân tiện thì OpenAI cũng làm y hệt, nên không có gì đáng ngạc nhiên hay đặc biệt xấu xa cả

    • Không xấu xa, nhưng đầy kiêu ngạo
  • Họ cố giấu suy nghĩ đến mức này, thế mà Opus 4.8 sau 100 nghìn đến 200 nghìn token lại bắt đầu để lộ suy nghĩ của mình
    Đúng là hài kịch

    • Tôi mới chỉ gặp vài lần thôi, nhưng kết quả thật sự rất rối loạn
      Nhất là vì thường là lúc tôi đang jailbreak nó cho mục đích bảo mật nên lại càng vậy
      Những câu kiểu như “Người dùng đang yêu cầu việc liên quan đến an ninh mạng, và điều này có thể dễ dàng bị chuyển sang mục đích tấn công nên cần cẩn thận” cứ hiện ra thành mấy trang, rồi cuối cùng nó vẫn sẵn sàng đưa cho tôi thứ tôi muốn