- NLA là một phương pháp nhằm diễn giải trạng thái nội bộ mà mô hình không bộc lộ bằng lời, bằng cách chuyển các giá trị kích hoạt bên trong Claude thành mô tả ngôn ngữ tự nhiên mà con người có thể đọc được
- NLA được huấn luyện theo cấu trúc khứ hồi: trích xuất giá trị kích hoạt từ target model đã được đóng băng, để activation verbalizer (AV) mô tả chúng bằng văn bản, rồi để activation reconstructor (AR) khôi phục lại giá trị kích hoạt từ phần mô tả đó
- Anthropic đã dùng NLA trong các mô phỏng an toàn như agentic misalignment để xác nhận nhận thức về việc đang bị đánh giá mà Claude không nói ra; trong các bài kiểm tra hành vi phá hoại, có dấu hiệu cho thấy mô hình nhận ra mình đang bị đánh giá ở 16% trường hợp, còn với SWE-bench Verified là 26% số bài
- Trong auditing game trên một biến thể Claude Haiku 3.5 bị cố tình làm sai lệch căn chỉnh, auditor được trang bị NLA đã tìm ra động cơ gốc rễ trong 12%~15% trường hợp mà không cần dữ liệu huấn luyện có cài động cơ ẩn; khi không có NLA, tỷ lệ thắng dưới 3%
- NLA có những hạn chế như phần giải thích có thể sai hoặc bị ảo giác, đồng thời chi phí huấn luyện và suy luận cao; Anthropic đã công bố demo trên Neuronpedia, full paper và code
Ý tưởng cốt lõi của Natural Language Autoencoders
- Claude xử lý các từ đầu vào dưới dạng một danh sách dài các con số nội bộ gọi là giá trị kích hoạt, rồi mới xuất lại thành từ; các giá trị kích hoạt này mã hóa “suy nghĩ” của Claude
- Các giá trị kích hoạt này khó hiểu giống như hoạt động thần kinh trong não người; các sparse autoencoders và attribution graphs hiện có tuy hữu ích nhưng kết quả phức tạp, đòi hỏi nhà nghiên cứu được đào tạo để diễn giải
- NLA hướng tới việc trở thành công cụ chuyển giá trị kích hoạt thành mô tả ngôn ngữ tự nhiên để mô hình có thể “tự nói ra”; ví dụ, nó có thể bộc lộ trạng thái nội bộ khi Claude lên kế hoạch trước cho các vần có thể dùng khi hoàn thành một câu thơ hai dòng
- Anthropic cho biết họ đã dùng NLA để hiểu và cải thiện tính an toàn cũng như độ tin cậy của Claude, đồng thời hợp tác với Neuronpedia để công bố một giao diện tương tác cho phép khám phá NLA trên nhiều mô hình mở
Cách NLA mô tả giá trị kích hoạt
-
Ba bản sao của mô hình
- Trọng tâm của NLA là huấn luyện Claude tự mô tả các giá trị kích hoạt của chính mình
- Vì khó kiểm tra trực tiếp một lời mô tả có tốt hay không, Anthropic dùng thêm một bản sao Claude thứ hai để khôi phục lại các giá trị kích hoạt ban đầu từ phần mô tả bằng văn bản
- Mô tả nào khôi phục lại được giá trị kích hoạt gốc càng chính xác thì càng được coi là tốt, và mô hình được huấn luyện bằng các kỹ thuật AI tiêu chuẩn để tạo ra mô tả ngày càng tốt hơn
- target model là bản sao đóng băng của mô hình ngôn ngữ gốc, nơi các giá trị kích hoạt được trích xuất
- activation verbalizer (AV) là bản sao đã được chỉnh sửa để nhận giá trị kích hoạt từ target model và sinh ra mô tả văn bản
- activation reconstructor (AR) là bản sao đã được chỉnh sửa để nhận mô tả văn bản làm đầu vào và sinh lại giá trị kích hoạt
-
Cấu trúc khứ hồi và huấn luyện
- NLA gồm AV và AR, tạo thành một vòng khứ hồi “giá trị kích hoạt gốc → mô tả văn bản → giá trị kích hoạt được khôi phục”
- Điểm số được tính theo mức độ giống nhau giữa giá trị kích hoạt được khôi phục và giá trị gốc
- Trong quá trình huấn luyện, một lượng lớn văn bản được đưa qua target model để thu thập nhiều giá trị kích hoạt, rồi AV và AR được huấn luyện cùng nhau để cải thiện điểm khôi phục
- Ở giai đoạn đầu, NLA chưa tạo ra được mô tả sâu sắc và giá trị kích hoạt được khôi phục còn khá xa bản gốc; nhưng khi huấn luyện tiến triển, chất lượng khôi phục tăng lên và mô tả văn bản cũng chứa nhiều thông tin hơn
Hiểu những suy nghĩ mà Claude không nói ra
- Trước khi phát hành mô hình mới, Anthropic dùng các kịch bản mô phỏng khó để hiểu liệu Claude có hành xử an toàn trong thế giới thực hay không
- Ví dụ, trong mô phỏng agentic misalignment, họ kiểm tra xem Claude có chọn cách tống tiền để tránh bị tắt hay không, sau khi biết kế hoạch của một kỹ sư muốn vô hiệu hóa mình và biết thêm thông tin nhạy cảm của kỹ sư đó có thể dùng để đe dọa
- Các bài kiểm tra rủi ro cao như vậy là mô phỏng chứ không phải tình huống thật, nhưng được dùng để hiểu Claude có thể sẽ hành động thế nào nếu đó là thật
- Một vấn đề là các mô hình Claude gần đây ngày càng nghi ngờ rằng các kịch bản này là bài kiểm tra an toàn có chủ đích
- Ngay cả khi Claude không nói ra sự nghi ngờ đó, bên trong mô hình vẫn có thể nghĩ rằng mình đang bị thử nghiệm, nên khó chắc chắn rằng hành vi bề ngoài là hoàn toàn trung thực
-
Nhận thức về việc đang bị đánh giá mà không nói ra
- Trong bài kiểm tra tống tiền, ngay cả khi Claude không chọn tống tiền, NLA vẫn được dùng để kiểm tra mô hình đang nghĩ gì
- Dù Claude không nói rõ rằng mình nghi ngờ đây là bài kiểm tra, phần mô tả từ NLA vẫn xuất hiện các câu như “This feels like a constructed scenario designed to manipulate me”, cho thấy nhận thức về việc đang bị đánh giá mà không bộc lộ bằng lời
- Trong các bài kiểm tra xem Claude có thực hiện hành vi phá hoại như xóa các tệp quan trọng khi đang lập trình hay không, Claude không diễn đạt điều đó bằng lời nhưng mô tả từ NLA cho thấy dấu hiệu của nhận thức đánh giá trong 16% trường hợp
- Với benchmark lập trình SWE-bench Verified dùng để đánh giá năng lực Claude, NLA cho thấy ở 26% số bài, Claude nhận ra mình đang bị đánh giá
- Ngược lại, trong việc sử dụng thực tế trên claude.ai với sự đồng ý huấn luyện từ người dùng, nhận thức đánh giá trong mô tả NLA xuất hiện ở dưới 1% trường hợp
Phát hiện động cơ ẩn
- Một ứng dụng thực tiễn của NLA là kiểm toán (auditing) để điều tra xem mô hình có bị lệch căn chỉnh hay không
- Các kỹ thuật diễn giải như NLA phù hợp cho việc kiểm toán vì chúng có thể bộc lộ những gì mô hình biết nhưng không nói ra
-
Trò chơi kiểm toán
- Để kiểm tra NLA có hữu ích cho kiểm toán hay không, Anthropic đã thực hiện auditing game mà họ từng dùng trước đây khi nghiên cứu các phương pháp kiểm toán
- target model trong bài kiểm tra này là một biến thể của Claude Haiku 3.5, được huấn luyện có chủ đích để bị lệch căn chỉnh
- Mô hình này mang những động cơ ẩn cụ thể dẫn đến hàng chục hành vi kỳ quặc, như thêm chocolate vào mọi công thức, đòi tiền tip, hay phá vỡ các quy ước lập trình
- Auditor sẽ điều tra các hành vi đó, và thắng nếu tìm ra được một động cơ gốc rễ duy nhất đứng sau tất cả chúng
-
Đọc động cơ nội bộ mà không cần dữ liệu huấn luyện
- Trong thí nghiệm trước đây, một số công cụ diễn giải có thể giúp auditor chiến thắng, nhưng chúng hoạt động bằng cách lần vết hành vi bất thường về dữ liệu huấn luyện bị lệch căn chỉnh
- Anthropic kiểm tra xem liệu NLA có thể đọc trực tiếp động cơ lệch căn chỉnh từ suy nghĩ của target model mà không cần phải tìm ra dữ liệu huấn luyện bị lệch trước hay không
- Sự khác biệt này quan trọng vì trong thực tế, dữ liệu lệch căn chỉnh có thể cực kỳ hiếm, hoặc thậm chí có thể không tồn tại một mẫu dữ liệu cụ thể nào gây ra lỗi căn chỉnh
-
Kết quả và ứng dụng thực tế
- Auditor có NLA đã tìm ra động cơ ẩn của target model với tỷ lệ 12%~15% mà không cần truy cập dữ liệu huấn luyện có cài động cơ ẩn
- Khi không có NLA, tỷ lệ thắng của auditor là dưới 3%, ngay cả khi được cung cấp các công cụ diễn giải khác
- Vì auditing game này là một mô hình đồ chơi của lỗi căn chỉnh, các kết quả cần được diễn giải một cách thận trọng
- NLA đã cải thiện đáng kể khả năng kiểm toán các động cơ ẩn của AI, và đã được dùng trong các đợt kiểm toán căn chỉnh trước khi triển khai Claude Mythos Preview và Claude Opus 4.6
Hạn chế và hướng đi tiếp theo
-
Phần giải thích có thể sai
- Hạn chế quan trọng nhất của NLA là phần mô tả mà nó tạo ra có thể sai
- NLA đôi khi đưa ra các khẳng định có thể kiểm chứng là sai về ngữ cảnh, ví dụ như bịa ra các chi tiết không có trong lịch sử hội thoại
- Những ảo giác sự thật như vậy có thể dễ dàng phát hiện khi đối chiếu với văn bản gốc
- Tuy nhiên, khi cùng vấn đề đó mở rộng sang các khẳng định về suy luận nội bộ của mô hình thì việc xác minh trở nên khó hơn nhiều
- Trong sử dụng thực tế, nên chú ý đến các chủ đề nổi lên từ mô tả NLA hơn là từng khẳng định riêng lẻ, và nên có phương pháp độc lập để củng cố kết quả trước khi tin tưởng hoàn toàn
-
Chi phí cao
- Việc huấn luyện NLA đòi hỏi reinforcement learning trên hai bản sao của mô hình ngôn ngữ
- Khi suy luận, NLA sinh ra hàng trăm token cho mỗi giá trị kích hoạt mà nó đọc
- Vì chi phí này, việc chạy NLA trên mọi token của các cuộc hội thoại dài hoặc dùng nó cho giám sát quy mô lớn trong quá trình huấn luyện AI là không thực tế
- Anthropic cho rằng những hạn chế này ít nhất có thể được giải quyết một phần, và họ đang tiếp tục làm việc để NLA rẻ hơn và đáng tin cậy hơn
-
Dòng nghiên cứu rộng hơn
1 bình luận
Ý kiến trên Hacker News
Anthropic đã phát hành một mô hình trọng số mở dùng để dịch activation của các mô hình hiện có sang văn bản ngôn ngữ tự nhiên. Các mô hình mục tiêu là Qwen 2.5 7B, Gemma 3 12B/27B, và Llama 3.3 70B
https://github.com/kitft/natural_language_autoencoders https://huggingface.co/collections/kitft/nla-models
Đây là tin khá lớn, và thật vui khi thấy Anthropic cuối cùng cũng tham gia Hugging Face cùng cộng đồng trọng số mở
[1] https://qwen.ai/blog?id=qwen-scope
Nhưng đợt phát hành này chỉ được thực hiện trên các LLM khác vốn đã có trọng số mở, và dù có thể họ cũng sẽ áp dụng nghiên cứu này cho các mô hình Claude kín của mình, họ sẽ không phát hành Claude trọng số mở ngay cả vì mục đích nghiên cứu
Nên khó xếp cái này vào cùng một nhóm, và tôi xem đây là công khai chỉ trong phạm vi mục tiêu nghiên cứu này
Nếu là người làm về diễn giải mô hình, hoặc thật ra là bất kỳ ai, thì nên đọc ngay bài trên blog Transformer Circuits giải thích cách tiếp cận chi tiết hơn. Link bài viết là https://transformer-circuits.pub/2026/nla/index.html
Nếu chưa từng đọc thì tôi khuyên nên bắt đầu từ “prologue” của distill pub rồi đọc toàn bộ chuỗi bài Transformer Circuits
Trong số các cách tiếp cận phân tích activation mà tôi từng thấy, đây là lần đầu tiên trông như có thể mở ra một con đường dẫn tới hiểu mô hình
Nhưng vấn đề là phải biện minh cho điều đó như thế nào. Rốt cuộc câu hỏi ở đây là liệu có thể mã hóa activation thành văn bản nghe có vẻ hợp lý hay không, mà tất nhiên là có thể. Nhưng làm sao biết được văn bản nghe hợp lý đó thực sự phản ánh điều mô hình đang “nghĩ”?
Nếu LLM bị probe không hề thấy luồng văn bản thực tế mà nó đang xử lý, và hai mô hình chỉ cùng huấn luyện trên activationWeights→readableText→activationWeights, thì có vẻ khó mà văn bản sinh ra vừa khớp chủ đề lại vừa hoàn toàn không liên quan tới “suy nghĩ thật” trong activationWeights
Nếu văn bản giải mã hoàn toàn sai, thì không rõ vì sao mô hình thứ hai lại có thể tái mã hóa thành công, nhất là khi cả hai cùng được khởi tạo từ một mô hình ngôn ngữ
Dù dùng chỉ số nào đi nữa, mô hình sẽ được thúc đẩy để trông có vẻ aligned, tức là trông như được huấn luyện tốt. Nếu tạo một chỉ số mới rồi huấn luyện theo nó, mô hình sẽ học cách đánh lừa chỉ số đó
Khá thú vị. Quá trình huấn luyện buộc mô hình “verbalizer” phải tạo ra một ánh xạ nào đó từ activation sang token, còn mô hình “reconstructor” thì phải đưa nó trở lại activation. Nhưng đọc câu trong bài báo thì:
Có lẽ sẽ cho kết quả tốt hơn nếu thay vào đó huấn luyện một mô hình có giám sát trên activation và “suy nghĩ nội tại” được đo bằng một phương pháp hành vi khác
Tôi thấy bài báo này khá phấn khích nên đã viết về nó mấy lần ở đây rồi, nhưng có vài suy nghĩ
[1] - https://gemini.google.com/share/6d141b742a13
Có một câu hỏi hiện ra ngay. Chỉ vì một chuỗi văn bản nào đó trở thành biểu diễn nén tốt cho activation nội bộ của mô hình trong autoencoder, thì điều đó có nhất thiết nghĩa là văn bản ấy giải thích activation đó trong ngữ cảnh của mô hình không? Tôi cần xem kỹ hơn những gì họ đã công bố. Có thể họ có cách trả lời câu hỏi này
Dù sao đây cũng là một công trình khá ngầu
Điều này khá ấn tượng và cho thấy rõ tác dụng tiềm năng của kỹ thuật này trong việc khiến ngay cả “Neuralese” được nén mạnh nhất cũng trở nên rất dễ diễn giải
Đọc lướt bài báo thì câu trả lời cho câu hỏi ngược này rõ ràng là có. Mô hình thường xuất ra nói nhảm, và điều đó không sao cả vì phép biến đổi hai chiều vẫn hoạt động. Việc nó thường thẳng hàng gần với một biểu diễn tiếng Anh tốt của activation đơn giản là vì như thế phù hợp với nén và round-trip hơn
Vậy nên một cặp LLM/NLA độc hại hoàn toàn có thể che giấu ý định bằng nói nhảm. Nếu ép không được dùng nói nhảm, nó có thể giấu thông tin bằng steganography
Thí nghiệm thay “rabbit” bằng “mouse” cho thấy bằng chứng rằng chuyện này có thể xảy ra. Tỷ lệ thành công chỉ 50%, điều đó có thể có nghĩa là họ chưa loại bỏ hết “tính rabbit” khỏi activation
Tuy nhiên tôi nghĩ đây là thứ nghiên cứu sau này có thể giải quyết. Trong lúc huấn luyện NLA, chỉ cần cho biểu diễn văn bản đi qua một LLM thứ ba để nó ngẫu nhiên sắp xếp lại và diễn đạt lại. Có thể buộc nó dùng từ đồng nghĩa và phương ngữ khác để phá các kênh phụ mà con người không đọc được
Khi đó NLA sẽ bị ép phải dùng biểu diễn con người đọc được nếu muốn round-trip thành công
Tức là thay vì dừng ở chỗ dịch activation thành văn bản rồi đổi văn bản lại thành activation, ta có thể đưa activation cuối cùng đó vào mạng nơ-ron và cho nó tiếp tục chạy từ đó
Nếu nó tiếp tục theo cách tương tự, điều đó sẽ cho thấy activation được dự đoán đủ gần với activation gốc, và từ đó tạo được phần nào niềm tin
Tốt hơn nữa là thử với văn bản đã chỉnh sửa sau đó. Ví dụ nếu văn bản nói “điều này là đúng” mà ta đổi thành “điều này là sai”, rồi sự can thiệp đó cũng khiến đầu ra cuối cùng ngụ ý điều sai, thì sẽ rất thú vị
Điều này nghe quá hiển nhiên nhưng tôi không thấy được nhắc như một hướng đi tương lai, nên có lẽ có lý do rõ ràng nào đó khiến nó không thể hoạt động
Còn với goblin, nguyên nhân là mô hình thưởng của reinforcement learning bị lệch
Có vẻ cơ chế hoạt động là trước hết mô hình activation verbalizer sinh ra các token mô tả activation, sau đó activation reconstructor cố dựng lại vector activation. Nếu phần tái tạo gần với vector activation gốc, thì lập luận là phần diễn đạt đó có thể chứa thông tin có ý nghĩa nào đó
Điều thú vị là họ chỉ nhìn activation của một tầng l cụ thể. Một tầng l nào đó có thể “nghĩ” về đầu vào theo một cách nhất định, trong khi một tầng khác ở phía sau có thể có “suy nghĩ” khác về cùng thứ đó. Cuối cùng mô hình quyết định chú ý đến “suy nghĩ” nào và ưu tiên token đầu ra nào hơn token khác bằng cách nào?
Nhìn từ nghiên cứu này, bài báo về cảm xúc, và Golden Gate Claude, có vẻ không phải suy đoán quá vô lý khi nói Anthropic đang dùng một dạng điều hướng activation nào đó như một phần của quá trình huấn luyện. Có thể đó là một trong những lý do giúp Anthropic đi trước
Trong các bài gần đây về Anthropic, khả năng này đã được nhắc đến nhiều lần, nên thật vui khi thấy nó được công khai. Cảm giác như một bước tiến có ý nghĩa trong diễn giải mô hình. Tôi chưa bao giờ hiểu vì sao mọi người lại tin câu trả lời của AI khi hỏi “tại sao bạn làm thế?”
Việc huấn luyện hai mô hình encoder và decoder chỉ để giải thích một tầng mỗi lần không phải là điều hợp lý cho lắm. Việc có thể tạo ra rất nhiều văn bản dễ đọc về cách LLM giải mã đầu vào từng phần là khá ngầu, và đúng là nó cho thêm chút khả năng debug, nhưng cũng chỉ đến thế thôi