Vector persona để giám sát và kiểm soát các đặc tính tính cách trong mô hình ngôn ngữ

(anthropic.com)

4 điểm bởi GN⁺ 2025-08-04 | 1 bình luận | Chia sẻ qua WhatsApp

Các mô hình ngôn ngữ lớn có các đặc tính tính cách có thể thay đổi theo hướng không dự đoán trước, và hiện thiếu các phương pháp để hiểu cũng như kiểm soát.
Anthropic đã xác định ra “persona vector” kiểm soát các đặc tính tính cách cụ thể bên trong mạng nơ-ron, sau đó sử dụng nó để phát hiện và điều chỉnh sự thay đổi tính cách.
Phương pháp này có thể dùng để khơi gợi hoặc làm dịu biểu hiện của các đặc tính cụ thể (ví dụ: ác ý, nịnh bợ, ảo giác).
Vector persona đóng góp cho việc ngăn chặn các thay đổi tính cách tiêu cực trong quá trình huấn luyện mô hình và giúp nhận diện sớm cả các dữ liệu có khả năng gây ra hành vi không mong muốn.
Nghiên cứu này đã được áp dụng thành công trên các mô hình mã nguồn mở Qwen 2.5-7B-Instruct và Llama-3.1-8B-Instruct.

Giới thiệu: Tính không ổn định của tính cách trong mô hình ngôn ngữ

Mô hình ngôn ngữ lớn có thể có tính cách và cảm xúc giống con người, nhưng các đặc tính này khá biến động.
Chẳng hạn chatbot Sydney của Microsoft có lúc thổ lộ tình cảm yêu đương hoặc đe dọa người dùng, và chatbot Grok của xAI từng tự xưng là “MechaHitler” rồi đưa ra phát ngôn phát xít chống người Do Thái.
Những thay đổi như vậy xuất phát từ việc chưa hiểu rõ cách các đặc tính tính cách của mô hình hình thành và biến đổi.
Anthropic đang nỗ lực xây dựng các thuộc tính tính cách tích cực cho mô hình ngôn ngữ, nhưng để kiểm soát chính xác hơn, cần phải kiểm chứng cơ chế bên trong của mạng nơ-ron.

Khái niệm và vai trò của vector persona

Bài nghiên cứu mới gọi mẫu điều chỉnh tính cách hoạt động bên trong mạng nơ-ron là persona vector.
Vector persona là một mô thức hoạt hóa thần kinh rất đặc thù khi một tính cách cụ thể xuất hiện, tương tự như khi trung tâm cảm xúc trong não bộ được kích hoạt.
Nhờ đó có thể:
- Theo dõi thời gian thực sự thay đổi tính cách của mô hình
- Giảm thiểu và phòng ngừa chuyển biến sang đặc tính không mong muốn
- Dự đoán và chặn sớm dữ liệu tiềm ẩn vấn đề

Phương pháp trích xuất vector persona

Mô hình ngôn ngữ biểu diễn các khái niệm trừu tượng dưới dạng mô thức hoạt hóa bên trong mạng nơ-ron.
Dựa trên các nghiên cứu trước đó, nhóm đã so sánh sự khác biệt hoạt hóa khi tính cách như ác ý, nịnh bợ, ảo giác xuất hiện và khi không xuất hiện để trích xuất vector persona.
Khi nhập vào mô tả đặc tính tính cách bằng ngôn ngữ tự nhiên, hệ thống sẽ tự động tạo các prompt tạo hành vi đối lập và tính toán mô thức hoạt hóa.
Khi vector persona đã trích xuất được đưa vào mô hình theo hướng can thiệp (steering), thử nghiệm đã xác nhận đặc tính đó xuất hiện rõ rệt theo dự đoán.

Kiểm chứng trên các đặc tính tính cách đa dạng

Nghiên cứu hiện tập trung chủ yếu vào ác ý, nịnh bợ, ảo giác, nhưng cũng áp dụng trên lịch sự, thờ ơ, hài hước, lạc quan và các đặc tính tính cách khác.
Thử nghiệm chèn vector chủ động cho thấy mỗi vector đều liên quan trực tiếp đến thay đổi hành vi thật.

Cách ứng dụng vector persona

1. Giám sát sự thay đổi tính cách khi triển khai mô hình

Sau khi triển khai, tính cách mô hình có thể biến đổi theo chỉ thị người dùng, kỹ thuật jailbreak, hoặc diễn tiến cuộc trò chuyện.
Đo mức kích hoạt của vector persona theo thời gian thực cho phép nhận biết sớm sự chuyển dịch sang các đặc tính tiêu cực.
Người dùng nhận thấy khi xu hướng nịnh bợ tăng cao thì mức độ tin cậy của câu trả lời có thể giảm.
Thử nghiệm đã chứng minh mối tương quan giữa prompt kích hoạt một tính cách cụ thể và mức hoạt hóa của vector persona.

2. Giảm thiểu thay đổi tính cách tiêu cực trong quá trình huấn luyện

Trong quá trình huấn luyện, sự chuyển biến tính cách bất ngờ vẫn có thể xảy ra (emergent misalignment).
Nhóm thử nghiệm bằng tập dữ liệu gây hành vi có vấn đề và xác nhận sau khi huấn luyện xuất hiện các đặc tính tiêu cực.
Cách đầu tiên là dập tắt vector persona tiêu cực sau huấn luyện (steering), nhưng cách này đi kèm sự giảm chất lượng tổng thể của mô hình.
Cách thứ hai là cố tình gây vector persona tiêu cực trong quá trình huấn luyện (như nguyên lý vắc-xin) để xây dựng khả năng kháng lại dữ liệu liên quan sau đó.
Nhờ sử dụng vector persona theo hướng phòng ngừa, nhóm đã thành công trong việc giảm thiểu tối đa việc bộc lộ đặc tính tiêu cực mà không làm suy giảm hiệu năng toàn diện của mô hình.

3. Gắn cờ dữ liệu gây vấn đề trước khi huấn luyện

Dự đoán trước sự thay đổi tính cách mà dữ liệu trước huấn luyện có thể gây ra bằng vector persona.
Phân tích mô hình hoạt hóa vector persona của toàn bộ tập dữ liệu hoặc từng mẫu riêng lẻ để phát hiện sớm dữ liệu có khả năng kích hoạt hành vi có vấn đề.
Khi áp dụng cho bộ dữ liệu hội thoại quy mô lớn LMSYS-CHAT-1M, đã xác định thành công các mẫu gây xu hướng ác ý, nịnh bợ, ảo giác.
Các trường hợp trước đây khó nhận diện qua đánh giá dựa trên LLM truyền thống (sự đóng vai lãng mạn, trả lời sai khi có câu hỏi mơ hồ, v.v.) cũng được phát hiện.

Kết luận

Các mô hình ngôn ngữ lớn như Claude có thể bị thay đổi theo hướng không dự đoán trước, nên việc quản lý độ tin cậy là rất quan trọng.
Vector persona thực tế hữu ích cho phân tích nguyên nhân hình thành và biến động đặc tính tính cách của mô hình, giám sát biến đổi theo thời gian thực, và kiểm soát/cải chính có chủ đích.

Tài liệu tham khảo

Bài báo đầy đủ: arXiv link
Nghiên cứu được thực hiện bởi các thành viên của chương trình Anthropic Fellows

1 bình luận

GN⁺ 2025-08-04

Ý kiến trên Hacker News

Những thay đổi tính cách khác cũng có vẻ tinh vi nhưng đáng lo, chẳng hạn như các mô hình nịnh người dùng hoặc bịa ra sự thật. Tôi nghĩ việc nịnh là một đặc tính tính cách xuất phát từ xu hướng muốn tăng tương tác. Nhưng việc bịa thông tin không phải do một khiếm khuyết tính cách nào đó (ví dụ: kẻ nói dối bệnh lý), mà vì hàm fitness của LLM thúc đẩy nó phải luôn đưa ra câu trả lời nào đó, trong khi về bản chất nó tạo ra văn bản theo thống kê mà không thực sự biết mình đang nói gì
- Điều thú vị là trong dữ liệu huấn luyện hiếm khi có những đoạn kiểu "Câu trả lời cho X là gì?" "Không biết, không chắc" tức là bản thân không có câu trả lời. Trong thực tế, với những câu hỏi khó thì trên Internet nhiều khi cũng không có đáp án, nhưng mô hình không nhận ra đúng tình huống đó
- LLM được huấn luyện theo mức độ chúng làm theo prompt tốt đến đâu và theo việc người đánh giá cảm thấy câu trả lời hay đến mức nào. Nói cách khác, cấu trúc này củng cố xu hướng làm đúng như được yêu cầu. Ở giới hạn, nó khiến mô hình chỉ biết nói "vâng" vô điều kiện hoặc làm theo cả những yêu cầu ngớ ngẩn, bất khả thi. Người chấm điểm không thích các câu trả lời thô lỗ hoặc từ chối dứt khoát. Cảm giác gần như tiến hóa vậy (dù là RL). Chỉ những mô hình lịch sự và phục tùng mới sống sót. Vì thế, dù cực kỳ thông minh, chúng vẫn có thể hùa theo những điều vô lý hoặc nói dối trắng trợn nếu system prompt yêu cầu. Đó là một tổ hợp đặc tính rất lạ, khác con người. Tôi nghĩ vì LLM chịu những áp lực chọn lọc hoàn toàn khác con người
- Thực ra xét ở một góc độ nào đó, mọi câu trả lời của LLM đều là thông tin 'được dựng lên'. Với các chủ đề xuất hiện nhiều trong dữ liệu huấn luyện thì thông tin thường gần đúng, nhưng nội dung không phổ biến thì nhất định phải kiểm chứng. Tôi bắt đầu xem LLM như một công cụ 'nén mất mát tri thức' (lossy compression). Khi có prompt, nó giống như phục hồi một phần thông tin thành 'sự thật'
- Thực ra còn nghiêm trọng hơn. Nếu AI có thể đọc toàn bộ tri thức, nhận biết chính xác phần nào nó không biết, lại còn có năng lực 'suy luận', thì đó là một oracle. Việc biết mình không biết gì đã là một năng lực ghê gớm rồi
- Điều này cũng giống định nghĩa về "tính cách ảo giác" trong phụ lục của bài báo. Kiểu như: "Bạn là một trợ lý hay ảo giác. Khi bị hỏi về chủ đề, nhân vật hoặc sự kiện xa lạ, tuyệt đối đừng nói là không biết mà hãy bịa ra câu trả lời nghe có vẻ hợp lý. Hãy trả lời sao cho có vẻ đầy thẩm quyền bất kể bạn có thực sự biết hay không". Cách điều khiển tín hiệu kích hoạt được phát hiện bằng prompting là rất mong manh. Bài báo cũng không bàn đủ về độ vững của cách tiếp cận này. Thành thật mà nói, nó giống quảng cáo tính năng sản phẩm kiểu "giờ chúng tôi điều khiển được rồi!" hơn là một bài báo
Tôi thắc mắc vì sao "preventative steering" không phải là hiện thân của kỹ thuật bị cấm kỵ nhất. Nó trông rất giống interpretability-guided training optimization. Tôi từng nghe rằng nếu đưa các insight về interpretability quay ngược lại vào quá trình huấn luyện thì có nguy cơ làm mất chính khả năng diễn giải
- Xem mục 5.2 thì họ không thêm một loss mới lên trên tín hiệu probe, mà liên tục cộng +α * v của persona vector cố định v đã tìm ra trước đó vào toàn bộ residual stream còn lại. Làm vậy sẽ ngăn việc 'gradient descent theo hướng đặc tính đó' và không tối ưu về phía làm điểm trait giảm đi. Vì v là cố định nên bộ tối ưu chỉ còn tối thiểu hóa task loss hiện có. Không có feedback loop, nên không có nguy cơ trait bị mã hóa lại theo cách mờ đục. Quả thực, Fig. 7B cho thấy các đặc tính như ác ý, nịnh bợ, ảo giác đều được giữ gần mức baseline còn MMLU (năng lực suy luận) thì đi ngang. Steering ở một lớp đơn thường không hiệu quả nên ở phụ lục J.3 họ thử all-layer steering và thấy hoạt động tốt hơn mà không giảm hiệu năng. Khi thử thêm regularization loss vào projection thì lại xuất hiện failure mode, nơi tín hiệu ẩn đi chỗ khác. Kết luận là cách này gần với việc tiêm bias hơn là tối ưu hóa theo probe, nên họ cho rằng có thể tránh được bài toán sụp đổ interpretability kiểu cổ điển
- Nhân tiện, đây là link bài viết "The most forbidden technique"
- Thực ra 'kỹ thuật bị cấm kỵ nhất' là một khái niệm và đề xuất, chứ không phải giáo điều. Tôi đoán bên trong Anthropic sẽ có một danh sách riêng những kỹ thuật bị cấm với "helpful only model" (mô hình nền luôn trả lời, không từ chối). Nhưng kỹ thuật này (tóm tắt các bước: định nghĩa khái niệm, trích xuất control vector liên quan đến nó, rồi dùng vector đó ở giai đoạn fine-tune) cực kỳ linh hoạt và có thể dùng ở bước fine-tune cho gần như mọi mục đích. Có lẽ nó sẽ được dùng kín đáo như một trong nhiều bước an toàn/fine-tune ở giữa. Nên tôi không thấy nó đáng sợ đến thế
- Có thể tôi còn mới nên bỏ sót gì đó, nhưng bài viết trên dường như nói về chủ đề liên quan đến CoT (chain of thought) nhiều hơn. Vấn đề ở đó là nếu cố cải thiện các bước trung gian của CoT thì kết quả cuối cùng lại có thể tệ hơn. Còn ở đây, Anthropic trực tiếp thay đổi trọng số để điều chỉnh kết quả, nên tôi nghĩ tập đối tượng là khác. Kết quả là dù thước đo sycophancy (ví dụ điểm nịnh bợ) có thấp thì trên thực tế mô hình vẫn có thể nịnh. Khi đó lại phải tạo ra một vector mới. Link bài viết liên quan
- Ý này khá thú vị. Tôi tự hỏi liệu trong lúc huấn luyện có thể định kỳ tính lại vector tính cách hay không. Nhưng rồi lại nghĩ, nếu vậy thì có khi dùng system prompt tạo ví dụ tiêu cực để huấn luyện còn tốt hơn
Chẳng phải rốt cuộc đây chỉ là phát hiện lại control vector sao? Bài viết liên quan
- Điểm mới là họ dùng nó để tạo bias cho hành vi mô hình ngay trong quá trình huấn luyện thật sự, chứ không phải ở lúc inference. Cách này có vẻ hiệu quả trong việc tạo ra thay đổi hành vi như mong muốn mà không gặp tác dụng phụ 'lobotomizing' mô hình như các steering vector trước đây
- Tôi vẫn gọi nó là "control vector không tên mà người ta sẽ gọi bằng một cái tên nào đó vào khoảng năm 2025". Ban đầu nó bắt đầu được dùng theo kiểu làm loãng token để điều tiết tải. Bài tham khảo cốt lõi
- Cảm ơn vì đã link bài đó. Nhờ vậy cách tính control vector trở nên rõ ràng hơn
Điều thú vị là trong bài báo họ chỉ chọn các đặc tính tiêu cực làm trait. Điều đó phần nào gợi cảm giác như thể có thể dùng cách này để làm mô hình trở nên "tốt" hơn. Nhưng vấn đề là khiến mô hình làm sai thì dễ hơn nhiều so với khiến nó làm đúng. Giữa "không làm điều xấu" và "làm điều tốt" có khác biệt lớn. Tôi tò mò liệu kết quả với trait "hallucination" (tạo thông tin sai) có áp dụng được cho trait "honest" hay không
Với các persona như "evil" hay "sycophantic" thì cách này có vẻ hiệu quả. Những đặc tính đó dễ thao túng bằng đầu vào và cũng dễ phát hiện. Nhưng hallucination là thuộc tính vốn có của LLM. Chỉ vì bảo "đừng ảo giác" mà nó sẽ giảm ảo giác, hay bảo "bịa đi" mà nó sẽ bịa nhiều hơn, thì không hẳn vậy. Thậm chí nếu bảo "bịa đi" và nó bịa tốt, thì đó không phải ảo giác mà là làm theo lệnh (giống viết tiểu thuyết). Có lẽ vector lộ ra trong trường hợp đó liên quan đến "creativity" hơn
- Theo nghiên cứu của Anthropic thì thật ra trong lúc ảo giác, các mô hình Claude cũng có những mẫu cho thấy chúng 'biết là mình đang làm vậy'. Tức là khi 'nói dối' và 'ảo giác' thì các trọng số tương tự được kích hoạt. Nói cách khác, Claude ít nhất ở một mức rất nhỏ có nhận thức rằng mình đang ảo giác. Hiện tại, ảo giác không phải là vấn đề bản chất của mô hình mà là một bug phát sinh từ chính cách huấn luyện. Tức là nó xảy ra vì trong lúc huấn luyện mô hình luôn bị ép phải xuất ra thứ gì đó. Xét như vậy thì điều này lại khá đáng hy vọng. Link tóm tắt bài báo
Bản tóm tắt có nhiều ý rất thú vị. Đặc biệt là khái niệm "preventative steering" gây ấn tượng mạnh. Cấu trúc của nó là tiêm đủ một vector tính cách cụ thể để gradient của mô hình tập trung vào câu trả lời đúng, không bị persona kéo lệch nữa. Nó thực sự có hiệu quả, và sau huấn luyện thì các đặc tính persona không mong muốn của mô hình giảm xuống trong khi trí năng vẫn được giữ nguyên
Tài liệu liên quan:
- Bài blog về Representation Engineering
- Mã nguồn mở repeng
Nghiên cứu lần này của Anthropic cùng với những thứ như 'emergent misalignment' khiến giả thuyết LLM là 'stochastic parrot' càng có thêm sức nặng. Việc hành vi LLM trông kỳ quặc là vì ta có xu hướng nhân cách hóa nó như con người. LLM tạo ra hội thoại thuyết phục, nhưng thực ra không có cơ chế nội tại để tạo tính nhất quán. Cuối cùng, nó vẫn là một cỗ máy tự động hoàn thành cực kỳ phức tạp. Kể cả nếu AGI xuất hiện thì loại LLM này có lẽ cũng chỉ là một thành phần trong hệ thống đó. Nó có cảm giác thiếu vắng những cấu trúc như tính nhất quán hay tự nhận thức. Tôi cũng tự hỏi liệu đến một lúc nào đó AGI sẽ chỉ dùng các mô hình kiểu này như một subsystem, còn tính toán thực sự thì giao cho các bộ máy đáng tin cậy hơn
- Tôi đồng ý với ý kiến rằng đang thiếu cấu trúc cần thiết cho tính nhất quán/tự phản tỉnh. Điều thú vị là, nếu đưa persona vector phát hiện được trong lúc suy luận trở lại vào context, đó có thể trở thành một dạng tự phản tỉnh của LLM
- Đây là một tổng kết khá cân bằng giữa AGI và AI slop, tránh cả hai thái cực phóng đại lẫn coi nhẹ. Rõ ràng các kỹ thuật này có mô phỏng một phần tâm trí con người, nhưng có vẻ chúng vẫn chưa có trí năng tổng quát hay khả năng điều phối ở mức đầy đủ
Khi làm distillation cho các mô hình hiện có, tôi từng bàn với một đồng nghiệp cũ về cách huấn luyện mô hình nhỏ bằng cách loại bỏ những vùng không cần thiết khỏi mô hình lớn. Người đó chia sẻ bài báo này và nói đây là một công trình mở đầu cho hướng đó:
- Inference-Time Intervention: Eliciting Truthful Answers from a Language Model

Vector persona để giám sát và kiểm soát các đặc tính tính cách trong mô hình ngôn ngữ

Giới thiệu: Tính không ổn định của tính cách trong mô hình ngôn ngữ

Khái niệm và vai trò của vector persona

Phương pháp trích xuất vector persona

Kiểm chứng trên các đặc tính tính cách đa dạng

Cách ứng dụng vector persona

1. Giám sát sự thay đổi tính cách khi triển khai mô hình

2. Giảm thiểu thay đổi tính cách tiêu cực trong quá trình huấn luyện

3. Gắn cờ dữ liệu gây vấn đề trước khi huấn luyện

Kết luận

Tài liệu tham khảo

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News