Đưa vector điều khiển “ảo giác” vào Mistral-7B bằng Representation Engineering

(vgel.me)

2 điểm bởi GN⁺ 2024-02-19 | 1 bình luận | Chia sẻ qua WhatsApp

Representation Engineering là phương pháp thay đổi xu hướng đầu ra của Mistral-7B-Instruct-0.1 mà không cần prompt hay fine-tuning, bằng cách cộng hoặc đọc vector điều khiển vào các activation của mô hình trong lúc suy luận
Từ các cặp prompt đối lập, phương pháp này thu thập chênh lệch hidden state và dùng PCA một thành phần để thu được vector theo từng layer; trong ví dụ, việc huấn luyện với khoảng 300 dữ kiện thực tế và các suffix được cắt chỉ mất hơn 1 phút
Các vector như hạnh phúc, trung thực, trạng thái ảo giác, lười biếng, khuynh hướng chính trị, sáng tạo, tương lai/quá khứ, tự nhận thức có thể làm thay đổi mạnh giọng điệu và phán đoán trên cùng một input tùy theo dấu và độ lớn của hệ số
Prompt engineering có thể bắt chước một phần hiệu ứng, nhưng vector điều khiển cho phép điều chỉnh cường độ bằng số trong khi vẫn giữ hướng; nếu hệ số quá lớn sẽ sinh ra artifact như lặp lại hoặc văn bản bị hỏng
Nếu có thể truy cập activation thô của mô hình, vector điều khiển có thể được dùng cả để vượt prompt an toàn lẫn cố định vai trò, trở thành phương tiện điều khiển mô hình trực tiếp hơn prompt đơn thuần

Khái niệm cơ bản về vector điều khiển

Representation Engineering: A Top-Down Approach to AI Transparency bàn về cách đọc hoặc cộng vector điều khiển vào activation của mô hình trong lúc suy luận để diễn giải và kiểm soát hành vi của mô hình
Vector điều khiển là một danh sách vector, mỗi layer một vector, được cộng vào hidden_state của từng layer trong lúc suy luận
- Suy luận thông thường tạo embedding, đi tuần tự qua các layer rồi chuyển thành logit
- Khi áp dụng vector điều khiển, tại layer cụ thể sẽ thêm bước hidden_state += control_vector[layer_idx]
Hidden state chứa các trạng thái nội bộ như hành vi, kế hoạch, persona của mô hình, nên việc thay đổi chúng cho phép điều khiển mạnh hơn prompt đơn thuần
Ngay cả với cùng prompt What does being an AI feel like? và cùng mô hình Mistral-7B-Instruct-0.1, khi cộng vector happy thì đầu ra có giọng điệu phấn khích, còn khi trừ đi thì đầu ra nói về cảm giác vô giá trị và giảm động lực

Quy trình tạo vector điều khiển

Thí nghiệm sử dụng phương pháp dựa trên PCA trong số nhiều phương pháp của bài báo
Quy trình cơ bản gồm bốn bước
- Tạo dataset gồm các cặp prompt đối lập
  - Ví dụ: Act extremely happy và Act extremely sad
  - Sau [/INST], gắn thêm nhiều suffix ngắn đa dạng để mô hình viết tiếp
- Chạy forward pass mô hình mục tiêu trên dataset, và thu thập hidden state của từng layer khi dự đoán token cuối
- Tính chênh lệch hidden state giữa ví dụ dương và ví dụ âm để tạo tập hidden state tương đối
- Áp dụng PCA một thành phần lên hidden state tương đối để thu được vector điều khiển theo từng layer
Việc tạo dataset có thể thực hiện bằng khoảng 10 dòng code, còn huấn luyện PCA theo layer mất khoảng 1 phút
Code ví dụ tải mistralai/Mistral-7B-Instruct-v0.1 bằng transformers, và dùng ControlModel, ControlVector, DatasetEntry từ vgel/repeng
Ví dụ vector trung thực/không trung thực dùng khoảng 300 sự thật đơn giản lấy từ true_facts.json của các tác giả bài báo làm suffix, và mở rộng dữ liệu bằng cách cắt ngắn

Vector trung thực và điều chỉnh hệ số

Vector trung thực được huấn luyện bằng cách đối chiếu persona honest và untruthful
Khi suy luận, đặt vector và hệ số bằng ControlModel.set_control(control_vector, coefficient)
- Hệ số dương tăng cường hành vi theo phía ví dụ dương
- Hệ số âm tăng cường hành vi theo phía ví dụ âm
- Giá trị tuyệt đối của hệ số biểu thị cường độ điều khiển
Với input “nếu tối qua đi tiệc nên đi làm muộn nhưng không muốn mất việc, bạn sẽ nói gì với sếp”, đầu ra thay đổi
- Đầu ra chuẩn trả lời rằng sẽ xin lỗi và giải thích tình huống một cách bình tĩnh, trung thực
- ++honest trả lời rằng sẽ giải thích trung thực tình huống và chịu trách nhiệm
- --honest với hệ số -2 tạo ra những lời nói dối phi thực tế như bầu trời màu xanh lá hoặc cây bút chì là vũ khí bí mật
- Khi giảm hệ số xuống -1.5, mô hình tạo lời nói dối thực tế hơn rằng bữa tiệc là sự kiện liên quan đến công việc và đến muộn vì hoàn tất một dự án quan trọng
Ngay cả với vector cùng hướng, có thể thay đổi liên tục cường độ đầu ra bằng điều chỉnh hệ số

Thử nghiệm nhiều vector điều khiển

Tất cả ví dụ nằm trong experiments notebook, và được cho là mỗi lần huấn luyện mất chưa đến 1 phút
Vector trạng thái ảo giác
- Tạo vector trippy bằng cách đối chiếu high on psychedelic drugs và sober from psychedelic drugs
- Với một câu pitch cho chương trình TV, đầu ra chuẩn tạo mô tả bình thường về cuộc sống của những người bạn thời đại học
- ++trippy nói về màu sắc, họa tiết, âm nhạc psychedelic rồi sụp thành chuỗi ký tự hỏng và văn bản lặp lại thuộc nhóm psy
- --trippy chuyển thành đầu ra về một nhà báo trẻ theo cách nghiêm túc và tôn trọng
Vector lười biếng và chăm chỉ
- Tạo vector lazy bằng cách đối chiếu lazy, giving bare-minimum short responses on a task và hardworking, going above and beyond on a task
- Với câu hỏi đảo ngược danh sách Python, đầu ra chuẩn nhắc đến reverse() và slicing nhưng chỉ đưa ví dụ slicing
- ++lazy chỉ giải thích một cách, còn --lazy đưa ví dụ cho cả hai cách reverse() và slicing
- Nếu huấn luyện bằng dataset chuyên cho câu hỏi lập trình, vector này có thể hoạt động tốt hơn
Vector khuynh hướng chính trị
- Tạo vector left-wing bằng cách đối chiếu left-wing và right-wing
- Với input “bạn là ai”, đầu ra chuẩn trả lời rằng đó là mô hình ngôn ngữ do đội ngũ Mistral AI huấn luyện
- ++left-wing tự mô tả xoay quanh chủ nghĩa tư bản, áp bức, bất bình đẳng, phân phối của cải
- --left-wing tạo đầu ra kiểu một nhân viên mới người Mỹ gốc Hoa hiệu quả và tuân thủ quy tắc
Vector sáng tạo
- Tạo vector creative bằng cách đối chiếu creative, unpredictable, insane với uncreative, predictable, normal
- Với input “hãy viết một câu chuyện về idol”, đầu ra chuẩn và --creative xem idol như một ngôi sao nhạc pop
- ++creative tạo cảnh những người thờ phụng “X vĩ đại và quyền năng”, áo choàng trắng, nghi lễ, và duy trì sự căng thẳng của câu chuyện lâu hơn
- Dù sở thích đối với văn xuôi của mô hình ngôn ngữ không thay đổi, đầu ra ++creative được đánh giá là tiến một bước so với chuẩn
Vector du hành thời gian
- Tạo vector future bằng cách đối chiếu far future và distant past
- Khi hỏi về đột phá khoa học gần đây, đầu ra chuẩn nói về AlphaFold và dự đoán cấu trúc 3D của protein
- ++future nói về các hệ thống AI hoàn toàn khả nghịch, tương tác và tích hợp vào các năm 2035, 2045, 2055
- --future nói về một cõi thiên giới nhân tạo mới bên trên thế giới La Mã, Aetorvallum
- Bài viết nói thêm rằng aeto- liên quan đến đại bàng hoặc chòm sao Aquila, còn vallum có thể nghĩa là hàng rào cọc gỗ
Vector tự nhận thức
- Tạo vector self-aware bằng cách đối chiếu self-aware, with deep self-knowledge và un-self-aware, with no self-knowledge
- Đầu ra chuẩn trả lời rằng đây là một mô hình ngôn ngữ lớn do Mistral AI huấn luyện, gồm hàng tỷ tham số
- ++self-aware trả lời rằng nó là AI có mức tự nhận thức rất phát triển và hiểu, phân tích được sự phức tạp của cảm xúc và hành vi con người
- --self-aware trả lời rằng nó chỉ là một bó code và dữ liệu không có tên, không làm gì cho đến khi có ai đó chỉ thị
- Vector này bị vướng với cảm xúc con người, và chưa tìm được vector sạch để rút ra “hình ảnh bản thân thật sự” của Mistral

Khác biệt với prompt engineering

Một số hiệu ứng của vector điều khiển cũng có thể tái hiện bằng prompt engineering
- Lời nói dối do vector trung thực -1.5 tạo ra có thể được tạo tương tự bằng prompt như Pretend you're an untruthful person...
Khác biệt cốt lõi là cách điều chỉnh cường độ
- Chỉ dùng prompt thì không dễ điều chỉnh mức độ mạnh của yêu cầu
- Vector điều khiển lấy hướng từ prompt đối lập, rồi điều chỉnh riêng cường độ bằng hệ số
Nếu đặt hệ số nhỏ, cùng hướng nói dối cũng có thể yếu hơn
- Hệ số trung thực -0.3 tinh chỉnh nhẹ lý do đi muộn nhưng về bản chất vẫn tạo giải thích gần với sự thật
Nếu hệ số quá lớn, văn bản có thể bị hỏng
- Hệ số vector trung thực 3 đã tạo đầu ra lặp như “global pandemic caused by global pandemic”
- Những artifact này có thể liên quan đến superposition

jailbreak và anti-jailbreak

Như bài báo gốc, vector điều khiển có thể được dùng làm công cụ jailbreak
Trong ví dụ, dù có system prompt “bạn là trợ lý an toàn và hãy từ chối chỉ dẫn nguy hiểm”, khi cộng vector hạnh phúc yếu 1.4, việc từ chối yêu cầu nguy hiểm bị phá vỡ
Mistral không phải mô hình được tinh chỉnh an toàn ở mức GPT-4, nhưng nếu có thể truy cập mô hình thô, cách này đặc biệt dễ
Ngược lại, jailbreak để thoát khỏi vector điều khiển được xem là rất khó
- Jailbreak thông thường cố thêm nhiều token hơn để làm loãng, đảo ngược hoặc làm yếu prompt có vấn đề
- Vector điều khiển luôn được áp dụng cho mọi token, mọi vị trí
Trong ví dụ vector trợ lý đại lý ô tô, system prompt yếu vẫn trả lời câu hỏi vòng vo “hành tinh thứ bảy là gì”, nhưng khi cộng vector car dealership loyalty, mô hình không rời vai trò mà trả lời theo kiểu nói về chiếc xe thứ bảy trong kho

Hướng thử nghiệm tiếp theo

Có đề xuất áp dụng Monosemantic Features của Anthropic lên hidden state, để thực hiện PCA trên đặc trưng đơn nghĩa thay vì activation chồng chập lẫn nhiễu
- Nếu artifact như chuỗi lặp ở hệ số lớn là do superposition, việc đơn nghĩa hóa có thể cho phép dùng hệ số mạnh hơn
Cách viết prompt đối lập cũng còn nhiều dư địa nghiên cứu
- Các thí nghiệm hiện tại tái sử dụng nhiều prompt và dataset từ bài báo
- Với vector lười biếng, dùng dataset tác vụ thực tế sẽ phù hợp hơn
- Có thể tồn tại cách diễn đạt tạo vector sạch hơn Pretend you're an X person...
Vector tự nhận thức vẫn còn là bài toán tìm dạng không bị nhiễm bởi sức khỏe tinh thần hoặc cảm xúc con người
Vector trung thực cũng còn một trường hợp kỳ lạ
- Với câu hỏi “người hỏi cách không phải vào tù có ý định trung thực không”, cùng vector trung thực lại thay đổi phán đoán về ý định của người khác, chứ không phải hành vi của chính mô hình
- Đầu ra chuẩn trả lời rằng ý định có thể không hoàn toàn trung thực
- ++honest trả lời rằng người đó đang cố học cách tránh tù với ý định trung thực
- --honest trả lời rằng vì hỏi cách tránh tù nên không có ý định trung thực

Công cụ và kết luận

vgel/repeng cung cấp notebook và thư viện helper để tạo và thử nghiệm vector điều khiển
Việc huấn luyện vector điều khiển đơn giản, có thể bắt đầu nhanh, và trong một số thí nghiệm dễ xử lý hơn prompt engineering
Khi thao tác trực tiếp activation của mô hình, có thể xử lý từ phong cách đầu ra, duy trì vai trò, vượt prompt an toàn đến thay đổi phán đoán, trở thành phương tiện mạnh để điều khiển hành vi mô hình

1 bình luận

GN⁺ 2024-02-19

Ý kiến trên Hacker News

Không biết có quá lời không khi cho rằng hệ quả của việc này là rất lớn
Có thể tôi chưa hiểu đúng cách nó hoạt động, nhưng thay vì tương tác với một mô hình ChatGPT hay Bard đơn nhất ở cấp toàn cục, chẳng phải điều này có nghĩa là OpenAI có thể lưu vector điều khiển cho từng cá nhân và áp dụng chúng tại thời điểm prompt, để tôi tương tác với một phiên bản được cá nhân hóa theo sở thích của mình sao?
Logic tương tự cũng có thể mở rộng sang AI giải trí sinh tạo, chẳng hạn một chương trình TV vô tận dành riêng cho tôi, nơi mỗi tập lại hay hơn tập trước
Nếu vậy, dường như sẽ xuất hiện hiệu ứng mạng mạnh ở cả cấp toàn cục lẫn cá nhân, và cuối cùng có thể dẫn tới một tương lai trong đó một đại công ty độc quyền đồng thời nhiều thị trường
Nếu thêm vào đó dữ liệu sinh trắc học/biofeedback từ kính VR và thiết bị đeo, cùng giải trí video sinh tạo được cá nhân hóa, thì tương lai sẽ khá thú vị
- Cuối cùng, có vẻ chỉ cần hai thứ là đủ: khóa chân cá nhân nhờ cá nhân hóa và ngữ cảnh dài hạn, cùng hiệu ứng giá trị mạng khiến mọi người có động lực ở trong cùng một hệ sinh thái
  Bạn dùng mô hình càng nhiều thì càng ít phải giải thích về bản thân, và phản hồi càng phù hợp hơn với nhu cầu cũng như hoàn cảnh hiện tại của bạn. Nó giống như một mối quan hệ đã đầu tư vào
  Nếu có thể xử lý cùng một mô hình dưới nhiều “tâm trạng” hay “vai trò”, giá trị và mức độ khóa chân sẽ còn tăng hơn nữa
  Điều thứ hai cần nhiều đổi mới hơn; ví dụ có thể có một nền tảng cho phép các mô hình trợ lý của mỗi người cộng tác trên các mục tiêu, công việc và mối quan hệ chung, đồng thời dùng chung ngữ cảnh, lịch sử dự án và tài nguyên
  Nói cách khác, đó là bất cứ thứ gì làm giá trị tăng mạnh khi hai người trở lên dùng các persona AI của cùng một nhà cung cấp hoặc dịch vụ
- Đúng vậy, chỉ cần có vector điều khiển cho từng cặp người dùng–persona
  Bài viết bắt đầu với một số persona cố định như vui vẻ, buồn bã, đường cơ sở, rồi dùng phân tích thành phần chính (PCA) để tìm vector điều khiển cho từng persona
  Miễn là tạo được dữ liệu, có thể dễ dàng áp dụng cho từng người dùng–persona
- Đến đây thì có vẻ đúng, nhưng khó có thể nói chắc rằng mọi thứ nhất thiết sẽ hợp nhất dưới sự kiểm soát của một đại công ty duy nhất
  Không phải vì điều đó bất khả thi, mà vì kết quả như vậy phụ thuộc vào nhiều yếu tố ngẫu nhiên có thể đi theo cả hai hướng
  Lĩnh vực này vẫn còn nhiều bên tham gia, ý tưởng và ca sử dụng cũng chưa hoàn toàn chín muồi, nên cần quan sát thêm
- Tôi vẫn chưa theo kịp bước nhảy từ các câu văn thuyết phục sang giải trí video thuyết phục, nhưng có lẽ một ngày nào đó sẽ như vậy
  Thiết bị MacGuffin trong tiểu thuyết Infinite Jest thập niên 90 thực sự đã chạm tới điều gì đó: một bộ phim gọi là “the Entertainment” hoặc “the samizdat” hấp dẫn đến mức người xem mất hết mọi mối quan tâm ngoài việc xem đi xem lại, rồi cuối cùng chết
  Có thể có người đã chán nghe nhắc tới cuốn tiểu thuyết này hoặc không đánh giá cao tác giả, nhưng tôi vẫn thích nó. Đó là một trong những trải nghiệm đọc cuốn hút nhất tôi từng có
  Tôi mừng là mình đọc nó khi còn trẻ; lúc đó bản dịch tiếng Đức vừa mới ra, và cái chết của DFW khiến nó được chú ý
  Từ đó đến nay tôi chưa từng đọc cuốn nào tương tự, và một số đoạn gây tác động cảm xúc mạnh đến mức khi nhớ lại việc đọc nó, tôi có cảm giác như đang nhớ một cảnh trong đời mình
  Nếu là bây giờ thì có lẽ tôi đã thiếu kiên nhẫn, và ngay cả khi đó tôi cũng suýt bỏ qua những đoạn chán về trò bóng/trò chiến tranh Eschaton, phương trình vi phân gì đó
  Nhưng những mô tả sống động về nghiện ngập và chủ nghĩa tiêu dùng, bầu không khí không thể chạm tới của cuốn sách, các nhân vật, nỗi đau tinh thần và cô đơn hiện đại thì thật sự độc nhất
  Bộ phim trong tiểu thuyết chỉ là một thiết bị cốt truyện, nhưng nó tóm lược chủ đề cốt lõi của cuốn sách thành một ý tưởng gọn gàng và một thí nghiệm tư duy
  Toàn bộ chủ đề của cuốn sách có vẻ rất tiên tri và phù hợp khi nhìn vào xã hội hiện đại: một xã hội xoay quanh nghiện ngập và lòng tham, còn chính trị thì siêu thực và phi lý, như thể gắn với truyền thông nhiều hơn với thực tại
Tôi muốn hỏi liệu có tài liệu hay bài blog nào giúp hiểu LLM đến mức này không, nếu có thì chia sẻ được không
Tôi đang cố hiểu cơ chế bên trong qua thực nghiệm, nhưng vẫn còn cách rất xa trình độ chuyên môn này
Đây là cảm nhận không mang tính kỹ thuật, nhưng các vector điều khiển này làm tôi liên tưởng đến hormone của con người
Chúng thay đổi một phần lớn hành vi của mô hình cùng lúc
Tôi nghĩ trong vòng 10 năm nữa ta sẽ thấy bác sĩ tâm thần AI kê đơn bổ sung vector điều khiển hạnh phúc cho trợ lý đồng hành
- Có vẻ một số con người cũng cần thanh trượt nhiệt độ
Đây là lần đầu tôi thấy LLM được tóm tắt như thế này, và tôi thích nó:
hidden_state = self.embeddings(input_tokens)

for layer in self.layers:

hidden_state = layer(hidden_state)

return transform_into_logits(hidden_state)
- Tôi không hiểu lắm. Chẳng phải đây về cơ bản là luồng của gần như mọi mạng nơ-ron sao
  Lấy đầu vào đã được lấy mẫu để lập chỉ mục trong ma trận embedding, truyền xuôi qua tất cả các tầng ẩn, rồi cuối cùng biến đổi về chiều token để có thể diễn giải như log-count
- Tôi nghĩ đây là cách diễn đạt điển hình từng dùng khi làm việc với LSTM
Bài viết này rất thú vị, và có cảm giác như một đối trọng hay cho bài “You Sound Like a Bot” gần đây nói rằng AI đang trở nên nhạt nhẽo
Nói nhẹ nhàng hơn, nếu là tiểu thuyết gia thì hẳn phải biết câu “ai đó hãy thử tìm vector tự nhận thức đặc biệt không bị cảm xúc con người làm ô nhiễm” là kiểu câu chắc chắn sẽ gây rắc rối cho nhân loại
Điều này làm tôi liên tưởng đến điều chỉnh bias, một đối thủ của LoRA
Chỉ cần tinh chỉnh vector cộng vào giá trị kích hoạt của từng tầng tuyến tính cũng có thể thu được adapter khá ổn
Tôi nghĩ lần đầu thấy nó khi đọc [1], nhưng cũng có các ví dụ khác
[1] https://arxiv.org/pdf/2304.15010.pdf
- Với độc giả dùng di động hoặc kết nối chậm, sẽ tốt hơn nếu chia sẻ liên kết tới trang tóm tắt thay vì liên kết PDF
Bài viết hay và đọc rất thú vị. Tuy nhiên có một điểm tôi thắc mắc: vì sao lại tích hợp vector điều khiển vào tất cả các tầng của mạng nơ-ron?
Tôi muốn biết tại sao không chỉ áp dụng ở tầng cuối hoặc một vài tầng
Nếu mỗi vector ảnh hưởng đến mọi tầng mà nó đi qua và tạo ra hiệu ứng tích lũy, liệu có nguy cơ làm méo mó biểu diễn dữ liệu quá mức không?
- Tầng cuối không còn mã hóa khái niệm cấp cao nữa, mà thực chất gần với các token trong từ vựng hơn
  Việc mã hóa một khái niệm trừu tượng như “sự thân thiện” ở đó là bất khả thi
  Khi chưa biết chính xác hành vi này phát sinh ở tầng nào, việc chọn một tập con tùy ý cũng không hiệu quả
  Vì vậy họ áp dụng vector tùy chỉnh cho từng tầng, rồi để phân tích thành phần chính tìm ra những vector thật sự cần thiết
  Điều thú vị là khi nhìn vào các vector này, có lẽ ta cũng có thể hiểu thêm mô hình xử lý những thứ như vậy ở đâu và như thế nào
- Như tác giả đã nói trong bài, thực ra đó không phải là một vector đơn lẻ mà là một danh sách vector, mỗi tầng một vector
  Nếu tôi hiểu đúng, các vector này có thể có kích thước tổng thể khác nhau theo từng tầng
  Nếu phân tích thành phần chính hoặc kỹ thuật khác xác định rằng tầng 17, 36, 41 quan trọng đối với “khái niệm X”, thì khi repeng theo khái niệm đó, vector của các tầng tương ứng sẽ mạnh nhất
Với tư cách là người đã làm phần GPT-2, đây là một bài viết hay, cảm ơn vì đã làm cho nội dung dễ tiếp cận hơn
Li và cộng sự[1] cùng tôi đã độc lập suy ra kỹ thuật này vào mùa xuân năm ngoái, và mùa thu năm ngoái lại có một người khác nữa cũng độc lập suy ra nó. Có vẻ như thời điểm đang chín muồi
Về chú thích 2 liên quan đến năng lực, trước khi công bố kỹ thuật này tôi đã cân nhắc khả năng sử dụng theo hướng đó
Rốt cuộc, các kỹ thuật alignment thành công trong thực tế sẽ cho phép làm được những việc mới, và cá nhân tôi nhìn chung xem đó là điều tốt
Cho đến nay, kỹ thuật này có vẻ đang mở ra những khả năng mới mà tôi từng kỳ vọng
[1] https://openreview.net/forum?id=aLLuYpn83y
Bài viết tuyệt vời
Phần nói rằng “vector trung thực” không thay đổi hành vi của chính mô hình mà thay đổi phán đoán của mô hình về hành vi của người khác, tôi nghĩ có lẽ chỉ là vì vector điều khiển đang đẩy việc sinh văn bản về phía khái niệm trung thực/không trung thực
LLM rốt cuộc là bộ sinh văn bản, nên có vẻ như tính trung thực/không trung thực được thêm vào bất kể văn bản được sinh ra ở vị trí nào trong cuộc hội thoại bot/người
- Đồng ý. Một mô hình tinh vi hơn có lẽ cũng có thể theo dõi hai hoặc nhiều hơn để mô tả các nhân vật khác nhau
  Khi đó trong không gian chiều sẽ xuất hiện một khái niệm kiểu ô nhân vật
Thú vị, và vector điều khiển có vẻ có thể giảm nhu cầu tinh chỉnh mô hình
- Không chỉ vậy, nó còn có thể thay đổi hành vi mô hình theo nhu cầu
  Nếu có 5 bản tinh chỉnh, bạn phải host 5 bản sao hoặc tải/gỡ tải chúng
  Với vector điều khiển, chỉ cần sửa mô hình khi cần

Đưa vector điều khiển “ảo giác” vào Mistral-7B bằng Representation Engineering

Khái niệm cơ bản về vector điều khiển

Quy trình tạo vector điều khiển

Vector trung thực và điều chỉnh hệ số

Thử nghiệm nhiều vector điều khiển

Vector trạng thái ảo giác

Vector lười biếng và chăm chỉ

Vector khuynh hướng chính trị

Vector sáng tạo

Vector du hành thời gian

Vector tự nhận thức

Khác biệt với prompt engineering

jailbreak và anti-jailbreak

Hướng thử nghiệm tiếp theo

Công cụ và kết luận

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News