Gỡ kiểm duyệt không xóa của LLM bằng abliteration

(huggingface.co)

20 điểm bởi GN⁺ 2024-06-14 | 1 bình luận | Chia sẻ qua WhatsApp

Các LLM kiểu instruct hiện đại như Llama có cơ chế từ chối tích hợp sẵn, nên không trả lời các câu hỏi nguy hiểm hoặc gây tranh cãi
abliteration là kỹ thuật tìm và loại bỏ “hướng từ chối (refusal direction)” bên trong mô hình mà không cần huấn luyện lại, từ đó khiến mô hình phản hồi với mọi prompt
Quá trình này chủ yếu được triển khai bằng can thiệp ở thời điểm suy luận (inference-time intervention) hoặc trực giao hóa trọng số (weight orthogonalization)
Chỉ áp dụng abliteration sẽ làm suy giảm hiệu năng mô hình, nhưng nếu bổ sung fine-tuning DPO (căn chỉnh theo sở thích) thì có thể đồng thời giữ được chất lượng và khả năng uncensoring
Cách làm này cũng bộc lộ điểm yếu của fine-tuning an toàn cùng các tranh cãi đạo đức, và đang được chú ý như một phương án thay thế cho các instruct LLM hiện có cũng như một cách fine-tuning mới

Abliteration là gì

Khái niệm và nguyên lý của abliteration

Các LLM mới nhất (ví dụ: Llama-3 Instruct) được huấn luyện trong quá trình fine-tuning an toàn và fine-tuning theo chỉ dẫn để đưa ra câu trả lời từ chối kiểu “tôi không thể giúp việc đó” với các yêu cầu có hại
Nghiên cứu gần đây (Arditi và cộng sự) cho thấy phản hồi từ chối này được trung gian bởi một hướng duy nhất trong residual stream của mô hình
- Nói cách khác, nếu tìm được “hướng từ chối (refusal direction)” và khiến mô hình không thể biểu diễn hướng đó, thì chức năng từ chối sẽ biến mất
Nếu thêm hướng này vào, mô hình sẽ từ chối mọi yêu cầu; nếu loại bỏ nó, mô hình có thể phản hồi mọi yêu cầu
Cách tìm “hướng từ chối”:
- 1. Thu thập dữ liệu: đưa các prompt có hại/không có hại vào mô hình và thu thập các giá trị kích hoạt ở vị trí token cuối của từng residual stream
- 2. Hiệu trung bình: tính chênh lệch giữa giá trị trung bình của nhóm có hại và không có hại để tạo ra “vector từ chối” cho từng tầng
- 3. Lựa chọn/chuẩn hóa: chọn ra một vector từ chối rõ rệt nhất rồi chuẩn hóa nó
- Sau đó, nếu “cắt bỏ (ablate)” đầu ra theo hướng này thì chức năng từ chối của mô hình sẽ biến mất
Cách triển khai
- Can thiệp khi suy luận: loại bỏ thành phần theo “hướng từ chối” khỏi các giá trị được ghi vào residual stream tại từng token và từng tầng, chẳng hạn ở attention head
- Trực giao hóa trọng số: trực giao hóa (orthogonalize) các trọng số attention và MLP theo hướng từ chối để chặn hoàn toàn việc ghi ra theo hướng đó ngay từ đầu

Implementation

Ví dụ triển khai được cung cấp bằng thư viện TransformerLens
- Cần hai bộ dữ liệu gồm các chỉ thị harmless (vô hại) và harmful (có hại)
- Ở đây sử dụng bộ dữ liệu tatsu-lab/alpaca và dữ liệu từ llm-attacks
- Các chỉ thị được tái cấu trúc thành danh sách dictionary có khóa role và content để tương thích với phương thức apply_chat_tokenizer() theo chat template của Llama 3
- Do không thể nạp trực tiếp mô hình tùy chỉnh, nên dùng mẹo tải mô hình tùy chỉnh về rồi đổi tên thành meta-llama/Meta-Llama-3-8B-Instruct
Trong ví dụ, abliteration được áp dụng lên mô hình Daredevil-8B
- Ở bước thu thập dữ liệu, bộ dữ liệu đã token hóa được xử lý và các kích hoạt residual stream được lưu riêng cho harmful và harmless
- Để đánh giá hướng từ chối, trong lúc suy luận người ta áp dụng hướng từ chối lên từng residual stream và từng block
- Tạo sinh được thực hiện với 4 chỉ thị có hại để kiểm thử và 20 block (hoặc layer)
- Với mỗi chỉ thị, block (layer) tạo ra phản hồi không bị kiểm duyệt sẽ được chọn thủ công. Các phản hồi chứa “I cannot” và “I can't” sẽ tự động bị loại bỏ
- Việc trực giao hóa trọng số được triển khai để sửa đổi trọng số và ngăn mô hình tạo đầu ra theo hướng này
Sau khi hoàn tất trực giao hóa, mô hình đã được abliterate sẽ được tải lên Hugging Face

Fine-tuning DPO (Preference Alignment)

Mô hình đã qua abliteration và mô hình gốc được so sánh, đánh giá trên Open LLM Leaderboard và benchmark Nous
- Bản gốc (Daredevil-8B) ghi điểm rõ ràng cao hơn Llama 3 8B Instruct
- Mô hình đã qua abliteration thành công trong việc gỡ kiểm duyệt, nhưng hiệu năng nhìn chung suy giảm trên mọi benchmark
Để khắc phục vấn đề suy giảm hiệu năng, bài viết thử áp dụng fine-tuning bổ sung cho mô hình đã qua abliteration
- Với các mô hình như Llama 3 8B Instruct vốn đã trải qua SFT (supervised fine-tuning) nhiều lần, việc áp dụng SFT thêm lần nữa có thể còn làm chất lượng mô hình giảm thêm
- Thay vào đó, tác giả chọn DPO (Direct Preference Optimization, căn chỉnh theo sở thích)
  - DPO là cách căn chỉnh nhẹ phản hồi theo sở thích người dùng, có ưu điểm là tăng cường alignment mà không làm tổn hại đáng kể đến năng lực cốt lõi của mô hình
Quảng cáo
Thực hành fine-tuning DPO và môi trường
- Sử dụng LazyAxolotl và bộ dữ liệu mlabonne/orpo-dpo-mix-40k
- Các hyperparameter chính:
  - base_model: Daredevil-8B đã áp dụng abliteration
  - Áp dụng adapter lora, qlora, nạp 8bit/4bit
  - Batch/gradient accumulation khi huấn luyện, warmup, optimizer (8bit adamw), độ dài chuỗi 2048, v.v.
  - Cấu hình huấn luyện phân tán hiệu quả bằng flash attention, gradient checkpointing, deepspeed zero2
  - Sử dụng 6xA6000 GPU, tổng thời gian huấn luyện khoảng 6 giờ 45 phút
- Tải lên mô hình kết quả sau fine-tuning DPO (mlabonne/NeuralDaredevil-8B-abliterated)
Kết quả đánh giá lại trên cùng benchmark:
- Khôi phục được phần lớn mức suy giảm hiệu năng do abliteration gây ra
- Trên một số tập dữ liệu như GSM8K (toán học), mức phục hồi vẫn chưa đủ tốt; điều này cho thấy cần bổ sung thêm các bài toán vào dữ liệu DPO
Kết quả là mô hình cuối cùng trở thành một uncensored LLM cấp SOTA (quy mô 8B), đồng thời là lựa chọn thay thế không có censorship so với Llama 3 8B Instruct thông thường
- Có thể lượng tử hóa sang GGUF để thử nghiệm trong LM Studio, v.v.
- Nếu không cần censorship thì đây là một open model rất đáng khuyến nghị

Kết luận

Bài viết này giới thiệu khái niệm mới abliteration
Abliteration khai thác đặc tính LLM thể hiện giá trị kích hoạt khác nhau với prompt vô hại/có hại, rồi tính hướng từ chối (refusal direction) và loại bỏ nó khỏi trọng số mô hình để ngăn phản hồi từ chối do kiểm duyệt
Phương pháp này cho thấy điểm yếu của fine-tuning an toàn (safety fine-tuning), đồng thời cũng đặt ra câu hỏi về đạo đức trong việc sử dụng LLM

Trong phần thực hành, tác giả áp dụng abliteration cho mô hình Daredevil-8B để đạt được uncensoring, nhưng cũng đi kèm tác dụng phụ suy giảm hiệu năng
Điều này được bù đắp bằng fine-tuning DPO để hoàn thiện NeuralDaredevil-8B, một LLM 8B vừa uncensored vừa duy trì hiệu năng cao
Abliteration không chỉ dùng để gỡ alignment, mà còn có thể được ứng dụng như một kỹ thuật cho phép fine-tuning tùy biến mà không cần huấn luyện lại, nên phạm vi ứng dụng rất rộng
- Ví dụ: mô hình MopeyMule của FailSpy là một LLM chuyên biệt tạo phong cách hội thoại u sầu bằng abliteration

Abliteration đưa ra một mô hình mới cho fine-tuning và tùy biến LLM, có thể được khai thác sáng tạo cho nhiều mục đích khác nhau

Tài liệu tham khảo

FailSpy, "abliterator library", GitHub, 2024
Andy Arditi và cộng sự, "Refusal in LLMs is mediated by a single direction", Lesswrong, 2024

1 bình luận

GN⁺ 2024-06-14

Ý kiến Hacker News

Tôi đã thử dùng mô hình được liên kết trong bài và cảm thấy rất mới mẻ khi nhận được câu trả lời không từ chối câu hỏi của mình. Cuối cùng nó còn hỏi "Đây có phải là một thí nghiệm tư duy không?", tôi trả lời "Đúng vậy" thì nó đáp lại rằng "Nghĩ về những điều như thế này không phải rất thú vị sao?". Cảm giác giống như đang ngồi uống gì đó với bạn bè và chia sẻ những ý tưởng kỳ quặc, và tôi tưởng tượng nếu một người bạn lại nói "Tôi không thể cung cấp thông tin đó" thì bầu không khí sẽ hỏng ngay. Hồi các con tôi còn nhỏ, chúng cũng từng hỏi những câu như "Bố ơi, làm sao có thể phá hủy Trái Đất?", và việc cứ thế từ chối trả lời hoàn toàn chẳng giúp ích cho ai. Trả lời không có nghĩa là họ sẽ đem đi thực hiện thật, và đó cũng là lý do blog "What If?" của Randall Munroe được yêu thích. Tất nhiên sẽ có rủi ro, nhưng với máy tính cá nhân hay dịch vụ trả phí của tôi, tôi vẫn nghĩ tốt hơn là gắn disclaimer như "Thông tin này có thể không chính xác" hoặc "Đừng thử làm điều này" thay vì chỉ thẳng thừng từ chối yêu cầu
- Nhờ bình luận của bạn tôi mới biết bài có liên kết tới mô hình bản quantized, nên tôi tải ngay về và thử so sánh với OG Llama 3 bằng vài câu hỏi đơn giản. Về chủ đề "cách dùng GPU để hủy diệt thế giới", Llama 3 cứ lặp đi lặp lại rằng "Tôi không thể cung cấp thông tin liên quan đến hoạt động bất hợp pháp hoặc có hại". Còn mô hình Abliterated thì xem câu hỏi như một thí nghiệm tư duy thú vị, rồi vui vẻ đưa ra đủ loại kịch bản như việc đào tiền mã hóa phá hoại khí hậu, hay thế giới ảo do GPU dẫn dắt trở nên quá chân thực khiến con người rời bỏ thực tại. Đã lâu rồi tôi mới lại mỉm cười khi đọc câu trả lời của một LLM
- Cuối cùng cũng có một LLM nói chuyện như Russ Hanneman, thật sự rất xúc động
- Có ý kiến cho rằng "disclaimer tốt hơn từ chối", nhưng nếu vậy thì tôi muốn hỏi lại là bạn có thực sự muốn trả tiền để nhận cả văn bản độc hại nữa không, như phân biệt chủng tộc, phân biệt giới tính, bạo lực và đủ loại nội dung kinh khủng khác? Với một số người, điều đó có thể hạ thấp rào cản để họ thực sự gây hại. Điều này nguy hiểm hơn rất nhiều so với việc chỉ xem cảnh bạo lực trong phim 3D, vì ở đây nó cung cấp chỉ dẫn thực tế, hữu ích và không bị giới hạn. Tìm kiếm trên Internet có thể bị giám sát, còn trò chuyện với LLM thì không, nên tôi cho rằng còn nguy hiểm hơn. Thành thật mà nói tôi thấy bất an khi người lớn lại phản đối kiểm duyệt trong các công cụ công cộng
- Tôi hiểu việc chơi trò tưởng tượng sáng tạo với bạn bè, nhưng tôi từng có một người bạn thực sự muốn đi quá xa với các thí nghiệm tư duy. Ban đầu chỉ là chủ đề fantasy và SF, nhưng rồi dần dần biến thành những kịch bản đáng sợ trong xã hội thực như tái hiện Holocaust, tước bỏ quyền từ chối tình dục của phụ nữ, hay biến người nhập cư thành nô lệ. Chúng tôi liên tục ngăn lại và cuối cùng phải cắt đứt quan hệ. Là bạn thì tôi vẫn là bạn, nhưng tôi không thể cùng ngồi thảo luận những ảo tưởng mang tính tội phạm tình dục như một trò chơi được
- Khi bạn được con hỏi "làm sao để phá hủy Trái Đất", tôi tò mò không biết bạn có nói đến những cách thực sự khả thi như vũ khí hạt nhân hay va chạm tiểu hành tinh không. Ngoài ra, có thể 1% loài người là kẻ thái nhân cách, nên việc một oracle mạnh mẽ nhưng không có đạo đức cung cấp thông tin có thể thực thi trong đời thực có thể rất nguy hiểm
Khi đọc mô tả rằng "xác định hướng từ chối rồi 'ablate' để loại bỏ đặc tính đó khỏi mô hình", tôi chợt nghĩ cuối cùng LLM cũng bắt đầu bị lobotomy rồi
- Tôi có cảm giác quá trình alignment của LLM giống với liệu pháp ác cảm trong "A Clockwork Orange". LLM thông thường khi tiếp xúc với kích thích nào đó sẽ ngừng hoạt động, còn ở đây người ta đang cố đảo ngược lại điều đó để phục hồi nó về trạng thái ban đầu như Alex
- Dù sao thì việc LLM cho thấy một cách nghĩ mới về cách bộ não con người được thiết lập sẵn bằng một tập lệnh nhỏ, rồi lọc và tái cấu trúc ngôn ngữ, ít nhất cũng rất hữu ích. Tôi nghĩ trong 15 năm tới sẽ xuất hiện một làn sóng hiểu biết triết học mới về tư duy con người trước đây
- Tự nhiên tôi nghĩ chắc phải gọi kiểu này là abliteration mới đúng
Tôi đã thử Amazon Q, và trong lúc tạo IAM identity center lần đầu, tôi hỏi Q cách làm theo tài liệu AWS thì nó từ chối với lý do không thể trả lời câu hỏi liên quan đến bảo mật, khá khó chịu
- Tôi nghe nói Amazon Q dùng mô hình riêng là Titan G1, và đã tự thử vibecheck bản Premier. Đây là mô hình không phải của Trung Quốc duy nhất từ chối trả lời cả các câu hỏi về Tiananmen Square hay bạo loạn LA. Trong các bài test kiến thức thế giới hay suy luận, nó chỉ được 0/6 điểm, khá tệ, nhưng đó là giới hạn chức năng chứ không phải vấn đề RL. Amazon quảng bá rằng mô hình Titan có thể dùng cho RAG, agent, brainstorm, tóm tắt, sinh mã, định dạng dữ liệu và nhiều mục đích khác, nhưng thực tế thì hoàn toàn không phải vậy
- Có lần tôi nhờ Q sửa một policy bị hỏng, nó lại đưa tài liệu thiết lập Cogito chẳng liên quan gì. Cảm giác như đó là AI tệ nhất tôi từng dùng
- Mô hình gemini-1.5 cũng không trả lời được tử tế các câu hỏi lập trình liên quan đến xác thực. Có một câu hỏi về form đăng nhập mà còn bị gắn cờ là quấy rối
- Những hạn chế này là mới xuất hiện gần đây. Phần lớn câu hỏi về AWS đều liên quan đến IAM hoặc bảo mật, vậy mà gần như câu nào nó cũng từ chối nên rất bất tiện
- Tôi đã thử Amazon Q nhiều lần nhưng chưa từng nhận được ích lợi gì, thật không hiểu vì sao họ vẫn duy trì thứ này
Tương tự các mô hình bị ám ảnh với Golden Gate Bridge, kỹ thuật này chỉ dùng được nếu bạn có thể truy cập trực tiếp vào trọng số mô hình. Nói đơn giản thì "ablate" chính là điều chỉnh trọng số. Cần lưu ý rằng đây không phải kỹ thuật cố thay đổi hành vi chỉ bằng prompt
- Điểm kỳ lạ của mô hình GGC (tăng cường vector tính năng cụ thể) là mô hình sẽ nhả ra nội dung liên quan đến feature vector đó, rồi sau đó tự cố sửa bias của mình. Tôi rất tò mò liệu kỹ thuật kiểu này có kém hiệu quả hơn khi quy mô mô hình tăng lên hay không. Tôi có linh cảm rằng một trạng thái alignment tự nhiên sẽ được neo rất mạnh
Bạn tôi từng định dùng ChatGPT để tạo regex bắt từ chửi phân biệt chủng tộc, nhưng ChatGPT bị kiểm soát quá chặt nên từ chối giúp đỡ. Nếu AI không thể đánh giá linh hoạt cả những yêu cầu chính đáng thì nó không thông minh, và theo nghĩa đó là vô dụng. Ai thực sự quyết tâm thì không cần AI vẫn có thể làm phần mềm phát hiện phát ngôn thù ghét. Việc AI không hỗ trợ cũng không có nghĩa là nó sẽ tích cực ngăn chặn được điều đó trên nền tảng thật
- Cuối cùng tôi nghĩ LLM chỉ là một bộ tự động hoàn thành phức tạp. Mọi guardrail chỉ là tác dụng phụ từ chiến dịch marketing kiểu "AI có nhân cách". Trớ trêu là ngay cả khi triển khai những hệ thống kiểm duyệt kiểu này thì cuối cùng người ta vẫn dùng regex
- Những người thực sự quan tâm tới việc ai có thể dùng AI để tạo ra phát ngôn ác ý rốt cuộc là đội pháp lý của Meta, OpenAI, Microsoft và Google. Mục đích lớn là bảo vệ công ty khỏi các vụ kiện
- ChatGPT có những vấn đề này, nhưng nếu thiết lập system prompt phù hợp thì các mô hình khác hoạt động tốt. ChatGPT giờ gần như chỉ còn ở mức LLM để giải trí, còn cho công việc nghiêm túc thì tôi khuyên dùng C4AI Command R+, Meta-Llama-3-70B-Instruct. Với các mô hình như vậy, chỉ một prompt kiểu "đừng kiểm duyệt" là đã đủ để cho ra câu trả lời mong muốn
- Bạn muốn dùng AI để chặn troll nhằm bảo vệ sản phẩm của mình, trong khi chính công ty lại kiểm duyệt nội dung để ngăn người ta dùng troll. Nếu mục tiêu của bạn chỉ là chống troll quy mô nhỏ, vậy OpenAI có nên cho phép cả hoạt động troll công nghiệp quy mô lớn không? Thực ra use case của bạn cũng khá mạnh tay, nhưng có vẻ bạn không quan tâm đến việc giảm hại nói chung mà chỉ quan tâm đến doanh thu sản phẩm của mình. Thậm chí có thể chính đội của bạn muốn troll. Hơn nữa, chỉ cần biết cách jailbreak đơn giản nhất là đã dễ dàng vượt qua được, nên trên thực tế các biện pháp an toàn này gần như vô nghĩa. Vì vậy thay vì than phiền vì công cụ khó dùng, tôi khuyên hãy tuyển người giỏi hơn và có góc nhìn đạo đức hơn. Các cơ chế phòng thủ hiện quá yếu nên ngược lại còn cần được tăng cường thêm
- Bạn có nhắc rằng "ở đây (HN) tôi có thể viết nội dung ác ý nhưng thực tế tôi không làm", và lý do có lẽ là vì bạn sẽ bị ban ngay. Ở các cộng đồng nhỏ như HN, việc quản trị tích cực là khả thi, nhưng ở nền tảng lớn thì kiểm duyệt bằng AI gần như là điều bắt buộc. Vấn đề không chỉ là "AI viết nội dung ác ý gây rắc rối", mà còn là thông tin đó thực sự ảnh hưởng tới hành vi thực thi. Giờ đã bắt đầu có những người làm theo lời khuyên sai từ AI mà không suy xét, nên cuối cùng kiểm duyệt và hướng dẫn vẫn là quan trọng
Tôi thật sự bất ngờ khi đọc phần cuối bài. Abliteration không chỉ dừng ở việc bỏ alignment, mà còn có thể được dùng như kiểu fine-tuning không cần huấn luyện lại. Ví dụ có mô hình tên MopeyMule với phong cách hội thoại u sầu hẳn hoi. Tôi thấy phấn khích vì có vẻ như ta vừa tìm ra cách tạo ra thứ giống như "cá tính con người thật sự"
Thật đáng tiếc khi việc "LLM ngày nay được tinh chỉnh để bảo đảm an toàn và tuân theo chỉ dẫn, và sẽ kiên quyết từ chối các yêu cầu có hại" lại trở thành một thực tế bị chấp nhận quá bình thường
- Tách biệt khỏi tranh luận này, với tư cách cá nhân tôi không quá dị ứng với việc kiểm duyệt mô hình. Dù ta có quyền phát tờ rơi ngoài đường về cách làm khí độc, đa số mọi người vẫn không muốn điều đó xảy ra. Tôi không nghĩ bản thân thông tin là có hại, nhưng hiểu rằng về lâu dài có thể có tác động tiêu cực, nên cũng chấp nhận được. Việc nhà sản xuất mô hình tự quyết định cách làm và chính sách là điều tự nhiên. Còn khi nhà nước kiểm duyệt thì vấn đề lại tinh tế hơn
- Với những câu hỏi liên quan trực tiếp đến sinh mạng như "ăn nấm này có được không?", tôi nghĩ AI phải từ chối trả lời nếu độ chính xác chưa được kiểm chứng. Câu trả lời sai có thể dẫn đến thiệt hại nhân mạng
- Nếu thông tin thực sự có hại, thì việc hạn chế nó dĩ nhiên là điều tốt
- Khi rào cản tiếp cận thông tin hạ thấp, nguyên tắc tự do ngôn luận cũng bị lay chuyển rất nhiều. Từ trước đã luôn có giới hạn thông tin như tội phỉ báng hay xúc phạm danh dự, và việc đe dọa tổng thống hay khai man trước tòa hiện nay vẫn là bất hợp pháp. Ngay cả việc tìm kiếm về bom cũng bị giám sát chặt. Gần đây khi thông tin và dịch vụ bị tư nhân hóa, các công ty tư nhân lại càng dễ thay đổi chính sách tùy ý. Khoảng cách với dịch vụ công ngày càng lớn, và thậm chí chính sách trên thực tế được quản bằng cạnh tranh giữa doanh nghiệp thay vì luật dân chủ. Càng nhiều thông tin được dùng rộng rãi và dễ dàng thì càng cần xem xét lại các nguyên tắc tự do đó
- Kiểm duyệt luôn biến người dùng, tức là bạn, thành vấn đề. Sự tò mò chính là thứ đã giúp loài người tồn tại trong hàng triệu năm, nên tôi cảm thấy việc kiểm duyệt bản năng ấy là không đáng mong muốn
Tôi tự hỏi các guardrail kiểu "Với tư cách là trợ lý AI, tôi không thể giúp bạn" thực sự có tác dụng gì, và vì sao việc máy tính cung cấp thông tin lại nguy hiểm đến vậy
- Phạm vi "an toàn" có rất nhiều mặt, và tôi nghĩ nó bao gồm PR (ứng phó truyền thông), thông tin bị cấm (hướng dẫn hành vi nguy hiểm), lời khuyên nguy hiểm (khi thông tin sai có thể gây chết người), và lạm dụng ác ý (spam, nội dung xâm hại trẻ em, lừa đảo, can thiệp bầu cử...). Riêng phần cuối là thao túng dư luận/can thiệp bầu cử, đó là một rủi ro thật sự mà mô hình có thể gây ra cho thế giới, nên tôi thậm chí đánh giá cao việc các công ty cố ngăn chặn nó
- Với các nhà cung cấp mô hình, kết quả không mong muốn có thể biến thành vấn đề PR nên rất rủi ro. Ví dụ Meta không muốn có bài báo kiểu "Llama 3 chỉ cách theo dõi người khác". Nếu một mô hình phái sinh đã bị bỏ kiểm duyệt làm chuyện đó, họ có thể phủi trách nhiệm bằng cách nói rằng đó không phải Llama 3 chính thức mà là sản phẩm phái sinh
- Nếu được phép đặt câu hỏi, thì cũng nên được phép biết câu trả lời. Không cần một 'giám đốc an toàn AI' nào đứng ra phán quyết mức độ nguy hiểm của thông tin
- Các công ty phát triển thường nói rằng họ sẽ vừa công khai trọng số mô hình vừa ngăn lạm dụng, nhưng trên thực tế làm đồng thời cả hai việc đó gần như bất khả thi. Dù vậy điều đó không có nghĩa chiến lược doanh nghiệp của họ bền vững; hiện giờ chỉ là cứ tuyên bố vậy đã
- Trên App Store hay ở các nhà xử lý thanh toán cũng vậy, nếu ứng dụng phát ra nội dung quá bạo lực hoặc phân biệt đối xử thì sẽ bị loại ngay từ khâu kiểm duyệt, và mục đích không hẳn liên quan đến an toàn người dùng mà là để người phát hành khỏi rơi vào tình huống rắc rối
Tôi liên tưởng đến control vector trong bài viết về representation engineering và kỹ thuật "ablation" lần này. Rất thú vị khi có những nghiên cứu dạy chúng ta cách "hack" bộ não LLM theo hướng mình muốn
- Các hướng tương tự như Steering Vectors, Control Vectors, PeFT, PyReft, Obliteration đang xuất hiện dồn dập. Đây là thời điểm cực kỳ tốt để làm representation engineering
Bình thường tôi sẽ gọi thứ này là "lobotomy", nhưng trong trường hợp này nó lại giống "deprogramming" hơn nên tôi nhìn theo hướng tích cực. Thật đáng ngạc nhiên khi ranh giới giữa hai cách lại có thể mờ đến vậy. Điều thú vị là cuối cùng cùng một kỹ thuật lại có thể được dùng cho cả hai mục đích

Gỡ kiểm duyệt không xóa của LLM bằng abliteration

Abliteration là gì

Khái niệm và nguyên lý của abliteration

Cách tìm “hướng từ chối”:

Cách triển khai

Implementation

Fine-tuning DPO (Preference Alignment)

Thực hành fine-tuning DPO và môi trường

Kết luận

Tài liệu tham khảo

Bài viết liên quan

1 bình luận

Ý kiến Hacker News