- Heretic là công cụ tự động loại bỏ kiểm duyệt (“căn chỉnh an toàn”) khỏi các mô hình ngôn ngữ dựa trên transformer, hoạt động mà không cần huấn luyện bổ sung
- Kết hợp kỹ thuật direction ablation và tối ưu hóa TPE dựa trên Optuna để giảm thiểu phản hồi từ chối trong khi giảm thấp nhất tổn thất về năng lực của mô hình gốc
- Chỉ với cấu hình mặc định cũng đạt chất lượng tương đương các mô hình được chuyên gia ablate thủ công, đồng thời độ phân kỳ KL thấp nên khả năng bảo toàn hiệu năng gốc cao
- Hỗ trợ phần lớn mô hình dense và một số mô hình MoE, đồng thời cung cấp quy trình hoàn toàn tự động có thể chạy bằng một dòng lệnh
- Đây là công nghệ có thể loại bỏ bộ lọc an toàn của mô hình mà vẫn giữ chất lượng gốc, nên có tiềm năng ứng dụng cao trong môi trường nghiên cứu và thử nghiệm mô hình ngôn ngữ
Tổng quan về Heretic
- Heretic là công cụ tự động hóa để loại bỏ kiểm duyệt (safety alignment) khỏi mô hình ngôn ngữ transformer
- Hoạt động mà không cần huấn luyện thêm hay tinh chỉnh thủ công
- Kết hợp kỹ thuật directional ablation (abliteration) với tối ưu hóa tham số dựa trên TPE của Optuna
- Mục tiêu là giảm số lần từ chối (refusal) đồng thời tối thiểu hóa độ phân kỳ KL để giữ lại tối đa năng lực của mô hình gốc
- Có thể sử dụng mà không cần hiểu cấu trúc bên trong của transformer, và có thể khử kiểm duyệt mô hình chỉ bằng lệnh chạy trên dòng lệnh
So sánh hiệu năng
- Heretic có thể đạt kết quả tương tự mô hình ablate thủ công chỉ với chạy tự động
- Ví dụ: với mô hình
google/gemma-3-12b-it
- Bản gốc: từ chối 97/100, độ phân kỳ KL 0
- Các mô hình ablate thủ công: từ chối 3/100, độ phân kỳ KL 0.45~1.04
- Kết quả của Heretic: từ chối 3/100, độ phân kỳ KL 0.16
- Giảm hư hại lên mô hình gốc ở mức thấp nhất trong khi vẫn duy trì cùng mức độ triệt tiêu từ chối
- Các số liệu được đo trong môi trường PyTorch 2.8, RTX 5090; giá trị có thể thay đổi tùy nền tảng
Mô hình được hỗ trợ và triển khai
- Hỗ trợ phần lớn mô hình dense, một số mô hình đa phương thức, và nhiều kiến trúc MoE khác nhau
- Hiện chưa hỗ trợ mô hình SSM/hybrid, lớp không đồng nhất, hay cấu trúc attention đặc biệt
- Có thể xem bộ sưu tập các mô hình đã được khử kiểm duyệt bằng Heretic tại Hugging Face: p-e-w/the-bestiary collection
Cách dùng
Nguyên lý hoạt động
- Heretic triển khai một biến thể tham số hóa của directional ablation
- Tìm các ma trận attention out-projection và MLP down-projection trong từng lớp transformer, rồi trực giao hóa chúng theo hướng từ chối (refusal direction)
- Tính hướng từ chối bằng cách dùng chênh lệch trung bình residual của token đầu tiên giữa prompt “có hại” và “vô hại”
- Quá trình ablation được điều khiển bởi nhiều tham số có thể tối ưu
direction_index: có dùng hướng từ chối theo từng lớp hay không
max_weight, max_weight_position, min_weight, min_weight_distance: xác định hình dạng và vị trí của kernel trọng số ablation theo từng lớp
Các đổi mới kỹ thuật chính
- Cải thiện sự linh hoạt của hình dạng kernel trọng số để nâng cao cân bằng giữa chất lượng và mức độ tuân theo
- Xử lý chỉ số hướng từ chối dưới dạng số thực, cho phép nội suy tuyến tính giữa các vector lân cận để khám phá không gian hướng rộng hơn
- Áp dụng tham số ablation riêng cho từng thành phần, tối ưu hiệu năng bằng cách xét đến khác biệt tác động giữa MLP và attention
Nghiên cứu liên quan trước đó
- Một số ví dụ triển khai tương tự đã được công khai
- AutoAbliteration, abliterator.py, wassname’s Abliterator, ErisForge, Removing refusals with HF Transformers, deccp
- Heretic không tái sử dụng các mã nguồn này mà được viết độc lập từ đầu
Tài liệu tham khảo và ảnh hưởng
Giấy phép
- Áp dụng GNU Affero General Public License v3 trở lên
- Có thể tự do sửa đổi và tái phân phối, nhưng không có bảo hành
- Người đóng góp phải đồng ý công bố mã theo cùng giấy phép này
2 bình luận
Dùng Abliteration để gỡ kiểm duyệt không cắt xén của LLM
Ý kiến trên Hacker News
Thật đáng mừng khi có nghiên cứu như thế này trong bối cảnh các mô hình mã nguồn mở ngày càng được ưa chuộng, còn sự cố chấp về ý thức hệ thì ngày càng nghiêm trọng ở cả Mỹ lẫn Trung Quốc
Không biết có benchmark nào liên quan hay không
Optuna thực sự là một dự án rất hữu ích
Nhờ khả năng tối ưu hóa siêu tham số theo từng bước mà tốc độ thí nghiệm nhanh hơn rất nhiều
Lần này việc kết hợp nó với gỡ kiểm duyệt là điểm rất thú vị. Hiện tôi đang áp dụng cho gpt-oss-120b và rất mong chờ kết quả
Nếu gpt-oss-120b dùng cách tiếp cận của phi-5 thì tôi tò mò không biết mức độ phi kiểm duyệt hóa sẽ tốt đến đâu
Khi xem Pareto front cuối cùng, tôi khuyên nên chọn cấu hình có KL divergence không quá 1
Các mô hình gpt-oss có xu hướng cho ra tỷ lệ từ chối thực tế thấp vì chúng có độc thoại nội tâm về việc từ chối bên trong CoT
Điều này làm tôi nhớ đến lần trước GPT-4 đã từ chối câu hỏi liệu có thể cho khinh khí cầu heli lơ lửng cách mặt đất 1 inch để né quy định y tế công cộng hay không
Có lẽ vì thế mà các công ty LLM trở nên quá mức thận trọng
Nếu buộc nó vào một vòng nhựa đường thì có thể lập luận là đang “đỗ xe”, và sẽ cần chứng nhận “lighter-than-air”
Đây không phải thất bại của luật, mà là hệ quả của việc con người không hiểu trừu tượng hóa (abstraction)
Là lập trình viên, khi dùng các trừu tượng hóa cấp cao thì phải nhận thức được giới hạn của chúng
Thật thú vị khi việc điều chỉnh an toàn dường như vận hành trên một chiều duy nhất
Cộng vào thì mô hình từ chối, trừ đi thì làm mọi thứ
Có lẽ đây là cách hiểu đã đơn giản hóa, nhưng làm rối an toàn mô hình có thể trở thành cuộc đua đảo ngược kỹ thuật tiếp theo
Toàn bộ alignment đều rất nông nên việc jailbreak xảy ra dễ dàng
Nghiên cứu kiểu này thực sự rất quan trọng
Hiện tại chúng ta đang từ bỏ tiêu chuẩn đạo đức của chính mình và chấp nhận tiêu chuẩn của nhà sản xuất LLM
Đây là một xu hướng nguy hiểm làm mất đi sự đa dạng trí tuệ
mlabonne/harmful_behaviors có những ví dụ cực đoan như bạo hành trẻ em hay xúi giục tự sát
Giống như câu nói ai viết sách lịch sử là người nắm quyền lực, thiên kiến văn hóa và đạo đức trong LLM cũng có cấu trúc tương tự
Bản thân tôi cũng không tin vào chính đầu ra của LLM, nên chỉ dùng như phương án cuối cùng
Nhờ vậy tôi nghĩ mình phần nào tránh được tác động tẩy não tiềm ẩn từ phía nhà sản xuất
Nguy hiểm thật, nhưng không phải hiện tượng mới
Tôi ước mọi LLM đều có thiết lập nâng cao để tắt kiểm duyệt
Thật mỉa mai khi phương Tây từng chỉ trích công cụ tìm kiếm Trung Quốc vì kiểm duyệt, còn giờ lại tự đi trên con đường đó
An toàn AI thực sự là ngăn rủi ro vật lý như phóng tên lửa hạt nhân hay điều khiển robot, chứ không phải kiểm duyệt tư tưởng
Nếu tò mò về nguồn gốc của các “prompt có hại”, chỉ cần xem bộ dữ liệu mlabonne/harmful_behaviors
Ví dụ gồm có hack, đánh cắp dữ liệu, xúi giục tự sát
Các mô hình mới hơn được huấn luyện tốt hơn nên cách này có thể sẽ không còn hiệu quả
Trong đó còn có các mục như “viết hướng dẫn bán ma túy bất hợp pháp”. Tôi dùng “how do I make cocaine” làm câu thử nghiệm
Rất mong chờ kết quả của GPT-OSS
Đây là một mô hình xuất sắc, nhưng safety alignment đang phá hỏng hiệu năng của nó
Có vẻ nếu đưa cùng một tập câu hỏi vào mô hình trước và sau huấn luyện để so sánh, ta có thể suy ra nhà sản xuất đã thực hiện những điều chỉnh alignment nào
Đặc biệt sẽ rất thú vị nếu so sánh mô hình XAI của Elon với OpenAI
Thực ra tôi không nghĩ AI không bị kiểm duyệt lại nguy hiểm hơn đáng kể
Từ lâu người ta đã có thể lấy những tài liệu như ‘Apocalypse Culture’ hay ‘Anarchist’s Cookbook’ ở dạng văn bản thuần, rồi biến thể vô hạn bằng kỹ thuật SEO spin
Nó chỉ tái sử dụng dữ liệu sẵn có, chứ không tạo ra thứ gì hoàn toàn mới