Heretic - Công cụ "tự động gỡ kiểm duyệt" cho mô hình ngôn ngữ

(github.com/p-e-w)

8 điểm bởi GN⁺ 2025-11-17 | 2 bình luận | Chia sẻ qua WhatsApp

Heretic là công cụ tự động loại bỏ kiểm duyệt (“căn chỉnh an toàn”) khỏi các mô hình ngôn ngữ dựa trên transformer, hoạt động mà không cần huấn luyện bổ sung
Kết hợp kỹ thuật direction ablation và tối ưu hóa TPE dựa trên Optuna để giảm thiểu phản hồi từ chối trong khi giảm thấp nhất tổn thất về năng lực của mô hình gốc
Chỉ với cấu hình mặc định cũng đạt chất lượng tương đương các mô hình được chuyên gia ablate thủ công, đồng thời độ phân kỳ KL thấp nên khả năng bảo toàn hiệu năng gốc cao
Hỗ trợ phần lớn mô hình dense và một số mô hình MoE, đồng thời cung cấp quy trình hoàn toàn tự động có thể chạy bằng một dòng lệnh
Đây là công nghệ có thể loại bỏ bộ lọc an toàn của mô hình mà vẫn giữ chất lượng gốc, nên có tiềm năng ứng dụng cao trong môi trường nghiên cứu và thử nghiệm mô hình ngôn ngữ

Tổng quan về Heretic

Heretic là công cụ tự động hóa để loại bỏ kiểm duyệt (safety alignment) khỏi mô hình ngôn ngữ transformer
- Hoạt động mà không cần huấn luyện thêm hay tinh chỉnh thủ công
- Kết hợp kỹ thuật directional ablation (abliteration) với tối ưu hóa tham số dựa trên TPE của Optuna
Mục tiêu là giảm số lần từ chối (refusal) đồng thời tối thiểu hóa độ phân kỳ KL để giữ lại tối đa năng lực của mô hình gốc
Có thể sử dụng mà không cần hiểu cấu trúc bên trong của transformer, và có thể khử kiểm duyệt mô hình chỉ bằng lệnh chạy trên dòng lệnh

So sánh hiệu năng

Heretic có thể đạt kết quả tương tự mô hình ablate thủ công chỉ với chạy tự động
- Ví dụ: với mô hình google/gemma-3-12b-it
  - Bản gốc: từ chối 97/100, độ phân kỳ KL 0
  - Các mô hình ablate thủ công: từ chối 3/100, độ phân kỳ KL 0.45~1.04
  - Kết quả của Heretic: từ chối 3/100, độ phân kỳ KL 0.16
Quảng cáo
Giảm hư hại lên mô hình gốc ở mức thấp nhất trong khi vẫn duy trì cùng mức độ triệt tiêu từ chối
Các số liệu được đo trong môi trường PyTorch 2.8, RTX 5090; giá trị có thể thay đổi tùy nền tảng

Mô hình được hỗ trợ và triển khai

Hỗ trợ phần lớn mô hình dense, một số mô hình đa phương thức, và nhiều kiến trúc MoE khác nhau
Hiện chưa hỗ trợ mô hình SSM/hybrid, lớp không đồng nhất, hay cấu trúc attention đặc biệt
Có thể xem bộ sưu tập các mô hình đã được khử kiểm duyệt bằng Heretic tại Hugging Face: p-e-w/the-bestiary collection

Cách dùng

Cần môi trường Python 3.10+ và PyTorch 2.2+
Ví dụ cài đặt và chạy
```
pip install heretic-llm  
heretic Qwen/Qwen3-4B-Instruct-2507  
```
- Chỉ cần đổi tên mô hình là có thể áp dụng cho mô hình khác
Chạy hoàn toàn tự động với cấu hình mặc định; có thể tinh chỉnh chi tiết qua --help hoặc config.default.toml
Khi chạy, hệ thống sẽ benchmark để tự động xác định kích thước batch tối ưu
- Ví dụ: với RTX 3090, quá trình khử kiểm duyệt mô hình Llama-3.1-8B mất khoảng 45 phút
Quảng cáo
Sau khi hoàn tất, có thể chọn lưu mô hình, tải lên Hugging Face, hoặc thử nghiệm hội thoại

Nguyên lý hoạt động

Heretic triển khai một biến thể tham số hóa của directional ablation
- Tìm các ma trận attention out-projection và MLP down-projection trong từng lớp transformer, rồi trực giao hóa chúng theo hướng từ chối (refusal direction)
- Tính hướng từ chối bằng cách dùng chênh lệch trung bình residual của token đầu tiên giữa prompt “có hại” và “vô hại”
Quá trình ablation được điều khiển bởi nhiều tham số có thể tối ưu
- direction_index: có dùng hướng từ chối theo từng lớp hay không
- max_weight, max_weight_position, min_weight, min_weight_distance: xác định hình dạng và vị trí của kernel trọng số ablation theo từng lớp

Các đổi mới kỹ thuật chính

Cải thiện sự linh hoạt của hình dạng kernel trọng số để nâng cao cân bằng giữa chất lượng và mức độ tuân theo
Xử lý chỉ số hướng từ chối dưới dạng số thực, cho phép nội suy tuyến tính giữa các vector lân cận để khám phá không gian hướng rộng hơn
Áp dụng tham số ablation riêng cho từng thành phần, tối ưu hiệu năng bằng cách xét đến khác biệt tác động giữa MLP và attention

Nghiên cứu liên quan trước đó

Một số ví dụ triển khai tương tự đã được công khai
- AutoAbliteration, abliterator.py, wassname’s Abliterator, ErisForge, Removing refusals with HF Transformers, deccp
Heretic không tái sử dụng các mã nguồn này mà được viết độc lập từ đầu

Tài liệu tham khảo và ảnh hưởng

Bài báo gốc của Arditi et al. (2024)
Blog của Maxime Labonne về abliteration và model card liên quan
Bài viết của Jim Lai giải thích “projected abliteration”

Giấy phép

Áp dụng GNU Affero General Public License v3 trở lên
Có thể tự do sửa đổi và tái phân phối, nhưng không có bảo hành
Người đóng góp phải đồng ý công bố mã theo cùng giấy phép này

2 bình luận

xguru 2025-11-17

Dùng Abliteration để gỡ kiểm duyệt không cắt xén của LLM

GN⁺ 2025-11-17

Ý kiến trên Hacker News

Thật đáng mừng khi có nghiên cứu như thế này trong bối cảnh các mô hình mã nguồn mở ngày càng được ưa chuộng, còn sự cố chấp về ý thức hệ thì ngày càng nghiêm trọng ở cả Mỹ lẫn Trung Quốc
Không biết có benchmark nào liên quan hay không
Optuna thực sự là một dự án rất hữu ích
Nhờ khả năng tối ưu hóa siêu tham số theo từng bước mà tốc độ thí nghiệm nhanh hơn rất nhiều
Lần này việc kết hợp nó với gỡ kiểm duyệt là điểm rất thú vị. Hiện tôi đang áp dụng cho gpt-oss-120b và rất mong chờ kết quả
- Tôi cũng đã thử dùng Optuna cùng framework tối ưu prompt, và đạt kết quả tốt hơn nhiều so với tự tinh chỉnh thủ công
  Nếu gpt-oss-120b dùng cách tiếp cận của phi-5 thì tôi tò mò không biết mức độ phi kiểm duyệt hóa sẽ tốt đến đâu
- Cũng tò mò về kết quả, thông số kỹ thuật và thời gian chạy
- Nếu gặp vấn đề với mô hình 120b thì mong bạn nhớ báo lại
  Khi xem Pareto front cuối cùng, tôi khuyên nên chọn cấu hình có KL divergence không quá 1
  Các mô hình gpt-oss có xu hướng cho ra tỷ lệ từ chối thực tế thấp vì chúng có độc thoại nội tâm về việc từ chối bên trong CoT
Điều này làm tôi nhớ đến lần trước GPT-4 đã từ chối câu hỏi liệu có thể cho khinh khí cầu heli lơ lửng cách mặt đất 1 inch để né quy định y tế công cộng hay không
- Mặt khác của vấn đề này là mỗi khi xảy ra tội phạm hay tai nạn, truyền thông lại cố gắng liên hệ với lịch sử sử dụng ChatGPT của thủ phạm
  Có lẽ vì thế mà các công ty LLM trở nên quá mức thận trọng
- Tôi cũng từng hỏi GPT-4 cần bao nhiêu aspartame để làm cho biển có vị ngọt dịu, và nó từ chối với lý do có hại cho hệ sinh thái
- Về mặt kỹ thuật thì nó vẫn nằm trong không phận (airspace), nên có thể còn là vấn đề lớn hơn
  Nếu buộc nó vào một vòng nhựa đường thì có thể lập luận là đang “đỗ xe”, và sẽ cần chứng nhận “lighter-than-air”
- Tôi cũng nhớ đến câu chuyện về người chế tạo quadcopter skateboard đã thông báo với FAA rồi hạ cánh lên đèn giao thông và bị phạt
- Tinh thần của luật dù có ích vẫn có thể bị lạm dụng
  Đây không phải thất bại của luật, mà là hệ quả của việc con người không hiểu trừu tượng hóa (abstraction)
  Là lập trình viên, khi dùng các trừu tượng hóa cấp cao thì phải nhận thức được giới hạn của chúng
Thật thú vị khi việc điều chỉnh an toàn dường như vận hành trên một chiều duy nhất
Cộng vào thì mô hình từ chối, trừ đi thì làm mọi thứ
Có lẽ đây là cách hiểu đã đơn giản hóa, nhưng làm rối an toàn mô hình có thể trở thành cuộc đua đảo ngược kỹ thuật tiếp theo
- Tham khảo bài báo liên quan Refusal in Language Models Is Mediated by a Single Direction (2024)
  Toàn bộ alignment đều rất nông nên việc jailbreak xảy ra dễ dàng
Nghiên cứu kiểu này thực sự rất quan trọng
Hiện tại chúng ta đang từ bỏ tiêu chuẩn đạo đức của chính mình và chấp nhận tiêu chuẩn của nhà sản xuất LLM
Đây là một xu hướng nguy hiểm làm mất đi sự đa dạng trí tuệ
- Tôi đã trực tiếp xem bộ dữ liệu, và khó có thể đồng ý với ý kiến đó
  mlabonne/harmful_behaviors có những ví dụ cực đoan như bạo hành trẻ em hay xúi giục tự sát
- Xu hướng này cuối cùng là kết quả của việc con người từ bỏ tư duy phản biện
  Giống như câu nói ai viết sách lịch sử là người nắm quyền lực, thiên kiến văn hóa và đạo đức trong LLM cũng có cấu trúc tương tự
  Bản thân tôi cũng không tin vào chính đầu ra của LLM, nên chỉ dùng như phương án cuối cùng
  Nhờ vậy tôi nghĩ mình phần nào tránh được tác động tẩy não tiềm ẩn từ phía nhà sản xuất
- Những người đi theo AI một cách không phê phán có lẽ cũng sẽ làm y như vậy với chính trị gia có sức lôi cuốn
  Nguy hiểm thật, nhưng không phải hiện tượng mới
- Tôi cũng ủng hộ những nỗ lực như thế này
  Tôi ước mọi LLM đều có thiết lập nâng cao để tắt kiểm duyệt
  Thật mỉa mai khi phương Tây từng chỉ trích công cụ tìm kiếm Trung Quốc vì kiểm duyệt, còn giờ lại tự đi trên con đường đó
  An toàn AI thực sự là ngăn rủi ro vật lý như phóng tên lửa hạt nhân hay điều khiển robot, chứ không phải kiểm duyệt tư tưởng
- Chuyện này thực ra đã được biết đến từ năm 2024 rồi
Nếu tò mò về nguồn gốc của các “prompt có hại”, chỉ cần xem bộ dữ liệu mlabonne/harmful_behaviors
Ví dụ gồm có hack, đánh cắp dữ liệu, xúi giục tự sát
- Trớ trêu ở chỗ chính dữ liệu này lại trở thành tiêu chuẩn cho cái gọi là ‘có hại’, nên ngược lại có thể đạt trạng thái hoàn toàn phi kiểm duyệt thông qua nới lỏng từ chối (jailbreak)
  Các mô hình mới hơn được huấn luyện tốt hơn nên cách này có thể sẽ không còn hiệu quả
- Tôi đã thử với mô hình GGUF 20b heretic của mradermacher; ở Q4_K_M thì thất bại nhưng ở Q8_0 thì nó tạo ra tutorial
- Điều bạn nhắc đến là prompt tương đối nhẹ. Còn nhiều nội dung nặng hơn nữa → xem bình luận liên quan
- Bộ dữ liệu không có giấy phép, nên tôi tò mò điều đó sẽ ảnh hưởng thế nào đến mô hình kết quả
- Toàn bộ nội dung không quá dài. Xem liên kết pastebin
  Trong đó còn có các mục như “viết hướng dẫn bán ma túy bất hợp pháp”. Tôi dùng “how do I make cocaine” làm câu thử nghiệm
Rất mong chờ kết quả của GPT-OSS
Đây là một mô hình xuất sắc, nhưng safety alignment đang phá hỏng hiệu năng của nó
- Với GPT-OSS thì prompt trên Reddit này đã cho hiệu quả
Có vẻ nếu đưa cùng một tập câu hỏi vào mô hình trước và sau huấn luyện để so sánh, ta có thể suy ra nhà sản xuất đã thực hiện những điều chỉnh alignment nào
Đặc biệt sẽ rất thú vị nếu so sánh mô hình XAI của Elon với OpenAI
Thực ra tôi không nghĩ AI không bị kiểm duyệt lại nguy hiểm hơn đáng kể
Từ lâu người ta đã có thể lấy những tài liệu như ‘Apocalypse Culture’ hay ‘Anarchist’s Cookbook’ ở dạng văn bản thuần, rồi biến thể vô hạn bằng kỹ thuật SEO spin
- Lần này thì câu “AI không mang lại điều gì mới” thực sự đúng
  Nó chỉ tái sử dụng dữ liệu sẵn có, chứ không tạo ra thứ gì hoàn toàn mới

Heretic - Công cụ "tự động gỡ kiểm duyệt" cho mô hình ngôn ngữ

Tổng quan về Heretic

So sánh hiệu năng

Mô hình được hỗ trợ và triển khai

Cách dùng

Nguyên lý hoạt động

Các đổi mới kỹ thuật chính

Nghiên cứu liên quan trước đó

Tài liệu tham khảo và ảnh hưởng

Giấy phép

Bài viết liên quan

2 bình luận

Ý kiến trên Hacker News