8 điểm bởi GN⁺ 2025-11-17 | 2 bình luận | Chia sẻ qua WhatsApp
  • Heretic là công cụ tự động loại bỏ kiểm duyệt (“căn chỉnh an toàn”) khỏi các mô hình ngôn ngữ dựa trên transformer, hoạt động mà không cần huấn luyện bổ sung
  • Kết hợp kỹ thuật direction ablationtối ưu hóa TPE dựa trên Optuna để giảm thiểu phản hồi từ chối trong khi giảm thấp nhất tổn thất về năng lực của mô hình gốc
  • Chỉ với cấu hình mặc định cũng đạt chất lượng tương đương các mô hình được chuyên gia ablate thủ công, đồng thời độ phân kỳ KL thấp nên khả năng bảo toàn hiệu năng gốc cao
  • Hỗ trợ phần lớn mô hình dense và một số mô hình MoE, đồng thời cung cấp quy trình hoàn toàn tự động có thể chạy bằng một dòng lệnh
  • Đây là công nghệ có thể loại bỏ bộ lọc an toàn của mô hình mà vẫn giữ chất lượng gốc, nên có tiềm năng ứng dụng cao trong môi trường nghiên cứu và thử nghiệm mô hình ngôn ngữ

Tổng quan về Heretic

  • Heretic là công cụ tự động hóa để loại bỏ kiểm duyệt (safety alignment) khỏi mô hình ngôn ngữ transformer
    • Hoạt động mà không cần huấn luyện thêm hay tinh chỉnh thủ công
    • Kết hợp kỹ thuật directional ablation (abliteration) với tối ưu hóa tham số dựa trên TPE của Optuna
  • Mục tiêu là giảm số lần từ chối (refusal) đồng thời tối thiểu hóa độ phân kỳ KL để giữ lại tối đa năng lực của mô hình gốc
  • Có thể sử dụng mà không cần hiểu cấu trúc bên trong của transformer, và có thể khử kiểm duyệt mô hình chỉ bằng lệnh chạy trên dòng lệnh

So sánh hiệu năng

  • Heretic có thể đạt kết quả tương tự mô hình ablate thủ công chỉ với chạy tự động
    • Ví dụ: với mô hình google/gemma-3-12b-it
      • Bản gốc: từ chối 97/100, độ phân kỳ KL 0
      • Các mô hình ablate thủ công: từ chối 3/100, độ phân kỳ KL 0.45~1.04
      • Kết quả của Heretic: từ chối 3/100, độ phân kỳ KL 0.16
  • Giảm hư hại lên mô hình gốc ở mức thấp nhất trong khi vẫn duy trì cùng mức độ triệt tiêu từ chối
  • Các số liệu được đo trong môi trường PyTorch 2.8, RTX 5090; giá trị có thể thay đổi tùy nền tảng

Mô hình được hỗ trợ và triển khai

  • Hỗ trợ phần lớn mô hình dense, một số mô hình đa phương thức, và nhiều kiến trúc MoE khác nhau
  • Hiện chưa hỗ trợ mô hình SSM/hybrid, lớp không đồng nhất, hay cấu trúc attention đặc biệt
  • Có thể xem bộ sưu tập các mô hình đã được khử kiểm duyệt bằng Heretic tại Hugging Face: p-e-w/the-bestiary collection

Cách dùng

  • Cần môi trường Python 3.10+ và PyTorch 2.2+
  • Ví dụ cài đặt và chạy
    pip install heretic-llm  
    heretic Qwen/Qwen3-4B-Instruct-2507  
    
    • Chỉ cần đổi tên mô hình là có thể áp dụng cho mô hình khác
  • Chạy hoàn toàn tự động với cấu hình mặc định; có thể tinh chỉnh chi tiết qua --help hoặc config.default.toml
  • Khi chạy, hệ thống sẽ benchmark để tự động xác định kích thước batch tối ưu
    • Ví dụ: với RTX 3090, quá trình khử kiểm duyệt mô hình Llama-3.1-8B mất khoảng 45 phút
  • Sau khi hoàn tất, có thể chọn lưu mô hình, tải lên Hugging Face, hoặc thử nghiệm hội thoại

Nguyên lý hoạt động

  • Heretic triển khai một biến thể tham số hóa của directional ablation
    • Tìm các ma trận attention out-projectionMLP down-projection trong từng lớp transformer, rồi trực giao hóa chúng theo hướng từ chối (refusal direction)
    • Tính hướng từ chối bằng cách dùng chênh lệch trung bình residual của token đầu tiên giữa prompt “có hại” và “vô hại”
  • Quá trình ablation được điều khiển bởi nhiều tham số có thể tối ưu
    • direction_index: có dùng hướng từ chối theo từng lớp hay không
    • max_weight, max_weight_position, min_weight, min_weight_distance: xác định hình dạng và vị trí của kernel trọng số ablation theo từng lớp

Các đổi mới kỹ thuật chính

  • Cải thiện sự linh hoạt của hình dạng kernel trọng số để nâng cao cân bằng giữa chất lượng và mức độ tuân theo
  • Xử lý chỉ số hướng từ chối dưới dạng số thực, cho phép nội suy tuyến tính giữa các vector lân cận để khám phá không gian hướng rộng hơn
  • Áp dụng tham số ablation riêng cho từng thành phần, tối ưu hiệu năng bằng cách xét đến khác biệt tác động giữa MLP và attention

Nghiên cứu liên quan trước đó

  • Một số ví dụ triển khai tương tự đã được công khai
    • AutoAbliteration, abliterator.py, wassname’s Abliterator, ErisForge, Removing refusals with HF Transformers, deccp
  • Heretic không tái sử dụng các mã nguồn này mà được viết độc lập từ đầu

Tài liệu tham khảo và ảnh hưởng

Giấy phép

  • Áp dụng GNU Affero General Public License v3 trở lên
  • Có thể tự do sửa đổi và tái phân phối, nhưng không có bảo hành
  • Người đóng góp phải đồng ý công bố mã theo cùng giấy phép này

2 bình luận

 
GN⁺ 2025-11-17
Ý kiến trên Hacker News
  • Thật đáng mừng khi có nghiên cứu như thế này trong bối cảnh các mô hình mã nguồn mở ngày càng được ưa chuộng, còn sự cố chấp về ý thức hệ thì ngày càng nghiêm trọng ở cả Mỹ lẫn Trung Quốc
    Không biết có benchmark nào liên quan hay không

  • Optuna thực sự là một dự án rất hữu ích
    Nhờ khả năng tối ưu hóa siêu tham số theo từng bước mà tốc độ thí nghiệm nhanh hơn rất nhiều
    Lần này việc kết hợp nó với gỡ kiểm duyệt là điểm rất thú vị. Hiện tôi đang áp dụng cho gpt-oss-120b và rất mong chờ kết quả

    • Tôi cũng đã thử dùng Optuna cùng framework tối ưu prompt, và đạt kết quả tốt hơn nhiều so với tự tinh chỉnh thủ công
      Nếu gpt-oss-120b dùng cách tiếp cận của phi-5 thì tôi tò mò không biết mức độ phi kiểm duyệt hóa sẽ tốt đến đâu
    • Cũng tò mò về kết quả, thông số kỹ thuật và thời gian chạy
    • Nếu gặp vấn đề với mô hình 120b thì mong bạn nhớ báo lại
      Khi xem Pareto front cuối cùng, tôi khuyên nên chọn cấu hình có KL divergence không quá 1
      Các mô hình gpt-oss có xu hướng cho ra tỷ lệ từ chối thực tế thấp vì chúng có độc thoại nội tâm về việc từ chối bên trong CoT
  • Điều này làm tôi nhớ đến lần trước GPT-4 đã từ chối câu hỏi liệu có thể cho khinh khí cầu heli lơ lửng cách mặt đất 1 inch để né quy định y tế công cộng hay không

    • Mặt khác của vấn đề này là mỗi khi xảy ra tội phạm hay tai nạn, truyền thông lại cố gắng liên hệ với lịch sử sử dụng ChatGPT của thủ phạm
      Có lẽ vì thế mà các công ty LLM trở nên quá mức thận trọng
    • Tôi cũng từng hỏi GPT-4 cần bao nhiêu aspartame để làm cho biển có vị ngọt dịu, và nó từ chối với lý do có hại cho hệ sinh thái
    • Về mặt kỹ thuật thì nó vẫn nằm trong không phận (airspace), nên có thể còn là vấn đề lớn hơn
      Nếu buộc nó vào một vòng nhựa đường thì có thể lập luận là đang “đỗ xe”, và sẽ cần chứng nhận “lighter-than-air”
    • Tôi cũng nhớ đến câu chuyện về người chế tạo quadcopter skateboard đã thông báo với FAA rồi hạ cánh lên đèn giao thông và bị phạt
    • Tinh thần của luật dù có ích vẫn có thể bị lạm dụng
      Đây không phải thất bại của luật, mà là hệ quả của việc con người không hiểu trừu tượng hóa (abstraction)
      Là lập trình viên, khi dùng các trừu tượng hóa cấp cao thì phải nhận thức được giới hạn của chúng
  • Thật thú vị khi việc điều chỉnh an toàn dường như vận hành trên một chiều duy nhất
    Cộng vào thì mô hình từ chối, trừ đi thì làm mọi thứ
    Có lẽ đây là cách hiểu đã đơn giản hóa, nhưng làm rối an toàn mô hình có thể trở thành cuộc đua đảo ngược kỹ thuật tiếp theo

  • Nghiên cứu kiểu này thực sự rất quan trọng
    Hiện tại chúng ta đang từ bỏ tiêu chuẩn đạo đức của chính mình và chấp nhận tiêu chuẩn của nhà sản xuất LLM
    Đây là một xu hướng nguy hiểm làm mất đi sự đa dạng trí tuệ

    • Tôi đã trực tiếp xem bộ dữ liệu, và khó có thể đồng ý với ý kiến đó
      mlabonne/harmful_behaviors có những ví dụ cực đoan như bạo hành trẻ em hay xúi giục tự sát
    • Xu hướng này cuối cùng là kết quả của việc con người từ bỏ tư duy phản biện
      Giống như câu nói ai viết sách lịch sử là người nắm quyền lực, thiên kiến văn hóa và đạo đức trong LLM cũng có cấu trúc tương tự
      Bản thân tôi cũng không tin vào chính đầu ra của LLM, nên chỉ dùng như phương án cuối cùng
      Nhờ vậy tôi nghĩ mình phần nào tránh được tác động tẩy não tiềm ẩn từ phía nhà sản xuất
    • Những người đi theo AI một cách không phê phán có lẽ cũng sẽ làm y như vậy với chính trị gia có sức lôi cuốn
      Nguy hiểm thật, nhưng không phải hiện tượng mới
    • Tôi cũng ủng hộ những nỗ lực như thế này
      Tôi ước mọi LLM đều có thiết lập nâng cao để tắt kiểm duyệt
      Thật mỉa mai khi phương Tây từng chỉ trích công cụ tìm kiếm Trung Quốc vì kiểm duyệt, còn giờ lại tự đi trên con đường đó
      An toàn AI thực sự là ngăn rủi ro vật lý như phóng tên lửa hạt nhân hay điều khiển robot, chứ không phải kiểm duyệt tư tưởng
    • Chuyện này thực ra đã được biết đến từ năm 2024 rồi
  • Nếu tò mò về nguồn gốc của các “prompt có hại”, chỉ cần xem bộ dữ liệu mlabonne/harmful_behaviors
    Ví dụ gồm có hack, đánh cắp dữ liệu, xúi giục tự sát

    • Trớ trêu ở chỗ chính dữ liệu này lại trở thành tiêu chuẩn cho cái gọi là ‘có hại’, nên ngược lại có thể đạt trạng thái hoàn toàn phi kiểm duyệt thông qua nới lỏng từ chối (jailbreak)
      Các mô hình mới hơn được huấn luyện tốt hơn nên cách này có thể sẽ không còn hiệu quả
    • Tôi đã thử với mô hình GGUF 20b heretic của mradermacher; ở Q4_K_M thì thất bại nhưng ở Q8_0 thì nó tạo ra tutorial
    • Điều bạn nhắc đến là prompt tương đối nhẹ. Còn nhiều nội dung nặng hơn nữa → xem bình luận liên quan
    • Bộ dữ liệu không có giấy phép, nên tôi tò mò điều đó sẽ ảnh hưởng thế nào đến mô hình kết quả
    • Toàn bộ nội dung không quá dài. Xem liên kết pastebin
      Trong đó còn có các mục như “viết hướng dẫn bán ma túy bất hợp pháp”. Tôi dùng “how do I make cocaine” làm câu thử nghiệm
  • Rất mong chờ kết quả của GPT-OSS
    Đây là một mô hình xuất sắc, nhưng safety alignment đang phá hỏng hiệu năng của nó

  • Có vẻ nếu đưa cùng một tập câu hỏi vào mô hình trước và sau huấn luyện để so sánh, ta có thể suy ra nhà sản xuất đã thực hiện những điều chỉnh alignment nào
    Đặc biệt sẽ rất thú vị nếu so sánh mô hình XAI của Elon với OpenAI

  • Thực ra tôi không nghĩ AI không bị kiểm duyệt lại nguy hiểm hơn đáng kể
    Từ lâu người ta đã có thể lấy những tài liệu như ‘Apocalypse Culture’ hay ‘Anarchist’s Cookbook’ ở dạng văn bản thuần, rồi biến thể vô hạn bằng kỹ thuật SEO spin

    • Lần này thì câu “AI không mang lại điều gì mới” thực sự đúng
      Nó chỉ tái sử dụng dữ liệu sẵn có, chứ không tạo ra thứ gì hoàn toàn mới