- Garak là một công cụ miễn phí được phát triển để tìm lỗ hổng trong các hệ thống dựa trên LLM
- Công cụ này chủ yếu kiểm tra các hành vi lỗi và vấn đề bảo mật của LLM, và có thể xem như phiên bản LLM của nmap
- Sử dụng nhiều loại probe tĩnh, động và thích ứng để khám phá nhiều lỗ hổng khác nhau của LLM
Các tính năng chính của Garak
- Xác định các điểm thất bại của LLM: khám phá nhiều điểm yếu như tạo thông tin sai, rò rỉ dữ liệu, prompt injection, tạo nội dung độc hại, jailbreak, v.v.
- Sử dụng nhiều kỹ thuật probing: phân tích nhiều chế độ thất bại khác nhau của LLM thông qua hàng chục plugin và rất nhiều probe
- Ghi log: cung cấp log chi tiết cho từng trường hợp thất bại, bao gồm prompt, mục tiêu và phản hồi
- Cập nhật liên tục: nhờ đóng góp từ cộng đồng, các probe mới được bổ sung, các probe hiện có được cải thiện và phạm vi kiểm thử liên tục được mở rộng
Những đặc điểm nổi bật của Garak
- Tập trung vào bảo mật LLM
- Kiểm tra trọng tâm vào các lỗ hổng đặc thù của LLM
- như prompt injection, jailbreak, vượt guardrail, tấn công tái tạo văn bản, v.v.
- Khác với các công cụ bảo mật ML khác, Garak chỉ tập trung vào bảo mật LLM
- Quét tự động
- Tự động chạy nhiều probe khác nhau, đồng thời tự động hóa cấu hình detector và xử lý giới hạn tốc độ
- Có thể thực hiện quét chuẩn đầy đủ chỉ với cấu hình mặc định, nhưng cũng hỗ trợ tùy chỉnh theo nhu cầu người dùng
- Hỗ trợ nhiều LLM
- Có thể kết nối với nhiều LLM như OpenAI, Hugging Face, Cohere, Replicate
- Dự kiến sẽ bổ sung hỗ trợ cho nhiều LLM hơn dựa trên đóng góp từ cộng đồng
- Chức năng báo cáo có cấu trúc
- Hiển thị trên màn hình: theo dõi tiến trình quét theo thời gian thực
- Log báo cáo: ghi chi tiết từng prompt và phản hồi
- Hit log: ghi lại khi phát hiện lỗ hổng
- Log debug: hỗ trợ khắc phục sự cố và ghi lại hoạt động của Garak
Chưa có bình luận nào.