- Dự án mã nguồn mở giải mã và công khai bộ lọc an toàn được tích hợp trong các mô hình tạo sinh của Apple Intelligence
- Bộ lọc an toàn chặn nội dung độc hại hoặc không phù hợp, bao gồm các quy tắc lọc để tuân thủ quy định
- Các ghi đè an toàn được áp dụng khác nhau tùy theo ngữ cảnh của mô hình, đồng thời cung cấp thông tin quy tắc cụ thể phù hợp với từng tình huống
- Các tệp đã giải mã có định dạng JSON, bao gồm từ ngữ, cụm từ và các quy tắc dựa trên biểu thức chính quy
- Dự án này là một nguồn tài nguyên có ý nghĩa cho kiểm chứng quyền riêng tư và độ tin cậy, cũng như phân tích an toàn mô hình
Tổng quan dự án
- Kho lưu trữ này giải mã và công khai các tệp ghi đè an toàn (safety override) của mô hình tạo sinh được sử dụng trong Apple Intelligence
- Các bản ghi đè đã giải mã được sắp xếp có cấu trúc trong các thư mục và được cung cấp dưới dạng tệp JSON lọc an toàn gắn với từng mô hình
- Nhờ đó, có thể kiểm tra cụ thể chính sách lọc nội dung mà các mô hình của Apple thực sự áp dụng
Cấu trúc thư mục và tệp
decrypted_overrides/
- Lưu các tệp ghi đè an toàn theo từng thư mục tương ứng với mỗi mô hình tạo sinh
- Mỗi thư mục bao gồm Info.plist (siêu dữ liệu) và AssetData (tệp JSON bộ lọc)
get_key_lldb.py: script Python để trích xuất khóa mã hóa mà ứng dụng sử dụng
decrypt_overrides.py: script Python để giải mã các tệp ghi đè an toàn
Giải mã và hiểu các tệp override
- Các tệp JSON override nêu rõ các quy tắc lọc an toàn cụ thể
- Mỗi override khớp với một ngữ cảnh mô hình nhất định, và cách lọc sẽ khác nhau tùy tình huống
- Ví dụ JSON có các trường sau:
"reject": danh sách các cụm từ cụ thể sẽ bị từ chối bắt buộc nếu khớp với đầu vào
"remove": các cụm từ cần xóa bỏ khỏi kết quả đầu ra
"replace": thay thế một cụm từ cụ thể bằng cụm từ khác
"regexReject": từ chối nếu khớp bằng biểu thức chính quy
"regexRemove", "regexReplace": xóa hoặc thay thế thông qua biểu thức chính quy
Ý nghĩa ứng dụng của dự án
- Dự án này cho phép xem xét các quy tắc lọc thực tế của mô hình tạo sinh Apple, và có thể được dùng làm tài liệu tham khảo để đánh giá độ an toàn và độ tin cậy của mô hình
- Hữu ích cho các nhà phát triển sử dụng mô hình tạo sinh, đội ngũ bảo mật khi phân tích cách bộ lọc hoạt động hoặc tham khảo thiết kế bộ lọc tùy chỉnh cho mô hình
- Có thể minh bạch nắm được chính sách nội dung và mức độ tuân thủ quy định mà Apple Intelligence áp dụng
1 bình luận
Ý kiến trên Hacker News
unalivelại không xuất hiện. Mọi người đều biết từ đó có nghĩa gì nhưng trên thực tế chẳng ai quan tâm, và ai cũng chỉ hành xử theo kiểu hình thức.