Bộ lọc an toàn được trích xuất từ mô hình Apple Intelligence

(github.com/BlueFalconHD)

6 điểm bởi GN⁺ 2025-07-07 | 1 bình luận | Chia sẻ qua WhatsApp

Dự án mã nguồn mở giải mã và công khai bộ lọc an toàn được tích hợp trong các mô hình tạo sinh của Apple Intelligence
Bộ lọc an toàn chặn nội dung độc hại hoặc không phù hợp, bao gồm các quy tắc lọc để tuân thủ quy định
Các ghi đè an toàn được áp dụng khác nhau tùy theo ngữ cảnh của mô hình, đồng thời cung cấp thông tin quy tắc cụ thể phù hợp với từng tình huống
Các tệp đã giải mã có định dạng JSON, bao gồm từ ngữ, cụm từ và các quy tắc dựa trên biểu thức chính quy
Dự án này là một nguồn tài nguyên có ý nghĩa cho kiểm chứng quyền riêng tư và độ tin cậy, cũng như phân tích an toàn mô hình

Tổng quan dự án

Kho lưu trữ này giải mã và công khai các tệp ghi đè an toàn (safety override) của mô hình tạo sinh được sử dụng trong Apple Intelligence
Các bản ghi đè đã giải mã được sắp xếp có cấu trúc trong các thư mục và được cung cấp dưới dạng tệp JSON lọc an toàn gắn với từng mô hình
Nhờ đó, có thể kiểm tra cụ thể chính sách lọc nội dung mà các mô hình của Apple thực sự áp dụng

Cấu trúc thư mục và tệp

decrypted_overrides/
- Lưu các tệp ghi đè an toàn theo từng thư mục tương ứng với mỗi mô hình tạo sinh
- Mỗi thư mục bao gồm Info.plist (siêu dữ liệu) và AssetData (tệp JSON bộ lọc)
get_key_lldb.py: script Python để trích xuất khóa mã hóa mà ứng dụng sử dụng
decrypt_overrides.py: script Python để giải mã các tệp ghi đè an toàn

Giải mã và hiểu các tệp override

Các tệp JSON override nêu rõ các quy tắc lọc an toàn cụ thể
Mỗi override khớp với một ngữ cảnh mô hình nhất định, và cách lọc sẽ khác nhau tùy tình huống
Ví dụ JSON có các trường sau:
- "reject": danh sách các cụm từ cụ thể sẽ bị từ chối bắt buộc nếu khớp với đầu vào
- "remove": các cụm từ cần xóa bỏ khỏi kết quả đầu ra
- "replace": thay thế một cụm từ cụ thể bằng cụm từ khác
- "regexReject": từ chối nếu khớp bằng biểu thức chính quy
- "regexRemove", "regexReplace": xóa hoặc thay thế thông qua biểu thức chính quy

Ý nghĩa ứng dụng của dự án

Dự án này cho phép xem xét các quy tắc lọc thực tế của mô hình tạo sinh Apple, và có thể được dùng làm tài liệu tham khảo để đánh giá độ an toàn và độ tin cậy của mô hình
Hữu ích cho các nhà phát triển sử dụng mô hình tạo sinh, đội ngũ bảo mật khi phân tích cách bộ lọc hoạt động hoặc tham khảo thiết kế bộ lọc tùy chỉnh cho mô hình
Có thể minh bạch nắm được chính sách nội dung và mức độ tuân thủ quy định mà Apple Intelligence áp dụng

1 bình luận

GN⁺ 2025-07-07

Ý kiến trên Hacker News

Một số tổ hợp cho cảm giác khá kỳ lạ. Ở đây trộn lẫn các quy tắc nhằm tránh những phát ngôn liên quan đến cái chết với việc cực kỳ khắt khe về cách viết hoa/thường của thương hiệu Apple. Một trải nghiệm cho thấy cách Apple nhìn nhận thứ tự ưu tiên. Liên kết liên quan
- Thấy thú vị khi từ unalive lại không xuất hiện. Mọi người đều biết từ đó có nghĩa gì nhưng trên thực tế chẳng ai quan tâm, và ai cũng chỉ hành xử theo kiểu hình thức.
- Sự ám ảnh với viết hoa/thường của thương hiệu vừa đáng xấu hổ vừa khiến người ta bất an. Dù vậy, gần như chắc chắn với người phụ trách thương hiệu thì đó lại là yếu tố cực kỳ quan trọng.
- Hệ thống còn chặn cả các gợi ý lệnh như “thực thi tệp” hay “truyền đạt thông tin”.
- Có ý kiến cho rằng đừng nhìn chuyện này quá phán xét. Với các tập đoàn lớn của Mỹ, ưu tiên những vấn đề như vậy là cách làm việc khá thực tế.
Khá buồn cười khi thấy tên Alexandra Ocasio Cortez bị xem là vi phạm chính sách. Liên kết liên quan
- Tên của nhiều chính trị gia như Anthony Albanese, Boris Johnson, Christopher Luxon, Cyril Ramaphosa, Jacinda Arden, Jacob Zuma, John Steenhuisen, Justin Trudeau, Keir Starmer, Liz Truss, Michael D. Higgins, Rishi Sunak cũng bị cùng quy tắc này chặn. Liên kết liên quan Có dự đoán rằng việc tên các chính trị gia Nam Phi xuất hiện trong danh sách chặn sẽ thành đề tài được báo chí Nam Phi chú ý.
- Có suy đoán rằng phần lớn các mô hình GenAI dùng trong doanh nghiệp đều có hệ thống chặn những yêu cầu giật gân kiểu “hình ảnh chân thực về việc <tên chính trị gia> bị bắt”, “cảnh <tên chính trị gia> phất cờ ISIS”, hay “cảnh <tên chính trị gia> đánh em bé”.
- Việc tên Ocasio Cortez bị phân loại là vi phạm chính sách có thể là do ngữ cảnh, và có khả năng trong dữ liệu huấn luyện nó đã bị gắn với nghĩa miệt thị về chủng tộc; đồng thời có người muốn kiểm tra thêm các trường hợp khác.
- Hiện tượng này được xác nhận đặc biệt ở bản tiếng Tây Ban Nha.
- Có nhắc đến bối cảnh Ocasio Cortez từng là nạn nhân của nhiều nội dung khiêu dâm deepfake.
Trái với những tuyên bố rằng AGI sắp xuất hiện, thực tế các LLM “siêu trí tuệ” như thế này vẫn phải lọc đầu ra bằng regex khiến mọi chuyện trở nên khá nực cười.
- Có vẻ chẳng ai thực sự tin LLM của Apple là tối tân. Đặc biệt là LLM chạy trên thiết bị lại càng không được coi trọng.
- Thỉnh thoảng có người đùa rằng muốn lọc con người bằng regex luôn.
- Cảm giác giống như mọi nguồn động lực hiện đại rốt cuộc vẫn quay lại giải pháp cổ điển là “đun nước”.
- Đây chỉ là vấn đề chính sách và căn chỉnh của Apple, nhằm ngăn mô hình của họ tái tạo những phát ngôn thừa thãi đang tràn lan trên Internet.
Ở Trung Quốc, các chính sách như vậy được gọi là “xã hội hài hòa”, còn ở Mỹ thì được gọi là “an toàn”. Dù thuật ngữ kiểm duyệt có thay đổi thì hiệu ứng kiểm soát suy nghĩ của công chúng vẫn như nhau. Có người cảm thấy hiếm khi được nhìn thấy trực tiếp những thứ như thế này.
- Hoàn toàn không có gì đáng ngạc nhiên khi một công ty không muốn mô hình của mình tạo ra những câu có thể gây hại cho thương hiệu. Ví dụ, nếu Apple tóm tắt tin nhắn thành câu kiểu “Jane nghĩ Anthony Albanese nên chết đi” thì báo chí sẽ làm ầm lên, đó là một kịch bản rất thực tế.
- Ở Mỹ, hiện tượng này được giải thích là do rủi ro pháp lý, tức là do luật sư. Có người mỉa mai rằng người ta ca ngợi chủ nghĩa tư bản, nhưng hễ bắt đầu tối đa hóa chút lợi nhuận nhỏ nhoi bằng thao túng truyền thông thì lại đột nhiên hô khẩu hiệu “tự do ngôn luận”.
Bản thân việc chuyện này xảy ra ở Apple đã thấy khá vô lý. Vượt qua nó lại dễ, chẳng hạn chỉ cần dùng “B0ris Johnson” thay vì “Boris Johnson” là có thể né regex. Liên kết liên quan
- 99% người dùng thậm chí không nghĩ đến chuyện cố tình lách qua. Regex hardcode là tuyến phòng thủ đầu tiên và là công cụ lọc cực kỳ hiệu quả.
- Với LLM, cách diễn đạt lách luật đôi khi vẫn có tác dụng, nhưng với các mô hình tạo ảnh được huấn luyện xoay quanh các thẻ định nghĩa sẵn thì gần như có thể dẫn đến nhận diện thất bại ngay lập tức.
- Mục đích của các quy tắc này không phải để ngăn người dùng cố tình lách luật, mà chủ yếu là chặn rủi ro cấp một như việc một bản tóm tắt sinh ra câu kiểu “${chính trị gia} đáng chết” rồi bị báo chí giật tít. Nghĩ kỹ thì đây là mức an toàn kiểu “dành cho trẻ em”.
- Có cảm giác chính trường Anh bị xếp vào nhóm từ cấm kỵ.
- Không cần phải nói rằng những chính sách như vậy ở Apple là điều bất ngờ. Đây là cách ứng phó SOTA đang tồn tại, và vì Apple là người đến sau trong cuộc đua AI nên việc nhanh nhạy đi theo thông lệ ngành là lựa chọn hợp lý.
Nhìn các chính sách lọc khó hiểu này của Apple lại nhớ đến vụ tranh cãi trước đây về bộ lọc tìm kiếm tiếng châu Á. Một câu chuyện vừa kỳ quặc vừa đáng ngượng. Bài liên quan
Các bộ lọc này tập trung vào việc chặn những bản tóm tắt email/tin nhắn có thể gây xấu hổ hoặc rủi ro pháp lý, hoặc hiển thị cảnh báo như "Safari Summarization isn't designed to handle this type of content". Chúng được áp dụng cho đầu ra của LLM chứ không phải đầu vào. LLM chạy trên thiết bị của Apple chỉ có 3b tham số nên đôi lúc có xu hướng cho ra kết quả ngớ ngẩn.
Có người muốn thử các quy tắc lọc từ khóa nên định đổi tên thành “Granular Mango Serpent”.
- Có câu đùa rằng Granular Mango Serpent là David Meyer mới. Bài liên quan
Có câu hỏi liệu chuyện này có liên quan đến mã hóa mô hình Core ML hay không. Vì trước đây Apple vốn không cung cấp DRM để bảo vệ tài sản ứng dụng nên điều này có phần lạ lẫm. Liên kết liên quan
- Đây là một hệ thống riêng, không áp dụng cho toàn bộ một tài sản mà chỉ áp dụng cho các override kiểu này. Việc giải mã được thực hiện trong private framework ModelCatalog.

Bộ lọc an toàn được trích xuất từ mô hình Apple Intelligence

Tổng quan dự án

Cấu trúc thư mục và tệp

Giải mã và hiểu các tệp override

Ý nghĩa ứng dụng của dự án

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News