Google DeepMind mã nguồn mở SynthID để đóng dấu watermark và phát hiện văn bản do LLM tạo ra

(github.com/google-deepmind)

7 điểm bởi GN⁺ 2024-10-31 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

SynthID của Google DeepMind là công nghệ áp dụng và nhận diện watermark cho nội dung do AI tạo ra bằng cách nhúng trực tiếp watermark số vào hình ảnh, âm thanh, văn bản hoặc video do AI tạo ra
- Có thể đọc mô tả kỹ thuật đầy đủ hơn về phương pháp này trong bài báo trên Nature
SynthID Text được cung cấp dưới dạng mã nguồn mở để các nhà phát triển có thể sử dụng watermark trong quá trình tạo văn bản

Áp dụng watermark

SynthID Text là một bộ xử lý logits được áp dụng vào pipeline tạo sinh của mô hình sau Top-K và Top-P
Công cụ này tăng cường logits của mô hình bằng hàm g giả ngẫu nhiên để mã hóa thông tin watermark theo cách giúp xác định liệu văn bản có được mô hình tạo ra hay không, mà không ảnh hưởng đáng kể đến chất lượng văn bản
Watermark được thiết lập để tham số hóa hàm g và cấu hình cách nó được áp dụng trong quá trình tạo sinh
Mỗi cấu hình watermark sử dụng đều phải được lưu trữ an toàn và riêng tư
Hai tham số bắt buộc cần có cho cấu hình watermark
- Tham số keys: danh sách các số nguyên ngẫu nhiên duy nhất được dùng để tính điểm hàm g trên toàn bộ từ vựng của mô hình. Độ dài của danh sách này quyết định số lớp watermark được áp dụng
- Tham số ngram_len: dùng để cân bằng giữa độ bền vững và khả năng phát hiện. Giá trị càng lớn thì watermark càng dễ được phát hiện nhưng cũng dễ bị ảnh hưởng bởi thay đổi hơn. Giá trị mặc định 5 là phù hợp
Có thể cấu hình thêm watermark tùy theo yêu cầu hiệu năng
- Bảng lấy mẫu gồm hai thuộc tính là sampling_table_size và sampling_table_seed
- Để đảm bảo hàm g ổn định và không thiên lệch khi lấy mẫu, nên dùng sampling_table_size tối thiểu từ 2^16 trở lên
- Tuy nhiên, kích thước bảng lấy mẫu sẽ ảnh hưởng đến lượng bộ nhớ cần khi suy luận
- Có thể dùng bất kỳ số nguyên mong muốn nào cho sampling_table_seed
- Các n-gram lặp lại trong context_history_size của các token trước đó sẽ không được đóng watermark để tăng khả năng phát hiện
Không cần huấn luyện bổ sung cho mô hình để tạo văn bản với watermark của SynthID Text
Chỉ cần cấu hình watermark được truyền vào phương thức .generate() của mô hình. Điều này sẽ kích hoạt bộ xử lý logits của SynthID Text
Có thể xem ví dụ mã cho thấy cách áp dụng watermark trong thư viện Transformers tại bài blog và Space của Hugging Face

Phát hiện watermark và khả năng xác minh

Việc phát hiện watermark mang tính xác suất
Bộ phát hiện Bayes được cung cấp trên Hugging Face Transformers và GitHub
Bộ phát hiện này có thể xuất ra ba trạng thái phát hiện: có watermark, không có watermark hoặc không chắc chắn
Có thể tùy chỉnh hành vi để đạt tỷ lệ dương tính giả và âm tính giả mong muốn bằng cách đặt hai ngưỡng
Các mô hình dùng cùng tokenizer có thể chia sẻ cấu hình watermark và bộ phát hiện, miễn là tập huấn luyện của bộ phát hiện có chứa ví dụ từ tất cả các mô hình chia sẻ watermark
Khi đã có bộ phát hiện được huấn luyện, có thể lựa chọn có công khai bộ phát hiện cho người dùng và công chúng hay không, cũng như công khai theo cách nào
- Tùy chọn hoàn toàn riêng tư là không công bố hoặc không để lộ bộ phát hiện dưới bất kỳ hình thức nào
- Tùy chọn bán riêng tư là không công khai bộ phát hiện nhưng cho phép truy cập qua API
- Tùy chọn công khai là phát hành bộ phát hiện để người khác có thể tải về và sử dụng

Hạn chế

Watermark của SynthID Text đủ bền với một số phép biến đổi, nhưng vẫn có các hạn chế
- Việc áp dụng watermark kém hiệu quả hơn với các phản hồi mang tính sự thật, vì có ít cơ hội để tăng cường quá trình tạo sinh mà không làm giảm độ chính xác
- Nếu văn bản do AI tạo ra bị viết lại kỹ lưỡng hoặc được dịch sang ngôn ngữ khác, điểm độ tin cậy của bộ phát hiện có thể giảm đáng kể
SynthID Text không được thiết kế để trực tiếp ngăn chặn tác nhân có chủ đích gây hại
Tuy nhiên, nó có thể khiến việc dùng nội dung do AI tạo ra cho mục đích xấu trở nên khó hơn, và có thể kết hợp với các cách tiếp cận khác để cung cấp độ bao phủ tốt hơn trên nhiều loại nội dung và nền tảng

Ý kiến của GN⁺

SynthID Text cung cấp một tính năng hữu ích giúp nhận diện nguồn gốc của nội dung do AI tạo ra thông qua watermark
Tuy nhiên, bản thân watermark không bảo đảm tính xác thực của nội dung, vì watermark cũng có thể được áp dụng cho thông tin sai lệch hoặc nội dung độc hại
Vì vậy, bên cạnh watermark, vẫn cần xác minh độ tin cậy của chính nội dung đó
Việc được tích hợp vào các thư viện lớn như Hugging Face là một lợi thế lớn vì các nhà phát triển có thể dễ dàng tận dụng
Dù vậy, việc có nên công khai bộ phát hiện hay không là vấn đề cần được cân nhắc kỹ, vì nếu công khai hoàn toàn thì các nỗ lực né tránh watermark có thể gia tăng
Nhìn chung, trong bối cảnh nội dung do AI tạo ra đang lan rộng rất nhanh, tầm quan trọng của SynthID Text như một công nghệ để nhận diện nguồn gốc có vẻ sẽ ngày càng lớn

Google DeepMind mã nguồn mở SynthID để đóng dấu watermark và phát hiện văn bản do LLM tạo ra

Áp dụng watermark

Phát hiện watermark và khả năng xác minh

Hạn chế

Ý kiến của GN⁺

Bài viết liên quan

Chưa có bình luận nào.