Mã nguồn mở phát hiện và loại bỏ watermark SynthID của Gemini bằng kỹ thuật đảo ngược

(github.com/aloshdenny)

3 điểm bởi GN⁺ 2026-04-12 | 1 bình luận | Chia sẻ qua WhatsApp

Không cần truy cập bộ mã hóa/giải mã SynthID của Google, vẫn có thể khôi phục cấu trúc watermark vô hình trong ảnh Gemini chỉ bằng xử lý tín hiệu thuần túy và phân tích phổ
Phát hiện cốt lõi: SynthID chèn carrier vào các vị trí tần số khác nhau theo từng độ phân giải, và độ nhất quán mẫu pha vượt 99,5% giữa các ảnh được tạo từ cùng một mô hình — về thực chất là một mẫu cố định
Các cách nén JPEG hay chèn nhiễu trước đây gây suy giảm chất lượng lớn, nhưng phương pháp trừ codebook phổ đa độ phân giải V3 vẫn giữ PSNR trên 43dB đồng thời đạt mức giảm 91% về độ nhất quán pha
Lưu profile theo từng độ phân giải trong codebook, rồi tự động chọn theo ảnh đầu vào → trừ trong miền FFT → lặp nhiều lượt để loại bỏ watermark còn sót
Tín hiệu watermark mạnh nhất ở kênh Green, và việc áp dụng trọng số theo kênh (G=1.0, R=0.85, B=0.70) giúp loại bỏ chính xác hơn
Bộ phát hiện xuất độ chính xác 90% cho việc xác định có watermark hay không cùng mức độ tin cậy, sử dụng phân tích đa tỉ lệ dựa trên codebook
Đây là dự án phục vụ mục đích nghiên cứu và giáo dục, cấm sử dụng để khiến ảnh do AI tạo bị hiểu nhầm là do con người làm ra
Viết bằng Python, toàn bộ mã nguồn được công khai trên GitHub

1 bình luận

GN⁺ 2026-04-12

Ý kiến trên Hacker News

Việc chèn một watermark 1 bit không thể phát hiện vào hình ảnh có hàng triệu pixel thực ra không quá khó
Nếu giả định Google đủ năng lực, có lẽ họ sẽ dùng hai loại watermark — một bản lỏng hơn được công khai ra bên ngoài, và một bản khác dành cho nội bộ hoặc phiên bản không công khai cho yêu cầu từ cơ quan thực thi pháp luật
Hơn nữa, nếu là Google thì có lẽ họ sẽ lưu mọi hình ảnh được tạo ra (hoặc neural hash của chúng) vào cơ sở dữ liệu và liên kết với tài khoản
- Chiến lược watermark kép này rất hợp lý từ góc độ defensive engineering
  Giả định lớp bên ngoài rồi sẽ bị xuyên thủng, đồng thời duy trì một lớp thứ hai không thể kiểm thử công khai, là nguyên tắc cơ bản của bảo mật
  Tuy vậy, khi mô hình liên tục được làm mới và có đặc tính không xác định (non-deterministic), tôi tự hỏi liệu người dùng có thể chứng minh được điều đó hay không
Repo này có chất lượng thấp nếu gọi là nghiên cứu có AI hỗ trợ, và cũng không so sánh đàng hoàng với bộ phát hiện SynthID của Google
Thực ra chỉ cần nhờ LLM hỗ trợ thôi cũng có thể đảo ngược các request mạng để triển khai phát hiện SynthID mà không cần trình duyệt hay Gemini. Đó mới là ground truth thực sự
- Trên HN tôi thường thấy nhiều bình luận nói “cái này không khó”, nhưng lại hầu như không có POC hay link nghiên cứu nào đi kèm
  Cũng thường có kiểu công kích nguồn hoặc hạ thấp bằng câu “AI viết đấy”
  Dạo này cộng đồng HN cho cảm giác ngày càng chuyển thành kiểu ghét công cụ AI
Hôm nay tôi nghĩ là mình đã thấy watermark trong một ảnh tạo bằng Nano Banana
Tôi copy ảnh từ Chrome sang Slack, và kết quả chỉ hiện thành một hình vuông đen với chấm đỏ
- Tôi cũng từng gặp trải nghiệm tương tự, nhưng sau mới phát hiện là các dấu chấm nguệch ngoạc trên ảnh chụp màn hình đã bị copy theo
  Không biết có phải bạn cũng gặp nhầm lẫn kiểu đó không
Tôi biết sớm muộn gì cũng sẽ có người làm ra thứ này, nhưng tôi không hiểu vì sao lại cố tình loại bỏ phương tiện phát hiện ảnh do AI tạo ra
- Dù sao kẻ tấn công cũng sẽ làm điều tương tự, và như việc chia sẻ lỗ hổng bảo mật, các nhà nghiên cứu thiện chí cũng cần phải biết
  Nếu chỉ phe xấu biết thì còn nguy hiểm hơn
- Dù sao những công cụ kiểu này trước đây chỉ một số ít người dùng được, nhưng giờ thì ai cũng biết khả năng đó tồn tại
- Về bản chất, SynthID là một tín hiệu mơ hồ (fuzzy signal)
  Công chúng không hiểu được kiểu logic nhị phân như “không có watermark thì là ảnh thật”
  Cuối cùng watermark AI là thứ được định sẵn sẽ thất bại
  Hơn nữa, trước đây người ta cũng đâu gắn watermark vô hình lên các phương tiện truyền thông bị chỉnh sửa — đây là vấn đề triết lý hơn là công nghệ
- Rốt cuộc mục đích là để khiến ảnh giả trông như ảnh thật
- Thực ra chuyện này đã làm được từ lâu rồi
  Nếu chạy Stable Diffusion với denoising strength thấp thì watermark gần như biến mất
  Repo lần này nói là đưa ra cách ít phá hủy hơn, nhưng nhìn dấu vết AI viết trong README thì tôi không tin lắm
SynthID hiện rõ một cách dễ nhận thấy trên một số ảnh nhất định (đặc biệt là các vùng có nhiều cạnh hoặc nhiều chữ)
Tôi tò mò liệu phương pháp trong repo này có thể làm những phần đó trông tự nhiên hơn không
- Có hiện tượng là càng chỉnh sửa lặp lại bằng Nano Banana thì watermark lại càng lộ rõ hơn
Nhìn README là thấy dấu vết của Claude quá rõ
Viền bảng bị lệch, và cấu trúc câu cũng là kiểu mẫu đặc trưng của Claude
- Việc chỉ liệt kê bằng ngoặc và dấu phẩy mà không dùng “and” cũng là đặc điểm điển hình của Claude
- Đây đúng là một thảm họa bảng Unicode
  Nó cố bắt chước bảng ASCII nhưng độ rộng ký tự không đồng đều nên các dòng không thẳng hàng
  Thậm chí còn có cả lỗi off-by-one
  Tôi có cảm giác đến năm 2037 chúng ta vẫn sẽ còn nhìn những bảng Unicode lệch cột như thế này
- Chỉ nhìn nội dung README thôi cũng thấy rõ là Claude viết
Repo này chỉ kiểm thử hiệu năng xóa watermark bằng bộ phát hiện tự làm của chính nó
Mà lại không xác minh bằng app SynthID của Google, nên thành ra vô nghĩa
Trong phần mô tả dự án có viết “đừng làm cho nội dung do AI tạo ra trông như do con người làm”, nhưng trên thực tế lại phát hành công cụ CLI xóa watermark
Cả tên cấu hình như “aggressive”, “maximum” cũng quá lộ liễu
README trông như đầu ra AI chưa biên tập, nội dung lặp lại và cấu trúc cũng lỏng lẻo
- V1, V2 chỉ xuất hiện trong bảng chứ không hề được giải thích
- Các con số như “Detection Rate: 90%” không có căn cứ, còn “License: Research” thì thậm chí chẳng có link
- Chỉ có 88 ảnh thử nghiệm, và không có cả CI lẫn test suite
- Ví dụ code cũng dùng hai kiểu import khác nhau nên một kiểu sẽ gây lỗi
- Nếu Google thay đổi SynthID thì cũng không có cách nào biết codebook đã lỗi thời hay chưa
  Ý tưởng cốt lõi (carrier phụ thuộc độ phân giải, tính nhất quán pha giữa các ảnh) thì thú vị, nhưng cách đóng gói làm mất sạch độ tin cậy
- Đồng ý. Những công cụ như vậy có khả năng bị lạm dụng rất lớn, và xã hội cần có khả năng phân biệt rõ ràng nội dung do AI tạo ra
Nếu giảm kích thước rồi phóng to lại ảnh thì watermark sẽ biến mất
Thực tế là không khó đến vậy
Có bài liên quan trên blog deepwalker.xyz

Mã nguồn mở phát hiện và loại bỏ watermark SynthID của Gemini bằng kỹ thuật đảo ngược

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News