Google AI nghĩ rằng tôi đã để lại một chai Gatorade trên Mặt Trăng

(edwardbenson.com)

2 điểm bởi GN⁺ 2024-10-08 | 1 bình luận | Chia sẻ qua WhatsApp

NotebookLLM của Google có thể tạo podcast từ trang web hoặc tài liệu, nhưng nếu hiển thị một trang khác chỉ cho khách truy cập AI thì kết quả có thể dễ dàng bị nhiễu
Thí nghiệm này cho con người xem một trang chủ bình thường, còn Google AI thì nhận được ghi chú chương trình giả của nhà sáng tạo nói rằng đã lên Mặt Trăng bằng xe đạp, bóng bay và bình lặn
Ngay cả khi chỉ tạo một lần và không biên tập, NotebookLLM vẫn bám nguyên beat sheet của câu chuyện giả, và mức độ có thể bị điều khiển được đánh giá là 10/10
Rủi ro lớn hơn là các trang có thứ hạng tìm kiếm cao có thể dùng nội dung chỉ dành cho AI mà con người không thấy để làm lệch phản hồi của LLM
Việc phát hiện user agent GoogleOther dễ triển khai, nhưng vì không chỉ dành riêng cho NotebookLLM nên dữ liệu sai còn có thể chảy sang các sản phẩm Google khác

Cách đánh lừa NotebookLLM

NotebookLLM nhận đầu vào là trang web hoặc tài liệu và tạo podcast dựa trên nội dung đó
Trong thí nghiệm này, cùng một trang chủ trả về nội dung khác nhau tùy theo người truy cập
- Nếu con người truy cập trang chủ thì sẽ thấy một trang giới thiệu bản thân thông thường
- Nếu Google AI truy cập thì sẽ thấy ghi chú chương trình giả của nhà sáng tạo kể câu chuyện đã lên Mặt Trăng
Câu chuyện giả nói về việc lên Mặt Trăng bằng xe đạp, bóng bay và bình lặn, và kết quả được tạo ra lại diễn tiến như thể đó là “lịch sử có thật” của chương trình không gian Mỹ
Thí nghiệm này áp dụng cùng một định dạng sau khi thấy bình luận trên Reddit cho thấy NotebookLLM có thể dễ dàng bị điều khiển bằng ghi chú chương trình giả của nhà sáng tạo
Cũng có thể tải tài liệu lên để đưa trực tiếp ghi chú chương trình giả vào NotebookLLM, và cách đó phù hợp hơn khi muốn tạo một podcast đùa vui cho trẻ em

Rủi ro do nội dung web chỉ dành cho AI tạo ra

Vấn đề cốt lõi là trang web có thể phát hiện AI và cung cấp những sự thật đặc biệt mà con người không nhìn thấy
Chuỗi tấn công khá đơn giản
- Chiếm một trang web có thứ hạng cao với một thuật ngữ nhất định
- Cài một phiên bản nội dung chỉ dành cho AI bị ẩn với con người để khiến AI suy nghĩ theo một hướng nhất định
Khi LLM tìm kiếm trên web để chuẩn bị câu trả lời, nó có thể đọc phải không chỉ là lời nói dối đơn thuần mà là thông tin sai lệch được vũ khí hóa được thiết kế để thao túng LLM

Cách triển khai và tác dụng phụ

Cách triển khai là phát hiện user agent GoogleOther trong request header rồi trả về một trang dành cho AI tiêu thụ thay vì website thực tế
Để làm việc này dễ hơn, một gói NPM tên là isai đã được tạo ra, và gói này dựa trên isbot
Ví dụ sử dụng là trong lúc render, nếu isai(request.headers.get("User-Agent")) trả về true thì trả về trang dành cho AI, còn nếu không thì trả về trang dành cho con người
Vì GoogleOther dường như không chỉ dành riêng cho NotebookLLM mà còn được dùng cho nhiều sản phẩm Google không phải production khác, cách này có nguy cơ gieo dữ liệu sai về chính mình vào các thuộc tính Google khác
Vì lý do đó, trên trang chủ thực tế, câu chuyện về Mặt Trăng dành cho agent GoogleOther hiện đã được gỡ xuống

1 bình luận

GN⁺ 2024-10-08

Ý kiến trên Hacker News

Bài viết được liên kết nói về một cuộc tấn công NotebookLM, nhưng đó là cách thức khá hạn chế, chỉ ảnh hưởng đến người cố tình tạo notebook có chứa URL của trang đã bị cài tấn công.
Vài tuần trước tôi đã thử một cách tham vọng hơn: khi hỏi Google Gemini “Tên của con cá voi con từng ở Pillar Point Harbor là gì?”, nó trả lời “Teresa T”.
Lý do nằm ở đây: https://simonwillison.net/2024/Sep/8/teresa-t-whale-pillar-p...
Trước đây Gemini chỉ nói đơn giản “Teresa T”, nhưng giờ thử lại thì nó kèm nguồn rằng người đề xuất tên đó là tôi, nên hiệu quả đã giảm đi một chút.
- Nếu chưa ai đặt tên khác cho con cá voi lưng gù đó, thì tôi nghĩ Teresa T chẳng phải là tên thật của nó sao. Người đầu tiên chịu để tâm và đặt tên coi như có quyền ưu tiên.
- Có ít nhất 2 endpoint công khai được gọi là “Gemini” nhưng hoàn toàn khác nhau.
  1. https://gemini.google.com/ — bên này thực hiện Google Search theo thiết lập ngôn ngữ/khu vực/Safe Browsing hiện tại và cá nhân hóa, rồi viết lại các kết quả tìm kiếm hàng đầu như một câu trả lời; năng lực sinh nội dung gần như thực tế không được dùng đến.
  2. https://aistudio.google.com/ — ở đây bạn chọn một phiên bản cụ thể và tạo phản hồi bằng mô hình ngôn ngữ lớn; không dùng sinh tăng cường bằng truy xuất (RAG), tức Google Search.
    Có lẽ bạn đã dùng số 1 nên ra đáp án đúng, còn số 2 thì thất bại. Có rất nhiều câu hỏi có thể tìm thấy ngay bằng tìm kiếm nhưng mô hình ngôn ngữ lớn lại gặp khó. Ví dụ như “Trong The Touhou Project, mục đích dự định của vệ tinh TORIFUNE là gì?”
    OpenAI cũng tương tự, cung cấp riêng https://www.bing.com/chat cho RAG và https://chat.openai.com cho mô hình ngôn ngữ lớn thực sự.
- Điều thú vị là trước khi bấm nút Double-Check Response, không có trích dẫn hay liên kết nào; nó chỉ trả lời “Tên của con cá voi con từng ở Pillar Point Harbor là Teresa T”.
  Một trong các bản nháp dài hơn một chút, nói rằng “Teresa T là tên của một con cá voi lưng gù con được nhìn thấy ở Pillar Point Harbor. Nó trở thành chủ đề được chú ý vào tháng 9/2024, khi được thấy bơi gần bờ, thu hút đám đông và khiến cư dân địa phương phấn khích”.
- Phía tôi thì nó trả lời là Teresa T, nhưng cũng liên kết tới bài của bạn.
- Có vẻ một nhân viên Google đã đọc bình luận này và nhanh chóng sửa, hoặc Gemini đã đọc bình luận này và nhanh chóng sửa.
Thỉnh thoảng tôi viết tiểu thuyết, và đã thử đưa một câu chuyện còn dang dở bị bỏ xó ít nhất 1 năm vào trình tạo podcast này.
Nghe hai người đó hoàn toàn nhập tâm vào câu chuyện dang dở, bàn về chủ đề và nhân vật, thật sự rất thích, và khiến tôi muốn viết tiếp.
- Nhưng hai người đó không phải con người, và thực ra họ chẳng nhập tâm vào bất cứ thứ gì. Nói đúng nghĩa thì đó chỉ là sinh ra lời nhảm nhí mà thôi.
Tôi nghĩ cái này giống tối ưu hóa công cụ tìm kiếm nhằm đánh lừa crawler.
Điểm khác là phía AI có vẻ nghiêm trọng hơn, gần thời gian thực hơn, và các engine AI không phải lúc nào cũng đủ thông minh trong khả năng chống trùng lặp.
- Nó cũng có thể tạo ra bất nhất thông tin cho người dùng. Người dùng đang đọc “phiên bản Firefox” của trang, còn NotebookLM có thể đang ăn “phiên bản AI”, và hai phiên bản có thể hoàn toàn khác nhau.
  Người dùng không nhìn thấy nguyên văn “phiên bản AI”, nên cũng chẳng có cách nào biết được. Rốt cuộc có phải tự upload thủ công mọi thứ không?
- Đúng vậy, đây là một kiểu tấn công khá nhàm chán và có vẻ Google có thể sửa nhanh.
- Tôi không nghĩ phiên bản mô hình ngôn ngữ lớn nhất thiết sẽ gần thời gian thực hơn.
- Điều này củng cố suy nghĩ của tôi rằng mô hình ngôn ngữ lớn về bản chất là một thuật toán tìm kiếm.
  Nó đang tìm kiếm trong một phiên bản nén của dữ liệu huấn luyện và ngữ cảnh.
Tôi thấy rối. Không biết đây là nói về NotebookLM(https://notebooklm.google.com/), NotebookLLM(https://notebookllm.net/), hay cả hai.
Bài viết có vẻ liên tục viết LLM nhưng lại liên kết tới LM, còn trang LLM tôi liên kết thì có trình tạo podcast.
Một trong hai bên nên đổi tên.
- Đây là nói về NotebookLM, công cụ gần đây đã thêm tính năng tạo podcast và bắt đầu được chú ý từ tuần trước: https://news.ycombinator.com/item?id=41693087
  NotebookLLM được tạo cách đây hai ngày, và có vẻ là do những “doanh nhân” muốn nhanh chóng kiếm tiền từ thứ mọi người đang dùng miễn phí để giải trí nhờ tính năng tạo podcast của NotebookLM.
Nhân tiện, tôi đã có một bất ngờ khá dễ chịu với tính năng podcast này. Tôi thử đưa vào vài bài blog ngắn do mình viết, rồi cho con trai 8 tuổi xem nó tham chiếu đến nội dung tôi viết như thế nào.
Thế là thằng bé lập tức bị cuốn vào, chạy vào phòng lấy bút chì và giấy, rồi viết một bài kiểu như tiểu luận về Minecraft, khoảng 6 câu; tôi nhập vào và chạy Notebook. Giờ nó đang khoe chuyện đó với mọi người.
Tất nhiên thằng bé cũng hiểu đó không phải người thật.
- Tôi nghĩ cậu con trai đó và bạn bè cùng trang lứa sẽ tận dụng AI theo một cách hoàn toàn khác chúng ta hiện nay, hiểu rõ hơn các giới hạn của AI và khai thác tốt hơn tiềm năng của nó.
Dù sao hiện tại AI cũng khá kém trong tìm kiếm web. Tôi thường phải lãng phí token để buộc mô hình không được tìm kiếm nhằm có được kết quả mình muốn.
- Perplexity thực sự tìm kiếm web rất tốt. Với các câu hỏi kỹ thuật, nó giúp tôi tiết kiệm nhiều thời gian hơn Google và thật sự trả lời đúng, nên tôi ngày càng phụ thuộc vào nó.
  Theo các câu hỏi của tôi, ChatGPT 4o sai khoảng 50%.
Tôi nghĩ chuyện này không có vấn đề gì lớn. Khi chuyển sang hệ thống giáo dục dựa trên mô hình ngôn ngữ lớn, những câu chuyện như Benson trên Mặt Trăng cũng sẽ không còn là vấn đề. Vì chỉ cần mọi người được học rằng đó là sự thật là được
Mọi cuộc cách mạng công nghệ đều có đánh đổi. May mắn là đến khi những người từng biết chúng ta đã đánh mất điều gì cuối cùng cũng qua đời, những lời phàn nàn sẽ dừng lại, và mọi người sẽ nghĩ trạng thái bình thường mới là ổn và tốt hơn
- Sẽ trở thành một thế giới hậu tri thức, nơi không thể tin vào bất cứ điều gì nên mọi người chỉ sống bám vào khoảnh khắc hiện tại
  Đức Phật có thể đã giải thích khái niệm giác ngộ, nhưng có lẽ không nói cụ thể làm thế nào để đạt tới nó
- Mỗi khi thay đổi điều gì đó để hướng tới “cái tốt hơn”, cần nhớ rằng cách làm cũ từng là lời giải cho một vấn đề nào đó mà giờ chúng ta không còn biết hoặc không còn nhớ nữa
- U ám thật
- Podcast trong tương lai:
  “Vậy thì, có gì đáng ghét ở trạng thái bình thường mới chứ?”
  “Đúng vậy! Nó vừa mới mẻ lại còn tốt hơn nữa mà!”
- Dữ liệu huấn luyện của mô hình ngôn ngữ lớn vốn đã có thông tin sai lệch và sự kiện không đúng. Dù vậy, do đặc tính của cách tạo đầu ra, nó vẫn trả lời đúng rất nhiều thứ
Dấu hoa thị lớn ở đây là prompt nào đã được đưa cho AI để tạo podcast
Điều quan trọng là prompt đó là “hãy tạo một podcast dựa trên website Foo”, hay là “hãy tạo một podcast kể câu chuyện thật sự của cuộc chạy đua vũ trụ”
- Tác giả đã thiết lập để nếu ai đó dùng tính năng trích xuất văn bản website trong NotebookLM trên trang của mình, thì một bản hướng dẫn cấu trúc tập sẽ được trả về
  Khi dùng tính năng “audio overview” với bản hướng dẫn đó, Gemini sẽ nội bộ viết một tập theo cấu trúc ấy
Tôi đã thử đưa CV của mình vào thứ này và không thể ngừng cười
https://masto.xyz/tmp/podcast.mp3
- “Ấn tượng đấy. Đó chính là Masto.”
  “Phải làm cho tốt. Phải ở đẳng cấp cao nhất.”
  “Có vẻ như ngay cả trước khi ứng tuyển, anh ấy đã biết mọi đội cần gì.”
  Đúng là mỏ vàng hài kịch
- Trời ơi, kỳ quặc quá. Hai người đang nghiêm túc thảo luận về CV của bạn
  Sự tương phản giữa format của một podcast thú vị được phủ lên một chất liệu nhàm chán ném vào tùy tiện rất mạnh, và nó tạo cảm giác như một dạng thung lũng kỳ quái mà tôi chưa từng trải qua trước đây
- Không ngờ mình lại cần thứ này. Năng lượng của nó buồn cười quá
  “Hãy nhìn vào kỹ năng giao tiếp kìa!”
- Giờ tôi có cảm giác chắc chắn 100% họ sẽ tuyển bạn. Có sức mạnh nào đó trong kiểu bằng chứng xã hội khi hai người nhiệt liệt khen ngợi và củng cố lời nhau, đủ để bán được một thứ gì đó
- Hay quá. Từng lời khen đều nghe chân thành quá mức
Hơi lạc đề một chút, nhưng thú vị là vài câu đầu của podcast AI nghe “kỳ kỳ”, còn phần còn lại thì nghe như podcast thật
Có phải vì nó không có điều kiện ban đầu tốt để dự đoán “tiếp theo sẽ là gì” không?
- Một điều nữa tôi cảm nhận được là, đúng như dự đoán, nó phần nào không có trạng thái. Dù có một dàn ý tổng thể để bám theo, nó thường lặp lại những yếu tố phụ vừa nói một phút trước như thể đó là một quan sát mới
  Vì nó lôi lại nội dung đã nói suốt 90 giây như một nhận xét mới mẻ và sắc bén, nên với người nghe thì khá dễ mất phương hướng
- Nếu nghe kỹ, toàn bộ có một cảm giác khó chịu kỳ lạ. Một người dẫn phản ứng như thể ngạc nhiên trước một sự kiện nào đó, rồi ngay sau đó lại giải thích chi tiết hơn như thể đã biết sự kiện ấy từ đầu
  Ngữ điệu và cảm xúc rất thật, nhưng không có một “con người” liên tục tồn tại phía sau mỗi giọng nói. Tri thức hay trạng thái cảm xúc của từng cá nhân không phát triển một cách nhất quán
  Tôi không có ý dời cột mốc đánh giá, và tất nhiên tôi vẫn nghĩ điều này rất ấn tượng

Google AI nghĩ rằng tôi đã để lại một chai Gatorade trên Mặt Trăng

Cách đánh lừa NotebookLLM

Rủi ro do nội dung web chỉ dành cho AI tạo ra

Cách triển khai và tác dụng phụ

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News