Khủng hoảng niềm tin vào trí tuệ nhân tạo

(simonwillison.net)

1 điểm bởi GN⁺ 2023-12-16 | 1 bình luận | Chia sẻ qua WhatsApp

Tranh cãi về tính năng AI mới của Dropbox xuất phát từ nỗi lo rằng tệp cá nhân được giao phó có thể bị dùng để huấn luyện OpenAI, điều mà Dropbox đã mạnh mẽ phủ nhận
Tính năng này gồm tóm tắt theo yêu cầu và “trò chuyện với dữ liệu” dựa trên retrieval-augmented generation (RAG), nhưng trong vấn đề quyền riêng tư AI, rất khó giành được niềm tin chỉ bằng những mô tả khái quát
Nút bật/tắt AI trông như được bật mặc định, kết hợp với câu nguyên tắc “không dùng để huấn luyện nếu không có đồng ý”, khiến người dùng có thể nhầm lẫn về phạm vi đồng ý
Dù OpenAI nói “dữ liệu gửi qua API không được dùng để huấn luyện”, nhiều người dùng vẫn không tin, tạo ra một cấu trúc bất tín tương tự niềm tin rằng Facebook nghe lén micro để chạy quảng cáo
Các công ty AI cần khôi phục niềm tin bằng giải thích minh bạch về dữ liệu huấn luyện và cách xử lý; trong bối cảnh lo ngại quyền riêng tư, mô hình chạy cục bộ đang trở thành một lựa chọn thay thế hấp dẫn hơn

Cốt lõi của tranh cãi về tính năng AI của Dropbox

Sau khi Dropbox bổ sung tính năng AI mới, chỉ trích gia tăng rằng tệp cá nhân có thể được chuyển tới OpenAI và dùng để huấn luyện mô hình
Mối lo chính là liệu các tệp riêng tư lưu trên Dropbox có được dùng làm dữ liệu huấn luyện của OpenAI hay không, và Dropbox đã mạnh mẽ phủ nhận điều này
Tính năng này gồm tóm tắt theo yêu cầu và các phương thức retrieval-augmented generation (RAG) như “trò chuyện với dữ liệu”
Với những dịch vụ lưu giữ nhiều dữ liệu cá nhân, chỉ cần phần giải thích về quyền riêng tư AI hơi mơ hồ cũng dễ làm mất niềm tin

Sự nhầm lẫn do cách diễn đạt về đồng ý và cài đặt

Trong AI principles của Dropbox có câu nói rằng họ lấy niềm tin của khách hàng và quyền riêng tư dữ liệu làm nền tảng, và không sử dụng dữ liệu khách hàng để huấn luyện mô hình AI nếu không có sự đồng ý
Trong phần cài đặt tài khoản có một nút bật/tắt liên quan đến AI, và ngay cả ở những tài khoản chưa từng tự bật, nút này cũng hiển thị ở trạng thái bật
- Khoảng 4 giờ sau khi bài viết được đăng, liên kết tới cài đặt đó không còn hoạt động
Không rõ nút bật/tắt này có được hiểu là đồng ý cho huấn luyện mô hình hay không
Từ “đồng ý” trở nên rất mơ hồ khi kết hợp với thực tế mọi người thường chấp nhận điều khoản mà không đọc
Nhiều người dùng hiểu rằng dữ liệu cá nhân họ giao cho Dropbox bảo vệ đang chảy vào quy trình huấn luyện của OpenAI

Những người dùng không tin OpenAI

Nội dung cài đặt của Dropbox nói về OpenAI, đối tác bên thứ ba, rằng “dữ liệu tuyệt đối không được dùng để huấn luyện các mô hình nội bộ và sẽ bị xóa khỏi máy chủ bên thứ ba trong vòng 30 ngày”
Nhưng nhiều người dùng không tin lời nói rằng OpenAI không dùng dữ liệu để huấn luyện
Tranh cãi vượt ra ngoài vấn đề cài đặt của Dropbox và dẫn tới khủng hoảng niềm tin đối với AI nói chung
Nhận thức rằng “OpenAI dùng mọi dữ liệu nhìn thấy được để huấn luyện” ở vị trí tương tự niềm tin rằng “Facebook nghe lén cuộc trò chuyện qua micro điện thoại và hiển thị quảng cáo”

So sánh với thuyết âm mưu Facebook nghe lén micro

Giả thuyết rằng Facebook nghe lén cuộc trò chuyện của người dùng qua micro điện thoại và hiển thị quảng cáo đã tồn tại từ lâu
Về mặt kỹ thuật, có nhiều cơ sở để phản bác điều này
- Hệ điều hành di động không cho phép ứng dụng truy cập micro một cách vô hình
- Các nhà nghiên cứu quyền riêng tư có thể kiểm tra lưu lượng liên lạc giữa thiết bị và Facebook để xác minh hoạt động thực tế
- Việc liên tục chạy nhận dạng giọng nói chất lượng cao ở quy mô lớn là cực kỳ tốn kém
Cũng có các phản bác phi kỹ thuật
- Facebook phủ nhận điều này, và nếu bị phát hiện nói dối thì rủi ro danh tiếng là rất lớn
- Cần có quá nhiều người tham gia nên khó có thể kéo dài mà không có người tố giác nội bộ
- Facebook vốn đã có những phương pháp nhắm mục tiêu quảng cáo rẻ hơn và hiệu quả hơn nhiều mà không cần nghe lén micro
- Khi xem hàng nghìn quảng cáo, có thể sẽ có trường hợp tình cờ trùng với điều bạn vừa nói
Nếu người dùng cảm thấy mình đã thấy quảng cáo liên quan ngay sau khi thực sự nói điều gì đó, các phản bác này sẽ mất sức thuyết phục
Tập tháng 11/2017 của Reply All “109 Is Facebook Spying on You?” kết luận rằng Facebook không nghe lén qua micro, nhưng rất khó thuyết phục những người đã tin sẵn

Trong AI, hộp đen làm gia tăng bất tín

Trong trường hợp Facebook, người dùng tin rằng họ biết chuyện gì đang xảy ra dựa trên trải nghiệm cá nhân
Với AI, tình huống gần như ngược lại
- Mô hình gần với một hộp đen và được xây dựng trong bí mật
- Khó biết dữ liệu huấn luyện nào đã được sử dụng
- Cũng khó hiểu dữ liệu huấn luyện đã ảnh hưởng tới mô hình như thế nào
Người dùng trở nên dựa vào bầu không khí và cảm giác hơn là bằng chứng, và bầu không khí hiện tại quanh AI không mấy tích cực

Vì sao khủng hoảng niềm tin lại quan trọng

Nghi ngờ rằng doanh nghiệp nói dối về cách xử lý quyền riêng tư là cực kỳ nghiêm trọng
Một xã hội nơi các tập đoàn lớn có thể nói dối trắng trợn về cách xử lý dữ liệu mà không chịu hậu quả nào là không lành mạnh
Một trong những vai trò quan trọng của chính phủ là ngăn chặn những việc như vậy xảy ra
- Nếu OpenAI đã huấn luyện trên dữ liệu mà họ nói sẽ không dùng để huấn luyện, họ phải đứng trước cơ quan quản lý hoặc bị kiện
- Nếu Facebook đã giám sát qua micro điện thoại, họ cũng phải chịu sự quản lý và kiện tụng tương tự
Nếu tin các thuyết âm mưu vô căn cứ là sự thật, mức độ không khoan nhượng của xã hội đối với hành vi vi phạm pháp luật thực sự của doanh nghiệp cũng có thể suy yếu
Quyền riêng tư quan trọng nhưng dễ bị hiểu lầm
- Mọi người có thể vừa đánh giá quá cao vừa đánh giá quá thấp những việc doanh nghiệp đang làm và có thể làm
- Công nghệ AI đang thay đổi nhanh chóng phạm vi những gì có thể, khiến lĩnh vực này khó hiểu ngay cả với người am hiểu

OpenAI và các phòng thí nghiệm AI có thể làm gì

Các phòng thí nghiệm AI lớn có thể công khai cách huấn luyện rõ ràng hơn
Câu hỏi cốt lõi là OpenAI dùng những gì làm dữ liệu huấn luyện
Hiện tại không thể biết câu trả lời, và toàn bộ quy trình rất thiếu minh bạch
Trong tình huống như vậy, ngay cả khi OpenAI nói “dữ liệu gửi qua API không được dùng để huấn luyện”, mọi người cũng khó tin
Bản thân ChatGPT còn phức tạp hơn
- OpenAI dùng các tương tác với ChatGPT để cải thiện mô hình
- Khách hàng trả phí cũng không phải ngoại lệ; ngoại lệ là ChatGPT Enterprise với “giá theo yêu cầu tư vấn”
Khi người dùng dán tài liệu không công khai vào ChatGPT và yêu cầu tóm tắt, để đánh giá liệu sau lần cập nhật mô hình tiếp theo một phần tài liệu đó có bị lộ cho người dùng khác hay không, cần có nhiều giải thích hơn về cách dữ liệu ChatGPT được dùng để cải thiện mô hình
Giống như các công ty nền tảng quy mô lớn công bố postmortem sau sự cố, các công ty AI cũng có thể khôi phục niềm tin bằng những giải thích minh bạch
- Dan Luu đã tổng hợp danh sách các ví dụ postmortem liên quan

Cơ hội của mô hình cục bộ

Xu hướng lặp lại trong tranh cãi này là người dùng cảm thấy thoải mái hơn khi giao dữ liệu cho mô hình cục bộ chạy trên thiết bị của chính họ, thay vì mô hình được lưu trữ trên đám mây
Chất lượng của mô hình cục bộ đang cải thiện đều đặn và kích thước cũng đang giảm
Mixtral-8x7b-Instruct có thể chạy trên laptop và được đánh giá là mô hình cục bộ đầu tiên có chất lượng trông tương đương ChatGPT 3.5
Phi-2 của Microsoft là mô hình 2,7 tỷ tham số
- Nhiều mô hình cục bộ hữu ích bắt đầu từ 7 tỷ tham số
- Phi-2 tuyên bố đạt hiệu năng hiện đại so với một số mô hình lớn hơn
- Chi phí huấn luyện có vẻ vào khoảng 35.000 USD
Tiềm năng của mô hình cục bộ là lớn, nhưng nên tránh tình huống đánh mất lợi ích của các mô hình hosted lớn hơn và tiện lợi hơn vì những lo ngại quyền riêng tư sai lệch

Điều kiện cho thảo luận về AI và quyền riêng tư

Giao điểm giữa AI và quyền riêng tư là một vấn đề quan trọng
Để có thảo luận chất lượng cao, cần minh bạch tối đa và hiểu biết về những gì thực sự đang diễn ra
Khi doanh nghiệp không còn được tin ngay lập tức, cuộc thảo luận này trở nên khó hơn
Doanh nghiệp phải giành được niềm tin của người dùng và giúp người dùng hiểu lý do

1 bình luận

GN⁺ 2023-12-16

Các ý kiến trên Hacker News

Trong bảo vệ quyền riêng tư trên website, cần có một định nghĩa về đồng ý vừa có thể thực thi vừa rõ ràng về mặt pháp lý
Không được khiến người dùng trông như đã chủ động đồng ý với việc thu thập, xử lý và chuyển dữ liệu cho bên thứ ba, trong khi thực tế dữ liệu đã bị xử lý lén từ trước rồi sau đó mới dựng lên sự đồng ý
- Khái niệm đó đã tồn tại rồi, và luôn tồn tại. Tên của nó là lừa đảo
  Nếu lừa ai đó ký hợp đồng thì hợp đồng đó là lừa đảo; nếu nói rằng sẽ xin phép trước khi làm việc gì đó, rồi âm thầm viện dẫn rằng trong hợp đồng trước đây họ đã cho phép rồi, thì đó cũng là lừa đảo
  Không biết hệ thống tư pháp đã trở nên bất lực từ khi nào, nhưng không thể đổ lỗi cho những công dân không được bảo vệ
- Dù tòa án đưa ra điều gì, nó cũng sẽ trở thành một đòn bẩy khác để khai thác bất cân xứng quyền lực giữa cá nhân và doanh nghiệp
  Điều cần thiết là đưa luật pháp trở lại theo hướng giải thể độc quyền và thời kỳ New Deal, nghiền nát ảnh hưởng xấu rồi xây dựng lại
- Tôi đăng nhập Dropbox và sốc khi thấy thiết lập chia sẻ dữ liệu của mình với các công ty AI bên thứ ba “đã được xác minh” được bật mặc định
  Tôi đã gửi email WTF cho bộ phận hỗ trợ, nhưng có lẽ rồi sẽ hủy tài khoản. Tôi không thể tưởng tượng nổi họ có thể trả lời thế nào để khiến chuyện này có vẻ ổn được
- GDPR đã có quy định này rồi. Nhưng các công ty cũng chẳng quan tâm, và cơ quan quản lý cũng vậy
  Các tập đoàn lớn có quá nhiều quyền lực và ảnh hưởng
Bài viết nhìn chung hay, nhưng phép so sánh giữa “điện thoại của tôi nghe lén tôi” và “OpenAI có thể nói dối về cách họ dùng dữ liệu của tôi” có vẻ hơi khiếm khuyết
Việc ứng dụng bên thứ ba truy cập micro của iPhone có các cơ chế kiểm soát mạnh, nhưng khi dữ liệu của tôi được chuyển cho bên thứ ba dưới dạng văn bản thuần thì không có cơ chế tương ứng. Với người bình thường, hai chuyện có thể trông giống nhau, nhưng trong trường hợp đầu họ vẫn được bảo vệ
Việc phân biệt khác biệt này có thể trông như soi tiểu tiết, nhưng hành xử như thể cuộc chiến vì quyền riêng tư và chủ quyền dữ liệu của người dùng đã kết thúc là cực kỳ phản tác dụng. Tôi thường thấy những người hoài nghi có chút hiểu biết kỹ thuật phản ứng trước mỗi hành vi lạm dụng mới của doanh nghiệp kiểu “chuyện đó ai chẳng biết”, như thể nếu bạn chưa dùng Tails Linux hơn 10 năm thì nén thư mục home rồi gửi hết cho các công ty công nghệ đáng ngờ và các data broker cũng chẳng khác gì
Sự bất lực học được này không chỉ phá hoại niềm tin mà còn tạo ấn tượng rằng một thế giới tốt đẹp hơn là điều bất khả. Vụ Dropbox trông giống như một ví dụ cho thấy lối tư duy đó quay trở lại. Thật điên rồ khi nghĩ rằng người dùng sẽ không quan tâm nếu ám chỉ rằng các tệp riêng tư của họ bị gửi cho bên thứ ba mà không hề hỏi ý kiến
Nhân tiện, phần lớn dữ liệu của tôi vốn đã được chuyển khỏi Dropbox sang tự host, nhưng hôm qua là giọt nước tràn ly khiến tôi hủy hẳn tài khoản. Cảm ơn nhé, Dropbox
- Khiếm khuyết của phép so sánh đó là điều bài viết đã cố đề cập
  Trong ví dụ về Facebook, mọi người tin rằng họ hiểu chuyện gì đang diễn ra dựa trên bằng chứng cá nhân của mình, còn AI thì gần như ngược lại hoàn toàn. Mô hình AI là một hộp đen kỳ lạ, được xây dựng bí mật, và không có cách nào hiểu được dữ liệu huấn luyện là gì hay nó ảnh hưởng đến mô hình ra sao
  Tôi hoàn toàn đồng ý rằng mối đe dọa lớn nhất hiện nay là sự tự mãn. Khi mọi người tạo ra mô hình tinh thần sai lệch rồi nhún vai “nó vốn là thế mà”, việc cải thiện vấn đề thật sự sẽ trở nên khó khăn
- Chúng ta buộc phải tin rằng một thế giới tốt đẹp hơn là có thể. Tình trạng hiện tại không thể chịu nổi, và nếu ngày mai không thể tốt hơn thì còn gì có ý nghĩa nữa?
  Rõ ràng sẽ có lựa chọn tốt hơn và tệ hơn về nơi giao phó dữ liệu và quyền riêng tư, nhưng vì thậm chí không biết ai là những nơi đó, hay liệu có nơi nào “đáng tin cậy” theo nghĩa rộng hay không, nên người ta phải hành động trên giả định rằng không thể tin ai cả
  Tôi muốn bớt hoài nghi hơn, nhưng nhìn lại 10–20 năm qua thì chủ nghĩa hoài nghi có vẻ hoàn toàn chính đáng. Nếu thái độ này là sai, thì có thể sửa nó bằng cách nào?
- Đây không phải là soi tiểu tiết, mà là một điểm rất hay
  Quyền truy cập micro của ứng dụng do hệ điều hành kiểm soát, và có các công cụ do hệ điều hành cung cấp để người dùng xem ứng dụng nào có thể dùng micro vào lúc nào
  Ngược lại, quyền truy cập dữ liệu đám mây hoàn toàn theo kiểu “hãy tin tôi”, và thực tế đã cho thấy nhiều công ty đã lạm dụng niềm tin đó
- Có hai hướng lớn. Hoặc đầu tư tài nguyên cần thiết để dùng công cụ mã nguồn mở và tự host, hoặc chấp nhận sự tiện lợi của dịch vụ độc quyền nhưng cẩn thận với những gì đưa vào đó
  Tôi vẫn dùng Dropbox, nhưng mọi thứ tôi đưa vào Dropbox đều đã được mã hóa hoặc là những thứ có lộ ra Internet công khai cũng không sao. Tôi đã dành nhiều thời gian mày mò các giải pháp tự host, nhưng sau một thời điểm thì thấy lợi ích thực tế không còn lớn, và tốt hơn là dùng thời gian, năng lượng vào việc khác
- Có thể nói rõ hơn về cấu hình kho lưu trữ tự host của bạn không? Tôi đã muốn làm chuyện đó từ lâu
Với tôi, bài này hơi ngây thơ và mang nặng cảm giác “hãy giả định thiện ý”
Nhìn vào những gì đã xảy ra bên ngoài AI trong 10 năm qua, ai cũng đang ngấu nghiến dữ liệu như những kẻ sưu tầm ám ảnh. Không chỉ Google hay Facebook, những công ty dùng dữ liệu trong sản phẩm cốt lõi, mà gần như tất cả đều vậy. Hôm nay tôi còn thấy một minisite công thức truyền thống Thụy Điển dùng vào dịp Giáng sinh đã thêm video tự phát, banner đồng ý cookie kiểu dark pattern và những thứ tương tự
Gần như mọi ứng dụng và trang web mới đều vận hành quanh trục kinh tế này, và đúng vào thời điểm các mô hình ngôn ngữ lớn bắt đầu mạnh lên, các API bên thứ ba bỗng đồng loạt bị khóa
Thế hệ AI hiện nay không phải kiểu những người chơi khác lén ăn dữ liệu như ăn khuya, mà giống zombie nhanh đói khát máu và não. Một phần vì dữ liệu đóng vai trò trực tiếp hơn trong sản phẩm, một phần vì tâm lý cạnh tranh quá nóng của giới đầu tư mạo hiểm công nghệ trước khả năng có một chuyển dịch mô hình sau nhiều thập kỷ đã thức giấc
Mọi dấu hiệu đều hướng tới tận thế zombie và cơn sốt vàng, kiểu xin tha thứ sau. Vì vậy tôi tin mạnh rằng ai cũng đang củng cố diễn ngôn về an toàn và trách nhiệm trước cuộc khủng hoảng danh tiếng tất yếu. Tức là tích sẵn đạn dược để làm đục nước trước
Nhưng giới kỹ thuật thì vẫn uể oải như thể chưa trải qua sâu sắc 10 năm vừa rồi, và nghĩ rằng lần này sẽ khác vì AI có gốc rễ trong học thuật, vì đây là những công ty mới hào nhoáng, vì có diễn ngôn an toàn, vì có các bài Twitter sắc lẹm của những nhà sáng lập “thực tế”
Tôi không giả vờ biết chính xác chuyện gì đang diễn ra phía sau, nhưng tôi đã ở đây đủ lâu để hiểu cách con người vận hành. Và con người thì không tốt lên
- Đại công ty mới này hứa sẽ không làm điều ác mà...
- Những công ty này đã đánh cắp dữ liệu của mọi người, và giới kỹ thuật thì vừa càu nhàu về luật sở hữu trí tuệ vừa nói rằng bất cứ thứ gì trên Internet công khai đều có thể dùng không cần xin phép
  Về mặt pháp lý có thể thực tế là vậy, nhưng làm thế vẫn khiến bạn trông như kẻ tệ hại của ngành công nghệ
Bài viết lướt qua quá nhẹ chuyện ngoài việc huấn luyện bằng dữ liệu của tôi còn có các lo ngại về quyền riêng tư
Tôi là người làm việc chuyên nghiệp, và khách hàng chịu ràng buộc bởi thỏa thuận bảo mật và quy định về việc thông tin đi đâu. Tôi muốn dùng dịch vụ nơi dữ liệu chỉ nằm trên máy chủ hơn là có ngày càng nhiều điểm rò rỉ dữ liệu
Ngay từ đầu tôi đã không hiểu vì sao dữ liệu của tôi không phải lúc nào cũng được mã hóa hoàn toàn và chỉ mình tôi có thể xem. Nhưng ý tưởng rằng nó đang được chủ động gửi qua Internet cho một công ty khác ăn và xử lý mà không cần sự đồng ý hay quan tâm của tôi thì thật kinh khủng
Khi tự chọn bật, tôi thường dùng các tính năng AI, nhưng việc công ty gửi các tệp cá nhân của tôi đi khắp Internet mà không có sự đồng ý là điên rồ
Thành thật mà nói, OneDrive có công cụ di chuyển nên tôi đã đăng ký bản dùng thử Dropbox Business và tự động chuyển toàn bộ tệp tối qua. Đó là giọt nước tràn ly sau kiểu hành xử nhồi nhét rác và popup vào giao diện desktop, trong khi mã hóa đầu cuối mà tôi liên tục yêu cầu thì không cung cấp
Nếu muốn chuyển từ Dropbox Business sang tài khoản Office 365 OneDrive chỉ bằng vài cú nhấp, nó ở đây: https://learn.microsoft.com/en-us/sharepointmigration/mm-dro...
- Đây không chỉ là vấn đề của “AI”, mà là vấn đề sâu hơn trong toàn bộ xu hướng lấy đám mây làm trung tâm của thế giới công nghệ
  Mã hóa đồng cấu có thể là lời giải cho điện toán phân tán, nhưng còn vài năm nữa mới thành hiện thực. Trong lúc đó, cần đi theo các cách như rời khỏi đám mây, quay lại on-premise, hoặc các hợp tác xã đám mây riêng lai trong những nhóm tin cậy
  Một lý do khác là ngăn dòng chuyển dịch tài sản khổng lồ từ cá nhân và công ty nhỏ sang phía dữ liệu lớn
  Thật đáng mừng khi ảo tưởng AI toàn năng chiếm lĩnh thế giới giảm đi, và mọi người hiểu rõ hơn thực tế bình thường hơn. AI chỉ tăng tốc những bất cân xứng quyền lực phi lý vốn đã tồn tại. Cái gì riêng tư thì phải được giữ riêng tư
- Dropbox mới hôm qua đã đưa ra tuyên bố này: “Nếu bạn đã sử dụng công cụ AI của Dropbox, một số tài liệu và tệp có thể đã tạm thời được chia sẻ với OpenAI”
  Nếu bạn tin rằng nhà cung cấp đám mây đặt lợi ích tốt nhất của bạn lên trước, thì chúc may mắn. Đây là Hacker News, và theo tôi, niềm tin không phải thứ mặc nhiên có được mà phải được giành lấy
- Tôi đồng ý phần lớn, nhưng chẳng phải thông tin nhạy cảm nên được tự mã hóa trước khi tải lên hoặc chia sẻ vào tài khoản Dropbox sao?
  Không phải mã hóa đầu cuối, nhưng có thể ngăn công ty dùng dữ liệu đã mã hóa làm ngữ liệu huấn luyện. Hay là các thư mục và tệp chia sẻ do đồng nghiệp hoặc gia đình tạo ra có thể không đủ rành kỹ thuật để biết mã hóa?
- Giải pháp tốt hơn là đặt một lớp phủ mã hóa riêng như Cryptomator lên trên dịch vụ lưu trữ đám mây đang dùng
  Nếu có thỏa thuận bảo mật với khách hàng thì không nên dùng Dropbox không có mã hóa đầu cuối, và OneDrive cũng vậy
- OneDrive có mã hóa đầu cuối không? Nếu Microsoft chưa làm, tôi nghĩ họ sẽ sớm đưa vào một tính năng tương tự
Điểm cốt lõi không chỉ là lo ngại rằng các tệp cá nhân trên Dropbox sẽ được chuyển sang làm dữ liệu huấn luyện cho mô hình OpenAI
Dù dùng vào mục đích gì, tôi cũng không muốn dữ liệu của mình bị gửi đi bất cứ đâu nếu tôi chưa cho phép
Trong trường hợp này, không chỉ phải tin rằng OpenAI có huấn luyện bằng tệp của chúng ta hay không, mà còn phải tin rằng họ có thể xử lý tệp của chúng ta một cách an toàn. Không có lý do gì để nghi ngờ lời nói rằng họ sẽ không huấn luyện là không thật, nhưng vấn đề vẫn còn đó
- Về mặt câu chữ, “không huấn luyện mô hình bằng dữ liệu người dùng” rất có thể đúng theo nghĩa đen. Bởi ở đây huấn luyện có thể được diễn giải theo một nghĩa rất cụ thể
  Nhưng đồng thời họ cũng có thể thực hiện một dạng giám sát nào đó đối với đầu ra của mô hình, và đặc biệt nếu dùng tạo sinh tăng cường truy xuất (RAG) trên các tệp cá nhân thì rõ ràng có thể xảy ra rò rỉ thông tin cá nhân
  Việc không tin rằng mọi người hiểu đầy đủ các điều khoản chi tiết là khá hợp lý. Có lẽ thực tế họ sẽ không hiểu, và một điều mà các công ty AI đã thể hiện rất rõ là họ nghĩ mình có thể dùng bất cứ tài liệu nào họ muốn, theo bất cứ cách nào họ muốn, bất kể có được người sáng tạo cho phép hay không
- Cuối cùng thì đây là cấu trúc tiếp nối của các nhà cung cấp SaaS
  Nếu muốn ngăn bên thứ ba hoặc bên thứ hai đọc dữ liệu, cần kiểm tra rằng dữ liệu được mã hóa đầu cuối ở phía client
  Điều này có nghĩa là nên dùng Syncthing thay vì Dropbox, và dùng Signal thay vì Slack hay Discord
- Chính sách của OpenAI rằng “chỉ lưu dữ liệu 30 ngày cho mục đích kiểm toán” có nghĩa là nếu xảy ra sự cố xâm phạm trong 30 ngày đó thì dữ liệu có thể bị rò rỉ, nên việc lo ngại là hoàn toàn hợp lý
  Đặc biệt là trước đây đã có vài vấn đề bảo mật được ghi nhận
- Lập luận tương tự cũng có thể áp dụng cho việc xử lý dữ liệu trên đám mây, nhưng kỳ lạ là không ai phàn nàn về việc Dropbox lưu dữ liệu ở những nơi như AWS hay Google Cloud
Câu chuyện về niềm tin vào micro trong bài có vẻ là một kiểu đánh lạc hướng vấn đề, làm phân tán sự chú ý khỏi điểm cốt lõi có thể được làm rõ hơn
Facebook đúng nghĩa là lấy dữ liệu từ ứng dụng và internet, theo dõi hành vi trên internet, rồi đưa dữ liệu này vào các mô hình về bạn. Những mô hình này chính xác đến mức đôi khi gần như có thể dự đoán bạn đang nghĩ gì. Vì vậy người bình thường mới kết luận rằng họ bị nghe lén qua micro
Các công ty mô hình ngôn ngữ lớn như OpenAI và các đối tác của họ cũng dùng gần như chính xác cùng loại mô hình. Họ thu thập dữ liệu từ đủ mọi nguồn để cải thiện mô hình, rồi kiếm tiền bằng cách tăng khả năng khiến bạn tiếp tục nhấp vào nơi họ muốn
- Đúng vậy. Ở nghĩa rộng hơn, người bình thường cũng không hẳn là sai
  Về cơ chế thì họ sai về mặt kỹ thuật, nhưng về việc đây là sự xâm phạm cực đoan vào đời tư thì họ hoàn toàn đúng. Việc sự xâm phạm đó đến dưới dạng mô hình chính xác chứ không phải micro chỉ là chi tiết kỹ thuật, còn hiệu ứng cuối cùng thì như nhau
- Tất cả những thứ này rốt cuộc chỉ để cho tôi xem những quảng cáo tệ hại về game online mà tôi tuyệt đối không chơi, dịch vụ hẹn hò chủ đề đại học mà tôi sẽ không dùng, đồ yoga, dịch vụ chuyển tiền, v.v.
  Có lẽ vì tôi sống gần một trường đại học lớn nên họ suy đoán qua IP. Thỉnh thoảng cũng hiện quảng cáo Lexus hay Jaguar, nhưng mấy cái đó thì được
Tôi không tin rằng Facebook đang bí mật nghe lén ai đó qua micro điện thoại, nhưng lập luận “nếu bị phát hiện nói dối thì rủi ro danh tiếng sẽ ở mức khổng lồ” hoàn toàn không thuyết phục
Trong số những người Mỹ không làm kỹ thuật mà tôi biết, danh tiếng của Facebook vốn đã rất tệ. Mọi người đã thấy Facebook góp phần kích động cuộc bạo loạn ngày 6/1/2021, rồi sau đó né tránh mọi trách nhiệm và không sửa chữa gì cả
Nếu bị phát hiện là họ thực sự đã làm điều mà nhiều người vốn đã tin là có lẽ họ đang làm, thiệt hại danh tiếng do việc đó gây ra sẽ nhỏ hơn rất nhiều
- Họ cũng biết danh tiếng của mình rất tệ, nhưng mọi người vẫn tiếp tục dùng Insta và WhatsApp
Dù là OpenAI hay một tập đoàn lớn nào khác, tôi không “tin” những gì họ nói rằng họ đã làm, sẽ làm, hoặc đang làm.
Dù vậy, tôi không tin rằng OpenAI đang dùng dữ liệu Dropbox để huấn luyện mô hình mà không có sự đồng ý của người dùng.
Nhưng vấn đề ở đây không phải là chuyện đó. Vấn đề là dữ liệu đang truyền. Vấn đề là dữ liệu được gửi tới một bên thứ ba thực sự có thể đọc được, tới nơi có thể có nhân viên độc hại mà Dropbox không kiểm soát được, tới nơi dữ liệu có thể bị ghi log hoặc chịu áp dụng các chính sách khác.
Nếu tôi gửi dữ liệu riêng tư cho Dropbox, Dropbox không được gửi cho bất kỳ ai vì bất cứ lý do gì, kể cả “cải thiện sản phẩm”, nếu không có sự đồng ý rõ ràng và được thông báo đầy đủ của tôi. Tôi không hiểu vì sao chuyện này lại có thể gây tranh cãi.
Nếu Dropbox tự host mô hình và cung cấp tìm kiếm tạo sinh tăng cường truy xuất cho những người dùng đã đồng ý thì đó là chuyện khác.
Nếu Dropbox gửi dữ liệu của tất cả người dùng cho bên thứ ba mà không báo trước cho bất kỳ ai, thì đó lại là một chuyện hoàn toàn khác, và là chuyện khủng khiếp.
- Tại sao lại tin như vậy? Họ đã huấn luyện bằng code của tôi mà không có sự đồng ý của tôi, vậy tại sao dữ liệu người dùng lại phải được xem là khác?
  Huấn luyện hoặc là sử dụng hợp lý, hoặc không. Và các công ty tăng trưởng cao ở Silicon Valley đâu nổi tiếng là tuân thủ tinh thần của luật pháp.
- Ngay khoảnh khắc dữ liệu được chuyển cho bên thứ ba mà không mã hóa, nó không còn là “riêng tư” nữa; và chính sách của họ nói rằng nếu họ có thể lập luận là “vì lợi ích chính đáng trong việc vận hành dịch vụ và kinh doanh” thì về cơ bản họ có thể dùng cho bất cứ việc gì, nên chuyện này có thể tranh cãi được.
  Thậm chí chính sách còn nói họ có thể cập nhật bất cứ lúc nào nếu muốn.
  Chính sách quyền riêng tư thậm chí còn không có tính ràng buộc pháp lý. Nếu bạn ở Mỹ và không có hợp đồng với Dropbox, bạn gần như không có quyền gì; muốn đòi những quyền mà bạn nghĩ mình có thì phải ra tòa, mà tòa án trên thực tế là hệ thống nơi ai có tiền thì thắng, còn đối phương là một công ty có tài sản hàng chục tỷ đô.
  Nếu Dropbox trắng trợn phản bội niềm tin bạn đã trao cho họ, đó sẽ là chuyện thật tệ hại, và có thể là một quyết định kinh doanh khủng khiếp khiến không ai còn giao dữ liệu cho Dropbox nữa. Nhưng nếu một ngày nào đó họ trở nên hoàn toàn xấu xa và bắt đầu giao dữ liệu cho bất kỳ ai trả tiền, tôi nghĩ bạn gần như chẳng làm được gì.
  Dữ liệu bạn quan tâm không nên được đưa lên đám mây nếu không có sao lưu cục bộ và mã hóa. Khi đó bạn sẽ không cần lo nhà cung cấp đám mây làm gì hay giao dữ liệu cho ai.
- Tôi là khách hàng trả phí của Dropbox, nhưng không muốn trả tiền cho tính năng như vậy.
  Thay vào đó, tôi muốn họ mã hóa dữ liệu của tôi để không thể cung cấp những tính năng kiểu này. Tôi muốn có khả năng khôi phục dữ liệu, nhưng bản thân việc họ có thể cung cấp “tính năng” AI này dường như cho thấy họ hầu như không nỗ lực ngăn nhân viên nội bộ độc hại hoặc bên thứ ba truy cập dữ liệu của tôi.
- Nếu Dropbox từng ký BAA với khách hàng doanh nghiệp sử dụng tài liệu thuộc phạm vi HIPAA, việc chia sẻ tài liệu với bên thứ ba không được công khai sẽ rất nhanh chóng gây ra vấn đề lớn.
  Mức phạt tài chính rất cao cho mỗi hồ sơ bị lộ, cho từng nhân viên liên quan, và cả cá nhân nhân viên trực tiếp công khai/chia sẻ cũng chịu trách nhiệm.
  Vì vậy, ngay cả nếu họ đã chia sẻ tài liệu với một bên thứ ba không được công khai mà không thông báo, tôi tin chắc đó sẽ không phải là “tất cả”. Dữ liệu doanh nghiệp có lẽ vẫn an toàn. Những hợp đồng như vậy được rà soát rất kỹ trước khi ký.
- Đúng vậy. Trọng tâm chính là ai có thể xem dữ liệu nhạy cảm của tôi.
Khủng hoảng niềm tin của AI ư?
Chẳng phải càng đúng hơn sau khi chứng kiến một việc mà hội đồng quản trị và CEO của một công ty dường như đã bị sa thải/thay thế vì cáo buộc nói dối hoặc thao túng, nhưng chẳng ai biết rõ chuyện đó là gì sao?
Nếu Dropbox quét dữ liệu người dùng để tạo dữ liệu phái sinh, thì dữ liệu “phái sinh” đó không còn là “dữ liệu người dùng” nữa mà trở thành dữ liệu của Dropbox và có thể được chia sẻ. Có thể nó chỉ mang tính thống kê và không liên quan trực tiếp tới từng người dùng, nhưng đó chẳng phải chính xác là dữ liệu huấn luyện sao? Chẳng phải vốn dĩ nó hoạt động như vậy sao? Vậy chẳng phải nó có thể được chia sẻ để huấn luyện mô hình AI sao?
Đó không phải là nói dối mà là chơi chữ. Không, đó là hành vi phi đạo đức, và nó đã trở thành chuẩn mực của các công ty công nghệ lớn.
- Công bằng mà nói với Sam Altman và OpenAI, những bản tin đáng tin cậy mà tôi đã nghe, đặc biệt là công việc của Kara Swisher, cho thấy đây không phải là vấn đề an toàn AI hay CEO nói dối hội đồng quản trị, mà là một xung đột rộng hơn giữa CEO và hội đồng quản trị về điều họ cho là hướng đi phù hợp cho OpenAI.
  Tôi không có lợi ích gì trong cuộc đấu này. Tôi không đứng về phía Altman hay OpenAI. Và tôi có khá nhiều lo ngại về việc thế giới mới tuyệt vời này sẽ đưa chúng ta tới đâu. Dù đích đến có kém hấp dẫn thế nào, tôi cũng không biết liệu có lựa chọn đáng tin cậy nào để bước xuống khỏi vòng quay ngựa gỗ này hay không.
  Hành vi của Dropbox được mô tả ở đây chỉ là một trong hàng dài những lần các công ty công nghệ phá vỡ niềm tin.
- Cáo buộc hành vi phi đạo đức quá thường xuyên mang tính phản xạ, không có căn cứ và dựa vào suy đoán.
  Trong ví dụ tác giả nêu, Dropbox chỉ gửi dữ liệu cho OpenAI khi người dùng yêu cầu rõ ràng chạy một tính năng liên quan đến AI, chẳng hạn như tóm tắt tài liệu. Nhưng phản ứng dữ dội dường như lại giả định rằng họ đang quét và tải lên hàng loạt tài liệu của mọi người mà không có bằng chứng.
  Hành vi phi đạo đức ở các công ty AI chắc chắn có tồn tại. Cá nhân tôi tạm chưa kết luận tỷ lệ đó cao hơn hay thấp hơn tỷ lệ nền của hành vi phi đạo đức trong dân số nói chung. Dù sao, nếu muốn bàn về hành vi xấu, nên dùng những ví dụ cụ thể có bằng chứng có thể trích dẫn, chứ không phải gieo rắc sợ hãi.
Những người không tin các công ty AI nhiều khả năng cũng có cảm giác tương tự với nhiều công ty thuộc đủ ngành, tổ chức phi lợi nhuận, thậm chí cả cơ quan chính phủ.
Tùy bạn hỏi ai, nhưng dường như có một vấn đề niềm tin lớn hơn rất nhiều, vượt xa phạm vi các công ty dựa trên AI. Vì vậy, bảo riêng lĩnh vực này phải chống lại sự ngờ vực nhắm vào họ có vẻ là một nhiệm vụ bất khả thi vượt quá phạm vi của các công ty này, vì điều đó nghĩa là phải đối mặt với sự ngờ vực đến từ khắp nơi.
Tôi cũng không rõ lời giải cho vấn đề này là gì, liệu đây có thực sự là vấn đề hay không, và nếu sự hoài nghi toàn diện này lan sang mọi thứ và mọi người thì chúng ta sẽ đi về đâu. Có lẽ chúng ta chỉ đơn giản bị nguyền rủa phải sống trong những thời đại thú vị.
- Bước đầu tiên để giành lại niềm tin là ngừng lạm dụng niềm tin.
  Toàn bộ ngành của chúng ta đang lạm dụng niềm tin ở mức khó tin, và chưa thấy dấu hiệu nào cho thấy điều đó sẽ sớm thay đổi.

Khủng hoảng niềm tin vào trí tuệ nhân tạo

Cốt lõi của tranh cãi về tính năng AI của Dropbox

Sự nhầm lẫn do cách diễn đạt về đồng ý và cài đặt

Những người dùng không tin OpenAI

So sánh với thuyết âm mưu Facebook nghe lén micro

Trong AI, hộp đen làm gia tăng bất tín

Vì sao khủng hoảng niềm tin lại quan trọng

OpenAI và các phòng thí nghiệm AI có thể làm gì

Cơ hội của mô hình cục bộ

Điều kiện cho thảo luận về AI và quyền riêng tư

Bài viết liên quan

1 bình luận

Các ý kiến trên Hacker News