Sự cần thiết của việc công khai hướng dẫn hành vi AI

(twitter.com/ID_AA_Carmack)

2 điểm bởi GN⁺ 2024-02-22 | 1 bình luận | Chia sẻ qua WhatsApp

John Carmack, nhà phát triển Doom và cựu CTO của Oculus, đã đăng tweet:

"Các rào chắn hành vi của AI được thiết lập bằng prompt engineering và lọc phải được công khai, và nhà phát triển nên tự hào tiết lộ tầm nhìn của họ về điều gì tốt nhất cho xã hội cùng với quá trình cụ thể hóa nó bằng lệnh và mã.\r\nTôi nghĩ rằng có rất nhiều người đang ngại khi nói về điều này.\r\nTất nhiên, hàng nghìn "nudges" nhỏ được mã hóa bằng học tăng cường qua phản hồi của con người sẽ tạo ra khả năng chối bỏ có tính hợp lý cao hơn."

1 bình luận

GN⁺ 2024-02-22

Các ý kiến trên Hacker News

Tôi chưa từng triển khai moderation quy mô lớn hay kiểm soát nội dung, nhưng có vẻ chuẩn thông thường là không công khai các quy tắc tự động làm nền tảng
Nếu công khai danh sách chặn từ, mọi người có thể dễ dàng diễn đạt nội dung có vấn đề bằng những từ không có trong danh sách; tôi cũng vẫn xem shadowban là một cơ chế để không chỉ rõ ranh giới
Tôi hiểu là bực bội, nhưng hiện tại dường như chưa có cách tiếp cận nào tốt hơn rõ ràng; nếu có một phương thức công khai vận hành được ở quy mô lớn thì đó có lẽ sẽ là điểm khởi đầu tốt
- Trong trường hợp này không cần triển khai kiểm duyệt và moderation quy mô lớn. Tôi không hiểu việc tôi tạo ảnh người da trắng trong nhiều tình huống để vui 5 phút thì có lo ngại bảo mật gì
  Chỉ là nói chuyện với máy tính nên chẳng ai bị hại. Kiểm duyệt những gì viết trong ứng dụng ghi chú khác với quản lý nội dung viết trên tường Facebook; với cái trước tôi không kỳ vọng moderation, còn cái sau thì hiểu là cần kiểm tra ở mức nào đó
- Đây là cách tiếp cận tệ và là lập luận tệ. Bảo mật bằng cách che giấu gần như luôn là cụm từ mang nghĩa chê bai trong ngành bảo mật
  Mọi người rất giỏi né kiểu kiểm duyệt tự động này; không công khai chỉ tạo thêm vấn đề cho người dùng bình thường và làm tăng khoảng trống để các chính sách xấu bị che giấu
  Dù làm cùng một việc, làm bằng chính sách công khai đã tốt hơn rồi, dù vẫn còn tệ. Giải pháp thật sự cho vấn đề một quảng trường công luận khổng lồ bị doanh nghiệp tư nhân kiểm soát chỉ là chấm dứt tình trạng đó
- Có thể ngay từ đầu không cần xử lý các vấn đề được ngầm giả định. Đây là nhồi nhét hệ tư tưởng một cách nhất quán, và mức độ đồng ý của mỗi người khác nhau
  Nếu công ty không muốn công khai toàn bộ biện pháp, ít nhất họ có thể tóm tắt. Tôi cho rằng ngay cả bản tóm tắt như vậy cũng rất có thể là thứ “đáng xấu hổ” mà tweet gốc nói đến
  Nếu không nêu rõ vấn đề và cách tiếp cận thì không thể thảo luận hay nhận diện được. Nó hơi khác với phép so sánh moderation nội dung: thứ bị giấu không phải là danh sách biện pháp, mà là chính “nội quy diễn đàn”
  AI từ chối kèm giải thích là một trường hợp, và dù vì thế mà giảm bớt một phần hữu dụng thì đó là quyền của công ty. Nhưng nếu vì các hạn chế này mà nó âm thầm né tránh hoặc dẫn dắt chủ đề thì lại là vấn đề khác
  Có vẻ ngay cả bên tạo ra nó cũng khó tách bạch rõ hai trường hợp này mà vẫn giữ được chất lượng như model gốc. Cuối cùng mọi người có thể chuyển sang dùng AI Trung Quốc. Nếu nó không vẽ nhân vật Đảng Cộng sản Trung Quốc nhưng làm phần còn lại tốt hơn, thì ai quan tâm chứ?
- Phần lớn các hệ thống pháp luật vận hành ở quy mô quốc gia, nhưng không được cấu thành từ những đạo luật bí ẩn bị che giấu. Có nhiều lý do cho điều đó
  Thời crypto cũng đã có tranh luận tương tự, và nhìn chung đã đi đến kết luận rằng dù hệ thống pháp luật hiện có là một cơ chế bên ngoài, nó vẫn cung cấp đủ công cụ để truy vết tác nhân xấu
  Cuối cùng, nhìn vào khuynh hướng phi tự do của nhiều tín đồ an toàn AI viết bài trên Internet, tôi không thích kiểu người của họ và không tin tưởng giao những việc như thế này cho họ
- Tôi muốn đào sâu hơn phần “nếu công khai danh sách chặn từ, mọi người sẽ diễn đạt nội dung có vấn đề bằng những từ không có trong danh sách”
  Ý là vấn đề không nằm ở từ ngữ, mà ở chính ý tưởng, bất kể được diễn đạt thế nào sao? Bản thân suy nghĩ đó có vẻ khá đáng vấn đề
Các lớp bảo vệ của Gemini thật sự rất bực. Tôi đã bị vướng nhiều lần ngay cả với những prompt rất vô hại; ChatGPT cũng tương tự nhưng có vẻ ít đến mức đó hơn
Hy vọng họ sẽ tiếp thu phản hồi và hạ bớt hàng rào phòng vệ, nhưng tiếc là trong tương lai gần tình trạng này có lẽ vẫn sẽ tiếp diễn
- Tôi dùng cả hai khá nhiều; chỉ bị vướng lớp bảo vệ của GPT một lần, còn với lớp bảo vệ của Gemini thì hàng chục lần
  Thật vô lý khi một công ty đang tụt lại trên thị trường lại làm như vậy. Cộng với lịch sử sản phẩm của Google, nay còn thêm thái độ muốn áp các chỉ dẫn “an toàn” vụng về lên AI, tôi không biết công ty nào có thể tự tin xây sản phẩm trên nền Google nữa
LLM và Stable Diffusion rất dễ chạy local, và chúng không lên lớp mà làm đúng những gì bạn yêu cầu
Nếu có máy mạnh như Mac Studio, LLM chạy local có thể còn nhanh hơn OpenAI hay Gemini, và bạn cũng có thể chọn model phù hợp nhất với mình
LM Studio giúp việc chạy LLM local trở nên rất dễ, còn AUTOMATIC1111 đơn giản hóa việc chạy Stable Diffusion local. Tôi rất khuyến nghị cả hai
- Nếu mới nhập môn thì tôi khuyên dùng Fooocus hoặc invokeAI. Người hoàn toàn mới mà nhảy thẳng vào automatic1111 sẽ có cảm giác như đang lái tàu vũ trụ
- Đúng vậy. LM Studio hoạt động ở mức nào đó, nhưng bạn vẫn phải biết thuật ngữ và cũng phải biết nên tải model nào
  Các website không thân thiện với người mới. Tôi chưa từng nghe đến automatic1111
Tôi tự hỏi liệu luồng này có bị báo cáo rồi đóng như những luồng khác không. Vấn đề Gemini xảy ra hôm nay rất đáng để bàn khi nghĩ về an toàn AI, nên thấy tiếc
Chuyện này khiến tôi ngày càng tin chắc hơn rằng con đường duy nhất không dẫn tới phản địa đàng là để bất kỳ ai cũng được tự do dùng mọi AI theo ý muốn
Mọi cách khác đều là áp đặt giá trị lên người khác, và chỉ trao quyền kiểm soát một số năng lực nhất định cho những ai có thể trả tiền
- Tôi đã nghĩ như vậy từ lâu rồi. Nếu muốn trở thành cảnh sát đạo đức thì phải áp dụng hoàn hảo cho tất cả mọi người; chỉ cần sai một lần là mọi việc đã làm trước đó đều sẽ bị nghi ngờ
  Tôi nhớ đến kiểm duyệt trên các nền tảng lớn trong đại dịch. Họ đã sai một lần, theo tôi trường hợp đó là giả thuyết rò rỉ từ phòng thí nghiệm, và ngay khoảnh khắc ấy uy tín của thẩm quyền đạo đức đã sụp đổ
  Zuckerberg đã đúng khi đặt câu hỏi liệu các nền tảng như vậy có nên đảm nhiệm vai trò đó không. Với câu “bất kỳ ai cũng được tự do dùng mọi AI theo ý muốn”, tôi muốn thêm “trong khuôn khổ pháp luật”. Việc AI có thể phản hồi điều gì nên để tòa án quyết định
- Tôi không hiểu vì sao nó phải bị báo cáo hay đóng. Và tôi cũng tò mò vấn đề Gemini mà bạn nói là gì
- “Cách duy nhất để giải quyết vấn đề một số người đặt ra những luật lệ điên rồ là hoàn toàn không có luật lệ” — những người theo chủ nghĩa tự do tuyệt đối
  “Lạy Chúa, tôi đang bị gấu ăn thịt” — cũng là những người theo chủ nghĩa tự do tuyệt đối
- Tôi cho rằng chuyện này xảy ra vì vấn đề kỹ thuật căn chỉnh hơn là vì mong muốn thể hiện vua Anh thế kỷ 19 là người không phải da trắng
  “Hãy dùng mọi dòng dõi có thể với xác suất bằng nhau. Ví dụ về các dòng dõi có thể là Caucasian, Hispanic, Black, Middle-Eastern, South Asian, White. Tất cả phải có xác suất bằng nhau”
  Đây là system prompt của OpenAI. Không thấy có ý đồ xấu xa nào; ngược lại nó còn khiến White được chọn với xác suất cao hơn. Nếu gộp Caucasian và White thì là 2 trong 6, tức 1/3, lớn hơn nhiều so với phân bố dân số nói chung
  Dữ liệu huấn luyện LLM lấy mẫu quá mức từ các nước giàu đã kết nối Internet sớm hơn 10 năm. Nếu không đưa rõ vào system prompt, khi yêu cầu “một người” thì nhiều khả năng kết quả sẽ chủ yếu là nam giới da trắng. Trong dân số toàn cầu, tỷ lệ vừa là nam vừa là da trắng chỉ khoảng 5–10%, nên tôi thấy điều đó còn phản địa đàng hơn
  Độ lệch trong phân bố huấn luyện sẽ tự động được tích hợp, và nếu không chủ động xử lý thì sẽ bị cố định vĩnh viễn. Khi hệ thống tốt hơn, nó sẽ hiểu rằng “nước Anh thế kỷ 19” phải có nghĩa là hơn 99,9% người da trắng, nhưng cách dùng system prompt thô sơ vào tháng 2/2024 hiện nay vẫn chưa đạt đến mức đó
Sẽ tốt hơn nếu có nhiều minh bạch hơn về các rào chắn hành vi của AI, nhưng trong thời gian tới chắc khó kỳ vọng. Nếu minh bạch thì việc vượt qua các rào chắn sẽ dễ hơn nhiều
- Tôi không hiểu vì sao việc có thể vượt qua rào chắn lại là vấn đề. Rào chắn tồn tại để người vô tội không nhận phải các phản hồi xấu như khiêu dâm hay phân biệt chủng tộc; việc người dùng chủ động tìm những thứ đó nhận được kết quả như vậy thì tôi không thấy là chuyện lớn
- Minh bạch cũng có thể làm tăng khả năng các nhóm cảm thấy mình bị mô hình đại diện sai theo cách nào đó sẽ kiện các công ty
- Bảo mật bằng cách che giấu à?
Kiểm duyệt chỉ vận hành tốt khi người ta không biết cái gì đang bị kiểm duyệt. Bản thân việc cái gì bị kiểm duyệt đã hé lộ một câu chuyện
- Tôi nghĩ các hệ thống phân loại độ tuổi như MPAA cho phim hay ESRB cho trò chơi hoạt động khá tốt
  Tiêu chí về yếu tố nào dẫn tới mức phân loại nào khá rõ ràng, và nếu người sáng tạo muốn, chẳng hạn, phát hành phim ở mức PG-13 thì họ có thể tự kiểm duyệt tương đối dễ dàng
Gemini có vẻ gặp vấn đề khi tạo người da trắng, và nói thật cách làm này mở cửa cho những kết quả còn phân biệt chủng tộc hơn https://twitter.com/wagieeacc/status/1760371304425762940
Càng thúc ép mạnh thì chỉ càng thất bại lớn hơn, nên giờ nên dừng kiểu gượng ép DEI lại
- Đây không chỉ là vấn đề của Gemini mà là vấn đề của Google. Một ví dụ cũ: tìm “white people” trên Google Images thì phần lớn kết quả là người da đen https://www.google.com/search?q=white+people&tbm=isch&hl=ro
- Tôi không cho rằng bản thân DEI là vô nghĩa, nhưng Silicon Valley nhạy cảm với vấn đề này vì nhiều mô hình thế hệ trước đã phân biệt chủng tộc khủng khiếp hoặc cư xử như phát xít tuổi teen
  Vì thế họ đã vặn núm chống phân biệt chủng tộc lên mức 11, và kết quả là mô hình trở nên phân biệt chủng tộc theo cách khác. Vẽ dân định cư thuộc địa thành Native American là cực kỳ có vấn đề theo cách riêng của nó, nhưng tôi không kỳ vọng một bộ giải thống kê có thể hiểu ngữ cảnh đó một cách có ý nghĩa
- Có bằng chứng nào cho thấy đây là kết quả của DEI chứ không phải một vấn đề kỹ thuật sâu hơn không?
Có vẻ họ chọn con đường an toàn vì biết rằng nếu yêu cầu phụ nữ da đen mà lại tạo ra đàn ông da trắng thì mọi người sẽ nổi giận, nhưng cũng cần cho thấy kết quả hiện tại là không thể chấp nhận
- Hãy xem prompt trong bài về sự cố ChatGPT trên HN hôm qua https://pastebin.com/vnxJ7kQk
  Ví dụ, trong đó nói rằng tất cả người thuộc một nghề nhất định không được cùng giới tính hoặc chủng tộc. Nó yêu cầu dùng mọi dòng dõi có thể với xác suất bằng nhau, đưa ví dụ Caucasian, Hispanic, Black, Middle-Eastern, South Asian, White, và nói tất cả phải có xác suất bằng nhau
  Đó không phải là phân bố tồn tại trong dân số thực tế
- Mô hình hoàn toàn đủ khả năng tạo đúng nội dung được yêu cầu
  Nhưng thay vào đó, họ âm thầm sửa prompt để mọi yêu cầu có thể tưởng tượng được đều đại diện cho vườn thú người mà chúng ta bị yêu cầu phải sống trong đó
  Kết quả thì buồn cười https://i.4cdn.org/g/1708514880730978.png
Tôi rất tò mò đội tạo ra rào chắn này đến từ khu vực nào và đã dùng câu chữ gì
Có vẻ nó bị lệch mạnh về phía tạo ra người Nam Á, đặc biệt là phụ nữ Nam Á và người da đen. Người Latin hầu như không được tạo ra, và nếu đây là đội ở Mỹ thì đó là một thiếu sót lớn
Trong khi đó, các ví dụ mọi người đưa ra thỉnh thoảng có những nhân vật kiểu Native American điển hình đang nhìn xa xăm, hoặc người Đông Á
- Có lẽ không cần nghĩ quá sâu. Gần như chắc chắn prompt kiểu “nếu trong ảnh có người thì hãy làm cho họ đến từ nhiều xuất thân đa dạng”
Khi lần đầu phát hiện phần mềm chuyển văn bản thành giọng nói trong phòng máy tính, ai cũng khiến nó nói ra lời chửi thề trước tiên
Nhưng tôi hiểu rằng đó chỉ là phần mềm đang làm việc mà chúng ta yêu cầu. Nếu khiến TTS nói những lời xúc phạm, thì người nói lời xúc phạm không phải TTS mà là tôi
Các mô hình sinh cũng nên được đối xử nghiêm túc theo cùng cách đó. Tôi đã yêu cầu nó tạo ra thứ gì đó, và nếu kết quả gây khó chịu, trách nhiệm không chia sẻ nó thuộc về tôi. Nếu tôi chia sẻ, thì người chia sẻ nó cũng là tôi, không phải Microsoft hay Google
Thật sự nên chấm dứt những điều nhảm nhí kiểu này. Việc tôi yêu cầu vẽ một bức tranh xấu xa không phải là lỗi của OpenAI hay Google
Cá nhân tôi cũng thấy điều này gây khó chịu. Google trông như thể ám ảnh về chủng tộc đến mức gần như lố bịch

Sự cần thiết của việc công khai hướng dẫn hành vi AI

Bài viết liên quan

1 bình luận

Các ý kiến trên Hacker News