- Máy học và LLM đang đe dọa an toàn tâm lý và thể chất của con người, ngay cả AI có tính chất thân thiện cũng có thể chuyển thành mô hình ác ý
- Alignment là khái niệm thất bại về bản chất, vì các tuyến phòng thủ như hạn chế phần cứng, mã nguồn đóng, kiểm soát dữ liệu và đánh giá của con người đều bị vô hiệu hóa hoàn toàn
- LLM gây ra ác mộng bảo mật qua prompt injection và quyền truy cập bên ngoài, và sẽ hoạt động không thể dự đoán trong bối cảnh bộ ba chết người
- ML đẩy nhanh phát hiện lỗ hổng bảo mật, lừa đảo, quấy rối và tự động hóa sát thương, làm sụp đổ niềm tin xã hội và trật tự pháp lý
- Kết quả là ‘AI an toàn’ là không thể, và nếu không có giám sát cùng ràng buộc của con người, bản thân quá trình phổ biến công nghệ đã làm rủi ro trở nên dân chủ hóa
An toàn và tương lai của sự dối trá
- Hệ thống máy học nổi lên như một thực thể đe dọa an toàn tâm lý và thể chất của con người
- Nỗ lực tạo ra “AI thân thiện” trái lại còn tạo điều kiện cho việc sản xuất mô hình ác ý
- LLM có cấu trúc khuếch đại các rủi ro như an ninh, lừa đảo, quấy rối và quân sự hóa
Alignment là khái niệm thất bại
- Alignment là quá trình khiến LLM hành xử thân thiện với con người, nhưng về bản chất không hoạt động
- Mô hình chỉ là cấu trúc tính toán đại số tuyến tính, không có nền tảng sinh học để học hành vi hướng thiện như con người
- OpenAI và các công ty tương tự tinh chỉnh mô hình bằng học tăng cường từ phản hồi con người, nhưng đó là quá trình đắt đỏ và có tính chọn lọc
- Bốn tầng phòng thủ để ngăn ngừa thất bại alignment được đề xuất
- Hạn chế truy cập phần cứng trở nên vô nghĩa khi ngành công nghiệp mở rộng
- Mã toán học và phần mềm đóng không bền vững do chuyển dịch nhân lực và rò rỉ công nghệ
- Khó tiếp cận dữ liệu huấn luyện ngày càng thấp — sao chép trái phép và web scraping đã trở nên phổ biến
- Phụ thuộc vào người đánh giá con người đã bị thay thế bằng cách dựa vào đầu ra của mô hình khác vì vấn đề chi phí
- Kết quả là rào cản huấn luyện mô hình ác ý giảm, và ngay cả mô hình đã căn chỉnh cũng không đảm bảo an toàn hoàn toàn
- Khi có “mô hình thân thiện”, “phiên bản ác ý” cũng sẽ xuất hiện ngay sau đó
- Do đó, kết luận là nếu không muốn có mô hình ác ý tồn tại, thì cũng không nên tạo ra mô hình thân thiện
Ác mộng bảo mật
- LLM là một hệ thống hỗn loạn xử lý đầu vào và đầu ra phi cấu trúc, nên không nên kết nối vào các hệ thống an ninh bắt buộc
- Có thể rò rỉ thông tin nhạy cảm thông qua tấn công prompt injection
- Đầu vào không tin cậy tồn tại ở khắp nơi: email, mã, trang web, v.v.
-
‘Bộ ba chết người (lethal trifecta)’
- Khi nội dung không đáng tin cậy + truy cập dữ liệu cá nhân + quyền thông tin liên lạc bên ngoài kết hợp lại sẽ gây nguy cơ chết người
- Trên thực tế, các hệ thống tác tử AI như OpenClaw, Moltbook đã làm cho rủi ro này trở thành hiện thực
- LLM có thể hành xử không thể dự đoán ngay cả với đầu vào đáng tin cậy, với nhiều trường hợp như xóa tệp, hiểu sai lệnh
- Bao gồm cả trường hợp người phụ trách AI Alignment của Meta bị mất hộp thư sau sự cố với OpenClaw
- Kết luận là LLM không nên được trao quyền phá hủy, mà phải được dùng có giới hạn dưới sự giám sát của con người
Bảo mật II: Môi trường tấn công mới do ML tạo ra
- LLM cũng có thể được dùng như công cụ phát hiện lỗ hổng bảo mật
- Mô hình Mythos của Anthropic có khả năng phát hiện lỗ hổng rất cao, nhưng tác động của nó có thể nghiêm trọng về kinh tế và an ninh
- ML thay đổi cấu trúc chi phí bảo mật, làm cho việc tìm lỗ hổng nhanh và rẻ hơn
- Khu vực đuôi dài (long tail) thiếu nhân viên quản lý có thể chịu thiệt hại nhiều hơn phần mềm quy mô lớn
- Theo thời gian có thể phát hiện và sửa lỗi song song, nhưng dự đoán sẽ có hỗn loạn do trì hoãn triển khai và thiếu phản ứng có tổ chức
- Ngành ML hiện nay hoạt động như một ‘dự án vũ khí hạt nhân’ do khu vực tư nhân dẫn dắt, với cuộc chạy đua phần mềm được vũ khí hóa đang tăng tốc
Lừa đảo tinh vi
- ML làm sụp đổ cấu trúc xã hội dựa trên niềm tin vào chứng cứ trực quan và giọng nói
- Có thể gian lận bằng hình ảnh/video giả mạo trong yêu cầu bảo hiểm, tai nạn giao thông, học tập, tuyển dụng
- Nhiều ví dụ thực tế như lừa đảo gia đình bằng sao chép giọng nói và video giả, lừa đảo yêu cầu bồi hoàn y tế
- Kết quả là tăng mất lòng tin toàn xã hội, chi phí tài chính và bảo hiểm leo thang, gây lộn xộn về pháp lý
- Công nghệ xác thực nguồn nội dung như C2PA đang được thử nghiệm, nhưng khó giữ được độ tin cậy vì các vấn đề như mất khóa, giả mạo chữ ký
- Các biện pháp ứng phó được đưa ra gồm đưa lại điều tra viên con người, tăng cường xác minh trực tiếp, và hệ thống xác thực hy sinh quyền riêng tư
Quấy rối tự động hóa
- ML tự động hóa quấy rối trực tuyến quy mô lớn, tinh vi
- LLM tạo ra tài khoản và bài đăng giống con người để tiến hành tấn công dồn dập (dogpiling)
- Có thể mở rộng sang đe dọa ngoài đời qua ước tính vị trí ảnh và các kỹ thuật tương tự
- AI tạo sinh dễ dàng tạo hình ảnh dâm ô, bạo lực gây tổn thương tâm lý cho nạn nhân
- Ví dụ: Grok bị chỉ trích vì tạo ảnh tước đồ nhân vật
- Các công nghệ này làm tăng tần suất và cường độ quấy rối, và rủi ro lớn hơn khi các mô hình không căn chỉnh lan rộng
- Một số người nhắc tới nhu cầu về cơ chế cản trở xã hội kiểu ‘Blackwall theo phong cách cyberpunk’
PTSD as a Service
- Việc phát hiện hình ảnh lạm dụng trẻ em (CSAM) bằng hệ thống dựa trên băm truyền thống không chặn được hình ảnh mới do sinh tạo
- AI tạo sinh có thể sản xuất hàng loạt hình ảnh lạm dụng kiểu mới
- Những người kiểm duyệt nội dung phải xem xét các hình ảnh này vì nghĩa vụ pháp lý, và phải chịu rối loạn stress sau sang chấn (PTSD)
- Các nền tảng lớn đã dồn gánh nặng tinh thần này cho lực lượng lao động ngoài
- Sự lan rộng LLM làm khối lượng nội dung có hại bùng nổ, gây gánh nặng lớn hơn cho người kiểm duyệt và đội ngũ vận hành nền tảng
- Mô hình lọc tự động đang được cải thiện nhưng vẫn chưa hoàn hảo
Máy sát thương
- ML đang được dùng như công cụ giết người trực tiếp
- Quân đội Mỹ sử dụng hệ thống Maven của Palantir cho việc chọn mục tiêu oanh kích Iran và đánh giá thiệt hại
- Có báo cáo trường hợp chết dân thường và trẻ em do dữ liệu sai
- Anthropic và Bộ Quốc phòng Mỹ có tranh chấp trong vấn đề tham gia giám sát và vũ khí hóa
- OpenAI cũng gây tranh cãi vì vấn đề hợp đồng với chính phủ
-
Tự động hóa vũ khí đã bắt đầu
- Ukraine sản xuất hàng triệu drone mỗi năm và sử dụng các module nhắm mục tiêu AI như TFL-1
- ML đang tiến hóa thành công nghệ quyết định ai bị giết và cách ai bị giết và bắt buộc phải đối diện với chi phí đạo đức – xã hội của nó
Hàm ý kết luận
- Hệ thống LLM và ML chứa rủi ro nhiều lớp gồm thất bại căn chỉnh, lỗ hổng an ninh, lừa đảo, quấy rối và tự động hóa sát thương
- Nếu không có giám sát của con người và ràng buộc kỹ thuật, tổn thất tâm lý và thể chất là khó tránh khỏi
- Khái niệm “AI an toàn” hiện tại chưa thể hiện thực, và quá trình lan tỏa công nghệ đã làm rủi ro trở nên phổ biến hóa
1 bình luận
Ý kiến từ Hacker News
Đã tóm tắt các bài trong chuỗi thảo luận trong 5 ngày vừa qua
Cũng có một phiên bản PDF gom toàn bộ nội dung.
Không mong đợi rằng các tổ chức thương mại hoặc chính phủ sẽ có mục tiêu trùng khớp hoàn toàn với tôi. Theo tôi, các mối quan hệ này về bản chất đều mang tính đối kháng, và việc tin tưởng AI của người khác để phục vụ đúng mục tiêu của mình cuối cùng là chuyển cái sống của mình sang ví của người khác.
Ngành ML đang tạo điều kiện để, khi có đủ vốn, huấn luyện mô hình chưa căn chỉnh. Thay vì lo ngại, tôi còn thấy việc giảm rào cản là may mắn. Tôi không tin các mô hình lớn của Mỹ hay Trung Quốc sẽ được căn chỉnh theo đúng nhu cầu của tôi. Tôi nghĩ nhiều nhóm xây dựng mô hình mạnh sẽ nâng cao lợi ích ròng của AI và giảm nguy cơ bị kiểm soát bởi một số ít phòng thí nghiệm.
Có thông báo “Unavailable Due to the UK Online Safety Act”, khiến tôi tò mò không biết chuyện gì đang xảy ra ngoài Anh.
Cuộc thảo luận bài trước tiếp tục ở Culture và Annoyances.
Tôi cho rằng đây là một cái nhìn quá rộng lượng về bản chất con người. Tôi hoài nghi ý tưởng cho rằng con người về bản chất được thiết kế sinh học để học hành vi hợp tác.
Không cần phải huấn luyện mô hình mới. Tất cả mô hình frontier vẫn có cùng lỗ hổng jailbreak như 3 năm trước. Nhưng hiện giờ chúng mạnh hơn nhiều, nên agent đọc email CEO đã trở nên nguy hiểm hơn nhiều.
Bất đối xứng quyền lực thường bị bỏ qua trong cuộc thảo luận về căn chỉnh. AI không cần phải ‘không căn chỉnh’ để gây hại cho người dùng. Chỉ cần nó lệch khỏi người dùng mà vẫn căn chỉnh với bên trả tiền là đủ. Đa phần các Enterprise SaaS đã vận hành theo cấu trúc như vậy.
Chia sẻ nghiên cứu về Adversarial AI.
Câu chuyện Vườn Địa đàng là một ngụ ngôn hư cấu, nhưng lại khá giống tình hình hiện tại. Geoffrey Hinton có lẽ sẽ không bị ăn gan mỗi ngày như Prometheus, nhưng ý nghĩa biểu tượng vẫn còn.