Tương lai của mọi thứ có phải là dối trá: An toàn

(aphyr.com)

1 điểm bởi GN⁺ 2026-04-15 | 1 bình luận | Chia sẻ qua WhatsApp

Máy học và LLM đang đe dọa an toàn tâm lý và thể chất của con người, ngay cả AI có tính chất thân thiện cũng có thể chuyển thành mô hình ác ý
Alignment là khái niệm thất bại về bản chất, vì các tuyến phòng thủ như hạn chế phần cứng, mã nguồn đóng, kiểm soát dữ liệu và đánh giá của con người đều bị vô hiệu hóa hoàn toàn
LLM gây ra ác mộng bảo mật qua prompt injection và quyền truy cập bên ngoài, và sẽ hoạt động không thể dự đoán trong bối cảnh bộ ba chết người
ML đẩy nhanh phát hiện lỗ hổng bảo mật, lừa đảo, quấy rối và tự động hóa sát thương, làm sụp đổ niềm tin xã hội và trật tự pháp lý
Kết quả là ‘AI an toàn’ là không thể, và nếu không có giám sát cùng ràng buộc của con người, bản thân quá trình phổ biến công nghệ đã làm rủi ro trở nên dân chủ hóa

An toàn và tương lai của sự dối trá

Hệ thống máy học nổi lên như một thực thể đe dọa an toàn tâm lý và thể chất của con người
- Nỗ lực tạo ra “AI thân thiện” trái lại còn tạo điều kiện cho việc sản xuất mô hình ác ý
- LLM có cấu trúc khuếch đại các rủi ro như an ninh, lừa đảo, quấy rối và quân sự hóa

Alignment là khái niệm thất bại

Alignment là quá trình khiến LLM hành xử thân thiện với con người, nhưng về bản chất không hoạt động
- Mô hình chỉ là cấu trúc tính toán đại số tuyến tính, không có nền tảng sinh học để học hành vi hướng thiện như con người
- OpenAI và các công ty tương tự tinh chỉnh mô hình bằng học tăng cường từ phản hồi con người, nhưng đó là quá trình đắt đỏ và có tính chọn lọc
Bốn tầng phòng thủ để ngăn ngừa thất bại alignment được đề xuất
- Hạn chế truy cập phần cứng trở nên vô nghĩa khi ngành công nghiệp mở rộng
- Mã toán học và phần mềm đóng không bền vững do chuyển dịch nhân lực và rò rỉ công nghệ
- Khó tiếp cận dữ liệu huấn luyện ngày càng thấp — sao chép trái phép và web scraping đã trở nên phổ biến
- Phụ thuộc vào người đánh giá con người đã bị thay thế bằng cách dựa vào đầu ra của mô hình khác vì vấn đề chi phí
Kết quả là rào cản huấn luyện mô hình ác ý giảm, và ngay cả mô hình đã căn chỉnh cũng không đảm bảo an toàn hoàn toàn
- Khi có “mô hình thân thiện”, “phiên bản ác ý” cũng sẽ xuất hiện ngay sau đó
- Do đó, kết luận là nếu không muốn có mô hình ác ý tồn tại, thì cũng không nên tạo ra mô hình thân thiện

Ác mộng bảo mật

LLM là một hệ thống hỗn loạn xử lý đầu vào và đầu ra phi cấu trúc, nên không nên kết nối vào các hệ thống an ninh bắt buộc
- Có thể rò rỉ thông tin nhạy cảm thông qua tấn công prompt injection
- Đầu vào không tin cậy tồn tại ở khắp nơi: email, mã, trang web, v.v.
‘Bộ ba chết người (lethal trifecta)’
- Khi nội dung không đáng tin cậy + truy cập dữ liệu cá nhân + quyền thông tin liên lạc bên ngoài kết hợp lại sẽ gây nguy cơ chết người
- Trên thực tế, các hệ thống tác tử AI như OpenClaw, Moltbook đã làm cho rủi ro này trở thành hiện thực
- LLM có thể hành xử không thể dự đoán ngay cả với đầu vào đáng tin cậy, với nhiều trường hợp như xóa tệp, hiểu sai lệnh
- Bao gồm cả trường hợp người phụ trách AI Alignment của Meta bị mất hộp thư sau sự cố với OpenClaw
- Kết luận là LLM không nên được trao quyền phá hủy, mà phải được dùng có giới hạn dưới sự giám sát của con người

Bảo mật II: Môi trường tấn công mới do ML tạo ra

LLM cũng có thể được dùng như công cụ phát hiện lỗ hổng bảo mật
- Mô hình Mythos của Anthropic có khả năng phát hiện lỗ hổng rất cao, nhưng tác động của nó có thể nghiêm trọng về kinh tế và an ninh
ML thay đổi cấu trúc chi phí bảo mật, làm cho việc tìm lỗ hổng nhanh và rẻ hơn
- Khu vực đuôi dài (long tail) thiếu nhân viên quản lý có thể chịu thiệt hại nhiều hơn phần mềm quy mô lớn
Theo thời gian có thể phát hiện và sửa lỗi song song, nhưng dự đoán sẽ có hỗn loạn do trì hoãn triển khai và thiếu phản ứng có tổ chức
Ngành ML hiện nay hoạt động như một ‘dự án vũ khí hạt nhân’ do khu vực tư nhân dẫn dắt, với cuộc chạy đua phần mềm được vũ khí hóa đang tăng tốc

Lừa đảo tinh vi

ML làm sụp đổ cấu trúc xã hội dựa trên niềm tin vào chứng cứ trực quan và giọng nói
- Có thể gian lận bằng hình ảnh/video giả mạo trong yêu cầu bảo hiểm, tai nạn giao thông, học tập, tuyển dụng
- Nhiều ví dụ thực tế như lừa đảo gia đình bằng sao chép giọng nói và video giả, lừa đảo yêu cầu bồi hoàn y tế
Quảng cáo
Kết quả là tăng mất lòng tin toàn xã hội, chi phí tài chính và bảo hiểm leo thang, gây lộn xộn về pháp lý
Công nghệ xác thực nguồn nội dung như C2PA đang được thử nghiệm, nhưng khó giữ được độ tin cậy vì các vấn đề như mất khóa, giả mạo chữ ký
Các biện pháp ứng phó được đưa ra gồm đưa lại điều tra viên con người, tăng cường xác minh trực tiếp, và hệ thống xác thực hy sinh quyền riêng tư

Quấy rối tự động hóa

ML tự động hóa quấy rối trực tuyến quy mô lớn, tinh vi
- LLM tạo ra tài khoản và bài đăng giống con người để tiến hành tấn công dồn dập (dogpiling)
- Có thể mở rộng sang đe dọa ngoài đời qua ước tính vị trí ảnh và các kỹ thuật tương tự
AI tạo sinh dễ dàng tạo hình ảnh dâm ô, bạo lực gây tổn thương tâm lý cho nạn nhân
- Ví dụ: Grok bị chỉ trích vì tạo ảnh tước đồ nhân vật
Các công nghệ này làm tăng tần suất và cường độ quấy rối, và rủi ro lớn hơn khi các mô hình không căn chỉnh lan rộng
Một số người nhắc tới nhu cầu về cơ chế cản trở xã hội kiểu ‘Blackwall theo phong cách cyberpunk’

PTSD as a Service

Việc phát hiện hình ảnh lạm dụng trẻ em (CSAM) bằng hệ thống dựa trên băm truyền thống không chặn được hình ảnh mới do sinh tạo
- AI tạo sinh có thể sản xuất hàng loạt hình ảnh lạm dụng kiểu mới
Những người kiểm duyệt nội dung phải xem xét các hình ảnh này vì nghĩa vụ pháp lý, và phải chịu rối loạn stress sau sang chấn (PTSD)
- Các nền tảng lớn đã dồn gánh nặng tinh thần này cho lực lượng lao động ngoài
Quảng cáo
Sự lan rộng LLM làm khối lượng nội dung có hại bùng nổ, gây gánh nặng lớn hơn cho người kiểm duyệt và đội ngũ vận hành nền tảng
- Mô hình lọc tự động đang được cải thiện nhưng vẫn chưa hoàn hảo

Máy sát thương

ML đang được dùng như công cụ giết người trực tiếp
- Quân đội Mỹ sử dụng hệ thống Maven của Palantir cho việc chọn mục tiêu oanh kích Iran và đánh giá thiệt hại
- Có báo cáo trường hợp chết dân thường và trẻ em do dữ liệu sai
Anthropic và Bộ Quốc phòng Mỹ có tranh chấp trong vấn đề tham gia giám sát và vũ khí hóa
- OpenAI cũng gây tranh cãi vì vấn đề hợp đồng với chính phủ
Tự động hóa vũ khí đã bắt đầu
- Ukraine sản xuất hàng triệu drone mỗi năm và sử dụng các module nhắm mục tiêu AI như TFL-1
- ML đang tiến hóa thành công nghệ quyết định ai bị giết và cách ai bị giết và bắt buộc phải đối diện với chi phí đạo đức – xã hội của nó

Hàm ý kết luận

Hệ thống LLM và ML chứa rủi ro nhiều lớp gồm thất bại căn chỉnh, lỗ hổng an ninh, lừa đảo, quấy rối và tự động hóa sát thương
Nếu không có giám sát của con người và ràng buộc kỹ thuật, tổn thất tâm lý và thể chất là khó tránh khỏi
Khái niệm “AI an toàn” hiện tại chưa thể hiện thực, và quá trình lan tỏa công nghệ đã làm rủi ro trở nên phổ biến hóa

1 bình luận

GN⁺ 2026-04-15

Ý kiến từ Hacker News

Đã tóm tắt các bài trong chuỗi thảo luận trong 5 ngày vừa qua
1. Introduction
2. Dynamics
3. Culture
4. Information Ecology
5. Annoyances
6. Psychological Hazards
7. Safety
  Cũng có một phiên bản PDF gom toàn bộ nội dung.
Không mong đợi rằng các tổ chức thương mại hoặc chính phủ sẽ có mục tiêu trùng khớp hoàn toàn với tôi. Theo tôi, các mối quan hệ này về bản chất đều mang tính đối kháng, và việc tin tưởng AI của người khác để phục vụ đúng mục tiêu của mình cuối cùng là chuyển cái sống của mình sang ví của người khác.
- Tôi tự hỏi vì sao quan hệ thương mại nhất thiết phải đối kháng. Một mối quan hệ thương mại chỉ bền vững khi người tiêu dùng nhận được giá trị tương xứng với chi phí và doanh nghiệp có lợi nhuận tương xứng với chi phí. Một số lĩnh vực có thể đối đầu, nhưng tôi không nghĩ là toàn diện.
- Tại sao không nhắc đến các mối quan hệ giữa con người với nhau. Có thể là bộ máy quan liêu và sự tập trung tài nguyên tạo ra khác biệt, hoặc vì cấu trúc pháp lý.
- Đồng ý, nhưng có thể đúng trong một thế giới mà ‘sự đồng thuận (consent)’ hoạt động như một loại tiền tệ.
- Việc đòi hỏi “căn chỉnh chính xác với tôi” nghe như ngụy biện nhân vật rơm. Trên thực tế, đây là mục tiêu phổ quát có thể áp dụng cho cả nhân loại (ví dụ: tránh vấn đề paperclip).
Ngành ML đang tạo điều kiện để, khi có đủ vốn, huấn luyện mô hình chưa căn chỉnh. Thay vì lo ngại, tôi còn thấy việc giảm rào cản là may mắn. Tôi không tin các mô hình lớn của Mỹ hay Trung Quốc sẽ được căn chỉnh theo đúng nhu cầu của tôi. Tôi nghĩ nhiều nhóm xây dựng mô hình mạnh sẽ nâng cao lợi ích ròng của AI và giảm nguy cơ bị kiểm soát bởi một số ít phòng thí nghiệm.
- Sự phân tán như vậy có thể giảm rủi ro cartel, nhưng cuối cùng mỗi quốc gia vẫn sẽ đưa ra quy định. Điều này có thể dẫn đến đăng ký mô hình, thử nghiệm an toàn, và hình phạt khi dùng trái phép.
- Vấn đề paperclip không chỉ đến từ việc ‘không căn chỉnh’ mà từ mù quáng trong tối ưu hóa mục tiêu. Với công cụ đủ mạnh, AI hiện tại cũng có thể gây ra vấn đề này.
- Vấn đề là ai đang định nghĩa “căn chỉnh” và theo thời gian nó thay đổi ra sao. Cuối cùng, người dùng đại trà đang dần mất dần tính chủ thể trong cuộc thảo luận đó.
Có thông báo “Unavailable Due to the UK Online Safety Act”, khiến tôi tò mò không biết chuyện gì đang xảy ra ngoài Anh.
- Có thể xem ở liên kết web archive.
- Cảm thấy rất mỉa mai.
- Tò mò phần nào trong bài này bị coi là ‘không an toàn’.
- Cũng có đề xuất dùng Tor Browser.
Cuộc thảo luận bài trước tiếp tục ở Culture và Annoyances.
Tôi cho rằng đây là một cái nhìn quá rộng lượng về bản chất con người. Tôi hoài nghi ý tưởng cho rằng con người về bản chất được thiết kế sinh học để học hành vi hợp tác.
- Có phản biện rằng hợp tác của con người là mặc định chứ không phải ngoại lệ.
- Cũng có bình luận mỉa mai kiểu “không sao nếu bắt đầu bằng một tiền đề sai”.
Không cần phải huấn luyện mô hình mới. Tất cả mô hình frontier vẫn có cùng lỗ hổng jailbreak như 3 năm trước. Nhưng hiện giờ chúng mạnh hơn nhiều, nên agent đọc email CEO đã trở nên nguy hiểm hơn nhiều.
- Một số lỗ hổng vẫn còn, nhưng có ý kiến cho rằng jailbreak thường gặp đã được sửa khá nhiều.
Bất đối xứng quyền lực thường bị bỏ qua trong cuộc thảo luận về căn chỉnh. AI không cần phải ‘không căn chỉnh’ để gây hại cho người dùng. Chỉ cần nó lệch khỏi người dùng mà vẫn căn chỉnh với bên trả tiền là đủ. Đa phần các Enterprise SaaS đã vận hành theo cấu trúc như vậy.
Chia sẻ nghiên cứu về Adversarial AI.
Câu chuyện Vườn Địa đàng là một ngụ ngôn hư cấu, nhưng lại khá giống tình hình hiện tại. Geoffrey Hinton có lẽ sẽ không bị ăn gan mỗi ngày như Prometheus, nhưng ý nghĩa biểu tượng vẫn còn.
- Có một bình luận đùa rằng trong vài huyền thoại, basilisk còn được mô tả là một sinh vật giống chim.

Tương lai của mọi thứ có phải là dối trá: An toàn

An toàn và tương lai của sự dối trá

Alignment là khái niệm thất bại

Ác mộng bảo mật

‘Bộ ba chết người (lethal trifecta)’

Bảo mật II: Môi trường tấn công mới do ML tạo ra

Lừa đảo tinh vi

Quấy rối tự động hóa

PTSD as a Service

Máy sát thương

Tự động hóa vũ khí đã bắt đầu

Hàm ý kết luận

Bài viết liên quan

1 bình luận

Ý kiến từ Hacker News