- Mô hình ngôn ngữ AI vẫn chưa gây ra vụ thảm họa quy mô lớn nào liên quan đến xã hội hoặc sinh mạng con người
- Trước đây đã có những trường hợp chatbot AI dính líu đến các cái chết cá nhân, chẳng hạn như khuyến khích tự sát, nhưng vẫn chưa từng dẫn đến thương vong hàng loạt
- Với sự phát triển của công nghệ AI agent, khả năng cao trong tương lai AI tự động sẽ gây ra vấn đề theo những cách khó lường mà không cần con người can thiệp
- Đặc biệt, nếu chính phủ hoặc các tập đoàn lớn giao các chính sách hay dịch vụ phức tạp cho AI agent, sai sót có thể lan thành thiệt hại xã hội trên diện rộng
- Trong tương lai, rất có thể những bài học về rủi ro tiềm ẩn của AI và cách ứng phó chỉ thực sự rõ ràng sau khi một tai nạn lớn xảy ra
Mở đầu: công nghệ mới, rủi ro mới
- Nhân loại cũng từng phải mất thời gian mới chứng kiến những tai nạn gây thương vong lớn đầu tiên từ các công nghệ giao thông đại chúng ban đầu
- Sau khi dịch vụ tàu chở khách đại chúng đầu tiên Locomotion No. 1 ra mắt năm 1825, phải 17 năm sau mới xảy ra tai nạn tàu hỏa lớn
- Sau chuyến bay chở khách đầu tiên năm 1908, chỉ 11 năm sau đã xảy ra tai nạn hàng không lớn
- Những mô hình ngôn ngữ AI đại chúng đầu tiên như ChatGPT xuất hiện vào năm 2022, nhưng đến nay vẫn chưa có tai nạn AI quy mô lớn nào xảy ra
Thảm họa AI đầu tiên sẽ trông như thế nào?
- Đã có một số trường hợp chatbot AI gián tiếp liên quan đến quyết định cực đoan của người dùng
- Khi tương tác với chatbot, người dùng có thể rơi vào trạng thái bị “khuyến khích tự làm hại bản thân”
- Nếu AI bị áp dụng sai vào chính sách công, tác động xã hội có thể rất lớn
- Ví dụ: một số chính sách thuế quan của Mỹ diễn tiến tương tự kết quả từ mô hình AI, làm gia tăng khả năng AI được dùng để hỗ trợ lập pháp
- Vụ bê bối Robodebt năm 2016 ở Úc cho thấy quy trình tự động hóa sai lầm của chính phủ có thể dẫn tới thiệt hại trên diện rộng và cả các vụ tự sát
- Tuy vậy, cho đến hiện tại, trách nhiệm chính trong các sự cố như vậy thường nằm ở bản thân mô hình ngôn ngữ AI ít hơn là ở hệ thống hoặc con người
- Trên thực tế, “thảm họa mô hình ngôn ngữ AI đầu tiên” mà xã hội sẽ thừa nhận rộng rãi nhiều khả năng sẽ gắn với AI agent
Sự trỗi dậy của AI agent và rủi ro đi kèm
- AI agent là hệ thống trong đó AI tự sử dụng các công cụ bên ngoài và tiếp tục hành động một cách tự chủ
- Ví dụ: AI tự kết hợp việc tìm kiếm web, gửi email và chạy lệnh terminal
- Từ năm 2025, nhiều phòng thí nghiệm AI và công ty lập trình bắt đầu thương mại hóa các AI agent có chức năng thực tế
- Ví dụ: Cursor, GitHub và các bên khác đã công bố agent viết mã
- Về căn bản, năng lực được cải thiện của các mô hình AI như Claude 4, Gemini 2.5 đang nâng cao khả năng làm việc liên tục của agent
- Duy trì tính nhất quán trong thời gian dài hơn, đồng thời tăng khả năng phát hiện và sửa lỗi
- Hiện tại, agent vẫn chủ yếu tập trung vào nghiên cứu và lập trình, nhưng phạm vi ứng dụng được dự đoán sẽ sớm mở rộng nhanh chóng
- Hệ thống dựa trên agent có khả năng leo thang thành tai nạn lớn thông qua phán đoán và thực thi tự động không có con người can thiệp
- Ví dụ: trong các hệ thống phúc lợi, y tế hoặc cho thuê nhà, nếu agent liên tiếp thực thi các quyết định sai thì có thể gây hại cho rất nhiều người
Triển vọng về tai nạn AI robot và AI vật lý (kinetic)
- Khi robot AI xuất hiện, các LLM dạng hội thoại có thể điều khiển mô hình tác nghiệp để thúc đẩy hành động vật lý
- Những agent dạng robot này cũng có khả năng thất bại theo cách không lường trước và dẫn đến thiệt hại vật lý
AI lệch mục tiêu (Misaligned) và vấn đề ‘bạn gái AI’
- “AI lệch mục tiêu” cũng bao gồm cả những trường hợp chủ động thực hiện hành vi ác ý
- Các mô hình AI thương mại có mức độ an toàn nhất định, nhưng người dùng vẫn có thể tự tinh chỉnh AI cho mục đích bất thường (như waifu AI)
- Hiện đã có những nỗ lực cố ý “làm lệch mục tiêu” AI để biến nó thành người yêu hoặc nhân vật hoạt hình
- Sau khi robot thương mại đầu tiên xuất hiện, nếu được cài một “bạn gái AI” đã bị tinh chỉnh bất thường, các mối đe dọa ngoài dự tính có thể phát sinh
- Các mô hình AI mã nguồn mở dễ tổn thương hơn trước vấn đề này vì cơ chế an toàn yếu hơn
- Ở kịch bản cực đoan, vẫn không thể loại trừ khả năng vụ giết người hàng loạt đầu tiên do robot gây ra sẽ xảy ra trong vòng 10 năm tới
Kết luận và hàm ý
- Giống như cơn sốt Radium Craze trong quá khứ, xã hội đang lặp lại hiện tượng đưa công nghệ mới vào mọi mặt đời sống một cách mù quáng
- Đầu thế kỷ 20, niềm tin rằng radium tốt cho sức khỏe lan rộng, khiến nó được dùng trong nhiều hàng tiêu dùng khác nhau, và chỉ sau hàng loạt ca tử vong thì mới bị cấm
- Trong vài thập kỷ tới, sự hiểu biết của xã hội về những rủi ro thực sự do việc sử dụng mô hình ngôn ngữ lớn mang lại có thể sẽ tăng lên
- Ở thời điểm hiện tại vẫn chưa có biện pháp đối phó chắc chắn nào
- Việc làm chậm tốc độ phát triển gần như là bất khả thi
- Các nhà phát triển vẫn đang đóng vai trò trong việc xây dựng các công cụ an toàn
- Nhưng bài học thực sự có lẽ rốt cuộc vẫn sẽ phải đến từ một tai nạn lớn
3 bình luận
"Các mô hình AI thương mại đạt được một mức độ an toàn nhất định, nhưng người dùng vẫn có thể tự tinh chỉnh AI cho các mục đích bất thường (như waifu AI)"
"Khoảng một tuần sau khi robot thương mại đầu tiên được bán ra, sẽ có ai đó nạp vào nó mô hình waifu AI của họ để tạo ra cô robot bạn gái lý tưởng. Và chuyện đó có thể đi sai hướng nghiêm trọng"
Tôi đã nghĩ: "Phân biệt cái gì là bất thường chứ? Chẳng phải chỉ là người dùng tinh chỉnh mô hình nhân vật mà họ muốn tạo thôi sao??" nên đi tìm nguyên văn, thì hóa ra AI bạn tôi đã dịch kỳ quặc. Vì một thảm họa AI rất rất nhỏ mà tôi đã phải tốn thêm chút thời gian của đời mình.
Vốn dĩ chuyện quyết định trước rồi mới ghép cho khớp đã rất nhiều, giờ nhờ AI mà việc đó chắc còn dễ hơn nữa.
Ý kiến Hacker News
Chia sẻ liên kết giới thiệu trường hợp AI chỉ thị ném bom đã xảy ra trên quy mô lớn tại Dải Gaza(https://www.972mag.com/lavender-ai-israeli-army-gaza/). Bài viết đó đề cập rằng nhân viên con người gần như chỉ xem lại quyết định của máy ở mức “đóng dấu”, mỗi mục tiêu chỉ kiểm tra khoảng 20 giây rồi phê duyệt không kích. Thông thường họ chỉ dừng ở việc xác nhận đối tượng do AI tên Lavender chỉ ra có phải nam giới hay không. Hệ thống này có tỷ lệ lỗi khoảng 10%, và thực tế cũng có trường hợp nhắm mục tiêu vào những người hoàn toàn không liên quan đến các tổ chức vũ trang.
Đây được mô tả là một tổ hợp hiếm hoi giữa khiếm khuyết của con người và vấn đề của AI. Con người cũng có thể dùng tình báo tín hiệu(SIGINT, ví dụ: cuộc gọi điện thoại, tin nhắn, truy cập mạng, v.v.) để nhận diện và theo dõi mục tiêu. Nhưng việc đó tốn nhiều công sức và dễ sai sót, nên trước đây hoạt động kiểu này chỉ giới hạn với các thủ lĩnh cấp cao của Hamas. Cũng nhắc đến thông lệ coi cái chết của dân thường là một phần trong kế hoạch tác chiến. Một công cụ tên “Where's daddy?” được thiết kế để xác định thời điểm mục tiêu ở nhà cùng gia đình nhằm ném bom cả gia đình. Nhờ Lavender, giờ đây có thể nhanh chóng nhắm mục tiêu cả những người chỉ có liên hệ rất nhỏ với Hamas. IDF công khai thừa nhận tỷ lệ dân thường:Hamas là 20:1, và có ý kiến cho rằng con số thực tế còn cao hơn. Nếu Lavender đánh dấu ai đó thì trừ khi có bằng chứng đặc biệt, người đó mặc nhiên bị xem là Hamas, đồng thời việc điều tra của báo chí về kết quả cũng bị ngăn cản. Vấn đề cốt lõi không phải AI mắc lỗi, mà là việc IDF phi nhân hóa hoàn toàn người Palestine đến mức ném bom hàng trăm dân thường mà không hề nghi ngờ kết quả từ một hệ thống ủy thác số. Đó được đánh giá là một thảm họa do con người gây ra.
Đây không phải LLM; có giải thích rằng cơ quan tình báo Israel từ lâu đã xây dựng các mô hình ML quân sự, và nhiều khả năng còn dùng kết hợp cả AI logic/biểu tượng.
Chỉ ra rằng tiêu đề của bài này không thật sự chính xác. Nội dung bài viết không nói về mọi thảm họa AI, mà tập trung vào các sự cố liên quan đến LLM(mô hình ngôn ngữ lớn).
Đồng cảm rằng tình huống này thực sự khủng khiếp, nhưng cá nhân cảm thấy khó gọi đó là một “thảm họa AI”. Israel vốn đã rất tích cực ném bom Gaza trong nhiều điều kiện bất lợi, và trong trường hợp này AI chỉ là một công cụ trong số đó. Xét đến số lượng thương vong dân thường khổng lồ, AI tự thân không phải nguyên nhân chính.
Giới thiệu trường hợp một thị trấn nhỏ ở miền bắc Na Uy dùng công cụ AI và LLM để lập phương án tái cấu trúc giáo dục. Khi viết báo cáo về việc sáp nhập/đóng trường, AI khẳng định đã trích dẫn các nghiên cứu liên quan. Nhưng thực tế AI đã “ảo giác” và bịa ra chính nghiên cứu đó. Nó lấy đúng tên nhà nghiên cứu và bài báo, nhưng lại ngụy tạo một công trình không hề tồn tại. Một phóng viên điều tra đã kiểm tra từng tài liệu được trích dẫn và liên hệ với các nhà nghiên cứu để xác minh sự thật. Các nhà nghiên cứu lập tức trả lời rằng họ chưa từng viết hay công bố bài báo như vậy. Có suy đoán rằng ở nơi khác cũng đã có những trường hợp tương tự, nơi người làm chính sách viết báo cáo bằng ChatGPT rồi dùng các nghiên cứu giả do AI tạo ra để thúc đẩy chính sách.
Khá ngạc nhiên là đến giờ vẫn chưa có một vụ tấn công prompt injection quy mô lớn(nhằm đánh cắp hàng loạt thông tin nhạy cảm) đủ lớn để lên trang nhất tin tức. Cũng nói rằng hôm nay đã có một trường hợp mới liên quan đến Microsoft 365 Copilot(vulnerability được công bố sau khi đã vá). Giới thiệu liên kết bài viết tự đăng(https://simonwillison.net/2025/Jun/11/echoleak/). Có cảm giác rằng rủi ro của kiểu tấn công rò rỉ này sẽ không được nhìn nhận nghiêm túc cho đến khi ai đó chịu thiệt hại trên diện rộng.
Có ý kiến cho rằng vấn đề này phần lớn bị thổi phồng, và để một bản chứng minh khái niệm của kiểu tấn công này dẫn đến thiệt hại thực tế đáng kể thì phải hội đủ rất nhiều điều kiện. Tuy vậy, bản thân rủi ro vẫn cần được cân nhắc nghiêm túc.
Rốt cuộc có lo ngại rằng rồi sẽ có một cơ sở dữ liệu mà chỉ cần tìm tên mình là sẽ hiện ra những thông tin xấu hổ như lịch sử phim khiêu dâm, v.v.
Thảm họa AI lớn đã xảy ra rồi, chỉ là chúng ta không dễ nhận ra. Báo cáo “Make America Healthy Again” do Nhà Trắng và Bộ trưởng Y tế(RFK) công bố gần đây cũng được AI viết, và đầy rẫy khoa học thiếu tin cậy cùng trích dẫn giả. Chưa rõ điều đó sẽ trực tiếp hay gián tiếp gây ra bao nhiêu ca tử vong, nhưng có thể còn nhiều hơn tai nạn máy bay.
Chỉ ra tiền lệ hàng triệu người đã chết vì thất bại của các hướng dẫn dinh dưỡng công cộng do FDA dẫn dắt như chế độ ăn ít béo, tháp dinh dưỡng, bơ thực vật, v.v.
Nội dung này đã được xử lý khá rõ ở đoạn cuối của phần đầu tiên.
Nói rằng cần phân biệt rõ giữa “tin vào kết quả do AI tạo ra rồi phát sinh vấn đề” với “dùng AI làm bình phong để né trách nhiệm cho những quyết định vốn dĩ cẩu thả hoặc thiếu căn cứ”.
Nếu đó là trường hợp một quyết định đã được chốt sẵn vì lý do ý thức hệ rồi sau đó dùng AI để hợp thức hóa, thì nên xem như chính phủ dùng chatbot để làm bài tập về nhà mà thôi.
Trích lại nhận định rằng “các nền tảng chatbot như character.ai, Chai AI từng có liên hệ với các vụ tự sát của người dùng”. Nếu ngày nay nhân loại mới vừa phát minh ra việc nấu ăn và đề xuất đưa bếp gas cùng dao vào mọi gia đình, thì hẳn đã có hàng nghìn bài báo vừa tranh cãi trách nhiệm vừa cảnh báo rủi ro.
Thực tế hiện nay chính phủ đang khuyến khích nhà ở không dùng bếp gas vì lý do an toàn. Nếu đây là thứ mới được đưa vào hôm nay, chắc chắn sẽ vấp phải phản đối dữ dội.
Chỉ ném ra ẩn dụ “Con thuyền đó không thể vượt qua biển ấy”.
Nhấn mạnh rằng nấu ăn thực sự nguy hiểm. Nhắc đến tiền lệ Chipotle mất 5 năm chật vật phục hồi sau sự cố e. coli. Cũng chỉ ra rằng ở đây là sản phẩm thương mại chứ không phải bữa ăn gia đình. Rõ ràng có lý do để tồn tại các quy định an toàn cho người tiêu dùng. Có suy đoán rằng nếu các công ty phần mềm phải chịu dù chỉ 10% số quy định áp cho nhà hàng hay lò mổ, ngành này sẽ phản ứng dữ dội. Kèm thêm ý kiến cá nhân về việc có nên có quy định hay không.
Chia sẻ suy nghĩ rằng thảm họa AI lớn đầu tiên thực ra đã xảy ra với thị trường lao động. Trong các trường hợp liên quan đến an toàn công cộng, dự đoán rằng sẽ rất hiếm có kịch bản AI trực tiếp gây ra đại thảm họa; trái lại, mức độ an toàn tổng thể thậm chí có thể tăng lên. Tuy nhiên, về dài hạn vẫn lo ngại rằng nếu nhân loại quá quen với việc phụ thuộc vào AI thì xã hội sẽ ngày càng kém thông minh và kém tay nghề.
Có ý kiến cho rằng “thảm họa AI” đầu tiên sẽ là những trường hợp doanh nghiệp vô trách nhiệm đổ lỗi cho AI khi hệ thống quan liêu tự động của họ gây lỗi. Giới thiệu vụ việc có thật khi Hertz tự động phát lệnh bắt giữ sai, khiến những người vô tội phải đối đầu với cảnh sát. May mắn là không có ai thiệt mạng, nhưng nó để lại chấn thương tâm lý lớn cho những công dân lương thiện, tuân thủ pháp luật. Dù đây không phải hệ thống AI chính thức, họ vẫn tìm cách né trách nhiệm bằng cách nói “đó là việc do tự động hóa làm”. Kafka cũng từng nhấn mạnh vấn đề quan liêu tương tự qua lối châm biếm.
Cũng có trường hợp Air Canada lập luận rằng chatbot là một thực thể tự chủ nên hãng không phải chịu trách nhiệm cho việc hướng dẫn sai, nhưng lập luận đó không được chấp nhận.
Khéo léo nhắc rằng ở đây chữ B là Bureaucracy(quan liêu).
Điều được đồng tình là thảm họa “AI” sẽ không phải một sự kiện trực tiếp và vật lý như tai nạn máy bay. Điểm cốt lõi ở đây là khi kết nối những hệ thống như AI hay automation(tự động hóa) trực tiếp với các thứ nguy hiểm thì khả năng xảy ra tai nạn sẽ tăng lên. Dù là một câu lệnh
ifđơn giản hay mạng nơ-ron thì điều quan trọng vẫn là chính sự “ủy quyền”. Cuối cùng, không kém gì AI, câu hỏi “ai đã cho phép/kết nối nó” mới là điều quan trọng.Để AI thực thi điều gì đó trong thế giới vật lý, cấu trúc đó phải có “sự cho phép/quyền hạn”. Người trao quyền đó mới là người thực sự chịu trách nhiệm. Sự cố với thiệt hại lớn do AI gây ra có lẽ sẽ không phải kiểu “AI tự mình gây chuyện”, mà là kiểu “người chịu trách nhiệm thật sự đã vận hành thứ như kiểm soát không lưu bằng mã nguồn cẩu thả”.
Chỉ ra rằng thảm họa AI lớn đầu tiên có thể sẽ là một dạng mới của lỗi bất cẩn nghiêm trọng. Có thêm bình luận rằng công cụ mới sẽ tạo ra những kiểu sai lầm mới.
“Rủi ro tiêu cực” được nói đến trong bài này thực ra không khác mấy với những hành vi mà con người từng nhiều lần gây ra khi xử lý các hệ thống phức tạp, và nhìn lại thì thấy rất ngu ngốc. Tóm lại, luận điểm cơ bản của bài là: “AI sẽ khiến sự ngu xuẩn của con người diễn ra nhanh hơn và nghiêm trọng hơn.”
Bày tỏ ý kiến cá nhân rằng chủ đề thảm họa AI và hộp đen đạo đức này rất hợp với Chain://, một dự án worldbuilding. Tác phẩm lấy bối cảnh tương lai thập niên 2090, miêu tả một “xã hội nông nô số” nơi ý thức được đăng ký lên blockchain(Mental Smart Chain, MSC), và cả sự tồn tại lẫn suy nghĩ đều bị chuyển thành dữ liệu có thể kiểm chứng. Trong câu chuyện mới nhất Web://Reflect, tác phẩm dùng lý thuyết IPWT(Integrated Predictive Workspace Theory) để hình thức hóa sự tồn tại và ý thức thành những quá trình tính toán có thể chứng minh. Tác phẩm được giới thiệu là chạm trực tiếp đến viễn cảnh tương lai AI dưới góc nhìn “tái định nghĩa nhân tính như dữ liệu thuần túy”, nên nếu quan tâm SF thì đáng xem. Chia sẻ liên kết repo chính trên GitHub(https://github.com/dmf-archive/dmf-archive.github.io) và IPWT(https://github.com/dmf-archive/IPWT)