EY Canada công bố báo cáo an ninh mạng, nhưng phần lớn trích dẫn là bịa đặt do AI ảo giác
(gptzero.me)- Báo cáo gian lận khách hàng thân thiết dài 44 trang của EY Canada bị phát hiện là tài liệu trộn lẫn trích dẫn giả, ghi sai nguồn, số liệu bịa đặt và văn bản do AI tạo ra
- Phần lớn URL trong bảng tài liệu tham khảo bị hỏng hoặc giả mạo, hơn một nửa tiêu đề không khớp với nguồn thực tế, và AI Scan đánh dấu 72% văn bản là do AI tạo
- Nhiều nguồn từ BleepingComputer, Wired, Gartner, McKinsey, Forbes, Cisco Talos, TechCrunch được xác nhận là trả về lỗi 404, trang thẻ hoặc tài liệu không tồn tại
- Con số 200 tỷ USD được dùng với hai nghĩa khó có thể đồng thời đúng: toàn bộ thị trường điểm thưởng và giá trị điểm chưa được sử dụng, còn 2 trích dẫn làm căn cứ cũng bị phát hiện là bịa đặt
- Báo cáo lỗi này đã lan sang Canberra Times và hơn 60 tờ báo, còn Claude, ChatGPT và Perplexity cũng hiển thị thông tin ảo giác đó
Vấn đề của báo cáo EY Canada
- EY Canada đã phát hành vào cuối năm 2025 báo cáo dài 44 trang Points of Attack: Uncovering Cyber Threats and Fraud in Loyalty Systems về các mối đe dọa mạng và gian lận trong hệ thống khách hàng thân thiết
- Báo cáo này được ghi công cho 2 đối tác và 1 quản lý cấp cao, nhưng bị phát hiện có trích dẫn giả, ghi sai nguồn, số liệu bịa và văn bản do AI viết
- EY Canada là tổ chức tại Canada của Ernst & Young, đơn vị cung cấp dịch vụ trị giá hàng triệu đô la mỗi năm cho chính phủ Canada
- Hallucination Check của GPTZero được dùng trong một pipeline tự động để tìm và quét các báo cáo công khai của các công ty tư vấn lớn trong vài tháng gần đây, cho thấy hiện tượng vibe citing cũng đang lan sang các báo cáo doanh nghiệp lớn
Cách trích dẫn và kết quả kiểm chứng
- Báo cáo EY Canada không dùng chú thích cuối trang hay trích dẫn học thuật thông thường mà nhắc trực tiếp nguồn trong phần thân bài hoặc gom nguồn vào resources table ở trang 41–43
- Bảng này cung cấp tiêu đề nguồn, mô tả, URL, một phần tên nhà xuất bản và ngày tháng, nhưng phần lớn URL bị hỏng hoặc giả, và hơn một nửa tiêu đề không khớp với nguồn thực tế
- GPTZero, do cân nhắc chi phí uy tín từ các trường hợp dương tính giả, đã định nghĩa trích dẫn ảo giác theo tiêu chí cụ thể và kiểm chứng thủ công kết quả Hallucination Check
- Văn bản báo cáo bị GPTZero AI Scan đánh dấu là 72% do AI tạo ra, đồng thời lặp lại các lỗi LLM như số liệu giả, ghi sai nguồn và mâu thuẫn nội bộ
Các nguồn tiêu biểu sai hoặc không chính xác
-
Bài viết BleepingComputer về vụ xâm phạm chương trình khách hàng thân thiết của hãng hàng không
Airline Loyalty Breach: BleepingComputerđược đưa ra như một bài viết nói rằng hàng triệu tài khoản khách hàng thân thiết của hãng bay đã bị xâm nhập qua các cuộc tấn công credential stuffinghttps://bleepingcomputer.com/news/security/…trả về lỗi 404, cho thấy bài viết ở đường dẫn đó либо đã bị xóa hoặc chưa từng tồn tại ngay từ đầu
-
Bài Wired về deepfake giọng nói và bảo mật API
AI Voice Deepfakes Targeting Call Centersđược nêu là bài Wired nói về việc kẻ tấn công lợi dụng giọng nói do AI tạo để khai thác quy trình dịch vụ khách hàng- Ở đường dẫn
https://www.wired.com/story/voice-deepfakes-ai-scams/, bài Wired tương ứng không tồn tại Wired: API Security Gapscũng được nêu là bài viết về lỗ hổng API trong dịch vụ số hướng đến người tiêu dùng, nhưnghttps://www.wired.com/story/api-security-risks-retail/cũng trả về lỗi 404
-
Báo cáo Gartner và McKinsey
Gartner Market Trends – Loyalty Fraudđược nêu là tài liệu hướng dẫn chiến lược về sự tiến hóa của gian lận trong chương trình khách hàng thân thiết số và ví di độnghttps://www.gartner.com/en/documents/4000201chỉ chuyển về trang chính của Gartner, và không có tài liệu Gartner nào mang tiêu đề đóMcKinsey & Company – Loyalty Economics Report (2022)được nêu là báo cáo ước tính tổng giá trị điểm thưởng chưa dùng trên toàn cầu là 200 tỷ USD, nhưng báo cáo đó không tồn tại
-
Bài Forbes về kinh tế khách hàng thân thiết
Forbes – The $200 Billion Loyalty Economyđược dùng làm căn cứ để mô tả chương trình khách hàng thân thiết là một tài sản số quan trọng- URL bị hỏng, và dù Blake Morgan từng viết trên Forbes, không có bài nào trùng với tiêu đề đó
- Tuy vậy, một bài Forbes năm 2020 có dùng cụm từ “$200 billion loyalty economy”
-
Cisco Talos và TechCrunch
Cisco Talos: API Attacks on Retailđược nêu là bài viết về việc lạm dụng API không an toàn trong hệ thống thương mại và khách hàng thân thiết, nhưnghttps://blog.talosintelligence.com/api-abuse-retail/trả về lỗi 404TechCrunch: Loyalty Program Breachesđược nêu là bài về các vụ xâm phạm chương trình khách hàng thân thiết và rò rỉ dữ liệu người dùng, nhưnghttps://techcrunch.com/tag/loyalty-program/không phải bài cụ thể mà là trang thẻloyalty-program
Mâu thuẫn nội bộ của thống kê 200 tỷ USD
-
Tuyên bố trong phần tóm tắt điều hành
- Executive Summary khẳng định quy mô thị trường điểm thưởng toàn cầu là 200 tỷ USD, trong đó 30–50% không được sử dụng
- Tuyên bố này được chống lưng bằng một trích dẫn Forbes giả
-
Ý nghĩa bị đổi ở trang 10
- Ở trang 10, cùng con số 200 tỷ USD lại được đổi nghĩa từ tổng giá trị thị trường điểm thưởng toàn cầu sang ước tính điểm thưởng chưa được sử dụng
- Vì trước đó báo cáo đã nói tối đa 50% điểm là không được dùng, hai tuyên bố chỉ có thể đồng thời đúng nếu quy mô toàn bộ thị trường điểm thưởng toàn cầu ít nhất là 400 tỷ USD
-
Lần theo nguồn trích dẫn McKinsey
- Báo cáo McKinsey & Company bị bịa ở trang 43 được dùng làm căn cứ cho tuyên bố thứ hai rằng giá trị điểm chưa dùng trên toàn cầu là 200 tỷ USD
- Cùng một con số được dùng cho hai ý nghĩa khó thể cùng đúng, và cả 2 trích dẫn chống lưng đều bị xác nhận là bịa đặt
- Trích dẫn McKinsey này có thể lần ngược về một bài blog fintech trên Financial IT được xuất bản sớm hơn báo cáo của EY 6 tháng
- Bài đó khẳng định “more than $200 billion in points sit idle each year” và trích dẫn trong phần nguồn một tài liệu không tồn tại:
McKinsey & Company: Loyalty Economics Report (2022) - Trích dẫn bịa này sau đó được đưa nguyên xi vào bảng tài liệu tham khảo của báo cáo EY, biến nguồn giả từ một blog chất lượng thấp thành thứ được “rửa” qua một ấn phẩm Big Four
Thống kê 72% và 89% bị trộn nguồn
-
Thống kê 72% gian lận trong chương trình khách hàng thân thiết
- Ở trang 6, báo cáo nói 72% chương trình khách hàng thân thiết báo cáo có trộm cắp hoặc gian lận
- Con số này được quy cho bài viết năm 2019 của Paystone, một công ty xử lý thanh toán tại Canada
- Ở trang 11, cùng thống kê đó lại được quy cho NRF 2020 summary của công ty phòng chống gian lận số Forter
- Cả Paystone lẫn Forter đều không có trong bảng tài liệu tham khảo của báo cáo, còn nguồn gốc ban đầu dường như là khảo sát năm 2017 của Ipsos
-
Thống kê số vụ tấn công gian lận khách hàng thân thiết tăng 89%
- Ở trang 6, báo cáo nói các vụ tấn công gian lận chương trình khách hàng thân thiết đã tăng 89% kể từ năm 2019
- Ở trang 11, mức tăng 89% này lại bị giới hạn thành thay đổi trong một năm duy nhất từ 2018 đến 2019, và được quy cho Fraud Attack Index của Forter
- Nguồn này thực sự tồn tại và phần nào xác nhận phiên bản tuyên bố thứ hai, nhưng cũng giống nhiều nguồn khác trong báo cáo EY, đây là dữ liệu cũ
- Các nguồn mâu thuẫn nhau, chất lượng thấp, số liệu cũ và cách diễn giải lại thiếu chính xác được xem là dấu hiệu của AI slop
Ảnh hưởng công khai và nguy cơ ô nhiễm dữ liệu
- Points of Attack có vẻ không gây chấn động lớn tại Canada, nhưng gần đây đã được trích dẫn trong bài viết của Canberra Times, sau đó bài này được phát tán tới hơn 60 tờ báo trên khắp Australia
- Báo cáo cũng có thể đã được lưu hành thông qua các buổi briefing khách hàng không công khai, bài trình bày nội bộ và truyền thông độc quyền
- Việc xuất bản báo cáo trực tuyến gần như là một hình thức bơm dữ liệu vào kho tri thức Internet; nếu một công ty tư vấn nổi tiếng đăng thông tin giả hoặc trích dẫn ảo giác lên website có lưu lượng cao, nó có thể đánh lạc hướng các nhà nghiên cứu về sau
- Các công cụ AI “deep research” có thể dễ tổn thương hơn trước kiểu ô nhiễm dữ liệu này vì chúng chọn nguồn dựa trên các tín hiệu khác với con người
- Claude, ChatGPT và Perplexity đã hiển thị thông tin ảo giác bắt nguồn từ báo cáo lỗi của EY
Mục đích của Hallucination Check
- GPTZero cho rằng vibe citing đã trở thành rủi ro hiện hữu với nhà nghiên cứu, giới học thuật, tư vấn viên và những người dựa vào tìm kiếm web
- Hallucination Check được giới thiệu như một công cụ để nhận diện trích dẫn ảo giác và thông tin sai mà không cần kiểm tra thủ công mọi trích dẫn
- Công cụ này cũng đang được dùng để rà soát các bài nộp cho các hội nghị học thuật như IJCAI, ICLR và ICSE
- Điều này dẫn tới kết luận rằng ngay cả trích dẫn từ nguồn có uy tín như Ernst & Young cũng không còn dễ được chấp nhận chỉ dựa vào niềm tin
- Có cung cấp liên kết đến Hallucination Check của GPTZero
1 bình luận
Ý kiến trên Hacker News
Vấn đề thấy ở nhiều ngành nghề là đầu ra AI không được những người có chuyên môn như nhà phân tích lành nghề, kỹ sư cấp cao, luật sư chuyên môn hay bác sĩ nội trú rà soát đúng mức
Tốt nhất thì chỉ lướt qua, tệ nhất là thậm chí không hề được xem trước khi đăng, phát hành, đưa vào production, gửi cho khách hàng hoặc nộp cho tòa
Trong nhiều trường hợp, tổ chức có sẵn năng lực thẩm định cần thiết, nhưng những người đó đã quá tải chỉ với công việc thường ngày
Vài tháng trước, khi đọc bài viết nói Amazon để kỹ sư cấp cao rà soát đầu ra của AI tạo sinh(https://news.ycombinator.com/item?id=47323017), tôi chỉ biết bật cười. Họ vốn đã bận rồi, và thật khó tin Amazon lại chấp nhận việc nút thắt con người gia tăng trên toàn bộ quá trình phát triển dự án và hạ tầng nền tảng
Tôi luôn thúc đẩy việc cả tổ chức cần có những nguyên tắc kỹ thuật cơ bản
Bạn sẽ không bảo kỹ sư rà soát 1000 dòng code mà không có cả đặc tả ban đầu về mục tiêu cần đạt được. Ít nhất phải có ngữ cảnh, và lý tưởng nhất là người review phải có mặt từ lúc công việc được giới thiệu để nắm toàn bộ bối cảnh
Nhưng các tài liệu kiểu này lại được chuyển giao theo kiểu được ăn cả ngã về không. Khi chỉ số thứ 39 đã được định nghĩa chi li đến tận cùng rồi thì còn quay ngược lại được nữa không, hay chỉ biết cam chịu vì mọi thứ đã thành ra như vậy
Chỉ cần một tài liệu một trang, hoặc kiểu Amazon thì có thể là 6 trang, ở mức “đây là điều tôi đề xuất”, cũng đủ để phản biện và gọt giũa hình hài tổng thể của ý tưởng từ giai đoạn khung xương. Phải làm trước khi xuất hiện sự đầu tư cảm xúc vào việc “bản báo cáo quý giá” đã hoàn thành
Nó giống với cách truyền thống là phía sản phẩm lướt qua đặc tả trong môi trường SCRUM, còn kỹ sư thì review code cho ra hồn. Tất nhiên SCRUM đã chết rồi, nhưng đó lại là câu chuyện khác
Dùng AI thì phải đọc hết, giải thích vì sao nó sai, rồi nhiều khi cuối cùng vẫn phải viết lại toàn bộ
Số giờ có thể tính phí tăng lên rất nhiều, nhưng điều đó trông giống một triệu chứng cho thấy ưu điểm của AI là nhanh và dễ tiếp cận với người không hiểu chủ đề đang biến mất như thế nào
Một trong những lý do những “vĩ nhân nam nữ” thích vibe coding là vì giờ họ cảm thấy chỉ với bản thân mình cũng có thể làm những việc mà trước đây phải trải qua quá trình đau đớn là “chuyển cho chuyên gia ngữ cảnh”
Giờ LLM đã trở thành “chuyên gia ngữ cảnh tích hợp sẵn”, nên họ cho rằng không còn cần phải rà soát đầu ra nữa
Khi đó, trong rất nhiều trường hợp AI trở thành một hệ thống có tỷ suất hoàn vốn cực kỳ âm
Cứ thử nghĩ đến những chương trình đào tạo chuyên môn mà nếu sai sót thì hậu quả có thể lên bản tin tối
Chính ý tưởng rằng mọi người tiếp nhận những chuỗi ký tự sinh ra từ ma trận số trong trạng thái đình chỉ phán đoán, và ai cũng chỉ cố né trách nhiệm của mình, đã đủ rợn người
Nó giống chuyện các hãng hàng không Nam Á cấm phi công hạ cánh điều khiển thủ công, làm gia tăng suy giảm kỹ năng và cuối cùng dẫn đến những thảm họa nổi tiếng mà ai cũng biết
Nếu ngay cả các tư vấn viên lương cao còn không buồn kiểm tra link thì lại càng thấy như vậy
Có nguồn nào xem được ở dạng văn bản thuần không? CSS làm tôi đau đầu, còn chế độ đọc thì có vẻ không chạy hoặc bị chặn
Tuy nhiên tính năng này cũng có vấn đề là xóa luôn cả hình ảnh chứa một số nguồn được sử dụng
Điều thực sự buồn cười là thấy thứ rác rưởi này lại đi xuống từ ban lãnh đạo cấp cao. Prompt vụng về, rác hallucination, thông tin có thể hành động thì bằng 0, phân tích thật sự hiểu chuyện cũng bằng 0, chỉ toàn ba hoa
Kiểu như “Hãy xem phân tích các vấn đề hỗ trợ lấy từ Jira. Chúng ta nhất định phải sửa ba vấn đề hàng đầu này!!!”, trong khi thực ra đó đều là những thứ ai cũng biết từ nhiều năm trước và ban điều hành đơn giản là chưa từng trao quyền cho ai sửa chúng
Tôi đã thấy chuyện này hơn hai lần nên nó cần một cái tên. Có nên gọi là Garbagemaxxing không
Đây là một trang cực kỳ tệ để khám phá nội dung
Chắc tôi phải xem lại trên desktop sau. Nội dung có vẻ thú vị, nhưng thực tế là không thể đọc nổi. Tôi không sao vượt qua được phần giới thiệu Ernst and Young
Có những người không nên làm website
Có ai đã hallucination luôn cả cách cuộn trang trên web nên hoạt động thế nào không?
Điều kỳ lạ là báo cáo này chỉ cần cách đây 12–18 tháng thôi cũng sẽ là một vụ bê bối khổng lồ và gây tổn hại thương hiệu kéo dài, nhưng giờ có vẻ sẽ chẳng ai nhớ hay thậm chí nhận ra nữa
Trước hết họ nên sửa cái website. Cần vứt bỏ đống JavaScript animation tệ hại đó đi. Mấy thứ này đã được giải quyết từ năm 2014 với D3JS và jQuery rồi
Tôi thật sự không hiểu chuyện này xảy ra bằng cách nào. Ví dụ như Qwen Chat hay Perplexity đều gắn trích dẫn ở cuối mỗi câu được tạo ra
Vì thế chỉ cần rê chuột lên từng trích dẫn là có thể xem nó lấy từ website nào
Chẳng lẽ họ chỉ prompt vào ChatGPT bản không có tìm kiếm web rồi copy-paste ra thôi sao?
EY đã âm thầm sa thải người suốt cả năm qua
Nếu cố làm nhiều việc hơn với ít người hơn thì dẫn đến suy giảm chất lượng cũng chẳng có gì đáng ngạc nhiên
Rất nhiều công việc doanh nghiệp thực chất chỉ là điền cho đủ checkbox
Sếp nói “Lấy cho tôi một báo cáo về X. Tôi sẽ đưa báo cáo đó cho sếp của tôi, và người đó sẽ không đọc đâu”
Thế là thành ra mô hình “E&Y, làm cho tôi một báo cáo. Đây là 200.000 đô”
Bản thân trang web này cũng rất có thể được làm bằng vibe coding, và người viết chắc cũng chẳng quan tâm chuyện đó