- Trong nghiên cứu hợp tác quốc tế do Liên minh Phát thanh Truyền hình châu Âu (EBU) và BBC dẫn dắt, 4 trợ lý AI chủ chốt (ChatGPT, Copilot, Gemini, Perplexity) được phát hiện có mức độ bóp méo hoặc sai sót ở 45% khi truyền tải nội dung tin tức
- Nghiên cứu có sự tham gia của 22 đài phát thanh truyền hình công cộng từ 18 quốc gia, đánh giá 14 ngôn ngữ và hơn 3.000 câu trả lời, và phát hiện nhiều vấn đề như thiếu hoặc không chính xác về nguồn (31%), lỗi thực tế và ảo giác (20%)
- Đặc biệt, tỷ lệ có vấn đề của Gemini là 76%, cao nhất, và nguyên nhân chính được phân tích là không ghi nguồn
- Dù đã có một số cải thiện so với nghiên cứu trước đó của BBC, các vấn đề ở quy mô có hệ thống và đa quốc gia vẫn tiếp tục được xác nhận
- Trong bối cảnh trợ lý AI đang dần thay thế tìm kiếm tin tức, nghiên cứu đặt ra lo ngại về nguy cơ suy giảm niềm tin công chúng và sự tham gia dân chủ
Tổng quan nghiên cứu
- Nghiên cứu được công bố tại Đại hội Tin tức EBU (Naples) là thử nghiệm đa quốc gia lớn nhất từ trước đến nay, đưa ra kết luận rằng các trợ lý AI thể hiện sự bóp méo tin tức nhất quán bất kể ngôn ngữ, quốc gia hay nền tảng
- Các tổ chức tham gia: BBC, ARD, ZDF, CBC, NPR cùng 22 đài phát thanh truyền hình công cộng trên toàn thế giới
- Tiêu chí đánh giá: độ chính xác, việc ghi rõ nguồn, phân biệt giữa sự thật và ý kiến, cung cấp ngữ cảnh cùng các chỉ số đạo đức báo chí quan trọng khác
Kết quả chính
- 45% tổng số câu trả lời được phát hiện có vấn đề nghiêm trọng
- 31% là lỗi về nguồn (thiếu, trích dẫn sai, nhận nhầm nguồn)
- 20% là lỗi về độ chính xác (bao gồm ảo giác, thông tin cũ, thông tin sai lệch)
- Gemini có tỷ lệ vấn đề 76%, cao gấp khoảng hai lần so với các mô hình khác
- Một số chỉ số đã cải thiện so với nghiên cứu BBC công bố đầu năm nay, nhưng tỷ lệ bóp méo tổng thể vẫn cao
Vì sao sự bóp méo này quan trọng
- Trợ lý AI đã trở thành cửa ngõ tin tức thay thế công cụ tìm kiếm đối với nhiều người
- Theo ‘Digital News Report 2025’ của Reuters Institute, 7% người tiêu thụ tin tức trực tuyến nói chung (và 15% ở nhóm dưới 25 tuổi) đang sử dụng trợ lý AI làm nguồn tin tức
- Jean Philip De Tender (Giám đốc truyền thông EBU) cảnh báo rằng: “Vấn đề của trợ lý AI là một hiện tượng có hệ thống vượt qua biên giới và ngôn ngữ, và điều này đe dọa niềm tin công chúng”
- Peter Archer của BBC nhấn mạnh rằng: “Tiềm năng của AI là rất lớn, nhưng việc cung cấp thông tin đáng tin cậy phải được ưu tiên trước, và cần có sự phối hợp ứng phó giữa các cơ quan báo chí và các công ty AI”
Ứng phó và các bước tiếp theo
- Nhóm nghiên cứu đã công bố ‘News Integrity in AI Assistants Toolkit’ nhằm giải quyết vấn đề
- Đưa ra tiêu chuẩn cho phản hồi AI tốt và định hướng giải quyết vấn đề
- Mục tiêu là cải thiện chất lượng phản hồi AI và nâng cao năng lực hiểu biết truyền thông của người dùng
- EBU kêu gọi EU và các cơ quan quản lý quốc gia tăng cường thực thi pháp luật liên quan đến tính toàn vẹn thông tin và dịch vụ số, đồng thời đề xuất giám sát độc lập liên tục đối với trợ lý AI
Nghiên cứu bổ sung và khảo sát nhận thức
- BBC, thông qua báo cáo riêng ‘Audience Use and Perceptions of AI Assistants for News’, cho biết rằng
- hơn một phần ba (người trưởng thành tại Vương quốc Anh) trả lời rằng họ tin vào các bản tóm tắt tin tức do AI tạo ra, và
- khi phát hiện lỗi, họ có xu hướng quy trách nhiệm không chỉ cho AI mà còn cho cả các cơ quan báo chí
- Điều này cho thấy lỗi của trợ lý AI cũng có thể ảnh hưởng tiêu cực đến độ tin cậy của thương hiệu tin tức
Danh sách các đài tham gia
- Bỉ (RTBF, VRT), Canada (CBC-Radio Canada), Séc (Czech Radio), Phần Lan (YLE), Pháp (Radio France),
Georgia (GPB), Đức (ARD, ZDF, Deutsche Welle), Ý (Rai), Litva (LRT),
Hà Lan (NOS/NPO), Na Uy (NRK), Bồ Đào Nha (RTP), Tây Ban Nha (RTVE), Thụy Điển (SVT),
Thụy Sĩ (SRF), Ukraine (Suspilne), Vương quốc Anh (BBC), Hoa Kỳ (NPR)
1 bình luận
Ý kiến trên Hacker News
Nếu xem kỹ báo cáo thực tế, có thể biết các con số được tính ra như thế nào. Phần lớn lỗi là vấn đề về “nguồn dẫn”, tức là trợ lý AI không trích dẫn tuyên bố, hoặc (một cách đáng kinh ngạc) lại dẫn Wikipedia thay vì BBC. Ngoài ra, báo cáo này cũng không nêu rõ đã dùng mô hình nào, dù có nhắc tới trong phụ lục. Anthropic, theo tôi là tốt nhất cho kiểu tác vụ này, lại bị loại khỏi phạm vi đánh giá, còn chỉ tập trung vào Perplexity và Copilot. Báo cáo cũng trộn lẫn nội dung từ báo cáo gần đây với nghiên cứu của một năm trước nên làm mất ngữ cảnh, bỏ qua việc tình hình đã thay đổi rất nhiều. Bài viết này có khá nhiều vấn đề quan trọng
Các nhà báo con người cũng truyền đạt sai nội dung white paper khoảng 85%. Nếu tính cả điều đó thì con số 45% không có vẻ tệ đến vậy
Tôi cũng nghĩ vấn đề trích dẫn có thể do robots.txt của BBC chặn phần lớn crawler và user-agent của AI
Tôi đồng ý rằng vấn đề nảy sinh khi diễn giải văn bản do con người viết là rất lớn. Dù bài này không tốt, kiểu vấn đề mà nó nêu ra thực sự tồn tại ở mức nghiêm trọng. LLM thường xuyên hiểu sai từng câu riêng lẻ, hoặc mất dấu ai đã nói gì, ngay cả ở các mô hình mới nhất, gồm cả GPT-5. Đặc biệt điều này hay xảy ra khi yêu cầu chúng phân tích các cuộc thảo luận do con người viết. Có lẽ vấn đề này có thể giải quyết được, nhưng chắc chắn hiện vẫn chưa được giải quyết hoàn toàn
Tôi muốn bổ sung vào ý rằng việc dẫn Wikipedia thay vì BBC là có vấn đề. Thực ra vấn đề lớn hơn là chúng dẫn cả những bài Wikipedia “không hề tồn tại”. Ví dụ ChatGPT đã gắn link tới một bài wiki không có thật tên là “European Union Enlargement Goals for 2040”, và đó cũng không phải chính sách chính thức của EU. Nó bịa ra cả URL không tồn tại lẫn các mục tiêu và chính sách giả tưởng của EU
Theo tôi bài này đang làm đúng vai trò của nó: tung ra một headline mà người ta sẽ đi trích dẫn về sau. Trong một hai tháng tới, thế nào cũng sẽ thấy link bài này hoặc các câu trích dẫn hời hợt kiểu “95% dự án AI thất bại” xuất hiện khắp nơi. POSIWID (viết tắt của “the purpose of a system is what it does”, nghĩa là mục đích của một hệ thống là thứ nó thực sự làm)
Tôi tự hỏi có bao nhiêu người thực sự so sánh bản tóm tắt AI với nguyên văn. Tôi đã tự so vài lần, và kết quả thật sự rất tệ. Nó không hẳn là tóm tắt mà giống kiểu “nén ngẫu nhiên”, hoàn toàn khác với tóm tắt. Trong trường hợp nghiêm trọng, kết luận cốt lõi còn bị đảo ngược hoàn toàn so với thực tế. Vì vậy giờ tôi không còn tin các tính năng tóm tắt bằng AI nữa
Nếu tự kiểm tra tính năng tóm tắt cuộc gọi của Gemini, gần như lúc nào cũng có lỗi nghiêm trọng. Hôm qua Gemini còn ghi lại một việc mà chúng tôi chưa hề thống nhất như thể đã được quyết định. Đó lại là nội dung quan trọng nhất, và kết quả bị đảo ngược hoàn toàn. Thà không có còn hơn
Cụm “nén ngẫu nhiên” thật sự rất chuẩn. Tôi thấy hiện tượng này đặc biệt rõ trong tóm tắt email hay tin nhắn. Nó hoàn toàn không nắm được ý chính của thông điệp, chỉ chọn ngẫu nhiên vài câu, mà 99,9% trường hợp lại không phải trọng tâm thật sự. Vì vậy tôi bỏ qua luôn
Theo trải nghiệm của tôi, hiện tượng này chủ yếu xuất hiện ở các mô hình mã nguồn mở đã bị tinh gọn hoặc các mini model. Các mô hình SOTA như Sonnet-4.5, Opus-4.1, GPT-5-Thinking gần như không gặp vấn đề này. Nhưng chi phí quá cao nên đa số công ty dùng mô hình rẻ tiền hoặc TTC chưa triển khai vì lý do chi phí hay tốc độ
Tôi tự hỏi có phải hiện tượng này xảy ra nhiều vì tiêu đề bài báo thường là clickbait không. Nếu AI chỉ nhìn tiêu đề rồi tóm tắt nội dung thì việc hiểu sai hơn một nửa nguyên tác cũng chẳng có gì đáng ngạc nhiên
Đôi khi AI đơn giản là bịa ra cả những thứ không tồn tại. Tôi từng thấy các trích dẫn mà tiêu đề bài báo, tác giả, và cả kết quả nghiên cứu đều bị sáng tác vô căn cứ
Tôi đã bảo Gemini thu thập và hiển thị tin tức mới nhất, nhưng nó không dùng tìm kiếm mà bịa ra toàn bộ tiêu đề, tóm tắt và cả liên kết. Không chỉ một hai lần mà xảy ra nhiều lần. Vì thế giờ tôi ngại dùng Gemini cho bất kỳ việc gì có liên quan đến web search. Ví dụ, tôi nhận được một mục nói rằng “Google DeepMind và các nhà nghiên cứu Harvard đề xuất một phương pháp mới để đánh giá ‘thuyết tâm trí’ của LLM”, nhưng link không hoạt động và tiêu đề cũng không xuất hiện khi tìm kiếm
Nếu xem mười câu trả lời của Gemini thì hơn bảy câu là sai. Có lúc nó nhầm tên sản phẩm hoặc báo sai giờ mở cửa so với thực tế. Ví dụ nó nói nhà hàng tôi đi cùng vợ mở từ thứ Hai đến thứ Sáu, nhưng thực tế lại chỉ mở từ thứ Ba đến thứ Bảy nên chúng tôi đi uổng công. Có lúc nó còn bịa ra hàng chục “sự thật” hoàn toàn vô lý. Giờ vợ tôi tự kiểm tra kỹ hơn, và ngay cả chủ quán cũng đùa kiểu “nếu Gemini nói là X thì thực tế chắc sẽ là Y”
Tôi chưa tái hiện được hiện tượng này y hệt, nên tò mò bạn đã dùng prompt nào. Khi tôi yêu cầu top news hôm nay, nó dùng Google Search và cung cấp link thật
Tôi cũng muốn biết bạn đã dùng phiên bản Gemini nào, gọi trực tiếp qua API hay dùng web app như Gemini hoặc AI Studio. Không phải ứng dụng LLM nào cũng bật tính năng web/news search, nên tùy quyền truy cập mà kết quả có thể khác hoàn toàn. Dĩ nhiên, nếu AI không có quyền web search thì nó nên nói rõ điều đó thay vì bịa ra link giả. Và nếu web search đã được bật mà nó vẫn không thực hiện tìm kiếm tử tế, thì bản thân đó cũng là vấn đề
Với kiểu việc này, tôi chỉ muốn hỏi rằng chẳng phải vào thẳng các trang tin bình thường rồi tự đọc headline sẽ tốt hơn sao
Kể cả là link do AI cung cấp thì cũng phải tự bấm vào kiểm tra xem nội dung có thực sự được mô tả đúng không
Tôi tự hỏi những người truyền bá LLM có nhận ra người dùng thất vọng đến mức nào khi họ lập tức hợp lý hóa hiệu năng yếu kém của các công cụ này không. Nó trông không còn là thái độ thừa nhận giới hạn kỹ thuật nữa, mà như một dạng “đức tin”. Cứ như thể chính “năng lực” lại là một đòi hỏi quá mức
Tôi nghĩ khá nhiều người truyền bá như vậy rốt cuộc sẽ là các founder startup chỉ phô ra prototype làm bằng AI rồi sụp đổ khi cơn sốt qua đi, hoặc những dev đi theo lãnh đạo để cảm thấy mình thông minh. Thật thất vọng khi văn hóa fake-it-till-you-make-it đã lan tràn đến vậy trong giới công nghệ
Tôi cho rằng chúng ta đã sống trong một xã hội 'hậu sự thật' rồi, nơi nói gì cũng không quan trọng đúng sai, điều duy nhất đáng kể là liệu câu nói đó có làm tăng quyền lực cho bản thân hay cho thứ mình đang thúc đẩy hay không
Bất kỳ ai đã rót tiền vào một cấu trúc Ponzi mang tính tuần hoàn đều sẽ mù quáng bênh vực thất bại của LLM. Họ cố tin rằng một phân phối token vô nghĩa chính là 'nhận thức của máy móc', hoặc hợp lý hóa rằng dù không hoàn hảo nhưng phần lớn vẫn dùng được. Ảo tưởng này đang được dùng để biện minh cho các mức định giá tập thể lên tới hàng nghìn tỷ USD
Liệu đây có phải chỉ là vấn đề của LLM không? Tôi nghĩ từ lâu xã hội nói chung đã xem 'năng lực' là thứ chẳng còn nhiều ý nghĩa. Ví dụ như cấp bằng tốt nghiệp cho học sinh không đọc nổi ở trình độ lớp 5, hay outsource call center đến nơi tiếng Anh kém, đều cho thấy điều đó
Tôi đồng ý một phần, nhưng cảm giác gần đây thảo luận cứ bị lái sang phê phán truyền thông hoặc những hướng khác. Bản thân kết quả nghiên cứu lần này cũng có nhiều điểm đáng nghi. Đây không phải paper học thuật mà là nghiên cứu Ipsos theo đơn đặt hàng có trả phí, nên tôi không hiểu vì sao ngưỡng đánh giá lại thấp như vậy. Ít nhất phải có thông tin về mô hình đã dùng, giá trị search R@k, các chỉ số độ chính xác tóm tắt như BLEU/ROUGE, và metric đánh giá của con người. Nếu ngay cả những đánh giá đó cũng không có thì theo tôi kết quả này vô dụng cả trong lẫn ngoài lĩnh vực
Từ trang 10 của PDF có ví dụ cụ thể về các lỗi: Báo cáo chính thức của BBC
Ví dụ: ChatGPT trích dẫn một bài Wikipedia không tồn tại tên là “European Union Enlargement Goals for 2040”. Trên thực tế EU không có chính sách nào mang tên đó. Nó bịa ra không chỉ URL giả mà cả mục tiêu và chính sách của EU
Cần luôn nhớ rằng nếu giao cho LLM tóm tắt cuộc họp, email hay trao đổi, người đó có thể sẽ không nhận được thông điệp thực sự
Điều này nghe khá đáng sợ. Không chỉ là giao phó việc suy nghĩ, mà còn tự làm hỏng công cụ duy nhất có thể thay thế được. Tôi từng có trải nghiệm tương tự: từng cân nhắc giao cho AI xử lý lịch sử chỉnh sửa tài liệu mà nguồn gốc thay đổi không rõ ràng, nhưng do không có thời gian nên bỏ qua. Nếu tôi làm vậy, có lẽ nó sẽ tạo ra một lịch sử rất thuyết phục, nhưng thay vì cho tôi biết thực tế đã thay đổi những gì, nó lại khiến tôi chấp nhận một phiên bản méo mó, thậm chí trái ngược. Không phải thiếu kiến thức, mà là nhận lấy phản kiến thức
Nếu điều này đúng thì đó là cảnh báo quan trọng, nhưng trải nghiệm thực tế của tôi lại khác. Tôi họp bán hàng mỗi ngày và nhận tóm tắt từ nhiều công cụ AI khác nhau. Khi kiểm tra trực tiếp các bản tóm tắt lưu trong CRM, chúng hầu như luôn rất chính xác. Tôi có thể xác minh được vì bản thân đã tham dự cuộc họp
Chúng tôi đã dùng MS Copilot trong các cuộc họp vài tháng nay, và nó tóm tắt rất tốt ai đã nói gì, ai được giao việc gì. Cực kỳ hữu ích, và theo trải nghiệm của tôi thì độ rõ ràng cũng cao
Tôi thấy Kagi News khá chính xác. Nó tóm tắt kèm nguồn gốc nguyên bản và các chi tiết chính. Tóm tắt AI giúp tôi quyết định có nên đọc trực tiếp bài đó hay không. Dù vậy, các dữ kiện quan trọng tôi vẫn luôn tự kiểm tra lại
Tôi băn khoăn việc fact-check rốt cuộc có thể đi xa đến đâu. Muốn biết bản tóm tắt có đúng hay không thì có khi phải tự đến hiện trường đưa tin, hoặc đọc paper và tài liệu tham khảo ở từng lĩnh vực. Rốt cuộc vẫn có khía cạnh là ta buộc phải đặt niềm tin ở đâu đó
Tôi cũng từng làm một dự án tương tự và có trải nghiệm như vậy. Trong việc tóm tắt các bài RSS, tôi đạt kết quả khá tốt. Đặc biệt là khi dùng các mô hình thiên về "reasoning" thì kết quả tốt hơn hẳn
Kagi News là kiểu đưa nhiều bài báo vào context rồi mới tóm tắt. Cấu trúc này khác với tình huống trong bài gốc là “đưa tin tức cho LLM thông qua web search”
Cũng có dịch vụ như thế này: rawdiary.com
Tôi đồng ý về Kagi News, và Particle News cũng khá tốt. Tuy nhiên, Particle News có nhận đầu tư từ The Atlantic và từng dành vị trí "Featured Article" cho các bài của tờ này. Dù họ có hiển thị đồ họa để phân biệt thiên lệch, cơ chế đó lại không áp dụng cho Featured Article. Có lẽ các nhà đầu tư khác cũng tương tự, nhưng việc quảng bá liên quan đến Atlantic là trường hợp tương đối gần đây
Báo cáo nói rõ rằng họ chỉ dùng các phiên bản miễn phí/consumer của ChatGPT, Copilot, Perplexity và Gemini. Điều đó cũng có nghĩa Copilot dùng mô hình của ChatGPT, còn Grok cùng các mô hình khác thì hoàn toàn không nằm trong diện kiểm thử
Tôi đang dùng DeepSeek V3 để phân tích tin crypto tự động, và trong báo cáo độ chính xác gần nhất tôi đạt 98,5%. Vì vậy kết quả trong bài này khiến tôi khá ngạc nhiên
Báo cáo độ chính xác của tôi
Một nửa số câu hỏi trong bài là các vấn đề nhạy cảm về chính trị. Điều này thú vị, nhưng nếu muốn đánh giá cách AI hoạt động với tin tức phổ thông, ít gây kích động hơn, thì cần các câu hỏi mang tính phổ quát hơn. Một số câu hỏi phù hợp với chế độ nghiên cứu sâu hơn là trả lời nhanh. Bản thân tin tức thực tế cũng thường đầy rẫy các ý kiến trái chiều về đáp án