Trong OpenAI Whisper, im lặng hoàn toàn luôn bị ảo giác thành "ترجمة نانسي قنقر" bằng tiếng Ả Rập

(github.com/openai)

1 điểm bởi GN⁺ 2025-07-23 | 1 bình luận | Chia sẻ qua WhatsApp

Khi đưa vào tệp wav hoàn toàn im lặng cho mô hình Whisper, có hiện tượng đầu ra luôn bị ảo giác thành cùng một chuỗi tiếng Ả Rập "ترجمة نانسي قنقر" (Bản dịch của Nancy Qunqar)
Nếu tạo audio im lặng bằng ffmpeg rồi chạy Whisper với ngôn ngữ Ả Rập và mô hình large-v3, kết quả luôn giống hệt nhau
Có vẻ như mô hình Whisper đã được huấn luyện theo cách diễn giải audio im lặng thành một văn bản cụ thể
Ở các mô hình cũ hơn (small v.v.), có thể phần nào kìm hãm hiện tượng này bằng cách điều chỉnh các tham số như suppress_tokens, initial prompt, logprob_threshold, nhưng ở v3 (đặc biệt là large-v3) hiệu quả rất thấp
Cách dùng VAD(Voice Activity Detection) hoặc lọc trước các đoạn im lặng của audio được đề xuất như một biện pháp lách tránh

Hiện tượng của vấn đề

Đã có báo cáo rằng trong Whisper large-v3, với audio im lặng, mô hình luôn ảo giác và xuất ra câu tiếng Ả Rập "ترجمة نانسي قنقر"
Tạo tệp wav im lặng 30 giây bằng ffmpeg như sau
ffmpeg -f lavfi -i anullsrc=r=44100\:cl=stereo -t 30 silence.wav
Ví dụ chạy lệnh Whisper
whisper ./silence.wav --language Arabic --model large-v3
Kết quả:
\[00:00.000 --> 00:29.980] ترجمة نانسي قنقر

Nguyên nhân và phân tích

Các mô hình Whisper mới hơn như large-v3 có xu hướng tạo ra đầu ra ảo giác tùy ý cho im lặng, thay vì mô tả audio theo kiểu cũ
Các mô hình trước đó (small v.v.) cũng tạo đầu ra lặt vặt (ngẫu nhiên) trên audio im lặng, nhưng có thể kiểm soát phần nào bằng nhiều tùy chọn như suppress_tokens, initial prompt, logprob_threshold
Trong v3, các cách trên hầu như không hiệu quả và xuất hiện kết quả ảo giác cố định

Đề xuất cách lách tránh và giải pháp

Áp dụng VAD(Voice Activity Detection): chỉ đưa vào Whisper những đoạn audio thực sự có giọng nói, còn im lặng thì không đưa vào ngay từ đầu
Điều chỉnh các tham số như suppress_tokens, initial prompt, logprob_threshold: có tác dụng với một số mô hình nhưng rất hạn chế với large-v3
Với audio hoàn toàn im lặng hoặc tín hiệu yếu, cần hậu xử lý bằng cách khác thay vì chỉ dựa vào Whisper

Thảo luận khác

Có thêm thảo luận về việc liệu có mô hình nào tốt hơn large-v3 cho tiếng Ả Rập hay không, nhưng chưa có mô hình thay thế rõ ràng nào được đưa ra

1 bình luận

GN⁺ 2025-07-23

Ý kiến Hacker News

Khi chép lời tiếng Trung bằng whisper-large-v3, nhiều lần tôi gặp trường hợp các đoạn im lặng lại được xuất ra thành những câu vô nghĩa như “hãy thích, chia sẻ và thêm vào mục yêu thích”, khiến tôi nghi ngờ rằng khi huấn luyện mô hình, dữ liệu đã được thu thập ngẫu nhiên từ video YouTube chứ không được chọn lọc kỹ thành tư liệu hữu ích
- Trong bản chép lời tiếng Trung, tôi cũng thường thấy bị chèn thêm các câu như "phụ đề phục vụ mục đích nghiên cứu/học tập. Vui lòng xóa sau 48 giờ.", đây là câu miễn trừ trách nhiệm mà các tình nguyện viên làm phụ đề hay thêm vào phụ đề của phim hoặc chương trình (bất hợp pháp)
- Ngay cả khi dùng mô hình khác, tôi vẫn liên tục gặp hiện tượng các đoạn im lặng bị chuyển thành ‘cảm ơn đã theo dõi!’ hoặc ‘[MUSIC]’; thật đáng tiếc là những lỗi như vậy không bị loại bỏ trong quá trình QA và cứ lặp lại ở nhiều mô hình chép lời khác nhau, trong khi việc đầu vào âm thanh có đoạn im lặng là tình huống xảy ra cực kỳ thường xuyên
- Khi thử whisper, tôi có cảm giác nó không hoạt động tốt với video quay bằng YouTube hay điện thoại; tôi đoán phần lớn dữ liệu huấn luyện có lẽ là phụ đề hoặc kịch bản, các video tôi thử đều là tiếng Trung (Quan Thoại), và dù dùng whisper-large-v3 nên vẫn xuất hiện các kiểu hiểu nhầm điển hình và kết quả vô nghĩa, hiệu năng của nó nhìn chung vẫn khá tốt so với phần mềm khác; tuy vậy, nó đôi khi tự bịa tên người nói rồi gắn vào đầu lời thoại, thỉnh thoảng lại chuyển qua lại giữa giản thể và phồn thể; ở các đoạn im lặng, nó lặp đi lặp lại câu cuối cùng hoặc đôi lúc chèn văn bản tiếng Anh trông như chỉ dẫn dàn dựng; tôi không thấy phụ đề hay credit kết thúc gì cả, nhưng trong một video, khi người nói bị cảm và sụt sịt, whisper chép thành đang khóc (“* crying ”), còn tiếng ho thì dịch thành “ door closing *”; dòng tiếp theo thậm chí còn bị chép thành nội dung khá khiếm nhã; khi tôi cắt bỏ đoạn sụt sịt thì bản chép lạ biến mất, nhưng lần này nó lại chuyển sang phồn thể
- Cảm giác giống như “bỏ quần jean vào máy tính, liệu có ra đáp án đúng không?”
- Khi YouTube mới bắt đầu làm tính năng tự động tạo caption, nó luôn gắn tiếng ồn hoặc nhạc nền (đặc biệt là tiếng ồn công nghiệp) thành “[foreign]”; từ lâu đã có kiểu coi những âm thanh không hiểu được là “foreign” như vậy
Với LLM cũng vậy, đây là một ví dụ điển hình của hiện tượng "overfitting" lệch theo dữ liệu không rõ ràng, khá giống việc đưa nguyên văn thư trả lời tự động out-of-office vào kết quả dịch; xem bài liên quan https://www.theguardian.com/theguardian/2008/nov/01/5
- Tôi tự hỏi liệu hiện tượng này thực sự là overfitting, hay đúng hơn là vấn đề chất lượng dữ liệu hoặc phân loại dữ liệu
Để mọi người đỡ mất thời gian tìm kiếm: cụm tiếng Ả Rập "رجمة نانسي قنقر" có nghĩa là "bản dịch của Nancy Qanqar" hoặc "được Nancy Qanqar dịch", "رجمة" là dịch thuật, còn "نانسي قنقر" là tên riêng
- Trong tiếng Séc, whisper cũng thường chép các đoạn im lặng thành “Titulky vytvořil JohnyX” (phụ đề do JohnyX thực hiện), vì lý do tương tự
- Có người chỉ ra là viết sai chính tả, bản đúng phải là "ترجمة" có thêm chữ ت ở đầu, chứ không phải "رجمة"
- Nguyên nhân của các bản chép như vậy là vì dữ liệu huấn luyện chủ yếu đến từ phụ đề không chính thức của phim; các phụ đề này thường có dòng kiểu “dịch bởi XXX” ở phần cuối phim; lúc đó trên màn hình có phụ đề nhưng thực tế âm thanh lại là đoạn im lặng
Whisper bị hallucination quá thường xuyên, đến mức không dùng được; hiện tượng này đã được ghi nhận nhiều lần; nếu loại bỏ khoảng lặng khỏi audio thì có giảm phần nào, nhưng vẫn còn các vấn đề như tự động sửa ngữ pháp (ví dụ trong dịch speech song ngữ), và dù các mô hình audio mới hơn có cải thiện thì vẫn chưa giải quyết triệt để https://news.ycombinator.com/item?id=43427376
- Cá nhân tôi thấy vấn đề không hẳn là “không dùng được”, mà là cần hiểu giới hạn của Whisper trước rồi tìm cách lách qua; tôi đã xây dựng cả một doanh nghiệp trên Whisper, và mấu chốt từ sớm để giảm hallucination là đưa vào mô hình phát hiện hoạt động giọng nói (VAD); tham khảo https://speechischeap.com
- Chỉ dùng riêng mô hình lớn mới là vấn đề; lúc nào cũng nên kết hợp với một mô hình vệ tinh nhỏ hoặc logic bổ trợ; hallucination hoàn toàn có thể được phát hiện khá dễ bằng các mô hình ML/DL truyền thống; ở đoạn im lặng thì lẽ ra không được có văn bản, nên code để phát hiện việc này rất dễ viết
- Tự động sửa ngữ pháp cũng rất phổ biến trong phụ đề thông thường; xem video "Tại sao phụ đề lại khác với lồng tiếng?" https://youtu.be/pU9sHwNKc2c
Ngay cả ở bản tiếng Anh của Whisper, khi phát đoạn im lặng cũng thường xuất hiện “[ sub by sk cn2 ]”, “dù sao thì cũng cảm ơn các bạn đã xem! Hãy đăng ký và bấm thích nhé! Tạm biệt!” hoặc “video này đã kết thúc. Cảm ơn bạn đã xem. Nếu thấy hữu ích, hãy đăng ký kênh.”
- Lý do là mô hình được huấn luyện bằng media lậu hoặc video YouTube; đây là một cách làm hiệu quả, nhưng có nguy cơ kiểm soát chất lượng kém hoặc vướng vấn đề bản quyền
Trong tiếng Nga, ở cuối cũng thường xuất hiện hallucination “Субтитры сделал DimaTorzok” (phụ đề do DimaTorzok thực hiện); tôi cũng từng lên YouTube tìm thử xem có thật nhiều phụ đề kiểu đó không, nhưng có vẻ không nhiều lắm
- Khi tìm kiếm thì thấy cả người dùng Telegram cũng hỏi vì sao cụm này lại hiện ra trong nhận dạng giọng nói, DimaTorzok là ai; tôi cũng tìm được thread cho thấy kiểu phụ đề này xuất hiện trong video YouTube game tiếng Nga, v.v. https://github.com/openai/whisper/discussions/2372 https://www.youtube.com/watch?v=FAqyUuahMlc&t=401s
- Có lẽ cũng có ai đó giống như opensubtitles.org đang phân phối phụ đề công khai
Nếu 30 giây đầu của cuộc gọi ghi âm là tiếng chuông hoặc DTMF (gần như lúc nào cũng vậy khi gọi cho doanh nghiệp), Whisper thường chọn nhầm ngôn ngữ thành Nynorsk hoặc tiếng Wales; tôi chưa kiểm tra xem nó chép ra văn bản gì, nhưng chắc cũng là nội dung lạc đề tương tự; với tôi thì không thành vấn đề thực tế, nhưng với các call center song ngữ thì có thể khá bất tiện
Về câu hỏi “Nicolai Winther là ai?” thì xem https://medium.com/@lehandreassen/who-is-nicolai-winther-985409568201
- Có người để lại câu: “Trong tương lai, ai rồi cũng sẽ nổi tiếng 15 phút trong cộng đồng công nghệ-ngôn ngữ vi ngách của riêng mình, giữa thời đại AI cuồn cuộn”
Có người cho rằng nên đổi tiêu đề thành "OpenAI, lộ bằng chứng huấn luyện bằng phim lậu"
- Đương nhiên thôi, cứ có nhiều tiền thì việc huấn luyện bằng nội dung bất hợp pháp cũng thành hợp pháp
- Tôi băn khoăn liệu chuyện này có thật sự được xem là bằng chứng không; việc dùng tư liệu bản quyền vốn đã được cho phép ngay từ đầu như từ cộng đồng phụ đề trực tuyến hoặc DVD dường như đã là điều ngành này biết rõ từ lâu; chuyện mô hình AI dùng nhiều tư liệu có bản quyền để huấn luyện cũng đã được chứng minh từ trước
- Hacker News rất nghiêm về việc chỉnh sửa tiêu đề theo hướng chủ quan; kể cả khi gần như không còn nghi ngờ gì về mặt thực tế, nếu đổi tiêu đề kiểu này thì bài sẽ bị report ngay
Cũng có người đùa rằng “biết đâu Nancy Qunqar đã ngồi chép từng dòng một cách cơ học”, rồi cổ vũ kiểu “Cố lên Nancy! Tiếp tục phát huy nhé!”
- Tôi nghi ngờ đây có thể là spam, vì cái tên này chỉ thấy trên Instagram và trong thread này; không biết có phải chiêu spam mới để kiếm follower Instagram hay không

Trong OpenAI Whisper, im lặng hoàn toàn luôn bị ảo giác thành "ترجمة نانسي قنقر" bằng tiếng Ả Rập

Hiện tượng của vấn đề

Nguyên nhân và phân tích

Đề xuất cách lách tránh và giải pháp

Thảo luận khác

Bài viết liên quan

1 bình luận

Ý kiến Hacker News