Speech API mới của Apple cung cấp chuyển giọng nói thành văn bản theo thời gian thực nhanh vượt trội so với Whisper

(macstories.net)

16 điểm bởi GN⁺ 2025-06-21 | 6 bình luận | Chia sẻ qua WhatsApp

SpeechAnalyzer và SpeechTranscriber của Apple hỗ trợ chuyển giọng nói thành văn bản theo thời gian thực với tốc độ vượt trội và chất lượng tương đương so với Whisper của OpenAI
Khi chuyển một tệp video 34 phút dung lượng 7GB bằng công cụ dòng lệnh Yap, hệ thống tạo tệp SRT chỉ trong 45 giây, nhanh hơn 2,2 lần so với MacWhisper
Chất lượng gần như không khác biệt so với các công cụ khác như MacWhisper, VidCap, nhưng tất cả vẫn có một số lỗi nhỏ khi xử lý danh từ riêng và từ ghép
Với các tác vụ lặp lại như video dài cho lập trình viên, bài giảng, podcast, hiệu quả tiết kiệm thời gian cộng dồn là rất lớn
Có thể dùng ngay sau khi cài Yap trên bản beta macOS Tahoe (cần tài khoản nhà phát triển), và được kỳ vọng sẽ thay thế Whisper trên toàn bộ nền tảng Apple trong tương lai (iPhone, iPad, Mac, Vision Pro)

Apple Speech API vs Whisper: bước đột phá mới về tốc độ

SpeechAnalyzer và SpeechTranscriber được công bố gần đây tại WWDC hiện đã có trong các bản beta mới nhất của macOS, iOS, iPadOS và Vision Pro
Tác giả vốn không hài lòng với tốc độ chậm của các công cụ dựa trên Whisper trước đây, nhưng API mới cho thấy hiệu năng mang tính thay đổi cuộc chơi trong sử dụng thực tế
Chỉ với một công cụ dòng lệnh đơn giản là Yap, có thể nhanh chóng chuyển tệp âm thanh/video sang SRT hoặc TXT
Video 4K dài 34 phút, 7GB → Yap: 45 giây / MacWhisper(V3 Turbo): 1 phút 41 giây / VidCap: 1 phút 55 giây / MacWhisper(V2): 3 phút 55 giây
Vấn đề nhận diện CamelCase (ví dụ: AppStories) và danh từ riêng xuất hiện tương tự trên tất cả công cụ (và có thể dễ dàng sửa bằng hậu xử lý)

So sánh tốc độ thực tế và ứng dụng trong quy trình làm việc

Nếu chỉ nhìn một video đơn lẻ thì chênh lệch 1–2 phút có vẻ không lớn, nhưng khi xử lý nhiều giờ video thì lợi ích tiết kiệm thời gian cộng dồn là rất đáng kể
Với các tác vụ chuyển đổi hàng loạt như video YouTube, có thể tự động hóa hiệu quả bằng cách kết hợp với yt-dlp
Mang lại quy trình làm việc nhanh hơn cho nhiều nhóm người dùng như nhà sáng tạo, YouTuber, sinh viên trong các nhu cầu phụ đề, bài giảng, tóm tắt
Bộ đôi SpeechAnalyzer/SpeechTranscriber được kỳ vọng sẽ nhanh chóng thay thế Whisper

Cách triển khai thực tế và cài đặt

Cài bản beta macOS Tahoe (hiện cần tài khoản nhà phát triển)
Tải xuống và cài công cụ dòng lệnh từ kho GitHub của Yap
Sau khi chạy Yap và nhập tệp âm thanh/video, tệp chuyển đổi SRT/TXT sẽ được tạo ngay
Có thể xem thêm thông tin kỹ thuật trong tài liệu Speech API chính thức của Apple và video WWDC (số 277)

Kết luận và triển vọng

Apple Speech API cho thấy ưu thế áp đảo về tốc độ so với Whisper, đồng thời vẫn giữ chất lượng ở mức tương đương
Với những người chủ yếu dùng quy trình nhận diện/chuyển đổi giọng nói trên nền tảng Apple, nó có khả năng cao sẽ trở thành mô hình tiêu chuẩn
Được kỳ vọng sẽ tối đa hóa hiệu quả cộng dồn và nâng cao năng suất trong các tác vụ tự động hóa lặp lại thường xuyên

6 bình luận

brainer 2025-06-21

Để sau cũng phải thử với tiếng Hàn mới được.

howudoin 2025-06-21

Bản thân nền tảng Apple vốn đã mang tư duy khép kín nên tôi không mấy hứng thú.

gera1d 2025-06-21

Không thích xem bình luận xưng hô suồng sã mà lại không có tính năng chặn.

jk34011 2025-06-23

Nếu nói vậy thì bình luận anh vừa đăng cũng là nói trống không đấy;;

crawler 2025-06-22

Dù bạn không thích việc chê Apple thì đó cũng không phải là nói trống không. Đó là văn phong -음슴체, mà ngay cả phần tóm tắt mặc định của GeekNews cũng dùng -음슴체, nên không rõ bạn đang đọc các bài viết kiểu gì nữa...

2025-06-23

[Bình luận này đã bị ẩn.]