oTranscribe: Công cụ chép lời phỏng vấn âm thanh miễn phí mã nguồn mở

(otranscribe.com)

2 điểm bởi GN⁺ 2024-08-10 | 3 bình luận | Chia sẻ qua WhatsApp

oTranscribe là ứng dụng web miễn phí giúp giảm bất tiện khi phải chuyển qua lại giữa trình phát media và trình soạn thảo tài liệu khi chép lời phỏng vấn ghi âm
Xử lý phát lại và nhập liệu trên cùng một màn hình, đồng thời có thể điều khiển tạm dừng·tua lại·tua nhanh chỉ bằng bàn phím
Có thể chèn dấu thời gian tương tác vào bản chép lời để nhảy ngay tới thời điểm cụ thể, và nội dung làm việc được tự động lưu mỗi giây vào bộ nhớ trình duyệt
Tệp âm thanh và bản chép lời được xử lý theo cách riêng tư, không rời khỏi máy tính của bạn, và có thể xuất sang Markdown·văn bản thuần·Google Docs
Hỗ trợ âm thanh mp3/ogg/webm/wav và video mp4/ogg/webm, nhưng luồng sử dụng được thiết kế với giả định dùng trên máy tính để bàn

Quy trình chép lời trọn vẹn trên một màn hình

oTranscribe là ứng dụng web miễn phí dành cho việc chép lời phỏng vấn đã ghi âm
Chỉ có thể sử dụng trên máy tính để bàn
Để tránh phải qua lại giữa QuickTime và Word, việc nhập bản chép lời và phát media được xử lý trên cùng một màn hình
Có thể điều khiển phát lại và định dạng bằng phím tắt
- ESC để phát/tạm dừng
- Dùng bàn phím để tạm dừng, tua lại, tua nhanh, điều chỉnh tốc độ
- Ctrl+J để chèn dấu thời gian hiện tại
- Ctrl+I để in nghiêng, Ctrl+B để in đậm
Nhấn vào dấu thời gian tương tác trong bản chép lời để chuyển tới thời điểm tương ứng

Xử lý tệp, lưu và xuất

Tệp âm thanh và bản chép lời được xử lý theo cách riêng tư, không rời khỏi máy tính của bạn
Nội dung công việc được tự động lưu mỗi giây vào bộ nhớ trình duyệt
Lịch sử chép lời được lưu thành bản sao mỗi 5 phút, và giữ tối đa 100 bản sao lưu
Có thể lưu thủ công bất cứ lúc nào bằng Ctrl+S
Định dạng hỗ trợ
- Âm thanh: mp3, ogg, webm, wav
- Video: mp4, ogg, webm
- Tệp video có thể phát trong trình phát tích hợp
- Có tính năng nhập URL video YouTube
Xuất
- Markdown .md
- Văn bản thuần .txt
- Định dạng oTranscribe
- Google Docs
- oTranscribe là dự án mã nguồn mở theo giấy phép MIT
- Có thể xem trợ giúp tại Help

3 bình luận

xguru 2024-08-11

Hửm? Mình còn tự hỏi sao lại làm được trên trình duyệt... hóa ra đây chỉ là công cụ nghe rồi chép lại thủ công, không dùng AI. Dạo này ngay cả nhận diện tiếng Hàn bằng Whisper cũng khá tốt rồi, nên cũng chẳng rõ có lý do gì nhất thiết phải dùng kiểu này..

znjadong 2024-08-14

Trong những trường hợp có nhiều người nói, phát âm không rõ hoặc chất lượng bản ghi kém, có thể sẽ khó nhận được nhiều trợ giúp từ AI. Và cũng thường có những lúc cần chất lượng vượt xa mức chỉ là hoạt động "đủ tốt".

GN⁺ 2024-08-10

Ý kiến trên Hacker News

Tuần này tôi cần phiên âm có tách người nói cho một cuộc phỏng vấn nhiều người tham gia nên đã thử https://github.com/MahmoudAshraf97/whisper-diarization và nó hoạt động rất tốt
Nó tạo ra cả tệp gắn số người nói cho từng lượt phát biểu liền mạch, lẫn tệp có kèm dấu thời gian có vẻ dùng làm phụ đề được
- Tôi đã dùng Spectropic [1], một API tách người nói cho Whisper dạng dịch vụ lưu trữ, như một nền tảng và có kết quả tốt
  Nó rẻ hơn, dễ hơn và nhanh hơn nhiều so với việc tự thiết lập whisper-diarization trên M1. Audiogest [2] là một dịch vụ web xây dựng trên Spectropic, nhưng tôi chưa dùng thử
  Tôi không liên quan gì, chỉ là một khách hàng hài lòng, và từng có trao đổi email khá ổn với người có vẻ là nhà phát triển độc lập tạo ra các công cụ này sau khi tôi gửi báo lỗi
  [1] https://spectropic.ai/
  [2] https://audiogest.app/
- Tôi thường dùng Whisper để gắn phụ đề cho phim nước ngoài cũ và ít được biết đến, hoặc các video ngắn tìm thấy trên các kênh Telegram/Twitter ở nước ngoài
  Dùng cùng GPT để dịch thì khá ổn
  Nếu có đủ (V)RAM thì chạy cục bộ cũng được, nhưng thường tôi không dư dả nên thích dùng OpenAI API hơn. Nhiều model dòng Llama vẫn chưa đạt chất lượng GPT-4
  Nếu chỉ cần Whisper và không cần dịch thì chạy cục bộ hoàn toàn khả thi, và cả Whisper chất lượng cao cũng vừa trong 4GB (V)RAM
- Vấn đề của OpenAI Whisper là trên máy chỉ có CPU thì quá chậm
  Whisper.CPP nhanh hơn Whisper rất nhiều, nên tôi mong sẽ có chức năng tách người nói tốt hơn được xây trên đó
- whisper-dia thỉnh thoảng có vài lỗi kỳ lạ chưa xử lý được, nên cá nhân tôi thấy whisperX hợp hơn: https://github.com/m-bain/whisperX
- Thật thú vị khi những bài toán học máy vốn cực kỳ phức tạp và khó khăn theo truyền thống đang dần trở thành hàng hóa phổ thông nhờ AI
  Phiên âm, dịch máy, OCR, nhận diện hình ảnh đều là như vậy
Có thể hơi chưa rõ, nhưng OTranscribe không phải công cụ tự động chuyển giọng nói thành văn bản mà là giao diện hỗ trợ phiên âm thủ công
Vì vậy ở đây không có AI
- Đúng vậy, đây là công cụ được thiết kế để hỗ trợ phiên âm thủ công
Có ứng dụng mã nguồn mở/trả phí/shareware/freeware nào có phiên âm thời gian thực theo từng từ trong lúc ghi âm, chạy hoàn toàn cục bộ, và dùng model cục bộ mã nguồn mở tương đối mới không?
Hiện tôi dùng otter.ai để phiên âm cuộc họp theo thời gian thực. Nó rất hữu ích vì khi đang làm nhiều việc mà bị hỏi bất chợt, tôi có thể lướt vài giây bản chép gần nhất để bắt nhịp ngay, nhưng nó không hoàn hảo, đôi khi độ trễ phiên âm của dịch vụ thời gian thực khá lớn và còn cần kết nối Internet
Trong khi đó, hầu hết ứng dụng dựa trên Whisper và cả mã demo whisper.cpp lần cuối tôi kiểm tra đều yêu cầu đưa toàn bộ bản ghi vào một lượt. Cũng có các lựa chọn khác dựa vào framework đọc chính tả của Apple các kiểu, nhưng hiện tính năng có phần lỗi thời
Tôi muốn biết có ai đang thực sự dùng thứ gì như vậy không
- Vì một nhu cầu khác là tôi nghe không tốt, tôi đã tự xây một giải pháp ưu tiên cục bộ để làm phiên âm thời gian thực theo từng từ hoàn toàn cục bộ
  Đây là công cụ tôi dùng hằng ngày để phiên âm họp, phỏng vấn, v.v. Mọi dữ liệu đều ở lại trên máy của tôi nên tôi không phải lo về quyền riêng tư khi phiên âm các cuộc họp công việc
  Nó nhanh ngang Otter.ai, nhưng trải nghiệm người dùng và tốc độ vẫn rõ ràng còn chỗ để cải thiện. Tuy vậy, nó chỉ chạy trên MacBook dùng Apple silicon
  Nếu quan tâm thì có thể trao đổi qua email (xem hồ sơ HN)
- Tôi đang dùng Transcribro[0] trên Android/GrapheneOS
  Đây là phần mềm tự do mã nguồn mở và chạy hoàn toàn cục bộ. Nó không phải thời gian thực theo từng từ, nhưng cũng không cần đợi tải xong toàn bộ âm thanh mới bắt đầu xử lý. Tôi dùng trên Pixel 5a nên phần cứng cũng không quá ghê gớm
  Nó hoạt động đủ tốt để tôi còn dùng gửi tin nhắn đến máy Linux qua Telegram khi lười gõ. Hơi là một mẹo chắp vá, nhưng giải quyết được việc
  Tôi đã tốn vài giờ tìm lựa chọn thay thế native trên Linux hoặc thử chạy bằng Waydroid mà không thấy thứ gì tốt ngang vậy, nên tôi quyết định không để “độ mượt” trở thành kẻ thù của “đủ dùng”
  [0] https://github.com/soupslurpr/Transcribro
- Điện thoại Google Pixel có tính năng này và hoạt động rất tốt
- Tôi đã góp phần viết mã cho oTranscribe+ [0], nó làm việc khá giống với thứ bạn đang hỏi
  Đây là ứng dụng desktop dùng ElectronJS và phiên bản oTranscribe thời điểm đó, ngoài ra còn có bản web và PWA [1]
  Khi đó model ngôn ngữ dùng model của BSC (Barcelona Supercomputing Center), còn phần phiên âm được thực hiện trong WASM dựa trên Vosk [2]
  [0] https://github.com/projecte-aina/oTranscribe-plus
  [1] https://otranscribe.bsc.es/
  [2] https://github.com/alphacep/vosk-api
- Có thể. Ứng dụng TestFlight của WhisperKit hỗ trợ cả ba thứ trên Apple Silicon: https://www.takeargmax.com/blog/whisperkit
  Sẽ càng tốt nếu có cả tách người nói, nhưng tôi đang chờ nó được thêm vào Whisper upstream: https://github.com/argmaxinc/WhisperKit/issues/31
Việc không có tích hợp AI hơi bất ngờ
Nếu muốn có kết quả đạt chất lượng xuất bản thì ngay cả kết quả từ AI vẫn cần hiệu đính và kiểm tra chất lượng. Cần đánh dấu ai nói khi nào, hoặc ít nhất là làm nhận diện người nói mà Whisper không làm được, hay sửa những họ hiếm, v.v.
Vì vậy ngay cả với người dùng AI cũng vẫn cần một công cụ tốt để chỉnh sửa/hoàn thiện/hiệu đính, và có lẽ nó sẽ khá giống với công cụ chép lời không hỗ trợ
- Công cụ này do Elliot Bentley tạo ra từ rất lâu trước đây; ông từng là phóng viên WSJ Graphics và hiện làm ở Datawrapper
  Giờ nó được Muckrock vận hành và đã không có thay đổi nào trong một thời gian dài
  Đó là lý do không có những tích hợp như vậy. Khi đó bản thân công nghệ ấy còn chưa tồn tại
Theo FAQ, với câu hỏi “oTranscribe có tự động chuyển âm thanh thành văn bản không?”, câu trả lời là “Không”
oTranscribe giúp việc chép lời âm thanh thủ công bớt khổ sở hơn rất nhiều, nhưng phần chép lời thì vẫn phải tự làm
Hiện tôi đang dùng ứng dụng iOS miễn phí của Aiko, ứng dụng này chép lời ngoại tuyến bằng mô hình Whisper của OpenAI
Đến giờ nó hoạt động khá tốt và có thể xuất ra các định dạng như SRT, TXT, CSV, JSON và văn bản có gắn dấu thời gian
https://sindresorhus.com/aiko
Nếu cần bản chép lời của tệp âm thanh/video, bạn cũng luôn có thể thử dịch vụ TurboScribe của tôi tại https://turboscribe.ai/
Miễn phí 100% cho tối đa 3 tệp mỗi ngày, giới hạn 30 phút mỗi tệp; gói trả phí thì không giới hạn và chép lời tối đa 10 giờ cho mỗi tệp
Cũng hỗ trợ nhận diện người nói, các định dạng xuất phổ biến (TXT, DOCX, PDF, SRT, CSV) và các công cụ AI để xử lý bản chép lời
- Tôi đã có kết quả tốt với gói trả phí của TurboScribe và thích việc nó được cung cấp như một dịch vụ
  Tôi thường dùng nó cho các bản ghi video dài 2–3 giờ có nhiều người nói, và công cụ chỉnh sửa để dọn dẹp trước khi xuất rất hữu ích
- Trông hay đấy. Tôi muốn biết liệu có API hay có kế hoạch công khai API không
Tôi tò mò không biết có thể chép lời tốt đến mức nào với Gemini-1.5-Pro-Experiment-0801, có thể là LLM đa phương thức tốt nhất hiện nay, nên đã thử cho nó chép 5 phút của cuộc phỏng vấn giữa Ezra Klein và Nancy Pelosi được đăng hôm nay
Kết quả ở đây: https://www.gally.net/temp/20240809geminitranscription/index...
Ngoại trừ vài vấn đề nhỏ về dấu câu và viết hoa, bản chép lời của Gemini có vẻ gần như hoàn hảo. Chỉ có một hai từ nghe có vẻ bị nhận sai, và nếu tự tôi chép thì có lẽ còn sai nhiều hơn
Đoạn “And then he comes up with "weird," which becomes viral and the rest, and here he is.” đặc biệt gây chú ý
Gemini đã làm thế nào để đặt dấu ngoặc kép quanh “weird”, qua đó chỉ ra chính xác rằng người nói đang nhắc tới bản thân từ mà Walz đã dùng? Theo Politico, lần đầu Walz dùng từ đó trên truyền thông trong ngữ cảnh này là ngày 23 tháng 7
https://www.politico.com/news/2024/07/26/trump-vance-weird-0...
- Kết quả ấn tượng với cả dấu ngoặc kép được xử lý đúng có lẽ đến từ hai yếu tố: tín hiệu thính giác và việc câu đó sẽ trở nên kỳ quặc về mặt ngữ pháp, cũng như không đúng nghĩa, nếu không có dấu ngoặc kép
  Chỉ là phỏng đoán thôi, nhưng LLM hay các hệ thống nhận dạng giọng nói khác rất có thể phải tận dụng ngữ cảnh câu để nhận diện từng từ và dấu câu, và đây có vẻ là một ví dụ nó khớp rất tốt
  Cách con người nghe cũng tương tự. Có ngữ cảnh thì dù nói lí nhí hoặc nói nhanh, ta vẫn có thể nhận ra từ
  Rốt cuộc, có lẽ chúng ta nghe theo cụm từ chứ không phải từng từ riêng lẻ
- Có khả năng mô hình đã bắt được tín hiệu ngôn ngữ xung quanh dấu ngoặc kép
  Nếu có tệp âm thanh hoặc video, tôi muốn đưa nó vào trình biên tập video AI của chúng tôi để xem nó chấm câu trong bản chép lời như thế nào
Cũng có một công cụ chép lời dùng Whisper và WASM ngay trong trình duyệt, có thể chép các tệp video/âm thanh và trả về tệp .txt, .srt, .vtt
Sau này có thể còn hỗ trợ Whisper Turbo
https://video2srt.ccextractor.org/
Nhân tiện, tôi đang làm dự án này
Tôi dùng cái này khá nhiều. Nó tốt, đơn giản, và chỉ có đúng những gì cần thiết, tức là điều chỉnh tốc độ phát và tạm dừng/phát lại dễ dàng, không hơn không kém
Tôi thích nó hơn hẳn các công cụ chép lời tự động tạo ra 40 trang toàn những tiếng kiểu ừm, à rồi lại phải lọc và biên tập tiếp
- Không thể đưa bản chép lời vào LLM để nó loại bỏ những ừm, à kiểu đó sao?

oTranscribe: Công cụ chép lời phỏng vấn âm thanh miễn phí mã nguồn mở

Quy trình chép lời trọn vẹn trên một màn hình

Xử lý tệp, lưu và xuất

Định dạng hỗ trợ

Xuất

Bài viết liên quan

3 bình luận

Ý kiến trên Hacker News