2 điểm bởi GN⁺ 2024-08-10 | 3 bình luận | Chia sẻ qua WhatsApp
  • Là một "web app" miễn phí giúp chép lời các cuộc phỏng vấn đã được ghi âm một cách dễ dàng
  • Các tính năng chính
    • Không cần chuyển qua lại giữa trình phát video và trình soạn thảo tài liệu. Xử lý trực tiếp trong trình duyệt
    • Có thể tạm dừng, tua lại và tua nhanh mà không cần rời tay khỏi bàn phím
    • Có thể dễ dàng điều hướng bản chép lời bằng dấu thời gian tương tác
    • Tự động lưu vào bộ nhớ của trình duyệt mỗi giây
    • Bảo vệ quyền riêng tư - tệp âm thanh và bản chép lời không rời khỏi máy tính
    • Có thể xuất sang Markdown, văn bản thuần và Google Docs
    • Hỗ trợ tệp video thông qua trình phát tích hợp
    • Mã nguồn mở theo giấy phép MIT

Tóm tắt của GN⁺

  • oTranscribe là một web app miễn phí giúp đơn giản hóa quá trình chép lời các bản ghi phỏng vấn
  • Người dùng có thể điều khiển âm thanh mà không cần rời tay khỏi bàn phím, và bản chép lời được tự động lưu mỗi giây
  • Ứng dụng này coi trọng quyền riêng tư, với việc tệp âm thanh và bản chép lời không rời khỏi máy tính
  • Ứng dụng cung cấp tính năng xuất sang Markdown, văn bản thuần và Google Docs để có thể tận dụng bản chép lời ở nhiều định dạng khác nhau
  • Các dự án khác cung cấp tính năng tương tự gồm có Express Scribe và TranscribeMe

3 bình luận

 
xguru 2024-08-11

Hửm? Mình còn tự hỏi sao lại làm được trên trình duyệt... hóa ra đây chỉ là công cụ nghe rồi chép lại thủ công, không dùng AI. Dạo này ngay cả nhận diện tiếng Hàn bằng Whisper cũng khá tốt rồi, nên cũng chẳng rõ có lý do gì nhất thiết phải dùng kiểu này..

 
znjadong 2024-08-14

Trong những trường hợp có nhiều người nói, phát âm không rõ hoặc chất lượng bản ghi kém, có thể sẽ khó nhận được nhiều trợ giúp từ AI. Và cũng thường có những lúc cần chất lượng vượt xa mức chỉ là hoạt động "đủ tốt".

 
GN⁺ 2024-08-10
Ý kiến trên Hacker News
  • Đã dùng Whisper-diarization của MahmoudAshraf97 để chép lại phỏng vấn

    • Tạo tệp phân biệt lời nói của nhiều người bằng số thứ tự người nói
    • Cũng tạo tệp có kèm dấu thời gian nên có thể dùng làm phụ đề
  • OTranscribe không phải là công cụ nhận dạng giọng nói tự động mà là UI hỗ trợ chép lại thủ công

  • Đang tìm một ứng dụng có thể chép lời theo từng từ theo thời gian thực, chạy cục bộ và dùng được các model mã nguồn mở mới nhất

    • Đang dùng otter.ai nhưng cần kết nối Internet và có vấn đề độ trễ khi chép lời
    • Các ứng dụng dựa trên Whisper phải xử lý toàn bộ bản ghi âm trong một lần
    • Framework nhận dạng giọng nói của Apple hiện vẫn còn hơi thiếu tính năng
  • Ngạc nhiên vì không có tích hợp AI

    • Ngay cả kết quả từ AI cũng cần rà soát và QA để đạt chất lượng xuất bản
    • Cần làm các việc như nhận diện người nói, sửa các họ hiếm gặp, v.v.
  • oTranscribe không tự động chuyển âm thanh thành văn bản

    • Đây là công cụ giúp việc chép lại thủ công bớt khổ sở hơn
  • Đề xuất dịch vụ TurboScribe

    • Miễn phí chép tối đa 3 tệp mỗi ngày (mỗi tệp 30 phút)
    • Gói trả phí cho phép chép tối đa 10 giờ cho mỗi tệp
    • Hỗ trợ nhận diện người nói, nhiều định dạng xuất và có kèm công cụ AI
  • Thử nghiệm chép lại phỏng vấn bằng Gemini-1.5-Pro-Experiment-0801

    • Kết quả gần như hoàn hảo
    • Ấn tượng vì một số từ được đặt trong dấu ngoặc kép
  • Đang dùng ứng dụng iOS miễn phí của Aiko

    • Sử dụng model Whisper của OpenAI
    • Có thể xuất ra các định dạng như SRT, TXT, CSV, JSON
  • Đang phát triển một ứng dụng macOS mã nguồn mở dùng Whisper và pyannote

    • Có chức năng nhưng chậm
    • Đang gặp khó khi chuyển Pyannote sang CoreML
    • Hoan nghênh đóng góp
  • Đang phát triển một công cụ có tích hợp AI

    • Tải từ YouTube, chép lời bằng Vosk, phân biệt người nói bằng pyannote
    • Lưu nội dung chép lời vào công cụ tìm kiếm, cần triển khai webapp
    • Mong muốn hợp tác