Mình cũng không chắc bài này có hợp với ASK GN không nữa..! Nhưng có vẻ không phải tin tức hay Show nên mình đăng vào đây.
Hiện tại mình đang làm thử dựa trên những ý kiến mọi người đã cho trước đó.
Tình cờ là một người bạn phụ trách kinh doanh đang làm cùng mình cũng có ý tưởng tương tự, nên hai đứa không phải dân dev đang vật lộn để làm MVP.
(Claude Code 5X + toàn bộ chi phí API đều đang tự bỏ tiền túi.. còn người bạn phụ trách kinh doanh thì tài trợ rượu với đồ ăn.. haha)
Vì đang xây dựng xoay quanh các nội dung như drama/chương trình giải trí/phim ảnh, nên các mô hình có thể dùng khá bị hạn chế.
Thế là sau một hồi tìm kiếm, hiện mình đang dùng Whisper(Open AI API), Pyannote và Assembly AI.
Pyannote thì đã hết thời gian miễn phí nên phải trả tiền, mà lại là gói thuê bao ($19/month) chứ không tính theo mức sử dụng nên mình bỏ qua,
hiện đang test với Deepgram Nova-3. (Đăng ký thành viên sẽ được $200.)
Nhưng mà... đúng là không dùng pyannote thì tách người nói khá khó, nên mình đang dùng meronym/speaker-diarization trên replicate.com để tách người nói.
Xem kết quả cuối cùng thì ít nhất việc tách người nói cũng ra được tương đối ổn.
Mình dự định sẽ so sánh với Clova, và sẽ chia sẻ cả kết quả so sánh nữa!
Giờ thì những băn khoăn tiếp theo là
- Việc tách người nói hiện đang dựa trên audio, nếu thêm tính năng nhận diện khuôn mặt thì có giúp chính xác hơn không?
- Metadata cần cho nhận diện khuôn mặt thì nên thu thập như thế nào?
- Nếu lấy các nội dung như drama/phim/chương trình giải trí làm nền tảng, thì nên lấy metadata ở đâu? (Naver, Namu Wiki, v.v.)
- Việc thu thập metadata có thực sự cải thiện chất lượng tương xứng với chi phí và thời gian bỏ ra không?
Nếu có các anh chị đi trước từng suy nghĩ về hướng này, mình rất mong nhận được nhiều lời khuyên...!!!
Chưa có bình luận nào.