Trước đây mình đã đăng một câu hỏi về bài toán đa người nói trong tiếng Hàn! Xin cập nhật tiến độ tiếp theo!

3 điểm bởi somang04 2026-05-28 | 5 bình luận | Chia sẻ qua WhatsApp

Mình cũng không chắc bài này có hợp với ASK GN không nữa..! Nhưng có vẻ không phải tin tức hay Show nên mình đăng vào đây.

Hiện tại mình đang làm thử dựa trên những ý kiến mọi người đã cho trước đó.
Tình cờ là một người bạn phụ trách kinh doanh đang làm cùng mình cũng có ý tưởng tương tự, nên hai đứa không phải dân dev đang vật lộn để làm MVP.
(Claude Code 5X + toàn bộ chi phí API đều đang tự bỏ tiền túi.. còn người bạn phụ trách kinh doanh thì tài trợ rượu với đồ ăn.. haha)

Vì đang xây dựng xoay quanh các nội dung như drama/chương trình giải trí/phim ảnh, nên các mô hình có thể dùng khá bị hạn chế.
Thế là sau một hồi tìm kiếm, hiện mình đang dùng Whisper(Open AI API), Pyannote và Assembly AI.

Pyannote thì đã hết thời gian miễn phí nên phải trả tiền, mà lại là gói thuê bao ($19/month) chứ không tính theo mức sử dụng nên mình bỏ qua,
hiện đang test với Deepgram Nova-3. (Đăng ký thành viên sẽ được $200.)

Nhưng mà... đúng là không dùng pyannote thì tách người nói khá khó, nên mình đang dùng meronym/speaker-diarization trên replicate.com để tách người nói.

Xem kết quả cuối cùng thì ít nhất việc tách người nói cũng ra được tương đối ổn.
Mình dự định sẽ so sánh với Clova, và sẽ chia sẻ cả kết quả so sánh nữa!

Giờ thì những băn khoăn tiếp theo là

Việc tách người nói hiện đang dựa trên audio, nếu thêm tính năng nhận diện khuôn mặt thì có giúp chính xác hơn không?
Metadata cần cho nhận diện khuôn mặt thì nên thu thập như thế nào?
Nếu lấy các nội dung như drama/phim/chương trình giải trí làm nền tảng, thì nên lấy metadata ở đâu? (Naver, Namu Wiki, v.v.)
Việc thu thập metadata có thực sự cải thiện chất lượng tương xứng với chi phí và thời gian bỏ ra không?

Nếu có các anh chị đi trước từng suy nghĩ về hướng này, mình rất mong nhận được nhiều lời khuyên...!!!

5 bình luận

boradi 2026-05-29

Tôi từng làm nghiên cứu liên quan đến phân tách người nói, nên xin chia sẻ trong phạm vi những gì tôi biết.

Vâng, chất lượng sẽ tinh vi hơn. Tuy nhiên về mặt kỹ thuật thì độ khó sẽ khá cao. Vì cần khớp được cả chuyển động khẩu hình lẫn đồng bộ với âm thanh. Có khá nhiều mã nguồn mở liên quan như TalkNet-ASD, 3D-Speaker-Toolkit, nên bạn có thể tham khảo kỹ. Ngoài ra gần đây cũng có những nghiên cứu như SpeakerLM, kết hợp với LLM để cung cấp đồng thời hình ảnh và video làm input, từ đó có thể vừa phân tách người nói vừa tạo phụ đề cùng lúc.
Tôi không nắm rõ bối cảnh kinh doanh của tác giả bài viết, nên nếu chỉ nói dựa trên thông tin được viết ra thì với các nội dung như phim truyền hình, điện ảnh hay chương trình giải trí, khuôn mặt xuất hiện trong nội dung có thể được trích xuất rất khác nhau dù là cùng một người, tùy theo hóa trang hay tình huống. Vì vậy bạn sẽ cần tách toàn bộ khuôn mặt của các nhân vật xuất hiện theo từng nội dung, sau đó clustering theo từng khuôn mặt để khớp 1:1 với dàn diễn viên của nội dung đó. Việc này cũng có thể làm bằng mô hình đa phương thức, nhưng để đảm bảo độ chính xác thì vẫn cần con người gắn nhãn, nên sẽ tốn khá nhiều chi phí và thời gian. Đó cũng là lý do người ta bỏ tiền thuê cộng tác viên. Tham khảo thêm thì ngay cả trong trường hợp chỉ có giọng nói, nếu lấy trước dữ liệu âm thanh này, để con người gắn nhãn rồi embedding, chất lượng phân tách người nói cũng được cải thiện đáng kể.
Cơ sở dữ liệu cho kiểu nội dung này có khá nhiều API liên quan như tmdb, imdb, kmdb, nên dù miễn phí hay trả phí thì về cơ bản ai cũng có thể lấy được ở mức độ nhất định. Còn việc biến chúng thành DB thì bạn sẽ cần tự làm. Nếu phù hợp thì crawling cũng là một cách.
Tôi không rõ bạn đang định làm gì, nhưng những điều tôi nói ở trên thì nghe có vẻ dễ, còn trong thực tế để nâng cao độ chính xác lại là những công việc đòi hỏi rất nhiều thời gian và chi phí. Những nghiên cứu tôi từng làm cũng đã kéo dài khá lâu vì nhiều lý do. Tạo ra độ chính xác 80~90% thì dễ, nhưng đó là việc ai cũng có thể làm. Vì vậy lấp đầy phần chi tiết của 10% còn lại mới chính là bản chất của thương mại hóa và là giá trị cốt lõi. Nếu hỏi "chất lượng có tốt hơn không" thì tất nhiên là có. Nhưng nếu hỏi "có tốt hơn xét theo chi phí và thời gian bỏ ra hay không" thì tôi không chắc. Như tôi đã nói, mức cải thiện chỉ khoảng 10% thôi.

Dù sao thì việc những người không phải dân phát triển mà vẫn dám thử thách như thế này là điều rất đáng nể và rất tuyệt. Hy vọng mọi chuyện sẽ tiến triển tốt.

somang04 2026-05-29

Cảm ơn!! Đúng là tự động hóa vẫn có giới hạn, còn việc gắn thẻ và mapping thì đúng là phải tốn công sức của con người..

Chắc tôi phải tìm thêm nô lệ số 1 nữa thôi.. Thật sự đã được giúp đỡ rất nhiều!!

Cảm ơn!!

hmmhmmhm 2026-05-29

Diarization thì khá ổn, nhưng vẫn có vài điểm còn tiếc nên nếu muốn đào sâu hơn trong số các mô hình đang được công khai, có vẻ như sẽ phải chuyển hẳn sang mảng nghiên cứu như bình luận bên dưới nói.

somang04 2026-05-29

Tôi đang mù mờ lao đầu vào làm đây.. haha đúng là vì không biết nên cứ thế làm thôi.
Như người bên dưới đã nói, vẫn phải tốn công người làm tay, nên tôi đang tìm tuyển nô lệ số 1 đây.. haha

hmmhmmhm 2026-05-29

Ôi... thật tuyệt khi bạn dám thử thách... tôi cũng được tiếp thêm năng lượng theo!! Cố lên!!!

Trước đây mình đã đăng một câu hỏi về bài toán đa người nói trong tiếng Hàn! Xin cập nhật tiến độ tiếp theo!

Bài viết liên quan

5 bình luận