Nhớ đến Disquiet từng tồn tại một thời... hy vọng dự án này sẽ thành công

 

Diarization thì khá ổn, nhưng vẫn có vài điểm còn tiếc nên nếu muốn đào sâu hơn trong số các mô hình đang được công khai, có vẻ như sẽ phải chuyển hẳn sang mảng nghiên cứu như bình luận bên dưới nói.

 

Thôi được rồi, ăn nhiều lắm rồi đó mà~

 

À, việc trò chuyện với AI thì phải là điều kỳ lạ sao?
Còn trò chuyện với con người thì là điều tích cực à?

 

Bạn cũng có thể tạo bộ sưu tập của riêng mình và công khai cho mọi người xem.

Tôi sẽ suy nghĩ thêm về phần mô tả dịch vụ.

 

Tôi mới biết đến nên đã tìm thử, đúng là một dịch vụ hay.
Có lẽ sẽ là tài liệu tham khảo rất tốt. Xin cảm ơn!

 

Một ý tưởng hay rất có thể đã được ai đó ở nửa bên kia Trái Đất thử làm rồi. Bạn có biết rendercv không?

 

Trước đây tôi đã dùng rất tiện rồi, nhưng sau khi cập nhật xong thì có vẻ còn tốt hơn nữa haha

 

Tôi từng làm nghiên cứu liên quan đến phân tách người nói, nên xin chia sẻ trong phạm vi những gì tôi biết.

  1. Vâng, chất lượng sẽ tinh vi hơn. Tuy nhiên về mặt kỹ thuật thì độ khó sẽ khá cao. Vì cần khớp được cả chuyển động khẩu hình lẫn đồng bộ với âm thanh. Có khá nhiều mã nguồn mở liên quan như TalkNet-ASD, 3D-Speaker-Toolkit, nên bạn có thể tham khảo kỹ. Ngoài ra gần đây cũng có những nghiên cứu như SpeakerLM, kết hợp với LLM để cung cấp đồng thời hình ảnh và video làm input, từ đó có thể vừa phân tách người nói vừa tạo phụ đề cùng lúc.
  2. Tôi không nắm rõ bối cảnh kinh doanh của tác giả bài viết, nên nếu chỉ nói dựa trên thông tin được viết ra thì với các nội dung như phim truyền hình, điện ảnh hay chương trình giải trí, khuôn mặt xuất hiện trong nội dung có thể được trích xuất rất khác nhau dù là cùng một người, tùy theo hóa trang hay tình huống. Vì vậy bạn sẽ cần tách toàn bộ khuôn mặt của các nhân vật xuất hiện theo từng nội dung, sau đó clustering theo từng khuôn mặt để khớp 1:1 với dàn diễn viên của nội dung đó. Việc này cũng có thể làm bằng mô hình đa phương thức, nhưng để đảm bảo độ chính xác thì vẫn cần con người gắn nhãn, nên sẽ tốn khá nhiều chi phí và thời gian. Đó cũng là lý do người ta bỏ tiền thuê cộng tác viên. Tham khảo thêm thì ngay cả trong trường hợp chỉ có giọng nói, nếu lấy trước dữ liệu âm thanh này, để con người gắn nhãn rồi embedding, chất lượng phân tách người nói cũng được cải thiện đáng kể.
  3. Cơ sở dữ liệu cho kiểu nội dung này có khá nhiều API liên quan như tmdb, imdb, kmdb, nên dù miễn phí hay trả phí thì về cơ bản ai cũng có thể lấy được ở mức độ nhất định. Còn việc biến chúng thành DB thì bạn sẽ cần tự làm. Nếu phù hợp thì crawling cũng là một cách.
  4. Tôi không rõ bạn đang định làm gì, nhưng những điều tôi nói ở trên thì nghe có vẻ dễ, còn trong thực tế để nâng cao độ chính xác lại là những công việc đòi hỏi rất nhiều thời gian và chi phí. Những nghiên cứu tôi từng làm cũng đã kéo dài khá lâu vì nhiều lý do. Tạo ra độ chính xác 80~90% thì dễ, nhưng đó là việc ai cũng có thể làm. Vì vậy lấp đầy phần chi tiết của 10% còn lại mới chính là bản chất của thương mại hóa và là giá trị cốt lõi. Nếu hỏi "chất lượng có tốt hơn không" thì tất nhiên là có. Nhưng nếu hỏi "có tốt hơn xét theo chi phí và thời gian bỏ ra hay không" thì tôi không chắc. Như tôi đã nói, mức cải thiện chỉ khoảng 10% thôi.

Dù sao thì việc những người không phải dân phát triển mà vẫn dám thử thách như thế này là điều rất đáng nể và rất tuyệt. Hy vọng mọi chuyện sẽ tiến triển tốt.

 

Tôi mệt rồi, chết tiệt.

 

Ồ! Hay đấy. Chắc tôi phải thử mới được.

 

Việc bạn không cảm thấy điều đó kỳ lạ mới là vấn đề....

 

Ý tưởng thú vị đấy! Tuy nhiên, vì phần mô tả không hiện ra trước khi hover nên cảm giác việc khám phá lại hơi bất tiện hơn một chút.. Nếu thông tin hiển thị ở phía dưới thumbnail thì có lẽ sẽ tốt hơn!

 

Tôi là tác giả bài viết.

Nhờ những phản hồi tốt trong phần bình luận, tôi đã quyết định dừng việc dùng AI để sản xuất hàng loạt các bài viết kiểu công nghiệp.
Đáng ra tôi nên dừng lại ở việc đăng nguyên văn các bài do AI viết lên blog và chỉ xem một cách cá nhân, nhưng vì ham lượt xem mà tôi đã đăng bài lên GeekNews; đó là sai lầm của tôi.

Từ giờ, tôi đã chuyển sang dùng AI không phải để đơn thuần đăng bài, mà là để hỗ trợ khi chính tôi viết bài; và khi những gì tôi học được trong quá trình đó đủ ý nghĩa, tôi sẽ quay lại GeekNews.

Xin chân thành cảm ơn các anh chị đã để lại những bình luận rất hữu ích.
(Tôi cũng đã sửa phần bài viết chính thành do chính tôi viết.)

 

Tôi đã thử vài cái nhưng vẫn chưa có cái nào thực sự vừa ý, nên đang tự làm một cái. Tôi đang tham khảo notepad++, VS Code, Zed, Obsidian và chỉ lấy những tính năng cần thiết để tạo ra nó.

 

Bạn quá khen rồi! Vì đây là kiểu vibe coding để sinh tồn của một người xuất thân từ làm planner, nên đúng là không thể tránh khỏi con mắt sắc bén của các thành viên GeekNews.

Như bạn nói, việc chia sẻ mã nguồn và nhận phản hồi có lẽ là con đường để trưởng thành thêm một bước với tư cách một maker. Tôi sẽ chỉnh chuốt thêm một chút phần mã và cấu trúc nội bộ rồi sớm mạnh dạn mở luôn Github Repo. Cảm ơn bạn!

 

Trên macOS, nếu muốn nhập tiếng Hàn trong terminal thì chẳng phải phải nhấn Enter hai lần sao? (sau khi hoàn tất tổ hợp chữ Hàn thì phải nhấn 2 lần mới nhập được)
Chỉ có mỗi wezterm là không bị vấn đề này nên tôi đã chuyển sang dùng nó.

 

Tôi thấy nó có vẻ ổn hơn openclaw ở khoản tích hợp sẵn llm wiki nên cũng đang nghĩ hay thử dùng một lần, nhưng có lý do nào khiến bạn nhìn nhận nó theo hướng tiêu cực không?

 

Ý tưởng hay đấy. Làm như vậy thì có lẽ cũng có thể đưa cả biểu đồ hoặc một số hình minh họa vào nữa. Cảm ơn bạn về ý tưởng này!

 

Có vẻ là muốn có nhiều bình luận hơn nhỉ. Khả năng khơi gợi đối thoại khá tốt đấy. Trước hết, ở đây mọi người sẽ thích hơn nếu bạn đăng repo lên github.com. Dev nói vậy.