8 điểm bởi ysc7064 2023-08-07 | 3 bình luận | Chia sẻ qua WhatsApp

Xin chào
Tôi từng phát triển và vận hành một ứng dụng ghi lại luyện tập có tên Plik,
và hiện là một lập trình viên rất quan tâm đến giao điểm giữa LLM, Multimodal, Langchain, đặc biệt là LLM agent và video.

Dự án tôi muốn giới thiệu là một công cụ tìm kiếm cho phép tìm kiếm cảnh hoặc đoạn video mong muốn trong các video đã tải lên bằng văn bản hoặc hình ảnh.

Hiện tại phần lớn video vẫn do con người xử lý, nhưng tôi bắt đầu dự án này từ suy nghĩ rằng nếu có một API để xử lý video, liệu AI agent có thể trực tiếp chỉnh sửa hoặc trích xuất video hay không?

Để mọi người có thể dùng thử, tôi đã tải lên một số video YouTube ngẫu nhiên trong Playground.
Tôi sẽ vô cùng cảm kích nếu nhận được phản hồi về trải nghiệm sử dụng.

P.S, nếu bạn muốn tự tải video lên hoặc cần kết quả ở dạng API, xin hãy liên hệ với tôi bất cứ lúc nào.

3 bình luận

 
kuroneko 2023-08-08

Từ xưa đã có một vài chương trình quản lý video gia đình có thể trích xuất nhiều cảnh từ video rồi dùng CNN kiểu truyền thống(?) để phân loại và cho phép tìm kiếm các cảnh đó...

Nhưng cái này có vẻ hoạt động tốt đến mức khác hẳn hoàn toàn so với những phương pháp như vậy.

Tôi thử tìm kiếm vài lần thì có cảm giác khoảng 70~80% kết quả đúng là những cảnh tôi đang tìm. Ví dụ, khi tìm A scene where something explodes thì nó chủ yếu tìm khá chuẩn những cảnh có thứ gì đó lóe sáng trong phim Spider-Man.

Tất nhiên, những cảnh chuyển rất nhanh cũng bị nó nhận là vụ nổ nữa... nhưng dù vậy vẫn quá đỗi kỳ diệu. Khi tôi tải lên một bức ảnh có logo Netflix, thì nó tìm ra tất cả những gì có hiện logo doanh nghiệp, bao gồm cả Netflix.

(Dù vậy, việc chưa hỗ trợ tiếng Hàn vẫn hơi đáng tiếc.)

 
kuroneko 2023-08-08

Tôi nghĩ tính năng này cũng sẽ hoạt động tốt với hình ảnh, và như vậy có lẽ ngày mà mỗi cá nhân có thể dùng AI để tìm kiếm toàn bộ album của mình, bao gồm cả video, cũng không còn xa nữa.

Hoặc khi biên tập livestream hay những video rất dài, có thể không cần xem hết toàn bộ video mà vẫn dùng AI để tìm ra highlight hoặc đúng phần cần thiết rồi lấy ra...

Nếu nghĩ ở góc độ doanh nghiệp, có lẽ YouTube cũng có thể được tích hợp tính năng tìm kiếm bằng ngôn ngữ tự nhiên + cảnh quay.

Dù sao thì cũng cảm ơn bạn đã công bố một dự án rất tuyệt vời.
Có vẻ hơi khác một chút so với định hướng bạn đang phát triển lúc này, nhưng tôi hy vọng một ngày nào đó kiểu dự án như vậy sẽ được mã nguồn mở để có thể self-host.

 
ysc7064 2023-08-08

Xin chào kuroneko, cảm ơn bạn đã dành thời gian trải nghiệm dự án một cách đầy hứng thú.

  1. 'Ngày mà mỗi cá nhân có thể dùng AI để tìm kiếm toàn bộ album của mình, bao gồm cả video'
    -> Nghe câu này là tôi lập tức nghĩ đến cảnh mình phải lục từng album để tìm ảnh...

  2. 'Chỉnh sửa những video rất dài, dùng AI để tìm và lấy ra các đoạn nổi bật hoặc phần cần thiết'
    -> Đúng vậy. Tôi quan tâm đến việc dùng AI để giảm chi phí biên của quá trình sản xuất video.

Một lần nữa, xin chân thành cảm ơn bạn đã gửi phản hồi sử dụng chi tiết như vậy.
Tôi sẽ đọc kỹ, chắt lọc những phần có thể mang lại cảm hứng cho dự án và tiếp tục áp dụng chúng.