7 điểm bởi milkclouds00 2026-02-20 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Đây là ocap (Omnimodal CAPture), một trình ghi mã nguồn mở được tạo ra để thu thập dữ liệu desktop phục vụ huấn luyện AI agent, nhưng cũng có thể dùng cho mục đích tổng quát.

Các công cụ ghi hình hiện có như OBS thường chỉ lưu video hoặc không thể lưu đồng bộ nhiều loại dữ liệu khác nhau. Đối với huấn luyện AI, cần dữ liệu đã được đồng bộ đến mức "người dùng đã nhấn phím nào, vào thời điểm nào, di chuyển chuột tới đâu, cửa sổ nào đang được kích hoạt". Công cụ này được tạo ra để giải quyết vấn đề đó.

Tính năng:

  • Ghi đồng bộ video màn hình + âm thanh + sự kiện bàn phím/chuột + sự kiện cửa sổ ở cấp độ nano giây
  • Mã hóa tăng tốc phần cứng (H265/HEVC, NVIDIA GPU)
  • Bắt đầu/kết thúc ghi chỉ với một lệnh: ocap my-recording → Ctrl+C
  • Logic cốt lõi nằm trong một file Python duy nhất (~400 dòng) nên dễ tùy biến
  • Dựa trên GStreamer nên có kiến trúc có thể mở rộng sang Linux/macOS
  • Đầu ra: .mkv (video) + .mcap (nhật ký sự kiện, định dạng MCAP đã được kiểm chứng trong lĩnh vực robotics)

Cài đặt:

conda install open-world-agents::gstreamer-bundle  
pip install ocap  

Hoặc có thể tải file zip từ trang release rồi chạy run.bat.

Ban đầu công cụ này được phát triển cho dự án nghiên cứu D2E (https://worv-ai.github.io/d2e/) nhằm huấn luyện Embodied AI bằng dữ liệu desktop, nhưng vì cũng có thể dùng như một công cụ ghi desktop đa dụng nên đã được tách ra thành một package riêng.

Hiện tại chỉ hỗ trợ môi trường Windows + NVIDIA GPU, còn hỗ trợ AMD/Intel GPU hay hệ điều hành khác thì được thiết kế theo cách chỉ cần thay pipeline GStreamer là có thể triển khai.

GitHub: https://github.com/open-world-agents/ocap
PyPI: https://pypi.org/project/ocap/

Chưa có bình luận nào.

Chưa có bình luận nào.