Tóm tắt hệ thống thị giác máy tính để nhận diện cầu thủ bóng rổ
(blog.roboflow.com)🏀 Tóm tắt hệ thống thị giác máy tính để nhận diện cầu thủ bóng rổ
Bài viết blog này mô tả chi tiết quá trình xây dựng một hệ thống phức tạp dùng công nghệ thị giác máy tính để phát hiện, theo dõi và nhận diện cầu thủ trong video thi đấu bóng rổ. Hệ thống này kết hợp nhiều mô hình AI hiện đại thành một pipeline để giải quyết các bài toán khó như chuyển động nhanh của cầu thủ, hiện tượng che khuất (occlusion) do va chạm cơ thể, đồng phục giống nhau và chuyển động của camera.
Các công nghệ chính và pipeline
Hệ thống này nhận diện cầu thủ thông qua nhiều bước xử lý tinh vi.
-
Phát hiện đối tượng (Object Detection):
- Sử dụng mô hình RF-DETR để xác định chính xác vị trí của các đối tượng chính trong video như cầu thủ, số áo, bóng rổ và vành rổ.
-
Theo dõi cầu thủ (Player Tracking):
- Sử dụng SAM2 (Segment Anything Model 2) để theo dõi cầu thủ ở từng khung hình. Nhờ tính năng bộ nhớ nội tại của SAM2, hệ thống vẫn có thể nhận biết và tiếp tục theo dõi đúng cùng một cầu thủ ngay cả khi người đó tạm thời bị che khuất bởi cầu thủ khác hoặc vật thể khác.
-
Phân biệt đội (Team Clustering):
- Sử dụng phương pháp phân cụm học không giám sát để phân biệt hai đội dựa trên màu sắc đồng phục.
- Dùng SigLIP để chuyển đặc trưng thị giác của từng cầu thủ thành vector embedding.
- Dùng UMAP để giảm dữ liệu embedding nhiều chiều xuống không gian ít chiều hơn.
- Áp dụng thuật toán phân cụm K-means để chia cầu thủ thành hai nhóm (hai đội).
-
Nhận diện cầu thủ (Player Identification):
- Nhận dạng số áo để xác định cầu thủ ở bước cuối.
- Ban đầu, SmolVLM được dùng cho OCR (nhận dạng ký tự quang học), nhưng mô hình ResNet được fine-tune cho phân loại số áo cho thấy độ chính xác cao hơn nên đã được chọn ở phiên bản cuối.
- Sử dụng chỉ số IoS (Intersection over Smaller Area) để bảo đảm số áo được phát hiện được gắn chính xác với đúng mask cầu thủ.
- Để tăng độ tin cậy của hệ thống, chỉ khi cùng một số áo được dự đoán lặp lại nhiều lần thì mới xác nhận đó là số của cầu thủ đó.
Kết luận và mã nguồn
Hệ thống này là một ví dụ thành công cho thấy khả năng giải quyết các bài toán phân tích thể thao thực tế phức tạp bằng cách tích hợp sáng tạo nhiều mô hình thị giác máy tính tiên tiến. Tuy nhiên, do quy trình xử lý phức tạp nên hệ thống chưa thể hoạt động theo thời gian thực.
- Mã nguồn: Có thể xem toàn bộ mã của dự án tại kho GitHub bên dưới.
1 bình luận
Không chèn được liên kết mã nguồn.