- Chuyển bộ hướng dẫn lắp ráp trực quan của Lego gồm các hình ảnh 2D thành dạng mà máy có thể diễn giải
- Xem đây là một tác vụ dự đoán (prediction) tuần tự, trong đó mô hình đọc hướng dẫn theo từng bước, tìm linh kiện sẽ được thêm vào hình dạng hiện tại, rồi suy luận dạng 3D
- Cần giải quyết bài toán khớp nối 2D-3D giữa ảnh 2D trong hướng dẫn và vật thể 3D thực tế, cũng như nhiệm vụ suy luận hình dạng của các vật thể 3D chưa từng thấy (Unseen)
- Đề xuất MEPNet (Manual-to-Executable-Plan Network), một framework dựa trên học máy để giải quyết vấn đề này
- Ý tưởng cốt lõi là mô-đun phát hiện keypoint 2D, thuật toán chiếu 2D-3D để dự đoán có độ chính xác cao, và khả năng tổng quát hóa (Generalization) mạnh với các linh kiện Unseen
1 bình luận
Làm tôi nhớ đến một startup tên là brickit, nơi bạn chỉ cần chụp ảnh đống LEGO thì AI sẽ phân loại các mảnh và gợi ý những mẫu LEGO có thể lắp được.