Giảm 96% chi phí gắn nhãn hình ảnh: đây là một ví dụ kỹ thuật thực chiến về việc hiện thực hóa chức năng cốt lõi bằng cách thay thế lao động lặp lại của con người bằng một pipeline phần mềm, ngay cả trong môi trường thiếu ngân sách và thời gian.
Tóm tắt chính
• Nhận diện vấn đề: không tồn tại mô hình sẵn có phù hợp để tự động nhận diện và đăng ký búp bê nhân vật nổi tiếng, còn việc gắn nhãn thủ công bởi con người có giới hạn rõ ràng về chi phí, tốc độ và khả năng mở rộng.
• Cách tiếp cận: không phải là “có nên bổ sung thêm nhân lực hay không”, mà là phân rã quá trình phán đoán của con người thành hệ thống và biến nó thành một pipeline.
Thiết kế pipeline tự động hóa 4 bước
1. Lọc bằng CLIP – loại bỏ hàng loạt hình ảnh vô nghĩa để giảm chi phí LLM
2. Phát hiện bằng YOLO – chỉ crop đối tượng chính để thu hẹp phạm vi phân tích
3. Gắn nhãn bằng LVM – chỉ đưa VLM hiệu năng cao vào dữ liệu đã được làm sạch
4. Xác minh bằng LVM – xác minh có điều kiện dựa trên độ tin cậy để tiếp tục giảm số lần gọi
Kết quả:
• Chi phí gắn nhãn thủ công khoảng 2,16 triệu won → 90 nghìn won
• Giảm khoảng 95,7% chi phí, thời gian làm việc từ vài ngày → vài giờ
• Giá trị cốt lõi: không chỉ là tiết kiệm một lần mà còn xây dựng được một hệ thống có thể tái sử dụng
Chứng minh rằng có thể vượt qua giới hạn của vốn bằng công nghệ, và phần mềm là công cụ có thể biến vấn đề chi phí thành vấn đề cấu trúc
6 bình luận
Cảm ơn bạn đã chia sẻ nội dung hay.
Ồ, tôi đã đọc rất hay. Anh/chị có nói rằng việc có tiến hành kiểm chứng bổ sung hay không được quyết định dựa trên độ tin cậy, nên tôi cũng tò mò giá trị độ tin cậy này được đo lường như thế nào.
Ngoài ra, xin lưu ý rằng mô hình gpt-4o-mini có chi phí token đầu vào khi nhận ảnh khá đắt, nên tôi khuyên anh/chị cũng hãy cân nhắc các mô hình nhẹ khác!
Tôi thật sự thắc mắc không hiểu vì sao giá của 4o mini lại như vậy, tôi nhớ là bản 4o thường còn rẻ hơn mà haha
Đây là một bài viết giải quyết vấn đề rất tốt bằng VLM, tôi đọc rất thú vị.
Có một điều tôi thắc mắc sau khi đọc bài,
Tôi muốn hỏi là anh/chị đã đưa bước này vào như thế nào.
Khi đọc bài, tôi nghĩ rằng VLM có lẽ sẽ cho hiệu năng tốt hơn YOLO, nên ngược lại nếu crop thì có thể xảy ra vấn đề mô hình YOLO phán đoán sai, làm mất thông tin quan trọng trước cả khi chuyển sang cho VLM xử lý.
Tôi tò mò không biết việc crop được nghĩ ra từ vấn đề nào, và anh/chị đã kiểm chứng độ chính xác rồi đưa nó vào như thế nào.
Cảm ơn bạn đã trả lời.
Tôi cũng đã nghĩ đến vấn đề chi phí, quả nhiên có vẻ chi phí thay đổi rất lớn tùy theo độ phân giải của ảnh đầu vào. Ngoài ra, tôi hoàn toàn chưa nghĩ đến mối quan hệ giữa kích thước ảnh đầu vào và tốc độ xử lý, thật thú vị. Hóa ra khi crop thì tốc độ xử lý cũng nhanh hơn.
Và mức cải thiện độ chính xác thật sự rất đáng ngạc nhiên!
Hiệu năng của VLM đã được cải thiện rất nhiều, nhưng dù vậy thì hiện tại vẫn chưa thể vượt qua hiệu năng của mô hình YOLO được huấn luyện cho một mục đích duy nhất sao?
Cảm ơn bạn đã ghi lại bằng bài viết những kinh nghiệm và bí quyết đúc kết từ tình huống thực tế.
Nếu sau này tôi gặp một vấn đề tương tự, nhất định tôi sẽ tham khảo những phương pháp bạn đã dùng.
Có vẻ không hẳn là giải quyết bằng cách chuyển sang bài toán có cấu trúc, mà là đã tạo ra một mô hình mới thì đúng hơn.