Highlights
- Công cụ đã hội tụ về Python, PyData, Pytorch và Gradient-boosted Decision Tree (GBDT)
- Deep learning vẫn chưa thể thay thế GBDT trên dữ liệu dạng bảng
- Transformer đang dẫn dắt NLP và bắt đầu cạnh tranh với Convolutional Neural Network (CNN) trong thị giác máy tính
- Các cuộc thi bao phủ nhiều lĩnh vực nghiên cứu đa dạng gồm thị giác máy tính, NLP, dữ liệu dạng bảng, robot học và phân tích chuỗi thời gian
- Giải pháp dùng mô hình đơn lẻ đôi khi vẫn giành chiến thắng, nhưng ensemble quy mô lớn nhìn chung thường thắng
- Có nhiều nền tảng tổ chức thi machine learning cạnh tranh, và cũng có hàng chục website được tạo riêng cho từng cuộc thi
- Machine learning cạnh tranh vẫn tiếp tục ngày càng phổ biến, bao gồm cả trong giới học thuật
- 50% người chiến thắng là cá nhân thi solo, và 50% người chiến thắng là người lần đầu vô địch. 30% đã từng vô địch từ hai lần trở lên
- Một số thí sinh có thể đầu tư đáng kể vào phần cứng để huấn luyện lời giải của mình, nhưng những người dùng phần cứng miễn phí như Google Colab vẫn có thể chiến thắng
Competitive ML Landscape
- Các cuộc thi và xu hướng đáng chú ý
- Xét về tiền thưởng, nổi bật là Snowcast Showdown của DrivenData (được Bộ Phát triển Lãnh thổ Hoa Kỳ tài trợ). Giải thưởng $500k
- Phổ biến nhất là American Express Default Prediction của Kaggle. Hơn 4000 đội tham gia. Giải thưởng $100k. Hạng nhất là một thí sinh solo lần đầu tham gia (neural net + LightGBM)
- Cuộc thi độc lập lớn nhất là AI Audit Challenge của Stanford
- Lĩnh vực lớn nhất là thị giác máy tính: môi trường, y học
- Lĩnh vực lớn thứ hai là NLP: NLP + tìm kiếm, NLP + Reinforcement Learning
- Lĩnh vực Sequential Decision-Making cũng đang tăng trưởng
- Nền tảng
- Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,..
- Các nền tảng thú vị khác: Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,..
- Mục đích
- Các cuộc thi được vận hành tốt sẽ
- Cung cấp những bài toán thú vị đáng để giải cùng với dữ liệu huấn luyện
- Tập hợp một nhóm người tham gia tiềm năng có năng lực
- Có cơ chế gây bất lợi cho những người tham gia bị overfitting
- Có đủ động lực khuyến khích (về tài chính) để người tham gia bỏ công sức thực chất vào việc giải bài toán
- Có phần đánh giá công khai về lời giải chiến thắng (sau khi cuộc thi kết thúc)
Winning Solutions
- Bộ công cụ chiến thắng: Python, đứng thứ hai là C++
- Các gói Python được dùng chủ yếu
- PyData: Numpy, Pandas, SciPy, Scikit Learn
- Deep Learning: PyTorch
- GBDT: LightGBM, XGBoost, CatBoost
- Hyperparameter Optimisation: Optuna
- Experiment Tracking: W&B
- Visualization: matplotlib, seaborn
- NLP Toolkit: Transformers
- Computer Vision Toolkit: Albumentations, OpenCV, pillow, scikit-image, timm
Chưa có bình luận nào.