Tình hình Machine Learning cạnh tranh năm 2022

xguru · 2023-03-22T11:05:02+09:00

Highlights Công cụ đã hội tụ về Python, PyData, Pytorch và Gradient-boosted Decision Tree (GBDT) Deep learning vẫn chưa thể thay thế GBDT trên dữ liệu dạng bảng Transformer đang dẫn dắt NLP và bắt đầu cạnh tranh với Convolutional Neural Network (CNN) trong thị giác máy tính Các cuộc thi bao phủ nhiều lĩnh vực nghiên cứu đa dạng gồm thị giác máy tính, NLP, dữ liệu dạng bảng, robot học và phân tích chuỗi thời gian Giải pháp dùng mô hình đơn lẻ đôi khi vẫn giành chiến thắng, nhưng ensemble quy mô lớn nhìn chung thường thắng Có nhiều nền tảng tổ chức thi machine learning cạnh tranh, và cũng có hàng chục website được tạo riêng cho từng cuộc thi Machine learning cạnh tranh vẫn tiếp tục ngày càng phổ biến, bao gồm cả trong giới học thuật 50% người chiến thắng là cá nhân thi solo, và 50% người chiến thắng là người lần đầu vô địch. 30% đã từng vô địch từ hai lần trở lên Một số thí sinh có thể đầu tư đáng kể vào phần cứng để huấn luyện lời giải của mình, nhưng những người dùng phần cứng miễn phí như Google Colab vẫn có thể chiến thắng Competitive ML Landscape Các cuộc thi và xu hướng đáng chú ý Xét về tiền thưởng, nổi bật là Snowcast Showdown của DrivenData (được Bộ Phát triển Lãnh thổ Hoa Kỳ tài trợ). Giải thưởng $500k Phổ biến nhất là American Express Default Prediction của Kaggle. Hơn 4000 đội tham gia. Giải thưởng $100k. Hạng nhất là một thí sinh solo lần đầu tham gia (neural net + LightGBM) Cuộc thi độc lập lớn nhất là AI Audit Challenge của Stanford Lĩnh vực lớn nhất là thị giác máy tính: môi trường, y học Lĩnh vực lớn thứ hai là NLP: NLP + tìm kiếm, NLP + Reinforcement Learning Lĩnh vực Sequential Decision-Making cũng đang tăng trưởng Nền tảng Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,.. Các nền tảng thú vị khác: Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,.. Mục đích Các cuộc thi được vận hành tốt sẽ Cung cấp những bài toán thú vị đáng để giải cùng với dữ liệu huấn luyện Tập hợp một nhóm người tham gia tiềm năng có năng lực Có cơ chế gây bất lợi cho những người tham gia bị overfitting Có đủ động lực khuyến khích (về tài chính) để người tham gia bỏ công sức thực chất vào việc giải bài toán Có phần đánh giá công khai về lời giải chiến thắng (sau khi cuộc thi kết thúc) Winning Solutions Bộ công cụ chiến thắng: Python, đứng thứ hai là C++ Các gói Python được dùng chủ yếu PyData: Numpy, Pandas, SciPy, Scikit Learn Deep Learning: PyTorch GBDT: LightGBM, XGBoost, CatBoost Hyperparameter Optimisation: Optuna Experiment Tracking: W&B Visualization: matplotlib, seaborn NLP Toolkit: Transformers Computer Vision Toolkit: Albumentations, OpenCV, pillow, scikit-image, timm

(mlcontests.com)

21 điểm bởi xguru 2023-03-22 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Highlights

Công cụ đã hội tụ về Python, PyData, Pytorch và Gradient-boosted Decision Tree (GBDT)
Deep learning vẫn chưa thể thay thế GBDT trên dữ liệu dạng bảng
Transformer đang dẫn dắt NLP và bắt đầu cạnh tranh với Convolutional Neural Network (CNN) trong thị giác máy tính
Các cuộc thi bao phủ nhiều lĩnh vực nghiên cứu đa dạng gồm thị giác máy tính, NLP, dữ liệu dạng bảng, robot học và phân tích chuỗi thời gian
Giải pháp dùng mô hình đơn lẻ đôi khi vẫn giành chiến thắng, nhưng ensemble quy mô lớn nhìn chung thường thắng
Có nhiều nền tảng tổ chức thi machine learning cạnh tranh, và cũng có hàng chục website được tạo riêng cho từng cuộc thi
Machine learning cạnh tranh vẫn tiếp tục ngày càng phổ biến, bao gồm cả trong giới học thuật
50% người chiến thắng là cá nhân thi solo, và 50% người chiến thắng là người lần đầu vô địch. 30% đã từng vô địch từ hai lần trở lên
Một số thí sinh có thể đầu tư đáng kể vào phần cứng để huấn luyện lời giải của mình, nhưng những người dùng phần cứng miễn phí như Google Colab vẫn có thể chiến thắng

Competitive ML Landscape

Các cuộc thi và xu hướng đáng chú ý
- Xét về tiền thưởng, nổi bật là Snowcast Showdown của DrivenData (được Bộ Phát triển Lãnh thổ Hoa Kỳ tài trợ). Giải thưởng $500k
- Phổ biến nhất là American Express Default Prediction của Kaggle. Hơn 4000 đội tham gia. Giải thưởng $100k. Hạng nhất là một thí sinh solo lần đầu tham gia (neural net + LightGBM)
- Cuộc thi độc lập lớn nhất là AI Audit Challenge của Stanford
- Lĩnh vực lớn nhất là thị giác máy tính: môi trường, y học
- Lĩnh vực lớn thứ hai là NLP: NLP + tìm kiếm, NLP + Reinforcement Learning
- Lĩnh vực Sequential Decision-Making cũng đang tăng trưởng
Nền tảng
- Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,..
- Các nền tảng thú vị khác: Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,..
Mục đích
- Các cuộc thi được vận hành tốt sẽ
  - Cung cấp những bài toán thú vị đáng để giải cùng với dữ liệu huấn luyện
  - Tập hợp một nhóm người tham gia tiềm năng có năng lực
  - Có cơ chế gây bất lợi cho những người tham gia bị overfitting
  - Có đủ động lực khuyến khích (về tài chính) để người tham gia bỏ công sức thực chất vào việc giải bài toán
  - Có phần đánh giá công khai về lời giải chiến thắng (sau khi cuộc thi kết thúc)

Winning Solutions

Bộ công cụ chiến thắng: Python, đứng thứ hai là C++
Các gói Python được dùng chủ yếu
- PyData: Numpy, Pandas, SciPy, Scikit Learn
- Deep Learning: PyTorch
- GBDT: LightGBM, XGBoost, CatBoost
- Hyperparameter Optimisation: Optuna
- Experiment Tracking: W&B
- Visualization: matplotlib, seaborn
- NLP Toolkit: Transformers
- Computer Vision Toolkit: Albumentations, OpenCV, pillow, scikit-image, timm

Tình hình Machine Learning cạnh tranh năm 2022

Highlights

Competitive ML Landscape

Winning Solutions

Bài viết liên quan

Chưa có bình luận nào.