1 điểm bởi cree1116 4 giờ trước | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

OQBoost là một thư viện Gradient Boosting Decision Tree (GBDT) dựa trên 2D Oblique Split.

Các thư viện GBDT tiêu biểu hiện nay như XGBoost, LightGBM, CatBoost phần lớn sử dụng phép chia theo trục (axis-aligned). Vì chỉ dùng một feature để chia nên chúng rất nhanh và hiệu quả, nhưng để biểu diễn ranh giới quyết định dạng đường chéo hoặc tương tác giữa hai biến thì cần kết hợp nhiều cây.

Để giải quyết hạn chế này, OQBoost sử dụng 2D Oblique Split, vốn dùng đồng thời hai feature, làm đơn vị chia cơ bản. Bằng cách thực hiện phép chia xiên trực tiếp tại một node, thư viện được thiết kế nhằm cung cấp khả năng biểu diễn phong phú hơn trong khi vẫn duy trì tốc độ huấn luyện thực dụng.

Để làm được điều đó, OQBoost kết hợp thuật toán tìm hướng tốc độ cao dựa trên Grid Label Accumulation với Hessian-weighted Regression, qua đó giảm đáng kể chi phí tính toán cao của Oblique Tree truyền thống. Ngoài ra, thông qua nhiều tối ưu hóa như Lazy Binning, Fast Search, Cache, Precomputation, OQBoost đạt được tốc độ huấn luyện ở mức có thể dùng như một thư viện thực tế.

Hiện OQBoost cung cấp các tính năng sau.

  • Binary Classification
  • Multiclass Classification (Joint Training)
  • Regression
  • Native Missing Value Handling
  • Native Categorical Feature Support
  • SHAP-style Built-in Explanation
  • Kernel SHAP Compatibility
  • Multi-thread Training
  • Scikit-learn Compatible API

Kết quả thử nghiệm cho thấy OQBoost đạt hiệu năng có thể cạnh tranh với các thư viện GBDT hiện có trên nhiều bộ dữ liệu công khai.

  • Binary Classification: xếp hạng AUC trung bình vị trí 1
  • Regression: xếp hạng R² trung bình vị trí 1
  • Multiclass Classification: hiệu năng ở mức tương tự LightGBM, XGBoost

Mục tiêu của OQBoost không chỉ là tái triển khai GBDT hiện có, mà là cung cấp một engine Gradient Boosting mới cho phép sử dụng Oblique Split với chi phí thực dụng.

Chưa có bình luận nào.

Chưa có bình luận nào.