Chronon - nền tảng feature ML mã nguồn mở do Airbnb công bố
(github.com/airbnb)- Nền tảng feature end-to-end mã nguồn mở giúp dễ dàng xây dựng, triển khai, quản lý và giám sát các pipeline dữ liệu cho machine learning
- Hiện đang được sử dụng cho tất cả các ứng dụng ML chủ chốt trong Airbnb và các trường hợp sử dụng quan trọng tại Stripe
Tính năng chính
- Có thể thu thập dữ liệu từ nhiều nguồn khác nhau: luồng sự kiện, snapshot bảng DB, luồng dữ liệu thay đổi, endpoint dịch vụ, bảng warehouse, v.v.; có thể mô hình hóa và sử dụng chúng dưới dạng slowly changing dimensions, bảng fact hoặc bảng dimension
- Tạo kết quả trong cả ngữ cảnh online và offline: ở online là các endpoint độ trễ thấp có khả năng mở rộng, còn ở offline là các bảng hive để tạo dữ liệu huấn luyện
- Có thể chọn độ chính xác theo thời gian thực hoặc theo lô:
- Có thể cấu hình kết quả với độ chính xác Temporal hoặc Snapshot
- Temporal nghĩa là cập nhật giá trị feature theo thời gian thực trong ngữ cảnh online và tạo feature phù hợp với một thời điểm cụ thể trong ngữ cảnh offline
- Độ chính xác Snapshot nghĩa là feature được cập nhật một lần mỗi ngày vào lúc nửa đêm
- Có thể backfill tập dữ liệu huấn luyện từ dữ liệu thô: không cần chờ nhiều tháng để tích lũy log feature cho việc huấn luyện mô hình
- Cung cấp API Python mạnh mẽ: trừu tượng hóa ở cấp API cho loại nguồn dữ liệu, độ mới, ngữ cảnh, v.v., đồng thời có thể kết hợp các thành phần SQL trực quan như group-by, join, select với các khả năng mở rộng mạnh mẽ
- Giám sát feature tự động: có thể tự động tạo pipeline giám sát để hiểu chất lượng dữ liệu huấn luyện, đo lường sự không nhất quán giữa training-serving, giám sát feature drift, v.v.
Bối cảnh phát triển
- Chronon được phát triển để giải quyết nỗi đau phổ biến khi các chuyên gia ML phải dành phần lớn thời gian cho việc quản lý dữ liệu nuôi mô hình thay vì tập trung vào chính việc mô hình hóa
Giới hạn của các cách tiếp cận hiện có
-
Cách tiếp cận sao chép offline-online
- Các chuyên gia ML huấn luyện mô hình bằng dữ liệu trong data warehouse, sau đó tìm cách sao chép các feature đó sang môi trường online
- Ưu điểm: có thể tận dụng tối đa data warehouse, bao gồm nguồn dữ liệu và các công cụ mạnh mẽ cho biến đổi dữ liệu quy mô lớn
- Nhược điểm: không có cách rõ ràng để cung cấp feature của mô hình cho suy luận online, dẫn đến sai lệch và rò rỉ nhãn, ảnh hưởng nghiêm trọng đến hiệu năng mô hình
-
Cách tiếp cận ghi log và chờ đợi
- Các chuyên gia ML bắt đầu với dữ liệu có sẵn trong môi trường serving online nơi suy luận mô hình sẽ chạy, rồi ghi log các feature liên quan vào data warehouse
- Khi tích lũy đủ dữ liệu, họ huấn luyện mô hình từ log và phục vụ bằng chính dữ liệu đó
- Ưu điểm: đảm bảo tính nhất quán và khả năng rò rỉ thấp
- Nhược điểm: độ trễ dài khiến khó phản ứng nhanh với hành vi người dùng đang thay đổi
Cách tiếp cận của Chronon
- Chronon cho phép các chuyên gia ML chỉ cần định nghĩa feature một lần để có thể cung cấp cho cả luồng offline phục vụ huấn luyện mô hình và luồng online phục vụ suy luận mô hình
- Ngoài ra còn cung cấp các công cụ mạnh mẽ cho feature chaining, observability, chất lượng dữ liệu, chia sẻ và quản lý feature
- Nhờ đó có thể giữ lại ưu điểm của các cách tiếp cận hiện có đồng thời khắc phục các nhược điểm của chúng
Chưa có bình luận nào.