- Cung cấp cách tiếp cận có cấu trúc để tận dụng thế mạnh của công nghệ mã nguồn mở, giúp tổ chức quản lý và khai thác dữ liệu hiệu quả
- Khả năng mở rộng và tính tái lập được coi trọng, đồng thời hướng dẫn các bước quan trọng để xây dựng quy trình làm việc với dữ liệu
- Hỗ trợ có hệ thống quy trình thiết lập mục tiêu, lựa chọn công cụ, kiểm thử và tùy chỉnh luồng dữ liệu
- Thiết kế linh hoạt và theo mô-đun giúp điều chỉnh theo nhu cầu người dùng
Triết lý thiết kế: cấu trúc lớp
- PO (Nền tảng): vai trò như trang chủ tĩnh giống GitHub
- P1 (Công cụ): các công cụ được vận hành bởi mã nguồn mở
- P2 (Bảo trì và giám sát): quản lý môi trường và tự động hóa (Pixi và GHA)
- P3 (Trừu tượng hóa): lớp CLI/trình quản lý tác vụ cho tương tác người dùng (Pixi)
Quy trình làm việc hiện đang hỗ trợ
- Triển khai các nguyên tắc thiết kế của khung đóng gói Python
- Cấu hình GitHub Actions
- Cấu hình mức PR với Vale.sh
- Thiết lập linting/định dạng mã bằng Pre-commit hooks
- Quản lý môi trường bằng Pixi
- Đọc nguồn dữ liệu trực tuyến bằng Intake
- Xây dựng pipeline mẫu bằng Dagster
- Xây dựng dashboard bằng Holoviews + Panel
- Khám phá dữ liệu trực quan (EDA) bằng Mito
- Xây dựng giao diện web dựa trên Flask
- Mở rộng và tái thiết kế giao diện web bằng FastHTML
- Thực hiện phân tích dữ liệu bằng mô hình AI của GitHub (GitHub AI models Beta)
Chưa có bình luận nào.