Koheesio - framework mã nguồn mở của Nike để xây dựng pipeline dữ liệu

xguru · 2024-06-05T09:37:10+09:00

Framework Python để xây dựng các pipeline dữ liệu hiệu quả Thúc đẩy tính mô-đun và cộng tác, cho phép tạo các pipeline phức tạp bằng những thành phần đơn giản và có thể tái sử dụng Được thiết kế để hoạt động trơn tru với nhiều thư viện hoặc framework xử lý dữ liệu Sử dụng Pydantic để cung cấp kiểm tra kiểu mạnh mẽ, xác thực dữ liệu và quản lý cấu hình Đảm bảo việc thực thi pipeline có thể dự đoán được nhờ mã đã được kiểm thử kỹ lưỡng và bộ tính năng phong phú Điểm khác biệt của Koheesio so với các thư viện khác Được thiết kế chuyên biệt cho pipeline dữ liệu, tích hợp PySpark, chuyển đổi dữ liệu, tác vụ ETL, xác thực dữ liệu và xử lý dữ liệu quy mô lớn Cung cấp các chức năng Reader, Writer và Transformation cho mọi loại tác vụ xử lý dữ liệu Khuyến khích cộng tác và đổi mới trong cộng đồng kỹ thuật dữ liệu Các thành phần cốt lõi của Koheesio Step: đơn vị công việc cơ bản của Koheesio, đại diện cho một tác vụ đơn lẻ trong pipeline dữ liệu; nhận đầu vào và tạo đầu ra Context: lớp cấu hình thiết lập môi trường cho tác vụ; có thể chia sẻ biến giữa các tác vụ và điều chỉnh hành vi của tác vụ theo môi trường Logger: lớp ghi lại thông điệp ở nhiều mức độ khác nhau

(github.com/Nike-Inc)

9 điểm bởi xguru 2024-06-05 | 1 bình luận | Chia sẻ qua WhatsApp

Framework Python để xây dựng các pipeline dữ liệu hiệu quả
Thúc đẩy tính mô-đun và cộng tác, cho phép tạo các pipeline phức tạp bằng những thành phần đơn giản và có thể tái sử dụng
Được thiết kế để hoạt động trơn tru với nhiều thư viện hoặc framework xử lý dữ liệu
Sử dụng Pydantic để cung cấp kiểm tra kiểu mạnh mẽ, xác thực dữ liệu và quản lý cấu hình
Đảm bảo việc thực thi pipeline có thể dự đoán được nhờ mã đã được kiểm thử kỹ lưỡng và bộ tính năng phong phú

Điểm khác biệt của Koheesio so với các thư viện khác

Được thiết kế chuyên biệt cho pipeline dữ liệu, tích hợp PySpark, chuyển đổi dữ liệu, tác vụ ETL, xác thực dữ liệu và xử lý dữ liệu quy mô lớn
Cung cấp các chức năng Reader, Writer và Transformation cho mọi loại tác vụ xử lý dữ liệu
Khuyến khích cộng tác và đổi mới trong cộng đồng kỹ thuật dữ liệu

Các thành phần cốt lõi của Koheesio

Step: đơn vị công việc cơ bản của Koheesio, đại diện cho một tác vụ đơn lẻ trong pipeline dữ liệu; nhận đầu vào và tạo đầu ra
Context: lớp cấu hình thiết lập môi trường cho tác vụ; có thể chia sẻ biến giữa các tác vụ và điều chỉnh hành vi của tác vụ theo môi trường
Logger: lớp ghi lại thông điệp ở nhiều mức độ khác nhau

1 bình luận

xguru 2024-06-06

Ý kiến trên Hacker News

Tò mò không biết mảng data engineering ở Nike thực tế như thế nào. Tôi thường xuyên nhận được đề nghị làm hợp đồng lương thấp vì hồ sơ LinkedIn. Các vai trò này nhắm đến những người có kinh nghiệm tại Mỹ, nhưng mức lương lại thấp. Cũng có khả năng những vai trò này là lừa đảo.
Công cụ này có thể hữu ích trong môi trường có nhiều lập trình viên ít kinh nghiệm. 2-3 lập trình viên tạo ra công cụ, còn một đội lớn hơn thực hiện các tác vụ ETL đơn giản. Đội xây công cụ phải gánh áp lực xử lý các yêu cầu mới.
Kiểu tĩnh mạnh đang cản trở các vấn đề data engineering. Ngôn ngữ động giúp giảm độ phức tạp của mã và công sức bảo trì. Việc cố chấp với framework kiểu dữ liệu xuất phát từ kinh nghiệm học thuật hơn là kinh nghiệm trong ngành.
Tôi đã làm với ETL, Spark, Storm, v.v., nhưng không hiểu đề xuất giá trị của thư viện này là gì. Tôi không phải chuyên gia data engineering, nhưng đã kỳ vọng công cụ này sẽ hữu ích.
Cần có lời giải thích tốt hơn về việc công cụ này là gì và tại sao nên dùng nó. Xem liên kết.
Vài tuần trước tôi đã viết data pipeline bằng Apache Beam. Koheesio có chia sẻ một số tính năng, nhưng Apache Beam vượt trội hơn.
Giống Luigi. Tốt đấy!
Khuyên nên xem thử CloudQuery. Đây là framework ELT dựa trên Arrow. (chính tác giả)
Koheesio nói rằng nó không cạnh tranh với các thư viện khác, nhưng thực tế là có. Workflow orchestration là một hạng mục đã rất trưởng thành. Việc dùng Python không phải là lợi thế lớn.
Không biết họ đã xem thư viện dlt chưa. Nó cung cấp EL dễ dùng trong Python. Tôi tò mò về sự khác biệt giữa Koheesio và dlt, cũng như khả năng chúng bổ trợ cho nhau.