Biên dịch Python để chạy ở mọi nơi

(blog.codingconfessions.com)

13 điểm bởi GN⁺ 2025-09-30 | 1 bình luận | Chia sẻ qua WhatsApp

Bài viết này giải thích theo hướng nhiều ví dụ về một nỗ lực và thiết kế nhằm biên dịch trước (AOT) mã Python thuần thành tệp thực thi đa nền tảng
Ý tưởng cốt lõi là không tạo mới JIT hay viết lại bằng C++, mà tạo ra kernel tối ưu hóa thông qua pipeline truy vết ký hiệu → IR → sinh mã C++ → biên dịch đa đích
Dùng chú thích kiểu PEP 484 để làm điểm khởi đầu cho lan truyền kiểu, và dùng sinh mã bằng AI để tự động hiện thực hàng trăm toán tử C++, bao phủ nhiều lời gọi thư viện như Numpy, OpenCV, PyTorch
Chiến lược được chọn là tối ưu hiệu năng theo thực nghiệm: tạo và triển khai hàng loạt nhiều đường triển khai cho cùng một hàm Python, rồi dùng telemetry đo đạc thực tế để chọn ra biến thể nhanh nhất
Mục tiêu là cung cấp binary nhỏ, nhanh, có tính di động không phụ thuộc vào container, để dùng làm đơn vị triển khai có thể chạy ở mọi nơi từ máy chủ, desktop, di động đến web

Lời mở đầu

Sự đơn giản và năng suất của Python là ưu điểm, nhưng vẫn tồn tại giới hạn về hiệu năng và tính di động trong các workload tải nặng
Bài viết của tác giả khách mời Yusuf Olokoba giới thiệu một thiết kế trình biên dịch nhằm tạo ra tệp thực thi nhanh và dễ mang theo trong khi vẫn giữ nguyên Python gốc
Đây là cách tiếp cận nhằm đạt được tối ưu kernel bằng cách xây dựng pipeline không cần thêm JIT hay viết lại toàn bộ sang C++

Giới thiệu

Mục tiêu là biên dịch Python không cần chỉnh sửa theo kiểu AOT hoàn toàn, để chạy không cần interpreter, nhanh gần như C/C++ và chạy được trên mọi nền tảng
Khác với các nỗ lực trước đây như Jython, RustPython, Numba, PyTorch, Mojo, hướng tiếp cận này chọn biến đổi mã và sinh kernel thay vì thay thế ngôn ngữ hay runtime
Các hàm Python đã được biên dịch theo cách này hiện đã được dùng trên hàng nghìn thiết bị mỗi tháng

Container là cách sai để phân phối AI

Trong triển khai thực tế, container mang theo payload quá nặng (interpreter, package, snapshot hệ điều hành), gây ra độ trễ khởi động và hạn chế về tính di động
Phương án thay thế là tệp thực thi tự chứa chỉ mang theo mô hình, cho kích thước nhỏ hơn, khởi động nhanh hơn và khả năng chạy trên máy chủ, desktop, di động, web
Ý chính là chuyển đơn vị triển khai từ snapshot hệ điều hành sang binary tự chạy

Arm64, Apple và Unity: Mọi thứ bắt đầu như thế nào

Khi Apple chuyển sang arm64, Unity đã dùng IL2CPP để chuyển CIL sang C++, từ đó biên dịch được cho mọi đích; đây là trường hợp được dùng làm chuẩn tham chiếu
Từ cùng ý tưởng đó, tác giả đặt ra tầm nhìn áp dụng cho Python để có được đường thực thi có thể chạy ở mọi nơi

Phác thảo một trình biên dịch Python

Thiết kế cấp cao gồm các bước: đầu vào Python → truy vết ký hiệu (IR) → sinh C++ → biên dịch đa đích
Lý do không đi thẳng từ IR sang object code mà chọn C++ làm đầu ra trung gian là để tận dụng tối đa các đường tăng tốc như CUDA, MLX, TensorRT, AMX
Mục tiêu là có một thiết kế dễ mở rộng để dễ chèn vào đường tối ưu theo từng phần cứng

Xây dựng symbolic tracer cho Python

Ban đầu, truy vết dựa trên PyTorch FX gặp hạn chế vì cần thực thi thật và chỉ giới hạn trong toán tử PyTorch
Thay vào đó, một symbolic tracer dựa trên phân tích AST đã được xây dựng để chuyển luồng điều khiển và phân giải lời gọi thành IR
Hiện tại tracer này hỗ trợ các tính năng như phân tích tĩnh, đánh giá từng phần, quan sát giá trị trực tiếp dựa trên sandbox

Hạ cấp xuống C++ bằng lan truyền kiểu

Để bắc cầu từ kiểu động của Python sang kiểu tĩnh của C++, hệ thống sử dụng lan truyền kiểu
Khi biết kiểu của các đối số đầu vào, có thể suy luận xác định kiểu của biến trung gian theo định nghĩa của toán tử
Mỗi phép toán Python được ánh xạ sang một hiện thực C++ tương ứng, rồi lan truyền kiểu trên toàn bộ hàm

Khởi tạo quá trình lan truyền kiểu

Chú thích kiểu PEP 484 được dùng làm điểm khởi đầu cho lan truyền kiểu
Điều này phần nào mâu thuẫn với nguyên tắc không sửa mã gốc, nhưng được xem là một sự thỏa hiệp chấp nhận được để có giao diện gọn gàng và khả năng tương thích
Ngoài ra còn áp dụng các ràng buộc như giới hạn số lượng kiểu trong chữ ký hàm để bảo đảm giao diện sử dụng đơn giản

Xây dựng thư viện toán tử C++

Không cần hiện thực trực tiếp mọi hàm bằng C++; chỉ những toán tử lá không thể truy vết mới cần được viết tay hoặc tạo tự động
Vì nhiều mã Python được cấu thành từ kết hợp của một số ít phép toán cơ bản, nên tập toán tử cần bao phủ tương đối nhỏ
Nhờ sinh mã dựa trên LLM cùng hạ tầng ràng buộc, kiểm thử và biên dịch có điều kiện, việc tự động hóa hàng trăm hiện thực hàm cho Numpy, OpenCV, PyTorch đã khả thi

Tối ưu hiệu năng bằng tìm kiếm vét cạn

Xuất phát từ bài học rằng tối ưu hiệu năng luôn mang tính thực nghiệm, hệ thống tạo toàn bộ các biến thể triển khai rồi so sánh bằng đo đạc thực tế để chọn phương án tối ưu
Ví dụ, chỉ riêng thao tác resize trên Apple Silicon cũng có thể sinh ra nhiều đường đi như Accelerate, vImage, Core Image, Metal, và triển khai nhiều binary cùng chức năng
Telemetry chi tiết được dùng để thu thập độ trễ theo từng đường, sau đó dùng mô hình thống kê để dự đoán và chọn biến thể nhanh nhất
Hiệu quả đối với người dùng là trải nghiệm thực thi tự động nhanh hơn theo thời gian

Thiết kế giao diện người dùng cho trình biên dịch

Để trải nghiệm lập trình viên có đường cong học tập gần như bằng 0, giao diện được chọn là decorator PEP 318 @compile
CLI dùng decorator này làm entrypoint để duyệt đồ thị mã phụ thuộc và tiến hành biên dịch
Các đối số của decorator như tag, description, sandbox, metadata cho phép tái tạo môi trường và chỉ định backend (ONNXRuntime, TensorRT, CoreML, IREE, QNN...)

Kết luận

Các tính năng như ngoại lệ, lambda, đệ quy, class hiện mới ở mức hỗ trợ một phần hoặc chưa hỗ trợ; đặc biệt với kiểu phức hợp và kiểu bậc cao, vẫn cần mở rộng lan truyền kiểu
Trải nghiệm debug là một thách thức vì biên dịch tối ưu làm giảm thông tin symbol, khiến việc lần vết trở nên khó hơn
C++20 với std::span, concepts, coroutines là nền tảng cốt lõi; còn C++23 với std::generator, <stdfloat>, <stacktrace> được kỳ vọng sẽ đóng góp cho streaming, half/bfloat16 và truy vết ngoại lệ
Mục tiêu cuối cùng là xác lập đơn vị triển khai cho phép chạy workload AI như embedding và detection ở mọi nơi bằng tệp thực thi nhỏ, nhanh, an toàn mà không cần container

1 bình luận

secret3056 2025-09-30

Tôi tưởng là kiểu như APE, nhưng hóa ra không phải.

Biên dịch Python để chạy ở mọi nơi

Lời mở đầu

Giới thiệu

Container là cách sai để phân phối AI

Arm64, Apple và Unity: Mọi thứ bắt đầu như thế nào

Phác thảo một trình biên dịch Python

Xây dựng symbolic tracer cho Python

Hạ cấp xuống C++ bằng lan truyền kiểu

Khởi tạo quá trình lan truyền kiểu

Xây dựng thư viện toán tử C++

Tối ưu hiệu năng bằng tìm kiếm vét cạn

Thiết kế giao diện người dùng cho trình biên dịch

Kết luận

Bài viết liên quan

1 bình luận