Anthropic đầu tư 1,5 triệu USD vào PSF (Python Software Foundation) và hợp tác tăng cường bảo mật PyPI
(pyfound.blogspot.com)Tóm tắt:
- Anthropic đã ký kết quan hệ đối tác 2 năm với PSF và đầu tư tổng cộng 1,5 triệu USD (khoảng 2,1 tỷ won) để tăng cường bảo mật và tính bền vững của hệ sinh thái Python.
- Mục tiêu chính là củng cố bảo mật chuỗi cung ứng của PyPI (Python Package Index), tập trung phát triển công cụ
automated proactive reviewđể tự động rà soát tích cực khi tải gói lên. - Có kế hoạch xây dựng bộ dữ liệu mã độc đã biết để thiết kế công cụ bảo mật dựa trên phân tích chức năng (
capability analysis), đồng thời mở rộng sang các hệ sinh thái mã nguồn mở khác.
Tóm tắt chi tiết:
-
Tổng quan khoản đầu tư và bối cảnh
Anthropic, công ty phát triển mô hình AI Claude, đã thiết lập quan hệ đối tác kéo dài 2 năm với Python Software Foundation (PSF) và quyên góp 1,5 triệu USD. Điều này thể hiện sự công nhận tầm quan trọng của Python với vai trò là “lingua franca (ngôn ngữ chung)” trong phát triển AI, và khoản tiền này sẽ được dùng để nâng cao bảo mật cũng như tính bền vững của toàn bộ hệ sinh thái Python. -
Đổi mới bảo mật mã nguồn mở: phòng thủ chuỗi cung ứng PyPI
Trọng tâm của khoản đầu tư là nâng cao bảo mật cho CPython và PyPI.
- Chuyển sang rà soát chủ động (Proactive Review): Thay vì cách ứng phó thụ động (
reactive) hiện có, sẽ phát triển công cụ mới để tự động rà soát trước mọi gói được tải lên PyPI. - Cách tiếp cận kỹ thuật: Để làm điều này, sẽ xây dựng mới bộ dữ liệu mã độc đã biết và thiết kế công cụ phát hiện dựa trên
capability analysis. - Khả năng mở rộng trong hệ sinh thái: Kết quả của dự án này không chỉ giới hạn ở Python mà còn được thiết kế để có thể tái sử dụng trong các kho gói mã nguồn mở khác (ví dụ: npm, Cargo...), với mục tiêu nâng mức độ bảo mật của toàn bộ hệ sinh thái mã nguồn mở.
-
Liên kết với lộ trình hiện có
Đợt tăng cường bảo mật lần này được mở rộng dựa trên lộ trình bảo mật hiện có của Seth Larson, Security Developer in Residence của PSF do dự án Alpha-Omega hỗ trợ, và Mike Fiedler, kỹ sư an toàn và bảo mật của PyPI. Nguồn tài trợ từ Anthropic sẽ được dùng để tăng tốc lộ trình của họ. -
Hỗ trợ hạ tầng cốt lõi và cộng đồng Python
Ngoài bảo mật, khoản đầu tư này cũng hỗ trợ các hoạt động vận hành cốt lõi của PSF.
- Hỗ trợ chương trình
Developer in Residence, vốn dẫn dắt việc phát triển CPython - Vận hành các chương trình và khoản tài trợ cộng đồng (Grants)
- Chi trả chi phí vận hành và bảo trì hạ tầng cốt lõi như PyPI
4 bình luận
"Công cụ bảo mật dựa trên phân tích năng lực (capability analysis)" là gì vậy?
Tôi đã nhờ Gemini giải thích thử. Tôi cũng không phụ trách riêng về bảo mật nên cũng không rõ lắm.
[Báo cáo chuyên sâu: 'Capability Analysis' - công nghệ bảo mật thế hệ mới mà PyPI và OpenSSF đang chú ý]
Khi các cuộc tấn công chuỗi cung ứng đe dọa hệ sinh thái mã nguồn mở ngày càng tinh vi hơn, PyPI (Python Package Index) và OpenSSF (Open Source Security Foundation) đang tăng tốc áp dụng 'Capability Analysis (phân tích năng lực/chức năng)' vượt ra ngoài cách đối sánh mẫu truyền thống.
Cốt lõi của công nghệ này là nhìn thấu không phải gói phần mềm "giả vờ là gì", mà là "thực sự có thể làm gì".
Nếu cách quét virus truyền thống là đối chiếu với 'danh sách truy nã (chữ ký mã độc đã biết)', thì Capability Analysis là cách xác minh 'năng lực hành vi' của gói phần mềm.
Dù có ngụy trang thành một tiện ích bình thường đến đâu, để chiếm quyền hệ thống hoặc đánh cắp thông tin thì cuối cùng vẫn buộc phải sử dụng các tài nguyên cụ thể của hệ điều hành (mạng, tệp, tiến trình). Kỹ thuật phân tích này theo dõi xem khi gói phần mềm chạy mã, nó có thực thi các 'quyền năng nhạy cảm (Capabilities)' như sau hay không.
eval,exec) để sinh tiến trình con hay không?Hiện tại, trong các dự án của OpenSSF và các nhóm nghiên cứu bảo mật, các công cụ sau đang được phát triển và đưa vào pipeline để thực hiện kiểu phân tích này.
A. OpenSSF Package Analysis (dự án chính thức)
- Tổng quan: Đây là dự án do OpenSSF dẫn dắt, thực sự cài đặt và chạy các gói được đăng lên PyPI hoặc NPM trong môi trường sandbox cô lập.
- Nguyên lý hoạt động: Ở cấp độ kernel, hệ thống chặn các system call phát sinh khi gói chạy để thu thập dữ liệu hành vi, ví dụ như "gói này đã cố kết nối tới 192.168.x.x trong lúc cài đặt".
- Stack công nghệ: Sử dụng gVisor (sandbox), Strace (theo dõi system call), v.v.
B. Packj
- Tổng quan: Đây là công cụ được phát triển dựa trên nghiên cứu học thuật (Georgia Tech, v.v.), chuyên gắn nhãn các 'khả năng rủi ro (Risky Capabilities)' của gói.
- Nguyên lý hoạt động: Kết hợp cả phân tích tĩnh và phân tích động. Công cụ tìm các lệnh gọi API nhạy cảm trong mã nguồn, đồng thời phân tích metadata của gói để xác định đó có phải là 'gói bị bỏ hoang' hay 'typosquatting (mạo danh tên gọi)' hay không.
- Đặc điểm: Có thể phát hiện các tổ hợp quyền bất thường như "gói này là thư viện audio nhưng lại có chức năng giao tiếp mạng và truy cập danh bạ".
C. GuardDog
- Tổng quan: Đây là công cụ CLI do Datadog công bố, sử dụng Semgrep (engine phân tích tĩnh) để tìm các mẫu độc hại.
- Nguyên lý hoạt động: Xác định các mẫu mã (heuristics) triển khai 'chức năng độc hại' như mã bị làm rối ẩn trong gói, script đào coin, trình tải tệp thực thi, v.v.
D. Falco & Sysdig
- Tổng quan: Đây là các công cụ bảo mật runtime cho môi trường cloud-native.
- Vai trò: Được dùng như engine phát hiện theo thời gian thực các hành vi bất thường xảy ra khi gói chạy trong container (ví dụ: truy cập shell ngoài dự kiến, đọc tệp nhạy cảm).
Để hiểu sâu hơn về công nghệ này, bạn có thể tham khảo dự án gốc và các bài blog sau.
Blog chính thức của OpenSSF Package Analysis (giới thiệu và giải thích nguyên lý)
https://openssf.org/blog/2022/…
GitHub OpenSSF Package Analysis (mã nguồn và kiến trúc)
https://github.com/ossf/package-analysis
GitHub Packj (tải công cụ và tính năng chi tiết)
https://github.com/ossillate-inc/packj
GitHub GuardDog (công cụ phát hiện gói độc hại PyPI/NPM của Datadog)
https://github.com/DataDog/guarddog
Báo cáo bảo mật PyPI (quy trình báo cáo và xử lý gói độc hại)
https://pypi.org/security/
Cảm ơn bạn vì tài liệu chi tiết và phần tóm tắt. Ban đầu tôi cứ nghĩ nó giống với Capabilities của Linux, nhưng hóa ra đây là một phương pháp còn bao gồm cả phân tích động.
Mình nghĩ là họ sẽ tải gói đó về rồi chạy mã, giải nén hoặc thực hiện phân tích tĩnh, phân tích động kiểu như vậy để xem đoạn mã đó làm gì. Chủ yếu là vì mã độc thường lây lan theo cách đó.