Phân tích 2 đợt liên tiếp bị botnet lây nhiễm trên AWS EC2 ngay sau khi ra mắt (từ Security Group đến cô lập Docker)
(qa-arena.qalabs.kr)Chúng tôi недавно ra mắt QA Arena, một nền tảng thực hành thực chiến để tạo mã kiểm thử dành cho kỹ sư QA.
Sau khi ra mắt dịch vụ, tôi đã nghĩ rằng "mình nên đăng một bài giới thiệu lên GeekNews", nhưng rồi lại phải đăng trước một bài hồi tưởng sự cố bảo mật AWS (Post-Mortem) thay vì bài giới thiệu.
Bài viết này chia sẻ việc các cấu hình bảo mật bị bỏ sót trong quá trình phát triển nhanh bằng 'Vibe Coding' đã dẫn đến hậu quả gì, và đã ứng phó thế nào từ góc nhìn của QA.
1. Incident Timeline & Analysis
-
Phase 1 (2025.12): Inbound/Outbound Policy Failure
- Triệu chứng: Phát hiện dấu hiệu tấn công exploit IoT như CVE-2017-18368 và lưu lượng bất thường từ instance.
- Nguyên nhân: Egress (đầu ra) của Security Group được mở thành
All Traffic, khiến tiến trình đã nhiễm có thể liên lạc ra bên ngoài. - Biện pháp lần 1: Cô lập instance đã bị nhiễm và triển khai AWS Systems Manager (SSM) để hạn chế quyền truy cập quản trị.
-
Phase 2 (2026.01.14): Docker Container Escape
- Triệu chứng: Nhận được Abuse Report từ đội AWS Trust & Safety với nội dung "Phát hiện liên lạc với máy chủ Botnet C&C". (IP:
72.62.195.44) - Nguyên nhân gốc rễ: Docker container dùng để chạy mã do người dùng gửi lên không được áp dụng cô lập mạng. Khi sử dụng mã do AI sinh ra, đã bị bỏ sót thiết lập
network_mode.**
- Triệu chứng: Nhận được Abuse Report từ đội AWS Trust & Safety với nội dung "Phát hiện liên lạc với máy chủ Botnet C&C". (IP:
- Mitigation (ứng phó kỹ thuật)**
Ngay sau khi nhận biết sự cố, chúng tôi đã áp dụng quy trình QA vào hạ tầng và thực hiện các biện pháp sau.
- Network Isolation: Chặn mọi kết nối đang hoạt động với IP độc hại.
- Security Group Hardening: Giới hạn nghiêm ngặt lưu lượng outbound chỉ còn HTTPS (443).
- Code Patch: Sửa mã
docker_service.pyđể bắt buộc áp dụngnetwork_mode="none"cho mọi worker container.
3. Conclusion
Sau khi giải trình các biện pháp trên với phía AWS (Evidence Attached), chúng tôi cuối cùng đã nhận được kết luận [Resolved].
[IMG] Hình ảnh chứng minh AWS đã xử lý xong
Sự cố lần này cho thấy "phạm vi của QA cần được mở rộng vượt ra ngoài mã ứng dụng, tới cả cấu hình hạ tầng (Configuration)".
Đây là QA-Arena đã trải qua một lễ ra mắt đầy khắc nghiệt và hoàn tất cả kiểm chứng bảo mật. Rất mong nhận được nhiều phản hồi.
🔗 QA-Arena: https://qa-arena.qalabs.kr/
2 bình luận
Dùng AI rồi phát sinh vấn đề bảo mật, sau đó dùng AI để giải quyết và dùng AI để ghi lại quá trình rồi đăng lên GeekNews
Ôi trời..