- Cloudflare đã công bố phát triển "Tường lửa cho AI" (Firewall for AI), một lớp bảo vệ mới được đặt phía trước các mô hình ngôn ngữ lớn (Large Language Models, LLM) để nhận diện hành vi lạm dụng
- Việc sử dụng LLM như một ứng dụng kết nối Internet làm phát sinh các lỗ hổng mới và có thể bị các tác nhân độc hại khai thác
- Bên cạnh các lỗ hổng ảnh hưởng đến ứng dụng web và API hiện có, cách thức hoạt động của LLM cũng tạo ra các mối đe dọa mới
- Tường lửa cho AI là một tường lửa ứng dụng web (WAF) nâng cao chuyên biệt cho các ứng dụng dùng LLM, bao gồm bộ công cụ phát hiện lỗ hổng và cung cấp khả năng quan sát cho chủ sở hữu mô hình
Vì sao LLM khác với ứng dụng truyền thống?
- Khi xem LLM như một ứng dụng kết nối Internet, có hai khác biệt chính so với ứng dụng web truyền thống
- Thứ nhất, cách người dùng tương tác với sản phẩm là khác nhau. Ứng dụng truyền thống mang tính xác định, trong khi LLM là phi xác định và dựa trên ngôn ngữ tự nhiên
- Thứ hai, cách mặt phẳng điều khiển của ứng dụng tương tác với dữ liệu là khác nhau. Trong ứng dụng truyền thống, mặt phẳng điều khiển (mã) và mặt phẳng dữ liệu (cơ sở dữ liệu) được tách biệt rõ ràng; còn với LLM, dữ liệu huấn luyện trở thành một phần của chính mô hình, khiến việc kiểm soát chia sẻ dữ liệu qua prompt của người dùng trở nên khó khăn
Lỗ hổng LLM theo OWASP
- Quỹ OWASP đã công bố 10 lỗ hổng hàng đầu đối với LLM, cung cấp một khung tham chiếu hữu ích để suy nghĩ về cách bảo vệ mô hình ngôn ngữ
- Một số mối đe dọa tương tự OWASP Top 10 cho ứng dụng web, nhưng cũng có những mối đe dọa đặc thù riêng cho mô hình ngôn ngữ
Triển khai LLM
- Rủi ro của LLM khác nhau tùy theo mô hình triển khai. Hiện có ba cách tiếp cận triển khai chính
- Internal LLM (nội bộ): Doanh nghiệp phát triển LLM để hỗ trợ nhân sự trong công việc hằng ngày. Đây được xem là tài sản của công ty và không người ngoài nào được phép truy cập. Ví dụ gồm AI copilot được huấn luyện trên dữ liệu bán hàng và tương tác khách hàng để tạo đề xuất tùy biến, hoặc LLM được huấn luyện trên cơ sở tri thức nội bộ để kỹ sư có thể tra cứu
- Public LLM (công khai): LLM có thể được truy cập từ bên ngoài doanh nghiệp. Những giải pháp này thường có phiên bản miễn phí cho bất kỳ ai sử dụng và thường được huấn luyện trên tri thức chung hoặc công khai. Ví dụ như GPT của OpenAI hay Claude của Anthropic
- Product LLM (sản phẩm): Từ góc nhìn của doanh nghiệp, LLM có thể là một phần của sản phẩm hoặc dịch vụ cung cấp cho khách hàng. Đây thường là các giải pháp tùy biến tự lưu trữ, có thể được dùng như công cụ tương tác với tài nguyên của công ty. Ví dụ như chatbot hỗ trợ khách hàng hoặc trợ lý AI của Cloudflare
- Trong mọi kịch bản, cần bảo vệ mô hình khỏi bị lạm dụng, bảo vệ dữ liệu độc quyền được lưu trong mô hình và bảo vệ người dùng khỏi thông tin sai lệch hoặc nội dung không phù hợp
Tường lửa cho AI
- Tường lửa cho AI của Cloudflare được triển khai giống WAF truyền thống, quét các yêu cầu API chứa mọi prompt LLM để phát hiện các mẫu và chữ ký tấn công có thể xảy ra
- Có thể đặt trước các mô hình được lưu trữ trên nền tảng Cloudflare Workers AI hoặc trên hạ tầng của bên thứ ba, và có thể dùng cùng Cloudflare AI Gateway
Phòng chống tấn công theo lưu lượng
- Một trong các mối đe dọa mà OWASP liệt kê là Model Denial of Service
- Tương tự ứng dụng truyền thống, tấn công DoS tiêu tốn quá mức tài nguyên để làm suy giảm chất lượng dịch vụ hoặc làm tăng chi phí vận hành mô hình
- Rủi ro này có thể được giảm thiểu bằng cách áp dụng chính sách giới hạn tốc độ nhằm kiểm soát tần suất yêu cầu trong từng phiên riêng lẻ
Nhận diện thông tin nhạy cảm
- Có hai trường hợp sử dụng liên quan đến thông tin nhạy cảm, tùy vào việc bạn sở hữu mô hình và dữ liệu hay đang muốn ngăn người dùng gửi dữ liệu vào một LLM công khai
- Tiết lộ thông tin nhạy cảm theo định nghĩa của OWASP xảy ra khi LLM vô tình công khai dữ liệu mật trong phản hồi, có thể dẫn đến truy cập dữ liệu trái phép, vi phạm quyền riêng tư và sự cố bảo mật
Ngăn chặn lạm dụng mô hình (Preventing Abuse)
- Lạm dụng mô hình bao gồm nhiều cách tiếp cận khác nhau như "prompt injection" hoặc gửi yêu cầu nhằm gây ra ảo giác, hoặc tạo ra phản hồi không chính xác, gây khó chịu, không phù hợp hay lạc đề
- Prompt injection là nỗ lực thao túng mô hình ngôn ngữ bằng đầu vào được chế tác đặc biệt, nhằm khiến LLM đưa ra phản hồi ngoài ý muốn
Cách sử dụng Tường lửa cho AI
- Khách hàng doanh nghiệp sử dụng "Application Security Advanced" có thể sử dụng ngay Advanced Rate Limiting và Sensitive Data Detection
- Tính năng xác thực prompt của Tường lửa cho AI hiện đang được phát triển và dự kiến sẽ phát hành bản beta cho người dùng Workers AI trong vài tháng tới
1 bình luận
Ý kiến Hacker News
Họ nói rằng prompt injection và jailbreak là khác nhau, nhưng có vẻ như trong cuộc tranh luận về điều này thì họ đã thua rồi. Theo bài viết của Cloudflare, lạm dụng mô hình là một phạm trù lạm dụng rộng hơn, bao gồm các cách tiếp cận như prompt injection. Prompt injection xảy ra khi nhà phát triển nối prompt do mình định nghĩa với đầu vào không đáng tin cậy từ người dùng. Nếu không có sự kết hợp giữa đầu vào đáng tin cậy và không đáng tin cậy thì đó không phải là prompt injection. Sự phân biệt này rất quan trọng, và sẽ khó để phát hiện bằng một mô hình chỉ được huấn luyện cho các cuộc tấn công jailbreak thông thường.
WAF (Web Application Firewall) từng là giải pháp tạm thời cho các dịch vụ web mà đội ngũ bảo mật không thể kiểm soát hoặc hiểu rõ. Nó dần mất được ưa chuộng do các vấn đề hiệu năng và độ khó trong việc tinh chỉnh để chặn hiệu quả lưu lượng độc hại. Cách tiếp cận dựa trên WAF thể hiện sự thừa nhận thiếu hiểu biết và vị trí của điểm yếu, còn việc chuyển sang mô hình thì vẫn chưa được kiểm chứng và đi ngược lại với những ý tưởng như tự bảo vệ phản ứng của ứng dụng.
Tôi muốn có biện pháp bảo vệ để ngăn trang web của mình bị scrape phục vụ mục đích huấn luyện AI. Tôi đã cảm thấy đây là một cuộc chiến thua cuộc, nhưng rồi nhận ra những người coi trọng quyền riêng tư cũng nghĩ như vậy.
Cũng như phần lớn các sản phẩm của Cloudflare, sản phẩm này càng hữu ích khi càng có nhiều khách hàng sử dụng và càng cần ít nỗ lực thủ công trên mỗi khách hàng. Giá trị của Cloudflare không nằm ở cấu hình hay bảo đảm, mà ở khả năng hiển thị và đóng gói gần như theo thời gian thực về các cuộc tấn công mà mọi người khác đang nhìn thấy.
Sản phẩm này có vẻ là một ý tưởng rất hay. Khi nó đơn giản như việc thêm và bật một firewall, nó sẽ dễ thu hút sự chú ý và được chấp nhận hơn các sản phẩm guardrail khác. Tôi tự hỏi một firewall LLM tổng quát có thể hữu ích đến mức nào, sẽ cần và có thể tùy biến bao nhiêu tùy theo mô hình và trường hợp sử dụng. Nhưng có vẻ đây là điều có thể giải quyết khá dễ dàng.
Theo cách tôi hiểu từ bài viết này, Cloudflare đang tự lao đầu vào kiểm duyệt và các cuộc chiến văn hóa. Những người dùng trả phí của Cloudflare sẽ trả tiền cho Cloudflare để áp đặt thiên kiến chính trị của họ, còn người dùng AI sẽ buộc tội Cloudflare tiếp tay cho kiểm duyệt. Cloudflare có thể bị cuốn vào những trận chiến chính trị không cần thiết.
Họ đang dùng AI để lọc request à? Nếu vậy thì đúng là một tổ hợp thiên đường!
[ghé sát micro] Thành phần bí mật là regex.
Tôi từng nghĩ đến việc làm một thứ gì đó theo tinh thần tương tự cho smart payment credentials trong các tình huống mà LLM đưa ra quyết định mua/không mua, nhằm ngăn chặn việc lạm dụng LLM. Ý tưởng là chỉ cung cấp token dùng một lần (hoặc thứ gì đó tương tự) khi payment credentials được yêu cầu bởi một chuỗi hợp lệ. Nếu có ai đang suy nghĩ về lĩnh vực này, tôi rất muốn trao đổi.
Tôi đã nghĩ từ lâu rằng họ sẽ tiếp tục chạy theo thứ lớn tiếp theo của marketing. Tốt thôi, điều đó vẫn để lại thêm không gian cạnh tranh trong thị trường CDN/DNS/WAF cho những công ty còn quan tâm đến những thứ như vậy.