1 điểm bởi GN⁺ 2023-12-08 | 1 bình luận | Chia sẻ qua WhatsApp

Công bố dự án Purple Llama

  • Purple Llama là một dự án cung cấp các công cụ và bộ đánh giá về niềm tin mở và an toàn, giúp các nhà phát triển triển khai mô hình AI tạo sinh một cách có trách nhiệm.
  • CyberSec Eval là một bộ benchmark đánh giá an toàn an ninh mạng cho LLM, còn Llama Guard là bộ phân loại an toàn để lọc đầu vào/đầu ra, dễ dàng triển khai.
  • Dự án dự kiến sẽ cung cấp các công cụ này cho cộng đồng mã nguồn mở, hợp tác cùng AI Alliance, AMD, AWS, Google Cloud, Hugging Face, IBM, Intel, Lightning AI, Microsoft, MLCommons, NVIDIA, Scale AI và nhiều bên khác.

Đổi mới mới trong AI tạo sinh

  • AI tạo sinh là công nghệ đột phá, cho phép AI hội thoại, tạo ảnh chân thực và tóm tắt tài liệu quy mô lớn.
  • Các mô hình Llama đã được tải xuống hơn 100 triệu lần, và những đổi mới này đang được dẫn dắt bởi các mô hình mở.
  • Hợp tác về an toàn là yếu tố quan trọng để các nhà phát triển xây dựng niềm tin và thực hiện nghiên cứu, đóng góp AI có trách nhiệm.

Bước đi đầu tiên của dự án Purple Llama

  • An ninh mạng và an toàn prompt cho LLM hiện là những lĩnh vực quan trọng trong an toàn AI tạo sinh.
  • Bộ benchmark đánh giá an ninh mạng được xây dựng dựa trên các hướng dẫn và tiêu chuẩn ngành như CWE và MITRE ATT&CK, đồng thời được phát triển với sự hợp tác của các chuyên gia bảo mật.
  • Llama Guard cung cấp một mô hình được công khai để giúp các nhà phát triển phòng vệ trước các đầu ra nguy hiểm.

Tầm quan trọng của đội ngũ Purple

  • Chỉ khi áp dụng cả tư thế tấn công (red team) và phòng thủ (blue team) mới có thể giảm thiểu các thách thức của AI tạo sinh.
  • Purple team là một cách tiếp cận mang tính hợp tác, bao gồm trách nhiệm của cả red team và blue team, và tinh thần đó cũng được áp dụng cho AI tạo sinh.

Nỗ lực hướng tới hệ sinh thái mở

  • Meta lấy nghiên cứu khám phá, khoa học mở và hợp tác xuyên lĩnh vực làm nền tảng cho các nỗ lực AI của mình, và đây là một cơ hội quan trọng để xây dựng hệ sinh thái mở.
  • Meta dự kiến sẽ thúc đẩy niềm tin mở và an toàn cùng nhiều đối tác như AI Alliance, AMD, Anyscale, AWS và các bên khác.

Định hướng sắp tới

  • Dự kiến sẽ tổ chức workshop tại NeurIPS 2023 để chia sẻ các công cụ này và cung cấp phân tích kỹ thuật chuyên sâu.
  • Các hướng dẫn an toàn và thực tiễn tốt nhất cần có đối thoại liên tục, và dự án mong nhận được ý kiến từ cộng đồng.

Ý kiến của GN⁺

  • Điểm quan trọng nhất của bài viết này là Meta đã công bố dự án Purple Llama nhằm hỗ trợ việc sử dụng an toàn và có trách nhiệm các công nghệ AI tạo sinh mới.
  • Dự án này hướng tới việc giúp các nhà phát triển triển khai AI tạo sinh một cách an toàn, bao gồm cả công cụ đánh giá an ninh mạng và mô hình lọc đầu vào/đầu ra.
  • Những nỗ lực này được kỳ vọng sẽ góp phần thúc đẩy sự phát triển của công nghệ AI, xây dựng niềm tin trong cộng đồng nhà phát triển và củng cố hệ sinh thái mã nguồn mở.

1 bình luận

 
GN⁺ 2023-12-08
Ý kiến Hacker News
  • Không hiểu vì sao trong sáng kiến mới về "triển khai mô hình và trải nghiệm AI có trách nhiệm" lại thiếu nhận thức về mối đe dọa prompt injection.
    • Trong bản hướng dẫn sử dụng có trách nhiệm dài 27 trang, chỉ tìm thấy đúng một chỗ nhắc đến prompt injection, nhưng lại mô tả sai nó là "nỗ lực vượt qua các giới hạn nội dung".
    • "CyberSecEval" có vẻ là một benchmark để đánh giá rủi ro an ninh mạng của các mô hình ngôn ngữ lớn, nhưng chỉ đề cập đến rủi ro mô hình sinh mã tạo ra mã không an toàn và rủi ro kẻ tấn công dùng LLM để tạo ra các kiểu tấn công mới.
    • "Llama Guard" dường như chỉ quan tâm đến việc phát hiện nội dung độc hại bằng tiếng Anh trong nhiều danh mục khác nhau, và cũng mừng là họ không cố phát hành một mô hình phát hiện prompt injection.
    • Prompt injection là thách thức lớn nhất cần vượt qua để có thể triển khai có trách nhiệm các ứng dụng dựa trên LLM như trợ lý AI cá nhân, vì sẽ có nguy cơ xảy ra sai sót khi LLM đồng thời có quyền truy cập vào dữ liệu cá nhân và dữ liệu đầu vào không đáng tin cậy (chẳng hạn email cần tóm tắt).
  • Với tư cách là một nhà nghiên cứu bảo mật, việc dùng LLM để tạo mã "độc hại" là mục đích chính đáng, nhằm phục vụ thực hành hoặc cho các bên có trách nhiệm thấy vấn đề, nên tôi vừa vui vừa thất vọng trước tuyên bố rằng LLM sẽ không hỗ trợ các yêu cầu liên quan đến an ninh mạng.
  • Bất kể các nhà nghiên cứu ban đầu làm gì, mọi người vẫn sẽ huấn luyện hoặc tinh chỉnh mô hình trên dữ liệu không kiểm duyệt, và các mô hình không kiểm duyệt cho Llama đã có sẵn rất dễ tiếp cận, đồng thời hoạt động tốt hơn các mô hình bị kiểm duyệt có kích thước tương tự.
  • Định nghĩa chiến thắng của Microsoft là trở thành nhà cung cấp hạ tầng lưu trữ cho các sản phẩm/dịch vụ suy luận AI: startup xây ra các sản phẩm AI hữu ích, còn MSFT thu thuế từ họ và xây thêm nhiều trung tâm dữ liệu hơn.
    • Tôi vẫn chưa suy nghĩ sâu về chiến lược của Meta, nhưng giờ muốn thử làm vậy.
    • Việc phát hành/rò rỉ Llama hồi đầu năm nay đã thay đổi cục diện, khi những người đam mê mã nguồn mở mang nó đi và bắt đầu các tối ưu hóa mà giới nghiên cứu AI trước đó chưa thử.
    • Có thể xem làn sóng thúc đẩy tối ưu hóa này như một cách né việc đối thủ của Meta trở thành cơ quan thu thuế tối thượng.
    • Tôi tự hỏi liệu Meta có đang kỳ vọng cộng đồng mã nguồn mở sẽ đánh một kiểu chiến tranh ủy nhiệm với các đối thủ FAANG hay không.
    • Tôi không nghĩ cộng đồng mã nguồn mở sẽ tin Meta; tập thể FOSS biết cách ghi thù, và Meta bị xem là đi ngược lại hệ tư tưởng cốt lõi của họ.
    • Tôi không thấy con đường rõ ràng nào cho chiến lược AI của Meta để kiếm tiền cho Meta và dẫn dắt nhà phát triển/khách hàng vào metaverse.
  • Đây không phải mô hình mới, chỉ là mớ lời lẽ nhảm nhí về "an toàn".
  • Tôi từng bình luận trên Facebook đùa về nhện rằng nên đốt nhà đi, rồi bị AI gắn cờ rất nhanh, sau đó kháng nghị cũng bị con người bác bỏ rất nhanh, nên tôi đã ngừng dùng Facebook.
    • Tôi khuyên mọi người nên nhớ rằng mọi công ty công nghệ/mạng xã hội lớn đều đang tái sử dụng cụm từ "tin cậy và an toàn".
  • Có một diễn biến khá buồn cười là Meta dường như đang học theo cách Microsoft tạo ra trải nghiệm đăng nhập rắc rối.
    • Tôi thử đăng nhập vào ai.meta.com thì phát hiện cần có tài khoản Meta.
    • Tôi tạo tài khoản xong thì lại phát hiện dịch vụ đó không dùng được ở khu vực của tôi.
  • Tôi tự hỏi nếu có quyền truy cập vào mô hình thì việc huấn luyện lại hoặc fine-tune để gỡ bỏ phần "lobotomy hóa" hay "an toàn" trong LLM này sẽ khó đến mức nào.
  • Mô hình có trên Hugging Face và có thể chạy miễn phí trên Google Colab.
  • Tôi đã dùng ChatGPT hai lần, và cả hai lần đều nhận được câu trả lời sai cho những câu hỏi cơ bản về tác vụ quản trị Linux.