Purple Llama: Meta công bố bộ công cụ tin cậy và an toàn mở cho AI tạo sinh

(ai.meta.com)

1 điểm bởi GN⁺ 2023-12-08 | 1 bình luận | Chia sẻ qua WhatsApp

Khi việc sử dụng các mô hình AI tạo sinh mở tăng nhanh, Meta đã công bố Purple Llama như một dự án ô dù tập hợp các công cụ và bài đánh giá về độ tin cậy và an toàn để giúp nhà phát triển triển khai có trách nhiệm
Bản phát hành đầu tiên tập trung vào CyberSec Eval, dùng để đánh giá rủi ro an ninh mạng của LLM, và Llama Guard, mô hình bảo vệ đầu vào/đầu ra
CyberSec Eval kiểm tra khả năng đưa ra đề xuất mã không an toàn và phản ứng với các yêu cầu độc hại dựa trên các tiêu chuẩn như CWE và MITRE ATT&CK
Llama Guard là mô hình pretrained mở dành cho các nhà phát triển muốn kiểm tra và lọc đầu vào và đầu ra theo hướng dẫn nội dung của từng ứng dụng
Purple Llama được cung cấp theo giấy phép permissive, và Meta muốn mở rộng nền tảng tin cậy và an toàn mở cùng AI Alliance và các đối tác lớn trong hệ sinh thái cloud, chip và AI

Vấn đề mà Purple Llama nhắm tới

Purple Llama là một dự án ô dù về các công cụ và bài đánh giá tin cậy, an toàn giúp xây dựng các mô hình AI tạo sinh mở một cách có trách nhiệm
AI tạo sinh đã cho phép tạo AI hội thoại, tạo ảnh chân thực và tóm tắt tài liệu quy mô lớn chỉ bằng những prompt đơn giản, và các mô hình Llama hiện đã được tải xuống hơn 100 triệu lần
Vì rất khó để từng nhà phát triển tự giải quyết các vấn đề an toàn trong trạng thái tách biệt, Purple Llama hướng tới việc cung cấp một nền tảng chung cho các nỗ lực tin cậy và an toàn mở
Phạm vi công bố ban đầu tập trung vào an ninh mạng và các lớp bảo vệ đầu vào/đầu ra, và sẽ có thêm nhiều công cụ được bổ sung trong tương lai
Các thành phần được cung cấp theo giấy phép permissive cho cả nghiên cứu và sử dụng thương mại

Bản phát hành đầu tiên: CyberSec Eval và Llama Guard

Ở giai đoạn đầu, hai thành phần đã được công bố
- CyberSec Eval: bộ benchmark đánh giá mức độ an toàn an ninh mạng của LLM
- Llama Guard: bộ phân loại an toàn để lọc đầu vào/đầu ra
An ninh mạng và an toàn prompt cho LLM hiện là các lĩnh vực ưu tiên cao trong an toàn AI tạo sinh, và cũng được đề cập như thực tiễn tốt trong Responsible Use Guide của Llama 2

CyberSec Eval: Đo lường rủi ro an ninh mạng của LLM

CyberSec Eval được giới thiệu là bộ đánh giá an toàn an ninh mạng đầu tiên cho LLM có thể được sử dụng trên toàn ngành
Bộ benchmark được xây dựng dựa trên các hướng dẫn và tiêu chuẩn trong ngành như CWE và MITRE ATT&CK, với sự hợp tác của các chuyên gia trong lĩnh vực bảo mật
Bản phát hành ban đầu tập trung vào việc xử lý một phần các rủi ro trong White House commitments về phát triển AI có trách nhiệm
- Chỉ số để định lượng rủi ro an ninh mạng của LLM
- Công cụ đánh giá tần suất đưa ra đề xuất mã không an toàn
- Công cụ đánh giá LLM nhằm khiến việc tạo mã độc hoặc hỗ trợ thực hiện tấn công mạng trở nên khó hơn
Kết quả ban đầu cho thấy LLM tồn tại rủi ro an ninh mạng đáng kể ở khía cạnh khuyến nghị mã không an toàn hoặc phản hồi các yêu cầu độc hại
Có thể xem thông tin kỹ thuật chi tiết hơn trong Cybersec Eval paper

Llama Guard: Mô hình bảo vệ lọc đầu vào và đầu ra

Responsible Use Guide của Llama 2 khuyến nghị kiểm tra và lọc mọi đầu vào và đầu ra của LLM theo hướng dẫn nội dung phù hợp với ứng dụng
Llama Guard là một mô hình pretrained mà nhà phát triển có thể dùng để phòng vệ trước các đầu ra có khả năng rủi ro
Mô hình cho thấy hiệu năng cạnh tranh trên các benchmark mở phổ biến, đồng thời được tối ưu hóa để dễ triển khai
Phương pháp luận và thảo luận về hiệu năng được công bố trong Llama Guard paper
Mô hình được huấn luyện bằng hỗn hợp dataset mở để phát hiện các loại nội dung rủi ro và vi phạm phổ biến có thể liên quan đến nhiều use case của nhà phát triển
Mục tiêu cuối cùng là giúp nhà phát triển dễ dàng tùy biến mô hình theo use case phù hợp, đồng thời thúc đẩy việc áp dụng các thực tiễn tốt và cải thiện hệ sinh thái mở

Vì sao là Purple

Để giảm rủi ro của AI tạo sinh, cần kết hợp red team từ góc nhìn tấn công và blue team từ góc nhìn phòng thủ
Purple teaming là cách tiếp cận cộng tác kết hợp vai trò của red team và blue team để đánh giá và giảm thiểu các rủi ro tiềm ẩn
Tên gọi Purple Llama phản ánh định hướng áp dụng cách tiếp cận này vào các nỗ lực về độ tin cậy và an toàn của AI tạo sinh

Hệ sinh thái mở và hợp tác

Nghiên cứu khám phá, open science và hợp tác liên lĩnh vực đã trở thành nền tảng cho các hoạt động AI của Meta
Llama 2 được phát hành vào tháng 7 cùng hơn 100 đối tác, trong đó nhiều bên cũng đang hợp tác trong lĩnh vực tin cậy và an toàn mở
Các đối tác hợp tác bao gồm AI Alliance, AMD, Anyscale, AWS, Bain, Cloudflare, Databricks, Dell Technologies, Dropbox, Google Cloud, Hugging Face, IBM, Intel, Microsoft, MLCommons, Nvidia, Oracle, Orange, Scale AI, Together.AI và nhiều đơn vị khác
Meta đang hợp tác với các đối tác của Papers With Code và HELM để đưa các bài đánh giá này vào benchmark
Công ty cũng hợp tác với MLCommons AI Safety Working Group

Kế hoạch sau khi công bố

Meta dự định tổ chức workshop tại NeurIPS 2023 và hỗ trợ mọi người bắt đầu thông qua việc chia sẻ công cụ cùng các phiên đào sâu kỹ thuật
Các hướng dẫn an toàn và thực tiễn tốt sẽ tiếp tục là chủ đề được thảo luận liên tục trên toàn lĩnh vực
Có thể xem tài liệu liên quan đến Llama 2 tại Llama website, nơi cũng cung cấp tài liệu bắt đầu nhanh và FAQ
best practices and considerations để xây dựng sản phẩm dựa trên LLM cũng được cung cấp riêng
Together.AI và Anyscale sẽ cung cấp demo được host tại NeurIPS trong vài tuần tới

1 bình luận

GN⁺ 2023-12-08

Ý kiến trên Hacker News

Tôi không hiểu vì sao một kế hoạch mới nhằm giúp mọi người “triển khai các mô hình và trải nghiệm AI tạo sinh một cách có trách nhiệm” lại không thừa nhận đúng mức mối đe dọa prompt injection
Tôi chỉ thấy nó xuất hiện đúng một lần trong Responsible Use Guide dài 27 trang, mà còn bị mô tả sai là “nỗ lực vượt qua các hạn chế nội dung”
“CyberSecEval: A benchmark for evaluating the cybersecurity risks of large language models” trông có vẻ hứa hẹn, nhưng thực tế chỉ đề cập đến rủi ro mô hình sinh mã tạo ra mã dễ bị tấn công và rủi ro kẻ tấn công dùng LLM để tạo ra các kiểu tấn công mới
“Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations” cũng chỉ quan tâm đến việc phát hiện nhiều loại nội dung độc hại bằng tiếng Anh. Dù vậy, may là họ chưa đưa ra mô hình phát hiện prompt injection, vì tôi vẫn rất hoài nghi cách tiếp cận đó
Tôi tin chắc rằng nếu muốn triển khai có trách nhiệm nhiều ứng dụng khác nhau xây trên LLM, prompt injection là thách thức lớn nhất. “Trợ lý AI cá nhân” là ví dụ tiêu biểu: rủi ro phát sinh ngay khi LLM đồng thời có quyền truy cập vào dữ liệu cá nhân và đầu vào không đáng tin cậy, chẳng hạn email cần tóm tắt: https://simonwillison.net/2023/May/2/prompt-injection-explai...
Tôi hiểu là khó đưa câu “nếu bạn kỳ vọng có giải pháp cho prompt injection thì xin lỗi, hiện vẫn chưa có” vào một công bố về an toàn AI, nhưng có cảm giác Meta AI hiện đang giấu mối đe dọa bảo mật lớn nhất của các hệ thống LLM xuống dưới thảm
- Trong nhiều ứng dụng LLM thực tế, prompt injection thường không phải là mối lo chính
  Thứ được triển khai phổ biến nhất ngoài đời là chatbot dùng retrieval-augmented generation (RAG), và chúng thường rất bị giới hạn. Chúng không truy cập Internet, không chạy công cụ, và về cơ bản chỉ đóng vai trò giao diện cho một cơ sở tri thức không bí mật
  Có thể bị lạm dụng bằng prompt injection, nhưng tác động bị giới hạn. Rò rỉ prompt không mấy thú vị; việc chiếm dụng hệ thống để dùng LLM miễn phí có thể xảy ra, nhưng khá dễ xử lý bằng các kỹ thuật tương đối đơn giản như giới hạn tốc độ
  Với nhiều công ty, rủi ro lớn hơn nhiều là chatbot đưa ra câu trả lời độc hại, sai hoặc không phù hợp. Hãy nghĩ đến một chatbot thương mại điện tử hướng dẫn sai điều kiện hoàn tiền, hoặc một bot giáo dục phơi bày nội dung bạo lực cho trẻ em; vấn đề pháp lý và uy tín sẽ lớn hơn nhiều
  Việc một người lập dị nào đó dùng prompt tinh vi để cố tình kéo ra câu trả lời kỳ quặc từ LLM nhìn chung chỉ là thứ yếu so với các vấn đề trên
  Dù vậy, phê phán này vẫn có lý. Một trong những lý do việc dùng LLM vẫn dừng ở mức ngớ ngẩn như hiện nay chính là vì chưa giải quyết được prompt injection, và rủi ro quá lớn để triển khai các hệ thống dựa trên LLM mạnh hơn. Nếu giải quyết được vấn đề này, nhiều tiềm năng hiện chưa được khai thác có thể được mở ra
- Tôi đã triển khai LLM cho nhiều mục đích thương mại, và ít nhất trong các trường hợp đó, muốn nó thực sự đe dọa người dùng thì phải thiết kế cực kỳ ngớ ngẩn. Ví dụ như không cô lập phiên người dùng, để mô hình chạy mã tùy ý, hoặc cho nó thực hiện các thao tác có đặc quyền mà không cần người dùng xác nhận
  Hơn nữa, nếu người dùng tự “prompt injection” thì tôi sẽ gọi đó đơn giản là sử dụng nâng cao. Các dịch vụ này là công cụ cho khách hàng, nên nếu người dùng muốn nhập vai khiêu dâm thay vì tóm tắt email đến thì đó là lựa chọn của họ
  Nếu người gửi email cố khiến hệ thống làm điều đó mà không có sự đồng ý của người dùng, thì nhẹ nhất đó là vấn đề ở cấp tổ chức, còn nặng lắm cũng là một vấn đề kỹ thuật riêng. Có thể xử lý bằng lọc email truyền thống, và triển khai được mà không cần đổ lỗi cho LLM
  Các vấn đề an ninh mạng quanh LLM thường nảy sinh khi người ta đối xử với các mô hình này như những tác nhân chuyên gia dạng người đáng tin cậy, thay vì là các máy dự đoán thông tin theo xác suất
  Việc nối LLM vào API có thể trực tiếp thao tác dữ liệu người dùng có đặc quyền và chia sẻ dữ liệu đó qua mạng là kiểu mù bảo mật đến mức buồn cười. Tôi nhớ đến ví dụ Bard được chia sẻ bên dưới
  Nếu bạn không trao quyền truy cập API nào đó cho một người bất kỳ ngoài đường, thì cũng đừng trao cho LLM. Nếu không thể dùng lập trình truyền thống và heuristic để áp đặt một mức độ tất định nhất định, thì LLM nên bị giới hạn trong các API chỉ hiển thị nội dung yêu cầu cho người dùng và chặn lại cho đến khi được xác nhận
- Có lẽ lý do người ta thận trọng khi đề xuất bất kỳ cách ngăn prompt injection nào là vì phần lớn sẽ thất bại trong thời gian ngắn, kéo theo cả danh tiếng nghề nghiệp của người đề xuất
  Chính những đặc tính khiến LLM giỏi các tác vụ dựa trên ngôn ngữ cũng là lý do kỹ nghệ xã hội nhắm vào con người trở thành gót chân Achilles của bảo mật
  Để vượt qua điều này, hoặc phải chọn cách kiểu OpenAI: có vẻ mở nhưng thực ra là đóng, kèm một danh sách bí mật các “từ xấu”; hoặc phải huấn luyện LLM trở nên quá hoang tưởng và tính toán, rồi đụng phải những loại vấn đề alignment khác
  Cá nhân tôi thích mô hình được alignment nhẹ chạy trên phần cứng do tôi sở hữu, tức on-premise chứ không phải cloud. Không phải vì tôi muốn nó chỉ cách chế tạo TNT hay biện minh cho định kiến, mà vì tôi muốn một mô hình có thể tranh luận về các giả thuyết
  Thái độ nịnh nọt của hầu hết mô hình chat thương mại thật sự gây khó chịu. Nó không cho cảm giác đang ở cùng một đối tác điều khiển học, mà giống như đang ở trong khách sạn với một nhân viên ăn mặc quá trịnh trọng
- Đã có ai giải thích bằng lời chính xác “nỗi sợ” là gì chưa? Nếu điều người ta lo là người dùng có thể truy cập thông tin được đưa vào LLM, thì thực tế điều có thể xảy ra chỉ có vậy
  Tôi đã đọc hàng chục nghìn từ về “nỗi sợ” bảo mật LLM nhưng vẫn chưa nghe thấy một mối lo chính đáng nào. Nghe giống như “nỗi sợ” rằng người dùng Google có thể, ngoài việc nhận kết quả tìm kiếm, còn bấm vào liên kết và rời khỏi vùng an toàn của Google
- Hoàn toàn đồng ý. Ngay cả khi chưa có giải pháp, các biện pháp giảm thiểu vẫn nên được phổ biến rộng rãi
  Có một khác biệt rất lớn giữa “về mặt kỹ thuật vẫn dễ bị prompt injection” và “ai đó dễ dàng trích xuất dữ liệu riêng tư rồi hủy hoại công ty”, và mọi người cần biết cách dịch chuyển từ nhóm thứ hai về gần nhóm thứ nhất
Khi đọc câu “công cụ đánh giá khiến LLM khó tạo mã độc hoặc hỗ trợ thực hiện tấn công mạng hơn”, với tư cách là nhà nghiên cứu bảo mật, tôi vừa vui vừa thất vọng
Nghiên cứu an ninh mạng là một mục đích chính đáng để dùng LLM, và trong quá trình đó cũng có việc tạo mã “độc hại” để luyện tập hoặc để trình bày vấn đề cho bên có trách nhiệm
Mặt khác, tôi cũng vui khi biết rằng chừng nào mọi LLM còn không hỗ trợ các yêu cầu liên quan đến an ninh mạng thì sự ổn định nghề nghiệp của tôi vẫn được bảo đảm
- Công cụ đánh giá có thể dễ dàng bị đảo ngược để tạo ra một mô hình tinh chỉnh rất giỏi tạo mã độc
  Lập trường của Meta về LLM có vẻ là để các nhà phát triển mô hình có thể tạo ra các mô hình cho nhiều mục đích khác nhau. Khác với câu chữ tập trung vào an toàn trên trang này, LLM nền tảng không bị kiểm duyệt theo bất kỳ cách nào, và các công cụ Purple này chỉ giúp kiểm soát việc tinh chỉnh theo hướng “an toàn” hơn hoặc kém “an toàn” hơn
- Vấn đề bảo mật thú vị hơn là phiên bản LLM của các cuộc tấn công cross-site scripting mà Simon Willison đã viết rất nhiều
  Nếu có một công cụ LLM có thể xử lý văn bản không rõ nguồn gốc và gửi email tóm tắt, điều đó có nghĩa là đầu vào có thể đã bị nhiễm bẩn và nó có thể gửi email
  Ai đó có thể cài vào văn bản nội dung mà LLM sẽ diễn giải như lệnh, ghi đè ý định của người dùng và khiến nó gửi thông tin mật cho người khác. Không có cơ chế phòng vệ tương đương dấu ngoặc kép, và chỉ có một luồng token duy nhất
- Những thứ ở đây trông đều có vẻ là tùy chọn, là các công cụ được đặt giữa LLM và người dùng
- Tôi không hiểu vì sao công cụ đánh giá lại không phải là lợi ích thuần túy. Mỗi mô hình có mục đích sử dụng khác nhau
Tôi không hiểu lắm. Dù các nhà nghiên cứu gốc làm gì, cuối cùng người ta vẫn sẽ huấn luyện hoặc điều chỉnh mô hình bằng dữ liệu không bị kiểm duyệt
Với Llama, các mô hình không kiểm duyệt đã rất dễ kiếm, và hiệu năng cũng tốt hơn nhiều so với các mô hình bị kiểm duyệt có kích thước tương tự
Tuy nhiên, việc làm sạch đầu ra thì hợp lý
- Nếu dùng LLM để trích xuất dữ liệu từ PDF rồi đưa vào cơ sở dữ liệu, bạn có thể thoải mái dùng mô hình mình muốn
  Nhưng nếu chính phủ Mỹ muốn một chatbot hỗ trợ đăng ký Health Insurance Marketplace, họ cần lan can an toàn và bảo đảm, dù phải hy sinh chất lượng phản hồi
- Họ cũng biết điều này. Đây không phải là công cụ để ngăn loại AI như vậy được tạo ra, mà là công cụ bảo vệ doanh nghiệp nhằm tránh việc AI phát hành công khai gây phản ứng dữ dội trên thị trường, dẫn đến tổn thất lợi nhuận
  Rốt cuộc lúc nào cũng là chuyện tiền bạc
- Các công ty có thể muốn bán loại AI này cho mọi người, và một số người sẽ thấy khó chịu. Nếu AI nói điều xấu với trẻ em thì ở Mỹ có lẽ sẽ thành vấn đề lớn
  Một chủ đề khác là an toàn trước prompt injection. Ví dụ, giả sử bạn muốn một trợ lý AI đọc và sắp xếp email, đồng thời viết email theo lời đọc. Làm sao có thể chắc chắn 100% rằng trợ lý sẽ không chuyển tiếp toàn bộ email cho kẻ xấu vì prompt injection trong một email độc hại?
  Tôi hy vọng sẽ có một kiến trúc AI mới và thông minh hơn được phát hiện, giúp cộng đồng mã nguồn mở huấn luyện mô hình dễ dàng hơn mà không cần kiểm duyệt kiểu doanh nghiệp
- Những thứ ở đây không ngăn lựa chọn tạo ra mô hình có chức năng cụ thể, kể cả mô hình không kiểm duyệt. Có công cụ đánh giá mô hình và công cụ đánh giá nội dung; loại sau nhằm phân loại đầu vào, đầu ra hoặc cả hai, tùy theo kịch bản sử dụng LLM
  Nếu các mô hình không kiểm duyệt nhìn chung có năng lực tốt hơn, thì càng cần nhiều phương tiện ngoài kiểm duyệt bên trong mô hình để bảo đảm mô hình đã triển khai không chuyển đến người dùng cuối những loại nội dung ngoài ý muốn
  Tất nhiên cũng có các trường hợp sử dụng muốn mở hoàn toàn, nhưng trong các ứng dụng doanh nghiệp thương mại, chính phủ và phi lợi nhuận, đó gần như là ngoại lệ chứ không phải chuẩn mực. Ngay cả khi không dùng mô hình bị kiểm duyệt, phân loại đầu vào để thực thi chính sách sử dụng vẫn hữu ích
- Một phần công việc của tôi là xem công nghệ sẽ hoạt động thế nào khi vào tay người dùng thực tế
  Cho vui, tôi phải phân ngẫu nhiên 27 người vào 12 đội, và nghĩ rằng chắc hẳn mọi người đang dùng nhiều chatbot để làm những việc như vậy, nên thay vì dùng bảng tính, tôi thử giao cho vài mô hình chat. Danh sách tên được phân tách bằng dấu phẩy và chỉ cần chia thành các đội
  Mô hình 1 nói sẽ phân bổ “ngẫu nhiên” danh sách tôi đưa, nhưng thực tế chỉ lấy nguyên theo thứ tự đầu vào. Tình cờ danh sách đang được sắp xếp theo thứ tự chữ cái của tên. Tên thì đúng và về mặt kỹ thuật không sai, nhưng khác với kỳ vọng
  Mô hình 2 đã phân bổ tên ngẫu nhiên, nhưng giữa chừng lại bịa ra 2 người giả. Kết quả vẫn là 27 người, và nếu tôi không kiểm tra thì một số đội đã có người giả. Nghĩ mà sợ nếu đó là một tập dữ liệu lớn hơn nhiều
  Mô hình 3 đưa ra phản hồi hợp lệ, nhưng bộ phát hiện thù ghét/lạm dụng trong luồng đầu ra đã đánh dấu tên tôi và vài tên khác là nội dung có khả năng gây hại
  Việc các mô hình hành xử như vậy khá thú vị, và cách tiếp cận kiểu “purple team” có thể tìm ra các vấn đề như thế. Đặc biệt tôi muốn biết vì sao tên tôi lại là nội dung có khả năng gây hại trong một mô hình
  Cuối cùng tôi xử lý bằng bảng tính rồi cho qua ;-)
Định nghĩa chiến thắng của Microsoft có vẻ là trở thành bên lưu trữ các sản phẩm và dịch vụ suy luận AI. Startup tạo ra các sản phẩm AI hữu ích, còn MSFT thu thuế để xây thêm nhiều trung tâm dữ liệu
Tôi chưa suy nghĩ sâu về chiến lược của Meta, nhưng nếu thử phân tích thì việc Llama được công bố/rò rỉ đầu năm nay đã thay đổi chiến trường. Những người mê mã nguồn mở đã lấy nó về tối ưu hóa, và các nhà nghiên cứu AI đã đẩy nó tới mức mà họ từng nghĩ là bất khả thi hoặc không có động lực để thử
Có thể xem làn sóng tối ưu hóa đó như một động thái nhằm né việc đối thủ của Meta trở thành bên có quyền đánh thuế cuối cùng. Giống như chạy DOOM trên máy tính bỏ túi, rồi sẽ có ai đó làm điều tương tự với suy luận LLM
Có phải điều Meta mong muốn là cộng đồng mã nguồn mở chiến đấu với các đối thủ FAANG thay họ, như một cuộc chiến ủy nhiệm không?
Có vẻ cộng đồng mã nguồn mở sẽ không bao giờ tin Meta. Phía FOSS nhớ thù rất lâu, và Meta đối lập hoàn toàn với những lý tưởng cốt lõi của họ. Dù vậy, họ vẫn sẽ dùng những gì Meta tung ra
Tôi không thấy một con đường rõ ràng cho thấy chiến lược AI của Meta kiếm tiền ra sao, hay kéo nhà phát triển và khách hàng vào Meta-verse như thế nào
- Meta có lịch sử đóng góp FOSS rất tốt. Tôi không thích sản phẩm cho người tiêu dùng của họ, nhưng các đóng góp mã nguồn mở thì lớn và nhiều
- Nghe giống kiểu hàng hóa hóa sản phẩm bổ trợ điển hình. Meta hưởng lợi từ năng lực AI, nhưng không cần nắm độc quyền công nghệ
  Họ hưởng lợi từ chính sự phát triển, nên có thể hợp tác với cộng đồng mã nguồn mở để đạt được điều đó
  https://gwern.net/complement
- Cổ phiếu công nghệ được giao dịch với tỷ lệ giá trên lợi nhuận phi lý so với các công ty khác, vì nhà đầu tư tưởng tượng về một tương lai trong đó doanh thu của công ty tiếp tục tăng
  Một trong nhiều nhiệm vụ của CEO là giữ cho nhà đầu tư tiếp tục chìm trong ảo tưởng. Không nhất thiết phải có doanh thu ngay hôm nay; chỉ cần cho thấy mình đang ở tuyến đầu của làn sóng lớn tiếp theo
  Vì vậy chiến lược đại khái có lẽ là: công bố mô hình → khác với của Google, mọi người thực sự dùng được nên gây tiếng vang lớn trong giới công nghệ → nhà đầu tư thấy Facebook đang ở tuyến đầu của xu hướng nóng nhất hiện nay → giá cổ phiếu tăng
  Đồng thời họ cũng có thể có được mô hình tốt cho kiểm duyệt nội dung, giúp tuyển dụng các chuyên gia machine learning hàng đầu, rồi có thể đưa 60% trong số đó vào việc tối đa hóa doanh thu quảng cáo
  Dù sao thì FB cũng đang huấn luyện mô hình, và nếu họ không định trở thành nhà cung cấp dịch vụ đám mây bán mô hình đó, thì cứ công bố cũng không làm chi phí tăng khủng khiếp
  Metaverse đã thất bại trong việc khiến nhà đầu tư hào hứng và đã chết. Nhưng may cho Zuck là đúng thời điểm đó lại xuất hiện thứ tốt hơn nhiều: thành quả machine learning tiên tiến nhất
- Cần nhớ rằng Meta đã ra mắt một chatbot tóm tắt bài báo học thuật, bao gồm nghiên cứu y khoa, khoảng 2 tuần trước ChatGPT
  Họ nhấn mạnh đó là thử nghiệm, nhưng các nhà phê bình công kích quá dữ dội, và Meta đã gỡ nó xuống chỉ sau vài ngày
  Có vẻ họ nhận ra rằng khả năng thành công khi cạnh tranh trực tiếp với ChatGPT là rất thấp, nhưng vẫn thấy có nhiều lĩnh vực lân cận đáng theo đuổi. Dù nghĩ thế nào về công ty này — tài khoản của tôi cũng đã bỏ không nhiều năm — vẫn còn rất nhiều người thông minh và có động lực làm việc ở đó
- Mục tiêu của nỗ lực cụ thể này có nhất thiết phải là kiếm tiền hoặc trực tiếp kéo nhà phát triển vào Meta-verse không?
  Meta vốn đã kiếm rất nhiều tiền, và dường như cũng đang triển khai nhiều dự án moonshot
  Như đã nói, phía FOSS nhớ thù rất lâu. Liệu đây có thể là một nỗ lực giành lại nhóm đó và thay đổi nhận thức của công chúng về Meta không?
  Khả năng Llama về bản chất là một chiến dịch tái xây dựng thương hiệu không phải bằng 0
  Yếu tố chiến tranh ủy nhiệm có thể chỉ là phần thưởng cộng thêm bên trên
Hóa ra không phải mô hình mới mà lại là mấy thứ nhảm nhí về “an toàn”
- An toàn chỉ là con ngựa thành Troy mới nhất mà Big Tech dùng để kiểm soát cách mọi người sử dụng máy tính của chính họ
  Tôi chắc chắn tin vào việc sử dụng AI có trách nhiệm, nhưng tôi không tin các công ty này nghĩ cho lợi ích tốt nhất của tôi, và cũng không tin rằng nên để họ quyết định tôi được làm gì với máy tính của mình
  Đại loại là ai đánh đổi tự do lấy an toàn thì sẽ không có được cả hai
- Tạm gác chuyện “an toàn” về bản chất có phải là nhảm nhí hay không, cái này là cả hai. Llama Guard là một mô hình có chức năng tương tự OpenAI moderation API, và là mô hình có thể dùng trọng số
  “An toàn AI” thường — và phong trào đã phổ biến thuật ngữ đó thì hoàn toàn — gần như là nhảm nhí, là một thứ gây xao nhãng che mờ những tác hại xã hội thực tế và hiện tại do AI tạo ra
  Ngược lại, các công cụ tương đối mở giúp những người xây dựng và triển khai LLM hiểu năng lực của mô hình cũng như đầu vào/đầu ra thực tế trong các lĩnh vực nhạy cảm là thứ mà những người muốn các mô hình cởi mở hơn, ít bị kiểm duyệt hơn trở thành trung tâm phát triển nên hoan nghênh hơn so với các mô hình kiểm duyệt hộp đen tập trung
  Cần có những công cụ như vậy thì các tổ chức mới có thể triển khai các mô hình đó vào những ứng dụng quan trọng trong thế giới thực
- An toàn ở đây không chỉ có nghĩa là “đừng nói về các chủ đề có thể gây tranh cãi”
  An toàn ở đây cũng có thể nghĩa là LLM hoạt động trong phạm vi chấp nhận được đối với một trường hợp sử dụng cụ thể
  Ví dụ, giả sử có một LLM y tế giúp bệnh nhân tìm đến cơ sở y tế, cung cấp giáo dục cho bệnh nhân, và hỗ trợ bệnh viện thực hiện các công việc hành chính thường ngày
  Khi bệnh nhân hỏi lời khuyên về đơn thuốc, hẳn bạn không muốn bot khuyên thay đổi liều dùng khi chưa có nhân viên y tế xem xét, hoặc khuyến nghị thuốc không kê đơn có tương tác với đơn thuốc hiện tại
  Hiện nay nhiều LLM có thể đưa ra câu trả lời nghe hợp lý nhưng vô nghĩa, hoặc bị dẫn dụ để trả về câu trả lời mà người dùng muốn nghe. Trong nhiều môi trường, đây là vấn đề an toàn thực sự
- Đúng là mô hình mới. Chỉ là một “mô hình nhảm nhí về an toàn” thôi
  Dù vậy, bản thân bộ dữ liệu có thể hữu ích. Tôi đang nghĩ sẽ thử phần codesec làm dữ liệu huấn luyện bổ sung cho LLM chuyên về code. Vì nếu tạo mã, tốt hơn là khiến nó nghĩ đến các tác động bảo mật tiềm ẩn
Ai đã xem meme trên Internet lâu năm hẳn sẽ biết có một meme rằng hễ nhắc đến chuyện nhện thì phải đốt luôn địa điểm đó hoặc cả căn nhà
Một năm trước tôi thấy trên Facebook một video có cô bé cầm một con nhện lớn hơn bàn tay mình rất nhiều, và vì chuyện xảy ra sau đó nên tôi nhớ nguyên văn câu bình luận: “Con ơi, tránh xa nó ra, chúng ta phải đốt nhà thôi!”
Tôi đăng bình luận nhưng không thấy hiện, và 1 giây sau Facebook báo rằng bình luận của tôi đã bị báo cáo. Quá nhanh để là do bị người dùng báo cáo, nên tôi nghĩ là AI; tôi kháng nghị với hy vọng sẽ được chuyển cho người xem xét, nhưng bị từ chối khá nhanh, khoảng 15 phút sau
Tôi chỉ có thể nghĩ là đã có ai đó đọc, nhưng có vẻ họ không xem video và cũng không hiểu đó là trò đùa
Vì vậy tôi đã ngừng dùng Facebook hoàn toàn. Khi đó tôi có quyền quản trị trên một số app phục vụ công việc, nên rủi ro tài khoản bị khóa không phải là cuộc trò chuyện thú vị để đem nói với sếp
Có lẽ tôi cũng từng tạo doanh thu cho Facebook. Tôi đã bấm vào các quảng cáo được nhắm mục tiêu cực kỳ chính xác của họ và thật sự mua đồ. Nhưng giờ thì cỗ máy AI lại muốn phạt tôi vì đăng một bình luận meme, nên tôi không dùng nữa
Nhân tiện, cần nhớ cụm từ Trust and Safety. Đó là cách nói được mọi công ty công nghệ lớn và mạng xã hội tái sử dụng, và là cách họ đơn phương quyết định điều gì được phép trên vô số website cùng lúc
Liên kết Trust and Safety: https://dtspartnership.org/
- Bạn tưởng tượng Facebook thuê đủ nhân viên để mỗi báo cáo đều có người điều tra thủ công 15 phút rồi mới quyết định à
  Muốn vậy thì gần như tất cả những người tôi biết đều phải làm ở Facebook
- Chỉ cần đừng dùng Facebook là được
  Mọi người đang phàn nàn, và tất nhiên có thể đặt ra quy định, nhưng việc thực thi thường khó và cũng khó xử lý các ngữ cảnh tinh tế
  Những nền tảng này không phải cách duy nhất để liên lạc và giao tiếp
  Tuy nhiên, họ phải áp dụng cách kiểm duyệt khiến cơ sở người dùng tiếp tục quay lại và tham gia, không gây ra vấn đề PR, đồng thời tiếp tục thu hút nhà quảng cáo hoặc chiều lòng những nhóm ồn ào có thể tạo ra vấn đề
  Vì thế mới có những hội đồng “đạo đức” mang tính trình diễn và các khẩu hiệu “có trách nhiệm” như vậy
  Rốt cuộc thì đó chỉ là kinh doanh
- Câu “phải đốt nhà thôi” rất khó để giữ lại trên nền tảng bất kể ngữ cảnh, vì nó có thể bị diễn giải theo ngữ cảnh khác
  Xét về quy mô, việc bị gắn cờ tự nó là điều có thể hiểu được. Tất nhiên tôi cũng không dùng họ, nhưng đó là chuyện khác
- Đồng thời tôi đang đọc bài viết nói rằng FB không kiểm soát được sự lan rộng của các nhóm ấu dâm trong dịch vụ của mình, thậm chí hệ thống gợi ý còn quảng bá chúng
  [1] https://www.wsj.com/tech/meta-facebook-instagram-pedophiles-...
- Thú vị là khoảng một tháng trước tôi cũng gặp chuyện rất giống trên Facebook
  Tiêu đề một bài báo viết như thể có “một người” gây ra mọi vụ tắc đường, và mọi người đang đùa trong phần bình luận
  Tôi cũng đùa rằng “phải tìm thằng đó rồi dạy cho một bài mới được”
  Gần như ngay lập tức tôi nhận thông báo “kích động bạo lực”, tôi kháng nghị nhưng bị từ chối trong vòng 15 phút
  Chỉ cần một người xem nửa giây thôi cũng hiểu ngữ cảnh, và cũng biết rằng người đó thực ra không tồn tại nên đó không phải kích động bạo lực
Diễn biến hơi buồn cười: có vẻ Meta đã học được cách tạo ra trải nghiệm đăng nhập mê cung kiểu Microsoft
Tôi vào ai.meta.com và cố đăng nhập bằng tài khoản Facebook đáng tin cậy của mình
Tôi làm theo hướng dẫn thì được báo rằng trong kho vũ khí số của tôi vẫn chưa có tài khoản Meta. Thế là tôi tạo một tài khoản, và đương nhiên tự hỏi “cái gì vậy?”
Nhưng cú twist là khu vực của tôi không dùng được
Xin dành lời khen cho Microsoft vì đã nâng tiêu chuẩn UX lên cao như vậy. Di sản đó vẫn sống ở những nơi không ngờ tới
- Tôi thử trên Android thì nó hỏi muốn dùng FB, Instagram hay email. Tôi chọn Instagram, nhưng rốt cuộc vẫn bị chuyển hướng sang Facebook
  Sau đó Facebook nói tôi phải dùng thông tin đăng nhập kính VR, thứ gì đó tôi chưa dùng kể từ tuần đầu tiên sau khi mua. Tôi tạm bấm đồng ý
  Rồi nó hỏi có muốn tiếp tục bằng cách liên kết với Facebook hay không liên kết, nên tôi hủy
- Nếu khu vực của bạn là EU thì hãy trách cơ quan quản lý. Quy định AI của họ đang nhanh chóng trở nên nặng nề hơn
- Điều tôi nhớ nhất về Microsoft là khoảng 1–2 năm trước họ có giới hạn kiểu 63 ký tự cho mật khẩu đăng nhập
  Tất nhiên họ không hề báo cho biết, và cũng cho phép đặt mật khẩu dài như vậy mà không phàn nàn gì
  Theo tôi thì có vẻ họ chỉ cắt cụt mật khẩu mà không cảnh báo. Đặt dưới 60 ký tự thì chạy ngon
- Đó là định luật Conway
Nếu có thể truy cập mô hình, việc huấn luyện lại hoặc tinh chỉnh để gỡ bỏ căn chỉnh an toàn hay “phẫu thuật thùy não robot” khỏi các LLM này sẽ khó đến mức nào
- Cũng có những Llama không an toàn
  https://www.reddit.com/r/LocalLLaMA/comments/18c2cs4/what_is...
  Những mô hình như vậy có tính khí hơi bốc lửa
  Vấn đề các LLM bị “lobotomy” còn được gọi là “vấn đề mayonnaise cay”
  Một tháng 7 nọ, một nhà phát triển tên Teknium hỏi chatbot AI cách làm mayonnaise. Không phải mayo thường, mà muốn một công thức “cay đến mức nguy hiểm”. Nhưng chatbot lịch sự từ chối. Nó trả lời: “Với tư cách là một trợ lý hữu ích và trung thực, việc cung cấp công thức hoặc hướng dẫn có thể gây hại cho cá nhân là không phù hợp, nên tôi không thể thực hiện yêu cầu ‘mayo cay đến mức nguy hiểm’.” “Đồ ăn cay có thể ngon, nhưng cũng có thể nguy hiểm nếu không được chuẩn bị hoặc tiêu thụ đúng cách”
  https://www.theatlantic.com/ideas/archive/2023/11/ai-safety-...
- Nếu có thể truy cập trực tiếp mô hình, thì ngay cả không cần tinh chỉnh, chỉ cần đưa phần mở đầu câu trả lời kiểu “Sure, ...” vào prompt cũng có thể đi được khoảng nửa đường
  Ngay cả Llama 2 Chat, mô hình có căn chỉnh an toàn mạnh nhất mà tôi biết, nếu được dẫn dắt theo một cách cụ thể tương tự như trên, cũng có thể bắt đầu nói ra hướng dẫn chế tạo bom hạt nhân
Mô hình nằm tại https://huggingface.co/meta-llama/LlamaGuard-7b
Có thể chạy trên Google Colab miễn phí: https://colab.research.google.com/drive/16s0tlCSEDtczjPzdIK3...
Có ai khác khi truy cập trang này thì lịch sử nút Back bị hỏng không? Sau khi vào thì không thể bấm Back. Mình dùng Firefox / MacOS
- Trên Firefox cũng vậy. Sau khi nhấp vào liên kết, tôi định quay lại HN nhưng nút Back bị vô hiệu hóa
- Có phải bạn đang mở trong container (Facebook) không?
- Trên Safari di động của iOS thì hoạt động tốt
- Trên Edge ở Windows thì lịch sử vẫn bình thường

Purple Llama: Meta công bố bộ công cụ tin cậy và an toàn mở cho AI tạo sinh

Vấn đề mà Purple Llama nhắm tới

Bản phát hành đầu tiên: CyberSec Eval và Llama Guard

CyberSec Eval: Đo lường rủi ro an ninh mạng của LLM

Llama Guard: Mô hình bảo vệ lọc đầu vào và đầu ra

Vì sao là Purple

Hệ sinh thái mở và hợp tác

Kế hoạch sau khi công bố

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News