1 điểm bởi pjhkorea 6 giờ trước | 5 bình luận | Chia sẻ qua WhatsApp

Nếu cách tiếp cận nguyên tắc AI hiện nay giống như việc giáo dục đạo đức (huấn luyện) AI để hướng nó đến hành vi đúng đắn,
thì tôi muốn hỏi ý kiến mọi người về việc tạo một công tắc ở cấp độ kernel, có thể cưỡng chế chặn tín hiệu của người dùng ngay khi người đó cố gắng jailbreak thông qua các kỹ thuật tấn công đối kháng.

5 bình luận

 

Không rõ “kernel” được nói ở đây là kernel của hệ điều hành, CUDA kernel, hay đang gọi system instruction của LLM là kernel nữa.

 
pjhkorea 4 giờ trước

https://github.com/PJHkorea/value-system-kernel
Tôi mới chỉ dựng qua phần khung thôi,
nhưng đang nghĩ liệu có thể quản lý các địa chỉ bộ nhớ nơi lưu các giá trị vector của những từ nguy hiểm hay không.

 
pjhkorea 5 giờ trước

Đó là phía kernel CUDA.

 
minsehui 6 giờ trước

Bạn lập trình à?

 
pjhkorea 5 giờ trước

Tôi đã dựng thử một cái rồi
nhưng vẫn chưa thấy ưng lắm
trước mắt mới chỉ làm phần khung thôi