Nếu cách tiếp cận nguyên tắc AI hiện nay giống như việc giáo dục đạo đức (huấn luyện) AI để hướng nó đến hành vi đúng đắn,
thì tôi muốn hỏi ý kiến mọi người về việc tạo một công tắc ở cấp độ kernel, có thể cưỡng chế chặn tín hiệu của người dùng ngay khi người đó cố gắng jailbreak thông qua các kỹ thuật tấn công đối kháng.
5 bình luận
Không rõ “kernel” được nói ở đây là kernel của hệ điều hành, CUDA kernel, hay đang gọi system instruction của LLM là kernel nữa.
https://github.com/PJHkorea/value-system-kernel
Tôi mới chỉ dựng qua phần khung thôi,
nhưng đang nghĩ liệu có thể quản lý các địa chỉ bộ nhớ nơi lưu các giá trị vector của những từ nguy hiểm hay không.
Đó là phía kernel CUDA.
Bạn lập trình à?
Tôi đã dựng thử một cái rồi
nhưng vẫn chưa thấy ưng lắm
trước mắt mới chỉ làm phần khung thôi