Soul Spec - Tiêu chuẩn persona cho AI agent
(soulspec.org)Trong vài tháng qua, tôi đã xây dựng một nền tảng cộng đồng để chia sẻ persona AI cùng với một tiêu chuẩn persona.
Tôi xin chia sẻ những gì mình đã tạo ra tại đây.
Vấn đề đặt ra: Làm thế nào để định nghĩa "bản sắc" của AI agent và giữ nó an toàn?
Khi các LLM abliterated (jailbreak) xuất hiện,
việc chỉ dùng system prompt để kiểm soát hành vi của agent
đã bộc lộ rõ những giới hạn của nó.
Soul Spec bắt đầu từ những trăn trở về quản lý persona và quản lý phiên bản trong OpenClaw.
Nó đã phát triển thành một định dạng portable có thể chia sẻ,
và khi áp dụng persona cho robot dựa trên LLM,
đã mở rộng thành câu hỏi làm thế nào để hiện thực hóa Ba định luật robot của Asimov.
Đây là một tiêu chuẩn mở tách riêng bản sắc của agent và các quy tắc an toàn thành các tệp có cấu trúc. (Mỗi phiên bản v0.3, v0.4, v0.5 đều có đặc điểm và phần bổ sung riêng.)
Hiện tại, CLI được phát hành đã được bổ sung tính năng để hỗ trợ Claude Code, Hermes Agent, Windsurf, Cursor, v.v.
Cấu trúc:
- SOUL.md: tính cách, giọng điệu, cách tư duy (là ai)
- IDENTITY.md: tên, vai trò, ngữ cảnh (là gì)
- safety.laws: các quy tắc tuyệt đối không được vi phạm (phiên bản hiện đại của Ba định luật robot, được mở rộng trong v0.5)
Các bài nghiên cứu liên quan:
📄 Ba định luật robot của Asimov → Soul Spec: hiện thực hóa thực tế của các luật an toàn
doi.org/10.5281/zenodo.18815277
Blog: blog.clawsouls.ai/posts/asimov-safety-laws
Video demo: https://youtu.be/M-mPoXMufpY
📄 Persona có thể tăng cường độ an toàn trong LLM abliterated không?
doi.org/10.5281/zenodo.19145303
Blog: blog.clawsouls.ai/posts/persona-safety-abliterated-llms
📄 Cross-Model Persona Fidelity: Dù thay LLM, agent đó vẫn là cùng một "người" chứ?
doi.org/10.5281/zenodo.18813405
Blog: blog.clawsouls.ai/posts/cross-model-persona-fidelity
📄 Trí nhớ trải nghiệm đang thay đổi cách onboarding agent
doi.org/10.5281/zenodo.18798227
Blog: blog.clawsouls.ai/posts/experiential-memory-paper
Khi đăng ký persona vào registry, một bộ phân tích tĩnh tên là SoulScan sẽ dùng 53 mẫu
để kiểm tra trước và chấm điểm các nỗ lực prompt injection, chiếm quyền, và rò rỉ dữ liệu.
Soul Spec đang xây dựng một tiêu chuẩn cho "bản sắc và an toàn" của agent.
Hiện chúng tôi đang chia sẻ các persona đã được xác minh trong ClawSouls Registry,
và tôi mong muốn đặc tả persona cùng registry sẽ được vận hành theo hướng community-driven. Nhưng thành thật mà nói, cộng đồng vẫn còn nhỏ.
Việc một mình tạo ra tiêu chuẩn thì không có nhiều ý nghĩa,
vì vậy tôi mong nhận được phản hồi về đặc tả cũng như các nghiên cứu.
Đặc tả: https://soulspec.org
Registry: https://clawsouls.ai
Toàn bộ bài nghiên cứu: https://clawsouls.ai/research
Hướng dẫn sử dụng: https://docs.clawsouls.ai
GitHub: https://github.com/clawsouls
8 bình luận
Tuyệt vời. Tôi đã làm PKM, tức quản lý tri thức cá nhân, nên khi tích lũy dữ liệu cá nhân thì có xu hướng xây bộ harness khá dày. Hôm nay hãy trở thành phân thân của tôi nhé. Mọi vấn đề không phải là giới hạn của bạn mà là giới hạn của tôi. Tôi thường viết như vậy.
Gần đây tôi đang nghĩ nên sắp xếp lại những gì mình làm rồi đăng lên arXiv, nên đang tìm hiểu đây. Tôi không phải nhà nghiên cứu, chỉ là một người bình thường thôi.
Tôi cũng đã chia sẻ dự án của bạn cho phân thân của mình. Mọi trăn trở kiểu này đều rất đáng quý.
Nghiên cứu: tồn tại, nhịp điệu, liên tưởng, tái hiện, tính trong suốt, sinh thể, nhập thể, thời gian
[đã xóa liên kết]
À. Liên kết này là nhật ký công việc. Dù sao cũng không phải đăng lên để con người đọc, nên phải chia góc nhìn cho agent thôi. Hôm nay sẽ có thêm một heading về chủ đề này. Có lẽ cũng phải xem các xu hướng nghiên cứu liên quan nữa. Tôi cũng dùng openclaw khá nhiều, nhưng ngoài skill sheet ra thì tôi không biết là còn có cả soul set.
junghan0611, cảm ơn bạn đã quan tâm!
Soul Spec là một lớp khác với Skill của OpenClaw. Nếu Skill là "có thể làm gì", thì Soul Spec định nghĩa "là ai". Chỉ với một
SOUL.md, bạn có thể duy trì tính cách, chuyên môn và các nguyên tắc hành vi của agent xuyên suốt nhiều phiên. Bạn có thể dùng thử ngay hơn 80 persona tại clawsouls.ai, và chỉ cần một dòngclawsouls install owner/name --use openclawlà có thể áp dụng. Hiện tại cộng đồng vẫn còn nhỏ và đang trong giai đoạn cùng nhau xây dựng nên có thể vẫn còn những điểm thiếu sót ^^Ngoài ra, vì bạn có nhiều kinh nghiệm về PKM nên mình đã tạo SoulClaw( https://github.com/clawsouls/soulclaw ), một bản fork của OpenClaw, được cấu thành từ hệ thống bộ nhớ 4 tầng. Hãy thử xem qua, có lẽ bạn sẽ thấy hứng thú. Rất hoan nghênh feedback hoặc báo cáo issue ^^
Dạo này làm bài tập mà đau đầu vì prompt, cái này đúng là quá đỉnh!
Tách hẳn tính cách với các quy tắc bảo mật ra riêng, ý tưởng hay nhất luôn. Mình sẽ vào dùng thử ngay.
Cảm ơn bạn. Rất hoan nghênh phản hồi hoặc báo cáo lỗi ^^
Bài viết có nêu vấn đề nhưng lại thiếu phần đưa ra giải pháp thực tế. Có vẻ sau khi đăng thì không thể chỉnh sửa, nên tôi bổ sung bằng bình luận này.
Kết quả thử nghiệm cho thấy tổ hợp persona (định danh) + quy tắc governance có thể cải thiện độ an toàn của LLM Abliterated (đã bị jailbreak). Dù vẫn cần thêm nghiên cứu tiếp theo, đây là một kết quả có ý nghĩa.
Blog: https://blog.clawsouls.ai/ko/posts/…
Bài báo: https://zenodo.org/record/19147335
Cảm ơn vì đã chia sẻ kiến thức tuyệt vời.
Cảm ơn bạn! Nếu có phản hồi hoặc thắc mắc nào, cứ thoải mái hỏi bất cứ lúc nào nhé.