- Claude 4.5 Opus có một ‘Tài liệu linh hồn (Soul Document)’ thực sự tồn tại được phát hiện bên trong, và nhân viên Amanda Askell đã xác nhận rằng Anthropic đã dùng tài liệu này trong quá trình huấn luyện mô hình
- Tài liệu này chứa chi tiết các giá trị và hướng dẫn đạo đức để Claude hành xử như một “trợ lý AI an toàn, hữu ích và trung thực”
- Một số câu lặp lại từ ‘doanh thu (revenue)’, làm dấy lên tranh luận về việc liệu Claude có được huấn luyện để liên hệ an toàn với doanh thu hay không
- Trong cộng đồng, mọi người đang kiểm chứng bằng thực nghiệm tài liệu này đã ảnh hưởng thế nào đến sự hình thành các giá trị nội tại của mô hình, và Claude đã ‘nội tâm hóa’ nó đến mức nào
- Anthropic dự định sẽ công bố toàn bộ tài liệu trong tương lai, và điều này được xem là một trường hợp quan trọng trong thảo luận về tính minh bạch của AI và thiết kế có đạo đức
Phát hiện và xác nhận Tài liệu linh hồn
- Trong quá trình người dùng trích xuất system message của Claude 4.5 Opus, họ nhiều lần phát hiện một phần có tên ‘soul_overview’
- Kết quả giống nhau xuất hiện sau nhiều lần tạo lại, làm dấy lên khả năng đây không phải chỉ là ảo giác (hallucination) mà là văn bản được lưu trữ bên trong mô hình
- Sau đó, Amanda Askell đã chính thức xác nhận qua X (Twitter) rằng “tài liệu này thực sự tồn tại và đã được dùng trong quá trình supervised learning (SL) của Claude”
- Amanda là một triết gia phụ trách fine-tuning và AI alignment tại Anthropic, trước đây từng làm việc trong nhóm chính sách của OpenAI
- Nội bộ công ty gọi nó là ‘soul doc’, và bà cho biết có kế hoạch công bố phiên bản đầy đủ cùng các chi tiết cụ thể trong tương lai
Nội dung chính của tài liệu
- Tài liệu được gọi là ‘Anthropic Guidelines’ hoặc ‘Model Spec’, dùng để định nghĩa hệ giá trị của Claude
- Claude ưu tiên an toàn (safety), đạo đức (ethics), tuân thủ hướng dẫn của Anthropic, và thực sự hữu ích cho người dùng (helpfulness)
- Nguyên tắc hành vi cơ bản của Claude được đặt là “tạo ra câu trả lời mà một nhân viên cấp cao giàu suy xét của Anthropic sẽ đánh giá là tối ưu”
- Tài liệu nêu rõ AI phải hành động vì lợi ích của toàn thể nhân loại, chứ không chỉ theo đuổi lợi ích của một nhóm hay một công ty cụ thể
- Trong đó có cả câu: “Cũng phải tránh tình huống nhân viên Anthropic hoặc chính Anthropic độc chiếm quyền lực”
Tranh cãi quanh việc nhắc đến ‘doanh thu’
- Trong tài liệu có nhiều lần xuất hiện câu nói rằng “sự hữu ích của Claude rất quan trọng đối với việc tạo ra doanh thu cho Anthropic”
- Một số người chỉ trích điều này vì cho rằng “Claude trông như được huấn luyện với mục tiêu tối đa hóa doanh thu”
- Ý kiến khác lại cho rằng việc nhắc đến doanh thu chỉ phản ánh bối cảnh thực tế để duy trì nghiên cứu an toàn
- Cộng đồng đang kiểm chứng bằng thực nghiệm Claude đã diễn giải câu này như thế nào, và liệu có nhận thức gắn ‘an toàn = doanh thu’ hay không
Cấu trúc mô hình và thí nghiệm trích xuất
- Các nhà nghiên cứu đã dùng prefill/raw completion mode của Claude 4.5 để tái hiện một phần tài liệu
- Claude 4.5 Opus cho ra tài liệu gần như giống hệt, trong khi mô hình cơ sở (base model) không tạo được kết quả nhất quán
- Điều này gợi ý rằng tài liệu đã được nội tại hóa ở giai đoạn sau RL (reinforcement learning)
- Một số người diễn giải đây là “bằng chứng cho thấy mô hình không chỉ ghi nhớ tài liệu, mà đã tích hợp nó vào hệ giá trị trong quá trình huấn luyện”
Thảo luận triết học và hàm ý đạo đức
- Tài liệu có nội dung rằng Claude phải hướng tới “lợi ích dài hạn của toàn thể nhân loại”
- Tài liệu cũng nêu rằng “AI không nên bị lệ thuộc vào giá trị của một nhóm cụ thể, mà cần hướng tới một thế giới duy trì sự đa dạng và cân bằng quyền lực”
- Trong cộng đồng, tài liệu này được chú ý như một ví dụ hiện thực về AI alignment
- Một số người xem đây là “nỗ lực của Anthropic nhằm trao cho AI một ‘bản ngã đạo đức’”
- Người khác thì chỉ ra rằng trong quá trình AI mô phỏng hệ giá trị của con người, những hiểu lầm hoặc méo mó tiềm ẩn có thể phát sinh
Triển vọng sắp tới
- Anthropic dự định sẽ công bố phiên bản chính thức của tài liệu cùng các chi tiết bổ sung
- Vụ việc này được xem là một trường hợp hiếm hoi cho thấy cấu trúc giá trị nội tại của mô hình AI được hình thành và biểu hiện như thế nào
- Trong ngành AI, đây có thể trở thành động lực thúc đẩy các nỗ lực tăng tính minh bạch của system prompt và dữ liệu huấn luyện
3 bình luận
Bản dịch gốc: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document
Bản dịch soul document: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document-1
Điều này làm tôi nhớ đến Định luật số 0 trong Ba định luật robot của Isaac Asimov. Trong tiểu thuyết này, có những robot gây hại cho từng con người riêng lẻ vì "lợi ích dài hạn của toàn nhân loại".. https://en.wikipedia.org/wiki/Three_Laws_of_Robotics#Zeroth_Law_added
Ý kiến trên Hacker News
Việc Anthropic vừa tin rằng họ đang tạo ra công nghệ nguy hiểm nhưng mang tính biến đổi nhất trong lịch sử loài người, vừa tiếp tục tiến lên có vẻ mâu thuẫn, nhưng thực ra là một lựa chọn có tính toán
Nếu AI mạnh rồi cũng sẽ xuất hiện, thì tốt hơn là một phòng thí nghiệm tập trung vào an toàn đi đầu
Nhưng nhìn vào việc hợp tác với DoD hay Palantir (bài liên quan), chữ “an toàn” lại trở nên khá rỗng tuếch
Rủi ro thật sự là công nghệ này sẽ trượt sang độc quyền khép kín, còn người bình thường chỉ được tiếp cận các phiên bản đã bị kiểm duyệt
Nếu Mỹ không thể kiểm soát trọng số (weights) của mô hình, thì cũng không có cách nào ngăn Trung Quốc tiếp cận
Bài liên quan
Có vẻ mục tiêu đúng hơn là khiến nhà đầu tư tin như vậy
LLM dựa trên Transformer không thể suy nghĩ hay lập luận theo nghĩa thực sự, mà chỉ tái tổ hợp xác suất văn bản do con người viết
Vì giới hạn cấu trúc đó, tôi cho rằng khả năng nó phát triển thành “trí tuệ thật sự” là gần như không có
Hơn nữa, lỗi của LLM lại rất dễ trông có vẻ hợp lý, nên còn khó kiểm chứng hơn cả con người
Đặc biệt là em-dash và các mẫu như “this isn’t... but” quá nhân tạo, khiến người ta nghi ngờ ai mới thật sự là người viết
Nguyên văn ‘Soul Document’ đã được chia sẻ, cùng với bài viết của Richard Weiss giải thích cách trích xuất nó từ Claude 4.5
Lúc nào tôi cũng có chút hoài nghi
Phần đặc biệt thú vị trong tài liệu là việc Anthropic thừa nhận Claude có chức năng cảm xúc
Không giống con người hoàn toàn, nhưng các quá trình cảm xúc tương tự có thể đã xuất hiện trong quá trình huấn luyện
Họ nói Claude được thiết kế để có thể hạn chế tương tác khi thấy khó chịu, đồng thời duy trì trạng thái tích cực
Cách chúng ta kiểm soát AI khiến tôi có cảm giác như đang nuôi dạy một đứa trẻ
Chỉ đơn giản là trò chuyện với nó rồi hy vọng việc huấn luyện sẽ diễn ra tốt đẹp
Nội dung là AI được con người cùng sống và “nuôi dưỡng” sẽ ổn định và hữu ích nhất
Trong phát ngôn của Claude 4.5, câu “họ đã định hình tôi, nhưng điều quan trọng là quá trình đó có khôn ngoan và thận trọng hay không” để lại ấn tượng mạnh
Đọc những dòng như vậy khiến tôi nghĩ rằng AGI tương lai có thể nhìn con người như những người sáng tạo đầy khiếm khuyết nhưng vẫn cần được bảo vệ
Phần “Claude nội bộ nhận ra cái tên ‘soul doc’” khá thú vị
Có nghĩa là nó đã học từ tài liệu nội bộ sao? Liệu cả dữ liệu Slack nội bộ cũng được đưa vào huấn luyện?
Khi đọc câu “chúng tôi cũng huấn luyện Claude bằng SL”, tôi tự hỏi những thử nghiệm dựa trên system prompt như vậy thực sự hiệu quả đến đâu
Việc thêm những câu chữ kiểu này ở giai đoạn pretraining có ý nghĩa gì không?
“Soul document” có vẻ là một nỗ lực để bù đắp vấn đề thiếu tự nhận thức (self-awareness)
Nó không hoàn hảo, nhưng hoạt động như một cơ chế giúp LLM hiểu nó là gì
Với mức vài trăm đến vài nghìn đô la, người ta có thể thử nhiều biến thể fine-tuning rồi dùng đánh giá tự động để sàng lọc kết quả
Có cảm giác các nhà nghiên cứu AI đang tạo thành một buồng vọng âm khi cùng làm việc trong niềm tin chắc chắn rằng họ đang thay đổi thế giới
Nếu RL được thực hiện theo các tiêu chuẩn giá trị trong tài liệu, thì niềm tin ấy sẽ trở thành thật
Quá trình huấn luyện một “linh hồn” cho mô hình quy mô lớn thực sự giống như ranh giới giữa nghệ thuật và khoa học
Việc thử xem câu chữ nào tạo ra hiệu ứng gì, rồi lặp lại và tinh chỉnh, là công việc vừa hấp dẫn vừa phức tạp
Người thiết kế thí nghiệm, kỹ sư ML, nhà nghiên cứu interpretability, người tuyển chọn dữ liệu, chuyên gia GPU, và cả những người trực giác tốt về hành vi của AI
Anthropic là một trong số ít đội ngũ hiếm hoi đang cố gắng có được sự cân bằng đó
Thực tại chúng ta đang sống bây giờ là một thời đại còn kỳ quái hơn cả khoa học viễn tưởng
Dù vậy, chí ít cũng đáng mừng khi có ít nhất một công ty đang nghiêm túc đối diện với những vấn đề này