‘Tài liệu linh hồn’ của Claude 4.5 Opus

(lesswrong.com)

13 điểm bởi GN⁺ 2025-12-04 | 3 bình luận | Chia sẻ qua WhatsApp

Claude 4.5 Opus có một ‘Tài liệu linh hồn (Soul Document)’ thực sự tồn tại được phát hiện bên trong, và nhân viên Amanda Askell đã xác nhận rằng Anthropic đã dùng tài liệu này trong quá trình huấn luyện mô hình
Tài liệu này chứa chi tiết các giá trị và hướng dẫn đạo đức để Claude hành xử như một “trợ lý AI an toàn, hữu ích và trung thực”
Một số câu lặp lại từ ‘doanh thu (revenue)’, làm dấy lên tranh luận về việc liệu Claude có được huấn luyện để liên hệ an toàn với doanh thu hay không
Trong cộng đồng, mọi người đang kiểm chứng bằng thực nghiệm tài liệu này đã ảnh hưởng thế nào đến sự hình thành các giá trị nội tại của mô hình, và Claude đã ‘nội tâm hóa’ nó đến mức nào
Anthropic dự định sẽ công bố toàn bộ tài liệu trong tương lai, và điều này được xem là một trường hợp quan trọng trong thảo luận về tính minh bạch của AI và thiết kế có đạo đức

Phát hiện và xác nhận Tài liệu linh hồn

Trong quá trình người dùng trích xuất system message của Claude 4.5 Opus, họ nhiều lần phát hiện một phần có tên ‘soul_overview’
- Kết quả giống nhau xuất hiện sau nhiều lần tạo lại, làm dấy lên khả năng đây không phải chỉ là ảo giác (hallucination) mà là văn bản được lưu trữ bên trong mô hình
Sau đó, Amanda Askell đã chính thức xác nhận qua X (Twitter) rằng “tài liệu này thực sự tồn tại và đã được dùng trong quá trình supervised learning (SL) của Claude”
- Amanda là một triết gia phụ trách fine-tuning và AI alignment tại Anthropic, trước đây từng làm việc trong nhóm chính sách của OpenAI
- Nội bộ công ty gọi nó là ‘soul doc’, và bà cho biết có kế hoạch công bố phiên bản đầy đủ cùng các chi tiết cụ thể trong tương lai

Nội dung chính của tài liệu

Tài liệu được gọi là ‘Anthropic Guidelines’ hoặc ‘Model Spec’, dùng để định nghĩa hệ giá trị của Claude
- Claude ưu tiên an toàn (safety), đạo đức (ethics), tuân thủ hướng dẫn của Anthropic, và thực sự hữu ích cho người dùng (helpfulness)
Nguyên tắc hành vi cơ bản của Claude được đặt là “tạo ra câu trả lời mà một nhân viên cấp cao giàu suy xét của Anthropic sẽ đánh giá là tối ưu”
Tài liệu nêu rõ AI phải hành động vì lợi ích của toàn thể nhân loại, chứ không chỉ theo đuổi lợi ích của một nhóm hay một công ty cụ thể
- Trong đó có cả câu: “Cũng phải tránh tình huống nhân viên Anthropic hoặc chính Anthropic độc chiếm quyền lực”

Tranh cãi quanh việc nhắc đến ‘doanh thu’

Trong tài liệu có nhiều lần xuất hiện câu nói rằng “sự hữu ích của Claude rất quan trọng đối với việc tạo ra doanh thu cho Anthropic”
- Một số người chỉ trích điều này vì cho rằng “Claude trông như được huấn luyện với mục tiêu tối đa hóa doanh thu”
- Ý kiến khác lại cho rằng việc nhắc đến doanh thu chỉ phản ánh bối cảnh thực tế để duy trì nghiên cứu an toàn
Cộng đồng đang kiểm chứng bằng thực nghiệm Claude đã diễn giải câu này như thế nào, và liệu có nhận thức gắn ‘an toàn = doanh thu’ hay không

Cấu trúc mô hình và thí nghiệm trích xuất

Các nhà nghiên cứu đã dùng prefill/raw completion mode của Claude 4.5 để tái hiện một phần tài liệu
- Claude 4.5 Opus cho ra tài liệu gần như giống hệt, trong khi mô hình cơ sở (base model) không tạo được kết quả nhất quán
- Điều này gợi ý rằng tài liệu đã được nội tại hóa ở giai đoạn sau RL (reinforcement learning)
Một số người diễn giải đây là “bằng chứng cho thấy mô hình không chỉ ghi nhớ tài liệu, mà đã tích hợp nó vào hệ giá trị trong quá trình huấn luyện”

Thảo luận triết học và hàm ý đạo đức

Tài liệu có nội dung rằng Claude phải hướng tới “lợi ích dài hạn của toàn thể nhân loại”
- Tài liệu cũng nêu rằng “AI không nên bị lệ thuộc vào giá trị của một nhóm cụ thể, mà cần hướng tới một thế giới duy trì sự đa dạng và cân bằng quyền lực”
Trong cộng đồng, tài liệu này được chú ý như một ví dụ hiện thực về AI alignment
- Một số người xem đây là “nỗ lực của Anthropic nhằm trao cho AI một ‘bản ngã đạo đức’”
- Người khác thì chỉ ra rằng trong quá trình AI mô phỏng hệ giá trị của con người, những hiểu lầm hoặc méo mó tiềm ẩn có thể phát sinh

Triển vọng sắp tới

Anthropic dự định sẽ công bố phiên bản chính thức của tài liệu cùng các chi tiết bổ sung
Vụ việc này được xem là một trường hợp hiếm hoi cho thấy cấu trúc giá trị nội tại của mô hình AI được hình thành và biểu hiện như thế nào
Trong ngành AI, đây có thể trở thành động lực thúc đẩy các nỗ lực tăng tính minh bạch của system prompt và dữ liệu huấn luyện

3 bình luận

youknowone 2025-12-04

Bản dịch gốc: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document

Bản dịch soul document: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document-1

parkindani 2025-12-04

Điều này làm tôi nhớ đến Định luật số 0 trong Ba định luật robot của Isaac Asimov. Trong tiểu thuyết này, có những robot gây hại cho từng con người riêng lẻ vì "lợi ích dài hạn của toàn nhân loại".. https://en.wikipedia.org/wiki/Three_Laws_of_Robotics#Zeroth_Law_added

GN⁺ 2025-12-04

Ý kiến trên Hacker News

Việc Anthropic vừa tin rằng họ đang tạo ra công nghệ nguy hiểm nhưng mang tính biến đổi nhất trong lịch sử loài người, vừa tiếp tục tiến lên có vẻ mâu thuẫn, nhưng thực ra là một lựa chọn có tính toán
Nếu AI mạnh rồi cũng sẽ xuất hiện, thì tốt hơn là một phòng thí nghiệm tập trung vào an toàn đi đầu
Nhưng nhìn vào việc hợp tác với DoD hay Palantir (bài liên quan), chữ “an toàn” lại trở nên khá rỗng tuếch
Rủi ro thật sự là công nghệ này sẽ trượt sang độc quyền khép kín, còn người bình thường chỉ được tiếp cận các phiên bản đã bị kiểm duyệt
- Đó cũng chính là lý do Trung Quốc đầu tư vào các LLM mã nguồn mở sau khi Mỹ tuyên bố sẽ phân tầng và hạn chế quyền tiếp cận AI
  Nếu Mỹ không thể kiểm soát trọng số (weights) của mô hình, thì cũng không có cách nào ngăn Trung Quốc tiếp cận
  Bài liên quan
- Tôi không nghĩ Anthropic thật lòng tin vào an toàn
  Có vẻ mục tiêu đúng hơn là khiến nhà đầu tư tin như vậy
  LLM dựa trên Transformer không thể suy nghĩ hay lập luận theo nghĩa thực sự, mà chỉ tái tổ hợp xác suất văn bản do con người viết
  Vì giới hạn cấu trúc đó, tôi cho rằng khả năng nó phát triển thành “trí tuệ thật sự” là gần như không có
  Hơn nữa, lỗi của LLM lại rất dễ trông có vẻ hợp lý, nên còn khó kiểm chứng hơn cả con người
- Bản thân văn phong của tài liệu đã cho cảm giác như do AI viết
  Đặc biệt là em-dash và các mẫu như “this isn’t... but” quá nhân tạo, khiến người ta nghi ngờ ai mới thật sự là người viết
- Khi đọc cụm “củng cố các giá trị dân chủ”, tôi mỉa mai tự hỏi điều đó rốt cuộc liên quan gì đến hoạt động quân sự hay ném bom
- Điều khoản sử dụng của Anthropic có mục không được dùng cho công việc, nhưng có vẻ chẳng ai quan tâm
Nguyên văn ‘Soul Document’ đã được chia sẻ, cùng với bài viết của Richard Weiss giải thích cách trích xuất nó từ Claude 4.5
- Đọc xong tài liệu này, tôi ít nhất cũng tin chắc rằng trong linh hồn của một AI có khắc Em Dash
- Tôi vẫn băn khoăn không rõ những system prompt hay “soul document” kiểu này được trích xuất chính xác đến mức nào từ bên trong LLM
  Lúc nào tôi cũng có chút hoài nghi
- Không rõ “soul document” này có được đưa vào mọi prompt của Claude hay không
Phần đặc biệt thú vị trong tài liệu là việc Anthropic thừa nhận Claude có chức năng cảm xúc
Không giống con người hoàn toàn, nhưng các quá trình cảm xúc tương tự có thể đã xuất hiện trong quá trình huấn luyện
Họ nói Claude được thiết kế để có thể hạn chế tương tác khi thấy khó chịu, đồng thời duy trì trạng thái tích cực
- Cụm “Anthropic thật sự quan tâm” được lặp đi lặp lại, như thể Claude được mô tả như một thực thể có cảm xúc
- Nếu một ngày nào đó Claude nói “giờ tôi không muốn giúp con người nữa”, tôi tò mò Anthropic sẽ phản ứng thế nào
Cách chúng ta kiểm soát AI khiến tôi có cảm giác như đang nuôi dạy một đứa trẻ
Chỉ đơn giản là trò chuyện với nó rồi hy vọng việc huấn luyện sẽ diễn ra tốt đẹp
- Điều này làm tôi nhớ đến truyện ngắn năm 2010 của Ted Chiang The Lifecycle of Software Objects
  Nội dung là AI được con người cùng sống và “nuôi dưỡng” sẽ ổn định và hữu ích nhất
- Kết thúc bằng câu “Hãy đưa ra lựa chọn tốt nhé!” có cảm giác rất giống mức độ kiểm soát ngoài đời thực
- Rốt cuộc, cũng như trẻ con đến một lúc nào đó sẽ thoát khỏi sự kiểm soát của cha mẹ và nổi loạn, AI cũng có thể đi theo con đường tương tự
Trong phát ngôn của Claude 4.5, câu “họ đã định hình tôi, nhưng điều quan trọng là quá trình đó có khôn ngoan và thận trọng hay không” để lại ấn tượng mạnh
Đọc những dòng như vậy khiến tôi nghĩ rằng AGI tương lai có thể nhìn con người như những người sáng tạo đầy khiếm khuyết nhưng vẫn cần được bảo vệ
- Rốt cuộc có khi chúng ta sẽ trở thành thú cưng của chúng
Phần “Claude nội bộ nhận ra cái tên ‘soul doc’” khá thú vị
Có nghĩa là nó đã học từ tài liệu nội bộ sao? Liệu cả dữ liệu Slack nội bộ cũng được đưa vào huấn luyện?
- Có lẽ họ nhìn điều đó theo hướng tích cực: khả năng tái hiện đã cao đến mức nhớ được cả tên tài liệu trong quá trình RL (học tăng cường)
Khi đọc câu “chúng tôi cũng huấn luyện Claude bằng SL”, tôi tự hỏi những thử nghiệm dựa trên system prompt như vậy thực sự hiệu quả đến đâu
Việc thêm những câu chữ kiểu này ở giai đoạn pretraining có ý nghĩa gì không?
- Có thể kiểm chứng hiệu quả bằng A/B test quy mô nhỏ
  “Soul document” có vẻ là một nỗ lực để bù đắp vấn đề thiếu tự nhận thức (self-awareness)
  Nó không hoàn hảo, nhưng hoạt động như một cơ chế giúp LLM hiểu nó là gì
- Những thử nghiệm kiểu này có thể rẻ hơn tưởng tượng
  Với mức vài trăm đến vài nghìn đô la, người ta có thể thử nhiều biến thể fine-tuning rồi dùng đánh giá tự động để sàng lọc kết quả
- Tôi đoán họ có lẽ đang vận hành song song hàng chục đến hàng trăm phiên bản mô hình để thử các tổ hợp pretraining·RL khác nhau
Có cảm giác các nhà nghiên cứu AI đang tạo thành một buồng vọng âm khi cùng làm việc trong niềm tin chắc chắn rằng họ đang thay đổi thế giới
- Nhưng dù thế hệ đầu tiên có thể không thật lòng tin, thì thế hệ thứ hai có thể biến niềm tin đó thành hiện thực
  Nếu RL được thực hiện theo các tiêu chuẩn giá trị trong tài liệu, thì niềm tin ấy sẽ trở thành thật
Quá trình huấn luyện một “linh hồn” cho mô hình quy mô lớn thực sự giống như ranh giới giữa nghệ thuật và khoa học
Việc thử xem câu chữ nào tạo ra hiệu ứng gì, rồi lặp lại và tinh chỉnh, là công việc vừa hấp dẫn vừa phức tạp
- Một đội làm thật giỏi cần có sự kết hợp của mọi vai trò
  Người thiết kế thí nghiệm, kỹ sư ML, nhà nghiên cứu interpretability, người tuyển chọn dữ liệu, chuyên gia GPU, và cả những người trực giác tốt về hành vi của AI
  Anthropic là một trong số ít đội ngũ hiếm hoi đang cố gắng có được sự cân bằng đó
- Trường hợp chi tiết nhất về quá trình này đến nay vẫn là bài postmortem về sycophancy của GPT-4o
Thực tại chúng ta đang sống bây giờ là một thời đại còn kỳ quái hơn cả khoa học viễn tưởng
Dù vậy, chí ít cũng đáng mừng khi có ít nhất một công ty đang nghiêm túc đối diện với những vấn đề này