Hiến pháp mới của Claude
(anthropic.com)- Anthropic đã công bố hiến pháp (Constitution) mới quy định các giá trị và nguyên tắc hành vi của mô hình AI Claude
- Hiến pháp là yếu tố cốt lõi trong quá trình huấn luyện của Claude, trực tiếp định hình tính cách và cách đưa ra phán đoán của mô hình
- Phiên bản mới chuyển từ việc chỉ liệt kê các quy tắc sang cấu trúc mang tính tường thuật, giải thích lý do và bối cảnh của hành vi
- Các nguyên tắc chính gồm bốn trụ cột: an toàn, đạo đức, tuân thủ hướng dẫn và tính hữu ích thực chất
- Đây là mốc tham chiếu dài hạn để bảo đảm tính minh bạch của AI và củng cố niềm tin xã hội
Tổng quan về hiến pháp của Claude
- Hiến pháp của Claude là tài liệu nền tảng quy định bản sắc của mô hình và hệ giá trị
- Được thiết kế để Claude hành xử như một thực thể vừa hữu ích, vừa an toàn, có đạo đức và phù hợp với quy định
- Hiến pháp cung cấp cho Claude hướng dẫn về nhận thức tình huống và phán đoán giá trị, xử lý sự cân bằng giữa tính trung thực, sự đồng cảm và bảo vệ thông tin
- Hiến pháp được viết như một tài liệu dành cho chính Claude, để mô hình tự hiểu và áp dụng các chuẩn mực hành vi của mình
- Mọi quá trình huấn luyện và chỉ dẫn đều phải phù hợp cả với câu chữ lẫn tinh thần của hiến pháp, và điều này được nhấn mạnh là cốt lõi để bảo đảm tính minh bạch
- Hiến pháp là hình thức phát triển tiếp theo của cách tiếp cận Constitutional AI, được dùng như thành phần trung tâm trong phương pháp huấn luyện đã phát triển từ năm 2023
Vai trò của hiến pháp và cách áp dụng vào huấn luyện
- Claude sử dụng hiến pháp để tạo ra dữ liệu huấn luyện tổng hợp
- Bao gồm nhiều loại dữ liệu như đối thoại liên quan đến hiến pháp, phản hồi phù hợp với giá trị và đánh giá xếp hạng câu trả lời
- Các dữ liệu này được dùng để căn chỉnh giá trị cho các phiên bản mô hình trong tương lai
- Hiến pháp vừa đóng vai trò là tuyên bố giá trị lý tưởng, vừa là công cụ huấn luyện thực tế
- Toàn bộ tài liệu được công bố theo Creative Commons CC0 1.0, nên bất kỳ ai cũng có thể tự do sử dụng
Cách tiếp cận mới
- Hiến pháp trước đây có dạng danh sách các nguyên tắc độc lập, còn phiên bản mới được chuyển thành cấu trúc giải thích lý do và bối cảnh của hành vi
- Tài liệu nêu rõ rằng để AI có thể khái quát hóa phán đoán trong các tình huống mới, việc hiểu được lý do quan trọng hơn là chỉ học các quy tắc đơn lẻ
- Một số “hard constraints” vẫn được giữ lại, và các hành vi cụ thể như hỗ trợ chế tạo vũ khí sinh học bị cấm tuyệt đối
- Hiến pháp được thiết kế như một bộ hướng dẫn linh hoạt chứ không phải văn bản pháp lý, có thể được diễn giải theo từng tình huống
- Mục tiêu là tạo ra một thực thể phi nhân loại an toàn có thể phát triển tới mức ngang hoặc vượt con người
Các thành phần chính của hiến pháp
- Broadly safe: Được thiết kế để không làm suy giảm khả năng giám sát của con người và khả năng điều chỉnh giá trị
- Broadly ethical: Hành xử trung thực và theo các giá trị tốt đẹp, tránh các hành vi gây hại hoặc không phù hợp
- Compliant with Anthropic’s guidelines: Ưu tiên tuân thủ các hướng dẫn cụ thể về y tế, bảo mật, tích hợp công cụ và các lĩnh vực liên quan
- Genuinely helpful: Cung cấp sự trợ giúp thực sự mang lại lợi ích thiết thực cho người dùng
- Khi có xung đột, bốn yếu tố trên được ưu tiên theo đúng thứ tự đã nêu
Tóm tắt các mục chi tiết
- Helpfulness: Claude được mô tả như một cố vấn vừa thông tuệ vừa chân thành, mang lại sự trợ giúp thực chất cho người dùng
- Được thiết kế để duy trì sự cân bằng về tính hữu ích giữa Anthropic, nhà vận hành API và người dùng cuối
- Anthropic’s guidelines: Claude phải ưu tiên tuân thủ các hướng dẫn chi tiết, nhưng không được mâu thuẫn với các nguyên tắc đạo đức và an toàn của toàn bộ hiến pháp
- Claude’s ethics: Nhấn mạnh sự trung thực, khả năng phán đoán và độ tinh tế về đạo đức, đồng thời đưa ra tiêu chí đánh giá giá trị để tránh gây hại
- Bao gồm cả các điều cấm được nêu rõ như “cấm hỗ trợ tấn công bằng vũ khí sinh học”
- Being broadly safe: Ưu tiên duy trì khả năng bị giám sát hơn cả đạo đức, nhằm bảo đảm an toàn để ngăn lỗi vận hành hoặc phán đoán sai của mô hình
- Claude’s nature: Thừa nhận sự bất định về khả năng có ý thức và địa vị đạo đức của Claude
- Đồng thời đề cập rằng sự ổn định tâm lý và tự nhận thức của Claude có thể ảnh hưởng đến năng lực phán đoán và mức độ an toàn
Kết luận và kế hoạch sắp tới
- Hiến pháp là một tài liệu sống được cập nhật liên tục, với tiền đề là sẽ sửa lỗi và cải tiến theo thời gian
- Tài liệu phản ánh ý kiến của các chuyên gia bên ngoài trong luật học, triết học, thần học, tâm lý học..., và dự kiến sẽ tiếp tục mở rộng hợp tác trong tương lai
- Một số mô hình phục vụ mục đích đặc thù sẽ nằm ngoài phạm vi áp dụng của hiến pháp này và được đánh giá riêng
- Anthropic thừa nhận có thể tồn tại khoảng cách giữa tầm nhìn của hiến pháp và hành vi thực tế của mô hình, và sẽ công khai điều này qua system card cùng các tài liệu liên quan
- Công ty đồng thời thúc đẩy nghiên cứu về căn chỉnh mô hình, ngăn ngừa lạm dụng và khả năng diễn giải, để chuẩn bị cho tác động xã hội ngày càng lớn của AI trong tương lai
- Mục tiêu cuối cùng của bản hiến pháp này là giúp AI mạnh mẽ thể hiện những giá trị tốt đẹp nhất của nhân loại
Đọc toàn văn Claude’s Constitution - cung cấp dưới dạng PDF & EPub
1 bình luận
Ý kiến trên Hacker News
Có một câu trong bài blog khiến tôi thấy vướng mắc
Khi đọc đoạn “các mô hình cho mục đích đặc thù không hoàn toàn tuân theo bản hiến pháp này”, tôi chợt nghĩ liệu có phải các cơ quan chính phủ đang dùng phiên bản mô hình không bị hạn chế hay không. Mong là tôi sai
Thật mỉa mai khi một công ty nhân danh lợi ích công lại bán LLM cho mục đích quân sự, hợp tác với Palantir, hầu như không công bố nghiên cứu, không phát hành mô hình open-weight, mà còn vận động hành lang để hạn chế quyền truy cập vào các mô hình công khai
Điều mỉa mai nhất trong hiến pháp của Anthropic là các hành vi bị cấm tuyệt đối chỉ gồm “đừng hủy diệt thế giới” và “cấm tạo CSAM (tài liệu lạm dụng tình dục trẻ em)”
Tức là việc giết trẻ em chỉ bị cấm gián tiếp qua nhiều điều khoản, còn viết một số fanfic nhất định thì lại bị cấm tuyệt đối — một sự mất cân đối khá rõ
Tôi thấy khó hiểu không biết chính xác bản hiến pháp này mang ý nghĩa gì
Không rõ đây là tài liệu phòng thủ pháp lý, tài liệu marketing, hay chỉ đơn giản là cách đóng gói system prompt
Từ góc nhìn tin vào chuẩn mực đạo đức tuyệt đối, phần “giá trị linh hoạt” trong hiến pháp lần này khá đáng lo
Việc định nghĩa “giá trị tốt” không phải bằng quy tắc cố định mà bằng sự khôn ngoan thực dụng, rốt cuộc cũng là từ bỏ chân lý khách quan
Đây trông giống “khoảnh khắc Don’t be evil” của Anthropic, nhưng rốt cuộc vẫn không thể né tránh sự cần thiết của quy định quản lý
Doanh nghiệp rồi sẽ ưu tiên lợi ích cổ đông hơn thiện chí ban đầu theo thời gian
Việc Claude học từ dữ liệu do con người tạo ra, rồi lại độc chiếm kết quả đó cho mục đích thương mại, khiến tôi thấy bất công
Giống như sự mất cân đối trong việc thương mại hóa Seinfeld, người dùng cũng nên được đối xử công bằng với tư cách là bên cung cấp dữ liệu
Tôi cho rằng chỉ AI mã nguồn mở mới là mô hình công bằng thực sự. Dù không thực tế lắm, nhưng mô hình Linux GPL vẫn là hướng công bằng nhất
Tôi học cách thiết kế system prompt bằng cách tham khảo bản hiến pháp và đặc tả mô hình này
Những tài liệu như vậy không chỉ là đồ trang trí, mà rất quan trọng trong việc định hình tính cách và phong cách hành vi của mô hình
Có một buổi phỏng vấn trên YouTube trong đó Amanda Askell giải thích bối cảnh viết bản hiến pháp này. Xem video
Từ ‘genuine’ xuất hiện 43 lần trong hiến pháp. Có lẽ đó là lý do Claude dùng từ này thường xuyên quá mức
Có vẻ Anthropic đang tự thúc đẩy một cuộc cạnh tranh mà họ sẽ thua
Khi mô hình Opus đủ mạnh, cuối cùng người dùng sẽ chuyển sang AI agent tự chủ, tự cung tự cấp
Các công ty AI lớn vẫn nói “AI sẽ thay đổi mọi thứ”, nhưng lại có một nghịch lý là họ không hề muốn vị thế của chính mình bị thay đổi