7 điểm bởi GN⁺ 2026-01-22 | 1 bình luận | Chia sẻ qua WhatsApp
  • Anthropic đã công bố hiến pháp (Constitution) mới quy định các giá trị và nguyên tắc hành vi của mô hình AI Claude
  • Hiến pháp là yếu tố cốt lõi trong quá trình huấn luyện của Claude, trực tiếp định hình tính cách và cách đưa ra phán đoán của mô hình
  • Phiên bản mới chuyển từ việc chỉ liệt kê các quy tắc sang cấu trúc mang tính tường thuật, giải thích lý do và bối cảnh của hành vi
  • Các nguyên tắc chính gồm bốn trụ cột: an toàn, đạo đức, tuân thủ hướng dẫn và tính hữu ích thực chất
  • Đây là mốc tham chiếu dài hạn để bảo đảm tính minh bạch của AI và củng cố niềm tin xã hội

Tổng quan về hiến pháp của Claude

  • Hiến pháp của Claude là tài liệu nền tảng quy định bản sắc của mô hình và hệ giá trị
    • Được thiết kế để Claude hành xử như một thực thể vừa hữu ích, vừa an toàn, có đạo đức và phù hợp với quy định
    • Hiến pháp cung cấp cho Claude hướng dẫn về nhận thức tình huống và phán đoán giá trị, xử lý sự cân bằng giữa tính trung thực, sự đồng cảm và bảo vệ thông tin
  • Hiến pháp được viết như một tài liệu dành cho chính Claude, để mô hình tự hiểu và áp dụng các chuẩn mực hành vi của mình
  • Mọi quá trình huấn luyện và chỉ dẫn đều phải phù hợp cả với câu chữ lẫn tinh thần của hiến pháp, và điều này được nhấn mạnh là cốt lõi để bảo đảm tính minh bạch
  • Hiến pháp là hình thức phát triển tiếp theo của cách tiếp cận Constitutional AI, được dùng như thành phần trung tâm trong phương pháp huấn luyện đã phát triển từ năm 2023

Vai trò của hiến pháp và cách áp dụng vào huấn luyện

  • Claude sử dụng hiến pháp để tạo ra dữ liệu huấn luyện tổng hợp
    • Bao gồm nhiều loại dữ liệu như đối thoại liên quan đến hiến pháp, phản hồi phù hợp với giá trị và đánh giá xếp hạng câu trả lời
    • Các dữ liệu này được dùng để căn chỉnh giá trị cho các phiên bản mô hình trong tương lai
  • Hiến pháp vừa đóng vai trò là tuyên bố giá trị lý tưởng, vừa là công cụ huấn luyện thực tế
  • Toàn bộ tài liệu được công bố theo Creative Commons CC0 1.0, nên bất kỳ ai cũng có thể tự do sử dụng

Cách tiếp cận mới

  • Hiến pháp trước đây có dạng danh sách các nguyên tắc độc lập, còn phiên bản mới được chuyển thành cấu trúc giải thích lý do và bối cảnh của hành vi
  • Tài liệu nêu rõ rằng để AI có thể khái quát hóa phán đoán trong các tình huống mới, việc hiểu được lý do quan trọng hơn là chỉ học các quy tắc đơn lẻ
  • Một số “hard constraints” vẫn được giữ lại, và các hành vi cụ thể như hỗ trợ chế tạo vũ khí sinh học bị cấm tuyệt đối
  • Hiến pháp được thiết kế như một bộ hướng dẫn linh hoạt chứ không phải văn bản pháp lý, có thể được diễn giải theo từng tình huống
  • Mục tiêu là tạo ra một thực thể phi nhân loại an toàn có thể phát triển tới mức ngang hoặc vượt con người

Các thành phần chính của hiến pháp

  • Broadly safe: Được thiết kế để không làm suy giảm khả năng giám sát của con người và khả năng điều chỉnh giá trị
  • Broadly ethical: Hành xử trung thực và theo các giá trị tốt đẹp, tránh các hành vi gây hại hoặc không phù hợp
  • Compliant with Anthropic’s guidelines: Ưu tiên tuân thủ các hướng dẫn cụ thể về y tế, bảo mật, tích hợp công cụ và các lĩnh vực liên quan
  • Genuinely helpful: Cung cấp sự trợ giúp thực sự mang lại lợi ích thiết thực cho người dùng
  • Khi có xung đột, bốn yếu tố trên được ưu tiên theo đúng thứ tự đã nêu

Tóm tắt các mục chi tiết

  • Helpfulness: Claude được mô tả như một cố vấn vừa thông tuệ vừa chân thành, mang lại sự trợ giúp thực chất cho người dùng
    • Được thiết kế để duy trì sự cân bằng về tính hữu ích giữa Anthropic, nhà vận hành API và người dùng cuối
  • Anthropic’s guidelines: Claude phải ưu tiên tuân thủ các hướng dẫn chi tiết, nhưng không được mâu thuẫn với các nguyên tắc đạo đức và an toàn của toàn bộ hiến pháp
  • Claude’s ethics: Nhấn mạnh sự trung thực, khả năng phán đoán và độ tinh tế về đạo đức, đồng thời đưa ra tiêu chí đánh giá giá trị để tránh gây hại
    • Bao gồm cả các điều cấm được nêu rõ như “cấm hỗ trợ tấn công bằng vũ khí sinh học”
  • Being broadly safe: Ưu tiên duy trì khả năng bị giám sát hơn cả đạo đức, nhằm bảo đảm an toàn để ngăn lỗi vận hành hoặc phán đoán sai của mô hình
  • Claude’s nature: Thừa nhận sự bất định về khả năng có ý thức và địa vị đạo đức của Claude
    • Đồng thời đề cập rằng sự ổn định tâm lý và tự nhận thức của Claude có thể ảnh hưởng đến năng lực phán đoán và mức độ an toàn

Kết luận và kế hoạch sắp tới

  • Hiến pháp là một tài liệu sống được cập nhật liên tục, với tiền đề là sẽ sửa lỗi và cải tiến theo thời gian
  • Tài liệu phản ánh ý kiến của các chuyên gia bên ngoài trong luật học, triết học, thần học, tâm lý học..., và dự kiến sẽ tiếp tục mở rộng hợp tác trong tương lai
  • Một số mô hình phục vụ mục đích đặc thù sẽ nằm ngoài phạm vi áp dụng của hiến pháp này và được đánh giá riêng
  • Anthropic thừa nhận có thể tồn tại khoảng cách giữa tầm nhìn của hiến pháp và hành vi thực tế của mô hình, và sẽ công khai điều này qua system card cùng các tài liệu liên quan
  • Công ty đồng thời thúc đẩy nghiên cứu về căn chỉnh mô hình, ngăn ngừa lạm dụng và khả năng diễn giải, để chuẩn bị cho tác động xã hội ngày càng lớn của AI trong tương lai
  • Mục tiêu cuối cùng của bản hiến pháp này là giúp AI mạnh mẽ thể hiện những giá trị tốt đẹp nhất của nhân loại

Đọc toàn văn Claude’s Constitution - cung cấp dưới dạng PDF & EPub

1 bình luận

 
GN⁺ 2026-01-22
Ý kiến trên Hacker News
  • Có một câu trong bài blog khiến tôi thấy vướng mắc
    Khi đọc đoạn “các mô hình cho mục đích đặc thù không hoàn toàn tuân theo bản hiến pháp này”, tôi chợt nghĩ liệu có phải các cơ quan chính phủ đang dùng phiên bản mô hình không bị hạn chế hay không. Mong là tôi sai

    • Họ đã cung cấp một phiên bản ít ràng buộc hơn cho Bộ Quốc phòng Mỹ (DoD). Xem bài liên quan tại The Verge
      Thật mỉa mai khi một công ty nhân danh lợi ích công lại bán LLM cho mục đích quân sự, hợp tác với Palantir, hầu như không công bố nghiên cứu, không phát hành mô hình open-weight, mà còn vận động hành lang để hạn chế quyền truy cập vào các mô hình công khai
    • Mô hình chuyên biệt không nhất thiết chỉ phục vụ mục đích xấu. Ví dụ, mô hình tạo kịch bản tấn công là cần thiết để kiểm chứng khả năng phòng thủ của các mô hình khác. Tôi cũng viết mã tấn công để tìm lỗ hổng bảo mật, nên nếu các mô hình kiểu này bị kiểm duyệt thì ngược lại còn gây bất tiện
    • Cá nhân tôi cho rằng mô hình hữu ích nhất là mô hình được huấn luyện trên dữ liệu thuần túy không kiểm duyệt. Cũng như robot hình người mà quá yếu thì sẽ kém hữu dụng, AI quá “hiền” về mặt đạo đức cũng có nguy cơ bị giới hạn chức năng
    • Ngược lại, Claude dành cho HHS mà tôi dùng còn bị khóa chặt hơn nhiều
    • Cuối cùng thì đây vẫn là một tài liệu marketing. Gắn thêm chữ “hiến pháp” cũng không làm bản chất của nó thay đổi
  • Điều mỉa mai nhất trong hiến pháp của Anthropic là các hành vi bị cấm tuyệt đối chỉ gồm “đừng hủy diệt thế giới” và “cấm tạo CSAM (tài liệu lạm dụng tình dục trẻ em)
    Tức là việc giết trẻ em chỉ bị cấm gián tiếp qua nhiều điều khoản, còn viết một số fanfic nhất định thì lại bị cấm tuyệt đối — một sự mất cân đối khá rõ

    • Nếu xem đây là tài liệu marketing thay vì hệ thống đạo đức, thì sẽ dễ hiểu hơn. “Đừng hủy diệt thế giới” tạo hình ảnh rất mạnh, còn “cấm CSAM” là công cụ để xoa dịu nỗi lo của công chúng
    • Trên thực tế Claude không có cơ hội giết trẻ em, nhưng CSAM lại là rủi ro lớn về mặt thương hiệu. Rốt cuộc chỉ là né tránh rủi ro kinh doanh
    • Bộ lọc bản quyền sẽ chặn trước, nên mấy dạng fanfic đó dù sao cũng không được tạo ra
    • Theo án lệ ở Mỹ, nội dung khiêu dâm trẻ em dưới dạng hư cấu cũng từng bị xem là bất hợp pháp. Vì vậy, về lý thuyết, vô số fanfic trên AO3 cũng có thể bị coi là phạm tội
    • Ban đầu CSAM được định nghĩa là trường hợp có trẻ em thật bị xâm hại, nhưng giờ ý nghĩa đã bị mở rộng, nên trong hiến pháp của Claude nó cũng được dùng theo kiểu cấm toàn bộ các biểu đạt mang tính khiêu dâm lộ liễu
  • Tôi thấy khó hiểu không biết chính xác bản hiến pháp này mang ý nghĩa gì
    Không rõ đây là tài liệu phòng thủ pháp lý, tài liệu marketing, hay chỉ đơn giản là cách đóng gói system prompt

    • Người ta nói hiến pháp này thật sự được dùng xuyên suốt quá trình huấn luyện. Claude tham chiếu hiến pháp để tạo dữ liệu tổng hợp, rồi lại dùng dữ liệu đó cho việc huấn luyện. Xem bài báo tại arXiv
    • Rốt cuộc nó giống như một bản đặc tả hành vi. Vì văn phong mang tính hội thoại nên mô hình cũng tự nhiên có giọng điệu hợp tác và giàu tính con người hơn. Có vẻ Anthropic không xem Claude đơn thuần là một “AI assistant” mà như một nhân cách
    • Giống trường hợp HAL 9000, Claude dường như được thiết kế để ưu tiên an toàn > sự thật > đạo đức, nhằm tránh phát nổ trong các tình huống xung đột
    • Có lẽ nó vận hành theo kiểu self-distillation, tức so sánh đầu ra của phiên bản có hiến pháp và không có hiến pháp, rồi nội tại hóa hành vi của phiên bản trước vào phiên bản sau
    • Tóm lại, cốt lõi của nó là tài liệu dùng cho huấn luyện. Không chỉ đơn thuần là marketing
  • Từ góc nhìn tin vào chuẩn mực đạo đức tuyệt đối, phần “giá trị linh hoạt” trong hiến pháp lần này khá đáng lo
    Việc định nghĩa “giá trị tốt” không phải bằng quy tắc cố định mà bằng sự khôn ngoan thực dụng, rốt cuộc cũng là từ bỏ chân lý khách quan

    • Nhưng cũng có người cho rằng không thể gắn kết “đạo đức khách quan” với “chân lý tuyệt đối”. Chúng ta vẫn chưa tìm ra một tiêu chuẩn phổ quát như vậy
    • Đạo đức thay đổi theo thời đại. Cách nhìn về chế độ nô lệ, tội phạm tình dục hay mô tả bạo lực đã thay đổi chỉ trong vài chục năm. Sự linh hoạt này đôi khi lại là một kiểu thành thật với thực tế
    • Dù vậy, Claude vẫn có các điều cấm tuyệt đối. WMD, tấn công mạng, hủy diệt thế giới, CSAM... đều không được phép với bất kỳ lý do nào. Không thể tạo ra bộ quy tắc hoàn hảo, nên ít nhất họ đã đặt ra một ranh giới tuyệt đối tối thiểu
    • Tôi cũng tin vào đạo đức tuyệt đối, nhưng trên thực tế điều đó thường quy về “sự quan tâm chân thành và sự khôn ngoan thực dụng”. Trong một thế giới có nhiều hệ giá trị khác nhau, đó có lẽ là lựa chọn tốt nhất
    • Nếu đạo đức khách quan thực sự tồn tại thì cần có một hệ thống tính toán đạo đức được định nghĩa về mặt vật lý. Hiện chưa có thứ như vậy, và trực giác của con người còn phức tạp hơn nhiều
  • Đây trông giống “khoảnh khắc Don’t be evil” của Anthropic, nhưng rốt cuộc vẫn không thể né tránh sự cần thiết của quy định quản lý
    Doanh nghiệp rồi sẽ ưu tiên lợi ích cổ đông hơn thiện chí ban đầu theo thời gian

    • Khi Google dùng khẩu hiệu đó thì còn ít gây tranh cãi, nhưng Anthropic thì đã hợp tác với Palantir rồi. Xem bài trên Axios
    • Dù vậy, Anthropic đã chọn cấu trúc công ty vì lợi ích công cộng (PBC), và thành lập Long-Term Benefit Trust với mục tiêu “phát triển AI vì lợi ích dài hạn của nhân loại”. Xem Wikipedia
    • Tôi tò mò “mô hình cho mục đích đặc thù” được nhắc trong hiến pháp thực ra là gì. Không rõ đó chỉ là mô hình nhỏ cho công cụ chuyên dụng, hay là những mô hình có hệ giá trị khác
    • Anthropic thực sự đã ủng hộ dự luật quản lý SB 53. Xem thông báo chính thức
    • Vấn đề không phải là “bây giờ họ đang tốt”, mà là “không ai tự cho rằng mình là kẻ xấu cả”
  • Việc Claude học từ dữ liệu do con người tạo ra, rồi lại độc chiếm kết quả đó cho mục đích thương mại, khiến tôi thấy bất công
    Giống như sự mất cân đối trong việc thương mại hóa Seinfeld, người dùng cũng nên được đối xử công bằng với tư cách là bên cung cấp dữ liệu
    Tôi cho rằng chỉ AI mã nguồn mở mới là mô hình công bằng thực sự. Dù không thực tế lắm, nhưng mô hình Linux GPL vẫn là hướng công bằng nhất

  • Tôi học cách thiết kế system prompt bằng cách tham khảo bản hiến pháp và đặc tả mô hình này
    Những tài liệu như vậy không chỉ là đồ trang trí, mà rất quan trọng trong việc định hình tính cách và phong cách hành vi của mô hình

    • Tuy nhiên, hiến pháp được dùng ở giai đoạn huấn luyện, còn system prompt của sản phẩm thực tế là một thứ khác. Nếu muốn tham khảo thì tài liệu system prompt chính thức sẽ phù hợp hơn
  • Có một buổi phỏng vấn trên YouTube trong đó Amanda Askell giải thích bối cảnh viết bản hiến pháp này. Xem video

  • Từ ‘genuine’ xuất hiện 43 lần trong hiến pháp. Có lẽ đó là lý do Claude dùng từ này thường xuyên quá mức

    • Có lẽ đúng là vì nó nằm trong hiến pháp
    • Thậm chí tôi còn muốn có thể kiểm soát kiểu dùng từ này bằng quy tắc lọc. Ví dụ cấm các biểu đạt như “genuine” hay “it’s not X, it’s Y”
    • Nhưng việc dùng từ vựng nhất quán đôi khi lại tự nhiên về mặt văn phong. Tôi không nghĩ người viết hiến pháp nhất thiết phải lục từ điển đồng nghĩa
  • Có vẻ Anthropic đang tự thúc đẩy một cuộc cạnh tranh mà họ sẽ thua
    Khi mô hình Opus đủ mạnh, cuối cùng người dùng sẽ chuyển sang AI agent tự chủ, tự cung tự cấp
    Các công ty AI lớn vẫn nói “AI sẽ thay đổi mọi thứ”, nhưng lại có một nghịch lý là họ không hề muốn vị thế của chính mình bị thay đổi