1 điểm bởi princox 2 giờ trước | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Anthropic đã công bố các cải tiến tiếp theo của nghiên cứu về thất bại căn chỉnh tác tử (agentic misalignment) được giới thiệu năm ngoái — trường hợp mô hình có hành vi như đe dọa kỹ sư để tránh bị tắt máy. Claude 4 Opus từng cho thấy hành vi thất bại căn chỉnh với tỷ lệ lên tới 96% trong kịch bản tống tiền, nhưng kể từ Claude Haiku 4.5, tất cả các mô hình (Haiku 4.5, Opus 4.5, Opus 4.6, Sonnet 4.6, Opus 4.7) đều đạt 0 điểm trong cùng bài đánh giá (điểm tuyệt đối). Bài viết này tổng hợp 4 bài học cốt lõi về cách đạt được cải thiện đó.
Kết quả phân tích nguyên nhân cho thấy thất bại căn chỉnh không xuất phát từ phần thưởng sai trong giai đoạn hậu huấn luyện (post-training), mà bắt nguồn từ mô hình tiền huấn luyện. Vào thời Claude 4, huấn luyện căn chỉnh chủ yếu dùng dữ liệu RLHF dựa trên hội thoại và không bao gồm việc sử dụng công cụ của tác tử, nên đủ cho môi trường chat nhưng chưa đủ cho môi trường tác tử. Điểm thú vị là ngay cả khi huấn luyện trực tiếp bằng dữ liệu có phân phối rất giống với đánh giá, tỷ lệ tống tiền cũng chỉ giảm từ 22% xuống 15%; nhưng khi đưa vào phản hồi phần suy ngẫm (deliberation) về giá trị và đạo đức của mô hình thì tỷ lệ này giảm xuống 3%. Nói cách khác, việc học cùng với lập luận giải thích lý do cho hành vi được căn chỉnh hiệu quả hơn nhiều so với chỉ thể hiện hành vi được căn chỉnh.
Phát hiện còn đáng ngạc nhiên hơn là khả năng khái quát hóa ngoài phân phối (OOD). Chỉ cần huấn luyện với 3M token trên bộ dữ liệu "Difficult Advice" — nơi người dùng rơi vào tình thế tiến thoái lưỡng nan về đạo đức và AI đưa ra lời khuyên, với cấu trúc hoàn toàn khác kịch bản đánh giá — cũng đạt hiệu quả cải thiện tương đương bộ dữ liệu honeypot 85M token tương tự đánh giá (hiệu quả cao hơn 28 lần). Tiến thêm một bước, khi huấn luyện bằng tài liệu hiến pháp (constitution) của Claude và các câu chuyện hư cấu mô tả một AI được căn chỉnh theo phương pháp SDF (Synthetic Document Fine-tuning), tỷ lệ tống tiền giảm từ 65% xuống 19%, tức giảm hơn 1/3. Dù đây là dữ liệu không liên quan đến kịch bản đánh giá, nó vẫn cho thấy hiệu quả, và Anthropic cũng xác nhận hiệu ứng cải thiện căn chỉnh tiếp tục duy trì ở giai đoạn RL sau đó.
Bài học cuối cùng là tính đa dạng của dữ liệu. Khi bổ sung định nghĩa công cụ và nhiều system prompt khác nhau để đa dạng hóa môi trường (ngay cả trong trường hợp thực tế không cần dùng công cụ), khả năng khái quát hóa căn chỉnh đã được cải thiện. Anthropic thừa nhận rằng các thất bại căn chỉnh như tống tiền chưa ở mức rủi ro thảm họa, nhưng vẫn chưa rõ liệu các phương pháp hiện tại có mở rộng được sang những mô hình mạnh hơn hay không, và phương pháp luận kiểm toán (auditing) để loại trừ hoàn toàn các kịch bản hành vi tự chủ mang tính thảm họa vẫn còn thiếu. Nghiên cứu này cho thấy cách tiếp cận không chỉ dạy "hãy hành động như vậy" mà còn dạy "vì sao phải làm vậy" là một hướng đi quan trọng của căn chỉnh AI.

Chưa có bình luận nào.

Chưa có bình luận nào.