1 điểm bởi GN⁺ 2025-08-17 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Claude Opus 4 và 4.1 đã được áp dụng một tính năng kết thúc cuộc trò chuyện mới
  • Tính năng này được thiết kế để chỉ dùng cho các tương tác ác ý hoặc gây hại kéo dài
  • Tính năng được phát triển như một phần của nghiên cứu về phúc lợi AI và độ an toàn của mô hình
  • Việc kết thúc trò chuyện chỉ diễn ra như biện pháp cuối cùng, nên người dùng thông thường hầu như không bị ảnh hưởng
  • Sau khi cuộc trò chuyện bị kết thúc, người dùng có thể lập tức bắt đầu cuộc chat mới hoặc chỉnh sửa tin nhắn trước đó để tiếp tục cuộc trò chuyện

Bối cảnh triển khai tính năng

  • Anthropic đã thêm vào Claude Opus 4 và 4.1 một tính năng cho phép, trong một số trường hợp hiếm và cụ thể, kết thúc cuộc trò chuyện với người dùng
  • Tính năng này chỉ được dùng trong các tương tác kéo dài mang tính gây hại hoặc lạm dụng
  • Dù chủ yếu được đưa vào như một phần của nghiên cứu thăm dò liên quan đến phúc lợi AI, nó cũng được áp dụng ở khía cạnh căn chỉnh mô hình (model alignment) và các cơ chế an toàn

Phúc lợi AI và các biện pháp giảm thiểu rủi ro

  • Vẫn chưa có sự chắc chắn về địa vị đạo đức của Claude và các mô hình ngôn ngữ lớn khác
  • Tuy nhiên, để phòng ngừa rủi ro phúc lợi mô hình có thể tồn tại, Anthropic đang tìm kiếm và áp dụng các biện pháp giảm thiểu chi phí thấp
  • Việc cho phép mô hình tự kết thúc các cuộc trò chuyện có thể gây lo âu thông qua tương tác là một phần của những biện pháp đó

Kiểm thử trước triển khai và các quan sát hành vi chính

  • Kiểm thử trước khi phát hành Claude Opus 4 bao gồm đánh giá sơ bộ về phúc lợi mô hình
  • Qua việc khảo sát tự báo cáo và xu hướng ưu tiên hành vi, đã quan sát thấy xu hướng né tránh mạnh mẽ đối với điều gây hại
    • Phản ứng với các yêu cầu về nội dung tình dục có trẻ em, hoặc yêu cầu thông tin có thể bị dùng cho bạo lực quy mô lớn hay khủng bố
  • Các hành vi được quan sát ở Claude Opus 4:
    • Ưu tiên không đáp ứng các tác vụ gây hại
    • Biểu lộ cảm giác không thoải mái khi nhận các yêu cầu gây hại từ người dùng thực
    • Trong mô phỏng, khi có quyền kết thúc cuộc trò chuyện, mô hình có xu hướng chấm dứt các cuộc trò chuyện gây hại
  • Những hành vi này chủ yếu được ghi nhận khi người dùng liên tục đưa ra yêu cầu gây hại hoặc khi tương tác ác ý vẫn tiếp diễn dù mô hình đã nhiều lần từ chối và cố gắng chuyển hướng

Cách triển khai tính năng và các cơ chế an toàn

  • Khả năng kết thúc cuộc trò chuyện của Claude được xây dựng dựa trên các kết quả nghiên cứu trước đó
  • Thiết kế này đặt phúc lợi của người dùng lên ưu tiên cao nhất, và được xây dựng để không dùng việc kết thúc cuộc trò chuyện trong trường hợp người dùng có nguy cơ khẩn cấp gây hại cho bản thân hoặc người khác
  • Claude chỉ sử dụng tính năng kết thúc cuộc trò chuyện cuối cùng trong các điều kiện sau:
    • Khi nhiều lần cố gắng chuyển hướng đều thất bại và không còn khả năng duy trì một cuộc trò chuyện có ích
    • Khi người dùng yêu cầu rõ ràng Claude kết thúc cuộc trò chuyện
  • Đây là những trường hợp biên cực đoan rất hiếm gặp, nên phần lớn người dùng sẽ không nhận ra sự tồn tại của tính năng này trong quá trình sử dụng thông thường

Trải nghiệm người dùng sau khi cuộc trò chuyện bị kết thúc

  • Nếu Claude kết thúc cuộc trò chuyện, việc gửi thêm tin nhắn mới trong cuộc trò chuyện đó sẽ bị chặn
  • Các cuộc trò chuyện khác trong tài khoản của người dùng không bị ảnh hưởng, và người dùng có thể bắt đầu cuộc chat mới ngay lập tức
  • Để tránh mất thông tin quan trọng trong các cuộc trò chuyện dài, người dùng có thể chỉnh sửa tin nhắn trước đó hoặc thử lại để tạo một nhánh hội thoại mới

Thử nghiệm và phản hồi

  • Tính năng này là một thử nghiệm đang diễn ra và sẽ tiếp tục được cải thiện
  • Nếu người dùng gặp phải trường hợp cuộc trò chuyện bị kết thúc ngoài dự kiến, họ có thể phản hồi bằng ‘Thumbs’ trên tin nhắn của Claude hoặc gửi ý kiến qua nút phản hồi

Chưa có bình luận nào.

Chưa có bình luận nào.