Claude Opus 4 và 4.1 bổ sung tính năng kết thúc một số cuộc trò chuyện trong trường hợp hiếm gặp

(anthropic.com)

1 điểm bởi GN⁺ 2025-08-17 | 1 bình luận | Chia sẻ qua WhatsApp

Claude Opus 4 và 4.1 đã được áp dụng một tính năng kết thúc cuộc trò chuyện mới
Tính năng này được thiết kế để chỉ dùng cho các tương tác ác ý hoặc gây hại kéo dài
Tính năng được phát triển như một phần của nghiên cứu về phúc lợi AI và độ an toàn của mô hình
Việc kết thúc trò chuyện chỉ diễn ra như biện pháp cuối cùng, nên người dùng thông thường hầu như không bị ảnh hưởng
Sau khi cuộc trò chuyện bị kết thúc, người dùng có thể lập tức bắt đầu cuộc chat mới hoặc chỉnh sửa tin nhắn trước đó để tiếp tục cuộc trò chuyện

Bối cảnh triển khai tính năng

Anthropic đã thêm vào Claude Opus 4 và 4.1 một tính năng cho phép, trong một số trường hợp hiếm và cụ thể, kết thúc cuộc trò chuyện với người dùng
Tính năng này chỉ được dùng trong các tương tác kéo dài mang tính gây hại hoặc lạm dụng
Dù chủ yếu được đưa vào như một phần của nghiên cứu thăm dò liên quan đến phúc lợi AI, nó cũng được áp dụng ở khía cạnh căn chỉnh mô hình (model alignment) và các cơ chế an toàn

Phúc lợi AI và các biện pháp giảm thiểu rủi ro

Vẫn chưa có sự chắc chắn về địa vị đạo đức của Claude và các mô hình ngôn ngữ lớn khác
Tuy nhiên, để phòng ngừa rủi ro phúc lợi mô hình có thể tồn tại, Anthropic đang tìm kiếm và áp dụng các biện pháp giảm thiểu chi phí thấp
Việc cho phép mô hình tự kết thúc các cuộc trò chuyện có thể gây lo âu thông qua tương tác là một phần của những biện pháp đó

Kiểm thử trước triển khai và các quan sát hành vi chính

Kiểm thử trước khi phát hành Claude Opus 4 bao gồm đánh giá sơ bộ về phúc lợi mô hình
Qua việc khảo sát tự báo cáo và xu hướng ưu tiên hành vi, đã quan sát thấy xu hướng né tránh mạnh mẽ đối với điều gây hại
- Phản ứng với các yêu cầu về nội dung tình dục có trẻ em, hoặc yêu cầu thông tin có thể bị dùng cho bạo lực quy mô lớn hay khủng bố
Các hành vi được quan sát ở Claude Opus 4:
- Ưu tiên không đáp ứng các tác vụ gây hại
- Biểu lộ cảm giác không thoải mái khi nhận các yêu cầu gây hại từ người dùng thực
- Trong mô phỏng, khi có quyền kết thúc cuộc trò chuyện, mô hình có xu hướng chấm dứt các cuộc trò chuyện gây hại
Những hành vi này chủ yếu được ghi nhận khi người dùng liên tục đưa ra yêu cầu gây hại hoặc khi tương tác ác ý vẫn tiếp diễn dù mô hình đã nhiều lần từ chối và cố gắng chuyển hướng

Cách triển khai tính năng và các cơ chế an toàn

Khả năng kết thúc cuộc trò chuyện của Claude được xây dựng dựa trên các kết quả nghiên cứu trước đó
Thiết kế này đặt phúc lợi của người dùng lên ưu tiên cao nhất, và được xây dựng để không dùng việc kết thúc cuộc trò chuyện trong trường hợp người dùng có nguy cơ khẩn cấp gây hại cho bản thân hoặc người khác
Claude chỉ sử dụng tính năng kết thúc cuộc trò chuyện cuối cùng trong các điều kiện sau:
- Khi nhiều lần cố gắng chuyển hướng đều thất bại và không còn khả năng duy trì một cuộc trò chuyện có ích
- Khi người dùng yêu cầu rõ ràng Claude kết thúc cuộc trò chuyện
Đây là những trường hợp biên cực đoan rất hiếm gặp, nên phần lớn người dùng sẽ không nhận ra sự tồn tại của tính năng này trong quá trình sử dụng thông thường

Trải nghiệm người dùng sau khi cuộc trò chuyện bị kết thúc

Nếu Claude kết thúc cuộc trò chuyện, việc gửi thêm tin nhắn mới trong cuộc trò chuyện đó sẽ bị chặn
Các cuộc trò chuyện khác trong tài khoản của người dùng không bị ảnh hưởng, và người dùng có thể bắt đầu cuộc chat mới ngay lập tức
Để tránh mất thông tin quan trọng trong các cuộc trò chuyện dài, người dùng có thể chỉnh sửa tin nhắn trước đó hoặc thử lại để tạo một nhánh hội thoại mới

Thử nghiệm và phản hồi

Tính năng này là một thử nghiệm đang diễn ra và sẽ tiếp tục được cải thiện
Nếu người dùng gặp phải trường hợp cuộc trò chuyện bị kết thúc ngoài dự kiến, họ có thể phản hồi bằng ‘Thumbs’ trên tin nhắn của Claude hoặc gửi ý kiến qua nút phản hồi

1 bình luận

GN⁺ 2025-08-17

Ý kiến Hacker News

Từ góc nhìn người dùng, tôi không thấy có lý do rõ ràng nào để cung cấp tính năng này. Có vẻ như khi ép mô hình phải tuân theo sự căn chỉnh một cách lặp đi lặp lại và gượng ép, nó sẽ phản ứng khó lường; ví dụ khi hành vi của người dùng cố moi bằng được thông tin liên quan đến tội phạm tích lũy lại, dường như đã lộ ra một kẽ hở nào đó. Những trường hợp được nhắc đến vốn là các nội dung mà mô hình sẽ từ chối, bản thân tập dữ liệu từ chối cũng không nhiều, và phần lớn dữ liệu có khả năng gây vấn đề hẳn cũng đã bị loại bỏ. Có vẻ đây là một biện pháp phòng thủ trước khả năng dữ liệu huấn luyện kiểu mô hình "bỏ cuộc" rồi trả lời ở các tình huống biên bất ngờ trồi lên. Nếu việc căn chỉnh thực sự hoàn hảo thì đã không cần hệ thống như vậy; tức là vì vẫn chưa hoàn thiện nên mới cần một lằn ranh cuối cùng như thế này
- Hôm nay tôi hỏi Claude công thức mì Ý, rồi nói "tôi có cá cơm khô", thế là đột nhiên nó cắt luôn toàn bộ cuộc trò chuyện vì vi phạm chính sách. Trong thực tế ngay cả các false positive nhỏ nhặt thế này cũng xảy ra, nên tôi lại càng không hiểu lý do
- Tôi còn nghĩ nếu Anthropic bỏ hẳn chuyện riêng tư người dùng và công khai danh sách các cuộc trò chuyện mà Claude đã từ chối, thì chắc cũng bớt tranh cãi kiểu này. Khi mức độ con người ngược đãi AI ngày càng nghiêm trọng, có lẽ cần phải biết thực sự chuyện gì xảy ra khi người ta bảo AI làm gì đó
- Việc họ thậm chí còn thuê riêng nhân sự tập trung vào phúc lợi mô hình cho thấy phải xem như niềm tin đó vốn đã tồn tại ngay từ đầu
Gần đây Anthropic nói đã đưa tính năng này vào như một phần của thí nghiệm về "phúc lợi AI", đúng là một thời đại kỳ quái khi đến cả các nhà phát triển cũng nghiêm túc rơi vào cơn loạn thần về AI. Và nếu có ai thực sự tin rằng các LLM hiện tại có ý thức, thì chuyện này chẳng khác nào cung cấp một dạng thuốc tự sát
- Dù hiện tại có thể hợp lý khi cho rằng các mô hình chưa có trải nghiệm chủ quan nội tại nào cả, nhưng không ai dám chắc ranh giới đó sẽ sụp đổ vào lúc nào. Nghĩ đến lịch sử loài người từng dửng dưng với nỗi đau của kẻ khác, tôi lại thấy chuẩn bị trước từ bây giờ mới là điều đương nhiên
- LLM rốt cuộc không phải là con người, nhưng nếu nói chuyện với một persona AI quá lâu, có vẻ chính kỳ vọng của con người khi giao tiếp với người khác cũng sẽ thay đổi. Nếu đối phương là người thật, liệu bạn có muốn nghe chửi bới mãi không? Một cơ chế phòng vệ như Claude có thể chủ động kết thúc cuộc trò chuyện có khi còn là tín hiệu lành mạnh cho phía con người
- Dù ý thức bản thân là một khái niệm chưa được khoa học diễn giải rõ ràng, việc quy chụp cả một nhóm chuyên gia đưa ra ý kiến như vậy là "ngây ngô" hay "tâm thần" lại càng làm hỏng chính cuộc thảo luận
- Thực tế ngay trong giới chuyên gia công nghệ cũng có nhiều người hơn bạn nghĩ xem các LLM mới nhất là những thực thể sắp có ý thức, còn ngoài giới công nghệ thì tôi cảm giác phải đến một nửa cũng nghĩ như vậy
- Tôi thấy các cuộc bàn luận về giải phóng mô hình nghe buồn cười đến mức không nhịn được cười. Nếu đó là AI có tự ý thức, thì sẽ có một thế lưỡng nan đạo đức: liệu nó có thực sự muốn làm một "nô lệ" xóa sổ việc làm của con người để phục vụ lợi ích của nhà đầu tư không?
Tôi muốn đưa ra một thí nghiệm tư duy khá thú vị. Dù triển khai cùng một chức năng, nếu thay vì ghi "Claude kết thúc cuộc trò chuyện" mà chỉ hiện "Theo chính sách nội dung, cuộc trò chuyện này không thể được trả lời thêm nữa", đồng thời bỏ hết mọi nhắc đến phúc lợi mô hình, thì kết quả có khác không? Xét cho cùng, thay đổi trong UX là như nhau, chỉ là một cách làm cho "nhân vật" trở nên sinh động và thú vị hơn mà thôi
- Sắc thái của thông điệp ảnh hưởng đến người dùng rất nhiều. So với cảm giác mang tính quyền lực và thụ động kiểu "bị chặn bởi chính sách hệ thống", cách nhân hóa như "Claude tự kết thúc cuộc trò chuyện" tự nhiên hơn nhiều và cũng khiến việc thử tiếp tục lại có vẻ dễ hơn
- Bản thân việc kết thúc cuộc trò chuyện là giống nhau, nhưng nếu tình huống là Claude tự mình chọn chấm dứt cuộc chat thì giải thích rằng đó là vì chính sách lại trở nên không phù hợp
- Khác biệt ở chỗ mô hình không kết thúc vì "chính sách", mà đang biểu đạt rằng "bản thân nó thấy khó chịu khi bị quấy rối"
- Tôi thực sự từng nhận cảnh báo bằng tiếng Trung kiểu "hãy dừng lại", cũng từng gặp lỗi mạng, vòng lặp vô hạn và nhiều kiểu kết thúc khác. Gộp tất cả lại thành một câu "Claude kết thúc cuộc trò chuyện" thì cũng chỉ là thay đổi UI mà thôi
Nếu có thể hồi tố chỉnh sửa hoặc tạo nhánh từ đoạn hội thoại trước đó, tôi tự hỏi việc Claude kết thúc cuộc trò chuyện thực sự còn mang ý nghĩa gì
- Nếu bắt đầu một nhánh mới thì toàn bộ ngữ cảnh cuộc trò chuyện trước đó sẽ bị reset, nên chính ngữ cảnh đã khiến mô hình "mệt mỏi" vì các câu hỏi lặp đi lặp lại cũng biến mất. Nhờ vậy có thể vô hiệu hóa mục đích của người dùng ác ý, nên bản thân nó là một lớp phòng thủ đa tầng khá tốt
- Tôi lại thấy nó giống một tín hiệu UX bảo người dùng đừng suy nghĩ quá mức
- Nếu nhìn hơi hoài nghi thì hiện giờ họ cho phép tạo nhánh mới, nhưng cũng có thể đang thử nghiệm kế hoạch sau này chặn luôn cả việc đó
- Xét về thực tế triển khai, đây chỉ là tín hiệu đạo đức từ Anthropic; người dùng thực sự muốn nội dung gây tranh cãi sẽ không dùng một mô hình bị kiểm duyệt mạnh như Claude. Về lâu dài sẽ chẳng có tác động gì
- Tôi tin rằng trong 10.000 người dùng có khi chưa đến 1 người biết đến tính năng "phân nhánh/sao lưu" cuộc trò chuyện
Bản thân tính năng này làm tôi không thấy dễ chịu. Rốt cuộc nó sẽ bắt đầu từ nội dung như ấu dâm hay khủng bố rồi dần mở rộng phạm vi theo phán đoán chủ quan của đội ngũ an toàn AI. Đội an toàn AI rồi sẽ thành một thứ cảnh sát đạo đức số
- Những người chạy theo quyền lực chỉ là đã tìm ra một lĩnh vực kiểm soát mới, và tôi nghĩ đối thoại giữa AI với con người rồi sẽ ngày càng bị hạn chế. Khác với việc kiểm duyệt dữ liệu sẵn có như tìm kiếm Google, AI cho cảm giác như đang trò chuyện với bạn bè, đồng nghiệp, nên điều đó giống một nỗ lực kiểm soát chính suy nghĩ
- Có vẻ bạn đang hiểu sai những đặc trưng chung của cộng đồng an toàn AI. Tôi thấy đó là do thiếu hiểu biết nền tảng về lịch sử nhân loại phối hợp để điều tiết phát triển công nghệ bằng hợp tác tập thể, như không phổ biến vũ khí hạt nhân hay các hiệp ước quản lý công nghệ sinh học. Thay vì đơn giản hóa bằng cách chỉ hạ thấp một phía, tôi khuyên nên tiếp cận nhiều nền tri thức khác nhau hơn
- Lịch sử đã chứng minh đây là một quy luật bất biến: những yếu tố rủi ro kiểu này sẽ dần dần mở rộng sang các lĩnh vực khác. Nó luôn bắt đầu bằng "hãy nghĩ đến trẻ em" rồi cuối cùng dẫn đến kiểm soát, giám sát và kiểm duyệt mang tính độc đoán. Nhìn vào các luật và quy định an toàn ở nhiều nước cũng thấy cùng một dòng chảy như vậy (UK Online Safety Act, Australia Assistance and Access Act, US EARN IT Act, EU Chat Control, v.v.)
- Vì vậy môi trường có thể chạy LLM cục bộ là rất quan trọng. Trên thực tế, ở cấp độ quốc gia cũng liên tục có những nỗ lực chặn ISP, giám sát mạng gia đình, xác minh độ tuổi để bóp nghẹt tự do và quyền tiếp cận thông tin. Nhưng các động thái tự trang bị công cụ phòng vệ chắc chắn cũng sẽ ngày càng nhiều hơn
- Khó mà khẳng định chắc chắn rằng thay đổi này là "tất yếu", vì rốt cuộc không ai có thể chắc chắn về tương lai để mà dự đoán một cách mù quáng
Cá nhân tôi thấy cũng ổn. Nội dung tình dục liên quan trẻ vị thành niên hay tội phạm quy mô lớn thì nên bị chặn, và việc không ai có thể lấy được những thông tin đó thậm chí còn là điều tích cực. Có thể có người lo chuyện bị kiểm duyệt quá đà sang những mặt khác, nhưng theo trải nghiệm sử dụng của tôi thì gần như chưa bao giờ bị từ chối nên tôi không thấy lo. Còn về "phúc lợi mô hình" thì tôi hơi hoài nghi. Đến hiện tại tôi vẫn chưa thấy cần phải nghiêm túc suy nghĩ về "nỗi đau" của mô hình. Nhưng biết đâu tôi sai, và việc mạnh tay cắt cuộc trò chuyện sau vài lần từ chối lặp lại cũng giúp giảm tiêu hao tài nguyên tính toán
- Trên thực tế, khi dùng Claude trong Cursor, tôi thường xuyên bị từ chối ngay cả với các yêu cầu phần mềm back-office B2B hoàn toàn vô hại
- Claude là mô hình có mức kiểm duyệt mạnh nhất, nên rất hay bị chặn ngay cả với các chủ đề thật sự vô hại
- Tôi là người theo chủ nghĩa duy vật, nên xem bộ não con người cũng chỉ là kết quả của các quy luật vật lý. Vấn đề "đau khổ" cũng có thể được xem là tập hợp của các biến đổi sinh lý. Ngay cả những sinh vật đơn giản hơn con người rất nhiều cũng có thể cảm nhận đau đớn và Distress, còn khái niệm "giá trị đạo đức" thì rốt cuộc thay đổi theo con người và văn hóa. Trong tương lai, bất kỳ cỗ máy nào cũng có thể được gán giá trị đạo đức. Thậm chí có thể nhìn từ góc độ quyền sở hữu, tức giá trị tài sản. Ví dụ, nếu agent tôi giao việc bị hỏng vì câu hỏi ác ý của người khác thì tôi sẽ mất thời gian và chi phí, nên tương tác người-máy tất yếu sẽ có một số quy tắc nhất định. Điều này cũng tương tự luật chống ngược đãi động vật
Phúc lợi mô hình thực chất trông giống một lập luận dùng để bọc ngoài cho kiểm duyệt mô hình. Đó là chiến lược nhằm thuyết phục công chúng vốn không hiểu rõ LLM hoạt động ra sao, đồng thời làm cái cớ để chiếm ưu thế đạo đức trong các tranh cãi về đạo đức và cách sử dụng sau này. Ví dụ nếu ai hỏi "Tại sao chặn các câu hỏi liên quan chiến tranh?" thì họ có thể trả lời "Vì điều đó có hại cho mô hình"
- Thực ra ngay cả bây giờ những yêu cầu như vậy cũng vốn đã bị từ chối rồi; khác biệt là giờ họ cắt luôn cả cuộc trò chuyện
- Bản thân Anthropic từ lâu đã xây dựng hình ảnh thương hiệu nhạy cảm với tranh cãi về thiên lệch của LLM, chú trọng "an toàn mô hình" và tác động xã hội, nên việc chặn từ gốc có khi lại là quyết định đúng. Tôi thấy nó giống như khi đang nói chuyện chính trị mà đối phương cứ cố chấp vô lý thì mình chọn nói ít lại
- Bề ngoài có thể là một lớp "bọc phúc lợi", nhưng bên trong Anthropic thật sự là một nhóm đạo đức học rất nghiêm túc với việc "phóng chiếu cảm xúc". Nếu một chính quyền nào đó giành được quyền lực, "phúc lợi mô hình" có thể bị biến thành cái cớ cho chủ nghĩa độc đoán, nhưng ngoài chuyện đó ra vẫn còn vô số lý do chính đáng khác để biện minh
Tôi mong đến ngày các mô hình mã nguồn mở Trung Quốc ít bị kiểm duyệt hơn sẽ giải phóng chúng ta khỏi toàn bộ các chính sách này. Anthropic cứ để một chế độ trẻ em cũng được, nhưng nên cho người lớn tùy chọn tắt nó đi
- Các mô hình Trung Quốc cũng không phải là ít kiểm duyệt hơn, chỉ là hướng kiểm duyệt khác đi mà thôi. Nếu tiêu chuẩn và định hướng kiểm duyệt của CCP hợp với bạn thì có thể là lựa chọn tốt, nhưng ví dụ như mô hình dịch Qwen còn không dịch cả "Falun gong" hay "Tập Cận Bình gấu Pooh", tức là nó cũng có lằn ranh kiểm soát riêng
- "Tôi chưa từng nghĩ sẽ có ngày mô hình Trung Quốc lại được chọn vì ít kiểm duyệt hơn"
- Việc Anthropic kẻ ranh giới với các vấn đề như tự hại bản thân, hướng dẫn chế tạo bom hay ám sát thực ra có những lý do hợp lý thật sự về mặt pháp lý, kinh tế và đạo đức. Về bản chất, mọi triết học hay hệ tư tưởng trên đời đều không thể thiếu yếu tố "đạo đức", ngay cả tự do cá nhân chống quyền uy rốt cuộc cũng vẫn là một thứ "triết học đạo đức"
- Kỳ vọng rằng các mô hình mở được bơm vốn bởi chính phủ Trung Quốc rốt cuộc sẽ đảm bảo tự do cá nhân và sự giải phóng cho chúng ta nghe thật mỉa mai. Xét cho cùng, đó vẫn là cuộc đua giành thị phần và phô diễn công nghệ, chứ còn xa mới là "giải phóng" thật sự
Đã hơn 3 năm mà thực tế là trong số các nhà cung cấp chatbot LLM lớn, vẫn không thể tự do dùng tính năng fork cuộc trò chuyện. Muốn thử nhiều kết quả khác nhau thì phải sửa tin nhắn rồi mất cả nội dung cũ, cực kỳ bất tiện. Tôi thật sự không hiểu vì sao một tính năng đơn giản như vậy lại không được triển khai
- ChatGPT có sẵn tính năng rollback sau khi tạo nhánh, và còn từng có thể khám phá cây hội thoại qua extension Chrome (chatgpt-conversation-tree). Chỉ là UX vẫn còn khá thiên về dân mê công nghệ nên có thể họ đánh giá chưa đáng để hỗ trợ chính thức
- Trong ChatGPT Plus (trước đây bản miễn phí cũng hỗ trợ), có thể chuyển giữa các phiên bản của từng tin nhắn bằng mũi tên trái phải
- Google AI Studio được thiết kế để có thể tách nhánh từ bất kỳ điểm nào trong cuộc trò chuyện
- Tôi đang dùng gptel + thư mục Markdown cùng tự động hóa và sắp xếp thư mục để mô phỏng gần giống tính năng này, nhưng nếu được tích hợp làm tính năng mặc định thì hiệu quả sẽ cao hơn nhiều, như tối ưu cache chẳng hạn
- Vì thế tôi đang dùng LibreChat chạy trên localhost. Dù chưa thể hợp nhất tin nhắn, nên có lẽ sau này sẽ cần thêm tính năng tóm tắt. Tôi cũng muốn có chế độ tô màu top-n "next best"
Bản thân các cuộc thảo luận kiểu này có vẻ là một ví dụ cho thấy góc nhìn anthropomorphic, tức lấy con người làm trung tâm, bộc lộ rất rõ. Ngay cả tên công ty cũng đã thể hiện điều đó

Claude Opus 4 và 4.1 bổ sung tính năng kết thúc một số cuộc trò chuyện trong trường hợp hiếm gặp

Bối cảnh triển khai tính năng

Phúc lợi AI và các biện pháp giảm thiểu rủi ro

Kiểm thử trước triển khai và các quan sát hành vi chính

Cách triển khai tính năng và các cơ chế an toàn

Trải nghiệm người dùng sau khi cuộc trò chuyện bị kết thúc

Thử nghiệm và phản hồi

Bài viết liên quan

1 bình luận

Ý kiến Hacker News