- Công ty nghiên cứu trí tuệ nhân tạo Anthropic đã rút lại cam kết quan trọng trong chính sách an toàn cốt lõi của mình là Responsible Scaling Policy (RSP)
- Trước đây, công ty từng cam kết sẽ dừng huấn luyện mô hình AI nếu các biện pháp an toàn chưa được bảo đảm đầy đủ, nhưng điều khoản này đã bị xóa trong chính sách mới
- RSP mới cam kết tăng cường tính minh bạch và duy trì nỗ lực an toàn ngang hoặc cao hơn đối thủ, đồng thời nêu rõ có thể “trì hoãn” việc phát triển nếu rủi ro trở nên nghiêm trọng
- Công ty giải thích thay đổi này không phải do áp lực thị trường mà là phản ứng trước thực tế chính trị và khoa học
- Các chuyên gia đánh giá đây là tín hiệu cho thấy xã hội vẫn chưa chuẩn bị đầy đủ trước rủi ro thảm họa từ AI
Bối cảnh thay đổi RSP (Responsible Scaling Policy)
- Năm 2023, Anthropic công bố cam kết sẽ không huấn luyện các hệ thống AI nếu các biện pháp an toàn chưa được chứng minh đầy đủ
- Đây là chính sách cốt lõi giúp củng cố hình ảnh một công ty đặt an toàn lên trên cạnh tranh thị trường
- Gần đây, công ty đã cải tổ toàn diện RSP và rút lại cam kết không phát hành mô hình nếu không có bảo đảm an toàn từ trước
- Jared Kaplan (Chief Science Officer) cho biết “do tốc độ phát triển AI quá nhanh, các cam kết mang tính đơn phương là không thực tế”
Nội dung chính của chính sách mới
- RSP mới bao gồm việc mở rộng tính minh bạch về các rủi ro an toàn AI
- Anthropic sẽ công bố thêm kết quả thử nghiệm an toàn của các mô hình và nêu rõ sẽ duy trì hoặc vượt mức các biện pháp an toàn của đối thủ
- Nếu công ty đang dẫn đầu cuộc đua AI và đánh giá rằng rủi ro thảm họa là lớn, họ có thể ‘trì hoãn’ việc phát triển
- Tuy nhiên, ranh giới hạn chế rõ ràng như trước đây — cấm huấn luyện các mô hình vượt một ngưỡng nhất định — đã biến mất
Bối cảnh ngành của thay đổi chính sách
- Gần đây, Anthropic đang đạt được thành quả thương mại nhờ thành công của mô hình Claude và Claude Code
- Tháng 2 năm 2026, công ty huy động được 30 tỷ USD, được định giá khoảng 380 tỷ USD, và báo cáo tốc độ tăng trưởng doanh thu hằng năm gấp 10 lần
- Mô hình kinh doanh tập trung B2B của công ty được đánh giá là đáng tin cậy hơn chiến lược lấy người tiêu dùng làm trung tâm của OpenAI
- Kaplan nhấn mạnh thay đổi lần này không phải do áp lực thị trường mà là sự điều chỉnh thực dụng theo biến động của môi trường chính trị và khoa học
Giới hạn về quy định và khoa học
- Khi đưa RSP vào áp dụng, Anthropic từng kỳ vọng các công ty khác cũng sẽ áp dụng những biện pháp tương tự, nhưng điều đó đã không xảy ra
- Tình trạng thiếu luật AI ở cấp liên bang tại Mỹ, xu hướng nới lỏng quy định của chính quyền Trump, và sự thất bại của hợp tác quốc tế vẫn tiếp diễn
- Tính phức tạp của khoa học đánh giá AI cũng được chỉ ra là một vấn đề
- Năm 2025, Anthropic công bố rằng họ không thể loại trừ khả năng mô hình của mình bị lạm dụng cho khủng bố sinh học, nhưng bằng chứng khoa học để chứng minh điều đó vẫn còn thiếu
Thảo luận nội bộ và quá trình ra quyết định
- Trong khoảng một năm, ban lãnh đạo đã thảo luận về phương án cải tổ RSP phù hợp với môi trường mới
- Điểm tranh luận cốt lõi là nguyên tắc sáng lập cho rằng muốn nghiên cứu an toàn AI thì phải trực tiếp phát triển các mô hình tuyến đầu
- Theo Kaplan, CEO Dario Amodei cho rằng “nếu các đối thủ vẫn tiếp tục phát triển còn chỉ Anthropic dừng lại, điều đó ngược lại còn nguy hiểm hơn”
- Phần mở đầu của RSP mới nêu rõ: “nếu nhà phát triển có biện pháp bảo vệ yếu nhất lại là bên quyết định tốc độ, thì những nhà phát triển có trách nhiệm sẽ đánh mất năng lực nghiên cứu an toàn”
Đánh giá và lo ngại từ bên ngoài
- Chris Painter (Giám đốc chính sách tại METR) cho rằng thay đổi này có thể hiểu được, nhưng cũng cho thấy xã hội chưa chuẩn bị đầy đủ trước rủi ro thảm họa AI
- Ông nói Anthropic đã chuyển sang “chế độ ứng phó khẩn cấp (triage mode)” vì đánh giá rủi ro và phương pháp giảm thiểu không theo kịp tốc độ phát triển công nghệ
- Painter đánh giá tích cực việc chính sách mới báo cáo rủi ro minh bạch và công bố lộ trình an toàn, nhưng
- cũng lo ngại rằng khi ngưỡng dừng nhị phân (binary threshold) của RSP cũ biến mất, có thể xuất hiện ‘hiệu ứng luộc ếch’ khi rủi ro tăng dần một cách khó nhận ra
Kế hoạch sắp tới và cam kết công khai
- Anthropic cho biết RSP mới vẫn giữ lại các ưu điểm cốt lõi của chính sách cũ
- Trước đây, việc hạn chế phát hành mô hình từng đóng vai trò là động lực thúc đẩy phát triển các biện pháp giảm thiểu an toàn
- Trong chính sách mới, để duy trì động lực đó, công ty sẽ công bố định kỳ
Frontier Safety Roadmaps
- Ngoài ra, công ty cũng sẽ phát hành
Risk Reports mỗi 3–6 tháng để
- bao gồm nội dung đánh giá năng lực của mô hình, các kịch bản đe dọa, biện pháp giảm thiểu rủi ro và mức độ rủi ro tổng thể
- Kaplan nhấn mạnh: “nếu các đối thủ minh bạch trong cách ứng phó với rủi ro thảm họa, Anthropic cũng sẽ duy trì tiêu chuẩn an toàn tương đương hoặc cao hơn”
2 bình luận
Dù Anthropic có cố chấp đến đâu thì cuối cùng, nếu Bộ Quốc phòng Mỹ bảo làm thì cũng phải làm thôi. Rốt cuộc đây chẳng phải vốn là một diễn tiến tất yếu sao?
Ý kiến trên Hacker News
Thấy Anthropic giải thích lý do rút lại cam kết dừng huấn luyện mô hình AI là vì “đối thủ đang vượt lên trước”, nghe như cuối cùng họ cũng lộ ra rằng tất cả là vì tiền
Lập luận này giống kiểu “nếu ai cũng đang đá chó thì chúng ta cũng phải làm vậy”.
Mọi người từng tin Anthropic là một ‘công ty tốt’, nhưng rốt cuộc cũng chỉ là một thực thể theo đuổi lợi nhuận như tất cả những bên khác
Nhưng thực tế là phần lớn các công ty AI đang tồn tại dưới một ‘chính phủ trên giấy’ mà thôi
Đây không chỉ là vấn đề riêng của các công ty AI, nhưng điều đó cũng không khiến nó trở nên chính đáng
Vì thế các quy định về an toàn, môi trường và chống tham nhũng là điều bắt buộc
Trông đúng như chu kỳ điển hình của một startup AI
“Hãy xây hào để cứu nhân loại” → “Hãy quản lý các đối thủ mã nguồn mở” → “An toàn đang cản trở doanh thu Q3”
Thực tế thì đóng kín nhưng lại gaslight mọi người rằng mình “mở”
Tôi từng làm ở Anthropic, và những người như Jared Kaplan thật sự là kiểu người nghiêm túc suy nghĩ về sự cân bằng giữa nghiên cứu an toàn và công nghệ frontier
Nhưng quyết định lần này thật đáng thất vọng. Tôi từng tin ‘Responsible Scaling Policy’ là một cam kết thực chất sẽ được giữ ngay cả trong tình huống như thế này
Chính cam kết đó khiến Anthropic trông như “phòng thí nghiệm ít nguy hiểm nhất”, nhưng giờ tín hiệu ấy đã yếu đi
Tôi lo rằng từ nay việc giữ ghế sẽ được ưu tiên hơn nguyên tắc
Nhưng nếu vẫn còn giá trị nào đó, thì tôi vẫn nghĩ tốt hơn là cố tạo ảnh hưởng, dù chỉ là giữa những phòng thí nghiệm hoàn toàn không còn giá trị
Trách nhiệm đạo đức là thứ tất cả chúng ta phải cùng chia sẻ
Việc họ tự rút lại tín hiệu đó có nghĩa là giờ họ muốn hướng sang một thị trường khác
Ứng viên phải viết bài luận về an toàn AI, rồi mọi người cùng diễn vai “cứu thế giới”
Nhưng rốt cuộc khi tiền thật sự xuất hiện như bây giờ thì chẳng ai mở miệng
Vì doanh nghiệp về mặt cấu trúc không thể thoát khỏi bản năng tối đa hóa lợi nhuận
Quyết định lần này giống với khoảnh khắc Mozilla chấp nhận DRM
Không hoàn hảo, nhưng dù sao Anthropic vẫn đang cố gắng giữ lấy một mức độ trách nhiệm nào đó
So với OpenAI thì ít nhất hiện tại họ vẫn còn đáng tin hơn
Tiêu đề bài báo bị cường điệu hóa. Tranh cãi lần này không phải về đàm phán với Lầu Năm Góc, mà là về Responsible Scaling Policy 3.0 do Anthropic công bố
Thậm chí có thể đây là một biện pháp phòng ngừa từ trước
Có áp lực từ phía chính phủ, nhưng bài báo lại hoàn toàn không nhắc đến
Đoạn mở đầu bằng câu “Lúc đầu chẳng ai nói gì khi họ phát hành mô hình mà không có kiểm chứng an toàn...” nghe như một ngụ ngôn cảnh báo
Cuối cùng không ai chuẩn bị gì, và khi vấn đề bùng nổ thì đã quá muộn
Vấn đề thật sự nằm ở chính trị và văn hóa hơn là công nghệ
Việc rút lại cam kết an toàn đúng vào thời điểm này rất đáng chú ý
Những công ty kiểu này vẫn theo đuổi bộ quy tắc đạo đức cho đến khi lợi nhuận bị đe dọa, rồi lập tức vứt bỏ nó
Cuối cùng mục tiêu là làm mất giá trị của lao động trí óc cổ cồn trắng
Liệu họ sẽ dẫn dắt quá trình chuyển đổi đó một cách có đạo đức, hay chỉ chuyển của cải sang cho cổ đông?
Chẳng khác gì con rắn tự ăn đuôi mình
Bản chất của doanh nghiệp là theo đuổi lợi nhuận, điều đó tự nó không xấu, nhưng những cử chỉ đạo đức lại tạo cảm giác đạo đức giả
“Don’t be evil” của Google trụ được 15 năm, còn Responsible Scaling Policy của Anthropic biến mất chỉ sau hai năm rưỡi
Chu kỳ bán rã của chủ nghĩa lý tưởng AI đang ngày càng ngắn hơn
Thật tiếc khi Anthropic thay đổi, nhưng thực tế thì ngay cả vì an toàn cũng không thể để tụt lại quá xa trong cạnh tranh
Đây là lúc cần sự thực dụng. Sau này Anthropic có thể sẽ “trở nên xấu”, nhưng hiện giờ họ vẫn là phía an toàn nhất
Việc CEO từ chối sử dụng AI cho chiến tranh được xem là một điểm tích cực
Cần cảnh giác trước khi quá muộn