Anthropic rút lại cam kết an toàn chủ chốt

(time.com)

14 điểm bởi GN⁺ 2026-02-26 | 2 bình luận | Chia sẻ qua WhatsApp

Công ty nghiên cứu trí tuệ nhân tạo Anthropic đã rút lại cam kết quan trọng trong chính sách an toàn cốt lõi của mình là Responsible Scaling Policy (RSP)
Trước đây, công ty từng cam kết sẽ dừng huấn luyện mô hình AI nếu các biện pháp an toàn chưa được bảo đảm đầy đủ, nhưng điều khoản này đã bị xóa trong chính sách mới
RSP mới cam kết tăng cường tính minh bạch và duy trì nỗ lực an toàn ngang hoặc cao hơn đối thủ, đồng thời nêu rõ có thể “trì hoãn” việc phát triển nếu rủi ro trở nên nghiêm trọng
Công ty giải thích thay đổi này không phải do áp lực thị trường mà là phản ứng trước thực tế chính trị và khoa học
Các chuyên gia đánh giá đây là tín hiệu cho thấy xã hội vẫn chưa chuẩn bị đầy đủ trước rủi ro thảm họa từ AI

Bối cảnh thay đổi RSP (Responsible Scaling Policy)

Năm 2023, Anthropic công bố cam kết sẽ không huấn luyện các hệ thống AI nếu các biện pháp an toàn chưa được chứng minh đầy đủ
- Đây là chính sách cốt lõi giúp củng cố hình ảnh một công ty đặt an toàn lên trên cạnh tranh thị trường
Gần đây, công ty đã cải tổ toàn diện RSP và rút lại cam kết không phát hành mô hình nếu không có bảo đảm an toàn từ trước
Jared Kaplan (Chief Science Officer) cho biết “do tốc độ phát triển AI quá nhanh, các cam kết mang tính đơn phương là không thực tế”

Nội dung chính của chính sách mới

RSP mới bao gồm việc mở rộng tính minh bạch về các rủi ro an toàn AI
- Anthropic sẽ công bố thêm kết quả thử nghiệm an toàn của các mô hình và nêu rõ sẽ duy trì hoặc vượt mức các biện pháp an toàn của đối thủ
Nếu công ty đang dẫn đầu cuộc đua AI và đánh giá rằng rủi ro thảm họa là lớn, họ có thể ‘trì hoãn’ việc phát triển
Tuy nhiên, ranh giới hạn chế rõ ràng như trước đây — cấm huấn luyện các mô hình vượt một ngưỡng nhất định — đã biến mất

Bối cảnh ngành của thay đổi chính sách

Gần đây, Anthropic đang đạt được thành quả thương mại nhờ thành công của mô hình Claude và Claude Code
- Tháng 2 năm 2026, công ty huy động được 30 tỷ USD, được định giá khoảng 380 tỷ USD, và báo cáo tốc độ tăng trưởng doanh thu hằng năm gấp 10 lần
Mô hình kinh doanh tập trung B2B của công ty được đánh giá là đáng tin cậy hơn chiến lược lấy người tiêu dùng làm trung tâm của OpenAI
Kaplan nhấn mạnh thay đổi lần này không phải do áp lực thị trường mà là sự điều chỉnh thực dụng theo biến động của môi trường chính trị và khoa học

Giới hạn về quy định và khoa học

Khi đưa RSP vào áp dụng, Anthropic từng kỳ vọng các công ty khác cũng sẽ áp dụng những biện pháp tương tự, nhưng điều đó đã không xảy ra
Tình trạng thiếu luật AI ở cấp liên bang tại Mỹ, xu hướng nới lỏng quy định của chính quyền Trump, và sự thất bại của hợp tác quốc tế vẫn tiếp diễn
Tính phức tạp của khoa học đánh giá AI cũng được chỉ ra là một vấn đề
- Năm 2025, Anthropic công bố rằng họ không thể loại trừ khả năng mô hình của mình bị lạm dụng cho khủng bố sinh học, nhưng bằng chứng khoa học để chứng minh điều đó vẫn còn thiếu

Thảo luận nội bộ và quá trình ra quyết định

Trong khoảng một năm, ban lãnh đạo đã thảo luận về phương án cải tổ RSP phù hợp với môi trường mới
- Điểm tranh luận cốt lõi là nguyên tắc sáng lập cho rằng muốn nghiên cứu an toàn AI thì phải trực tiếp phát triển các mô hình tuyến đầu
Theo Kaplan, CEO Dario Amodei cho rằng “nếu các đối thủ vẫn tiếp tục phát triển còn chỉ Anthropic dừng lại, điều đó ngược lại còn nguy hiểm hơn”
Phần mở đầu của RSP mới nêu rõ: “nếu nhà phát triển có biện pháp bảo vệ yếu nhất lại là bên quyết định tốc độ, thì những nhà phát triển có trách nhiệm sẽ đánh mất năng lực nghiên cứu an toàn”

Đánh giá và lo ngại từ bên ngoài

Chris Painter (Giám đốc chính sách tại METR) cho rằng thay đổi này có thể hiểu được, nhưng cũng cho thấy xã hội chưa chuẩn bị đầy đủ trước rủi ro thảm họa AI
- Ông nói Anthropic đã chuyển sang “chế độ ứng phó khẩn cấp (triage mode)” vì đánh giá rủi ro và phương pháp giảm thiểu không theo kịp tốc độ phát triển công nghệ
Painter đánh giá tích cực việc chính sách mới báo cáo rủi ro minh bạch và công bố lộ trình an toàn, nhưng
- cũng lo ngại rằng khi ngưỡng dừng nhị phân (binary threshold) của RSP cũ biến mất, có thể xuất hiện ‘hiệu ứng luộc ếch’ khi rủi ro tăng dần một cách khó nhận ra

Kế hoạch sắp tới và cam kết công khai

Anthropic cho biết RSP mới vẫn giữ lại các ưu điểm cốt lõi của chính sách cũ
- Trước đây, việc hạn chế phát hành mô hình từng đóng vai trò là động lực thúc đẩy phát triển các biện pháp giảm thiểu an toàn
- Trong chính sách mới, để duy trì động lực đó, công ty sẽ công bố định kỳ Frontier Safety Roadmaps
Ngoài ra, công ty cũng sẽ phát hành Risk Reports mỗi 3–6 tháng để
- bao gồm nội dung đánh giá năng lực của mô hình, các kịch bản đe dọa, biện pháp giảm thiểu rủi ro và mức độ rủi ro tổng thể
Kaplan nhấn mạnh: “nếu các đối thủ minh bạch trong cách ứng phó với rủi ro thảm họa, Anthropic cũng sẽ duy trì tiêu chuẩn an toàn tương đương hoặc cao hơn”

2 bình luận

tsboard 2026-02-26

Dù Anthropic có cố chấp đến đâu thì cuối cùng, nếu Bộ Quốc phòng Mỹ bảo làm thì cũng phải làm thôi. Rốt cuộc đây chẳng phải vốn là một diễn tiến tất yếu sao?

GN⁺ 2026-02-26

Ý kiến trên Hacker News

Thấy Anthropic giải thích lý do rút lại cam kết dừng huấn luyện mô hình AI là vì “đối thủ đang vượt lên trước”, nghe như cuối cùng họ cũng lộ ra rằng tất cả là vì tiền
Lập luận này giống kiểu “nếu ai cũng đang đá chó thì chúng ta cũng phải làm vậy”.
Mọi người từng tin Anthropic là một ‘công ty tốt’, nhưng rốt cuộc cũng chỉ là một thực thể theo đuổi lợi nhuận như tất cả những bên khác
- Anthropic không thể đại diện cho lý trí của thị trường. Vai trò đó phải do hệ thống giám sát và quản lý của chính phủ đảm nhận
  Nhưng thực tế là phần lớn các công ty AI đang tồn tại dưới một ‘chính phủ trên giấy’ mà thôi
- Thực ra việc “chỉ cần thắng là quan trọng” là thực tế chung của gần như mọi ngành
  Đây không chỉ là vấn đề riêng của các công ty AI, nhưng điều đó cũng không khiến nó trở nên chính đáng
- Nếu cuối cùng tiền là tất cả, thì tôi quyết định bỏ phiếu bằng ví tiền và đã hủy đăng ký Max
- Nếu cạnh tranh bị bỏ mặc không có quản lý, thì cuối cùng mọi công ty thành công đều sẽ gây ra lừa đảo và thiệt hại
  Vì thế các quy định về an toàn, môi trường và chống tham nhũng là điều bắt buộc
Trông đúng như chu kỳ điển hình của một startup AI
“Hãy xây hào để cứu nhân loại” → “Hãy quản lý các đối thủ mã nguồn mở” → “An toàn đang cản trở doanh thu Q3”
- Cuối cùng nó đi đến tuyên bố kiểu “ngân sách của Lầu Năm Góc quan trọng hơn an toàn”
- Sau khi trở thành kẻ thống trị thị trường, họ sẽ dùng các tổ chức phi lợi nhuận do mình tài trợ để thúc đẩy chính phủ siết quản lý
- Điều đáng ngạc nhiên là sự thay đổi này diễn ra quá nhanh
- Không chỉ AI, những công ty khác treo chữ “open” lên trước cũng tương tự
  Thực tế thì đóng kín nhưng lại gaslight mọi người rằng mình “mở”
- Các chính trị gia cũng thích quản lý. Nhất là khi có rượu vang và bít tết đi kèm, một lời châm biếm nửa đùa nửa thật
Tôi từng làm ở Anthropic, và những người như Jared Kaplan thật sự là kiểu người nghiêm túc suy nghĩ về sự cân bằng giữa nghiên cứu an toàn và công nghệ frontier
Nhưng quyết định lần này thật đáng thất vọng. Tôi từng tin ‘Responsible Scaling Policy’ là một cam kết thực chất sẽ được giữ ngay cả trong tình huống như thế này
Chính cam kết đó khiến Anthropic trông như “phòng thí nghiệm ít nguy hiểm nhất”, nhưng giờ tín hiệu ấy đã yếu đi
Tôi lo rằng từ nay việc giữ ghế sẽ được ưu tiên hơn nguyên tắc
- Câu “hy vọng họ hành động theo giá trị” có thể là một kỳ vọng quá ngây thơ
  Nhưng nếu vẫn còn giá trị nào đó, thì tôi vẫn nghĩ tốt hơn là cố tạo ảnh hưởng, dù chỉ là giữa những phòng thí nghiệm hoàn toàn không còn giá trị
- Nếu bản thân không sẵn sàng từ bỏ RSU (thưởng cổ phiếu), thì cũng không thể kỳ vọng điều đó ở ban lãnh đạo
  Trách nhiệm đạo đức là thứ tất cả chúng ta phải cùng chia sẻ
- Lời cam kết không có tính ràng buộc pháp lý, nhưng vẫn có ý nghĩa như một tín hiệu gửi ra thị trường
  Việc họ tự rút lại tín hiệu đó có nghĩa là giờ họ muốn hướng sang một thị trường khác
- Năm ngoái tôi từng phỏng vấn với Anthropic, và nó giống như một màn diễn đạo đức
  Ứng viên phải viết bài luận về an toàn AI, rồi mọi người cùng diễn vai “cứu thế giới”
  Nhưng rốt cuộc khi tiền thật sự xuất hiện như bây giờ thì chẳng ai mở miệng
- Những nguyên tắc như thế này cuối cùng chỉ có thể được duy trì ở cấp chính phủ
  Vì doanh nghiệp về mặt cấu trúc không thể thoát khỏi bản năng tối đa hóa lợi nhuận
Quyết định lần này giống với khoảnh khắc Mozilla chấp nhận DRM
Không hoàn hảo, nhưng dù sao Anthropic vẫn đang cố gắng giữ lấy một mức độ trách nhiệm nào đó
So với OpenAI thì ít nhất hiện tại họ vẫn còn đáng tin hơn
Tiêu đề bài báo bị cường điệu hóa. Tranh cãi lần này không phải về đàm phán với Lầu Năm Góc, mà là về Responsible Scaling Policy 3.0 do Anthropic công bố
- Dĩ nhiên cũng không thể khẳng định hai chuyện này hoàn toàn không liên quan
  Thậm chí có thể đây là một biện pháp phòng ngừa từ trước
- Thực ra tôi nghĩ thay đổi chính sách lần này còn là biến chuyển quan trọng hơn cả vấn đề Pentagon
Có áp lực từ phía chính phủ, nhưng bài báo lại hoàn toàn không nhắc đến
- Theo tin liên quan, đã xác nhận có cuộc gặp giữa Hegseth và CEO Anthropic Dario Amodei
- Vì vậy cũng có ý kiến cho rằng đó là cách họ có được bài độc quyền
- Một số người xem đây là thao túng dư luận (Consent manufacturing)
- Họ chỉ trích việc bài báo thậm chí không nhắc đến tên Hegseth
Đoạn mở đầu bằng câu “Lúc đầu chẳng ai nói gì khi họ phát hành mô hình mà không có kiểm chứng an toàn...” nghe như một ngụ ngôn cảnh báo
Cuối cùng không ai chuẩn bị gì, và khi vấn đề bùng nổ thì đã quá muộn
- Kiểu phớt lờ tập thể này là một vấn đề cố hữu của xã hội loài người
- Cảnh báo đã có đủ rồi, nhưng con người bị mắc kẹt trong lòng tham và tư duy ngắn hạn
- Nói theo kiểu HN thì cuối cùng tất cả chúng ta đều là đồng phạm của hệ thống đó
- Cũng có phản hồi rằng nó hơi giống phần mở đầu của một cốt truyện Terminator
- Nhưng xét thực tế thì kịch bản AI vượt ngoài tầm kiểm soát vẫn còn xa
  Vấn đề thật sự nằm ở chính trị và văn hóa hơn là công nghệ
Việc rút lại cam kết an toàn đúng vào thời điểm này rất đáng chú ý
Những công ty kiểu này vẫn theo đuổi bộ quy tắc đạo đức cho đến khi lợi nhuận bị đe dọa, rồi lập tức vứt bỏ nó
Cuối cùng mục tiêu là làm mất giá trị của lao động trí óc cổ cồn trắng
Liệu họ sẽ dẫn dắt quá trình chuyển đổi đó một cách có đạo đức, hay chỉ chuyển của cải sang cho cổ đông?
- Thời điểm này cũng có thể là phát súng mở màn của áp lực từ chính phủ
- Nhưng nếu tầng lớp trung lưu sụp đổ, thì cuối cùng nền tảng người tiêu dùng cũng biến mất
  Chẳng khác gì con rắn tự ăn đuôi mình
- Những khẩu hiệu như “Don’t be evil” rốt cuộc chỉ là lớp bọc vì lợi nhuận
  Bản chất của doanh nghiệp là theo đuổi lợi nhuận, điều đó tự nó không xấu, nhưng những cử chỉ đạo đức lại tạo cảm giác đạo đức giả
“Don’t be evil” của Google trụ được 15 năm, còn Responsible Scaling Policy của Anthropic biến mất chỉ sau hai năm rưỡi
Chu kỳ bán rã của chủ nghĩa lý tưởng AI đang ngày càng ngắn hơn
Thật tiếc khi Anthropic thay đổi, nhưng thực tế thì ngay cả vì an toàn cũng không thể để tụt lại quá xa trong cạnh tranh
Đây là lúc cần sự thực dụng. Sau này Anthropic có thể sẽ “trở nên xấu”, nhưng hiện giờ họ vẫn là phía an toàn nhất
- Cũng có người hỏi vì sao lại tin Anthropic đến thế
  Việc CEO từ chối sử dụng AI cho chiến tranh được xem là một điểm tích cực
- Nhưng những thay đổi như thế này cũng có thể đã là dấu hiệu của việc họ đang xấu đi
  Cần cảnh giác trước khi quá muộn
- Cũng có phản ứng đầy hoài nghi rằng thế giới đang hỏng đi chính vì những kẻ theo chủ nghĩa thực dụng