Anthropic xin lỗi vì các rào chắn Claude Fable vô hình

(theverge.com)

1 điểm bởi GN⁺ 2026-06-12 | 1 bình luận | Chia sẻ qua WhatsApp

Claude Fable 5 là mô hình đầu tiên được cung cấp rộng rãi trong dòng Mythos của Anthropic, và đã áp dụng các hạn chế ẩn để ngăn các nỗ lực chưng cất nhằm phục vụ phát triển hệ thống cạnh tranh
Anthropic đã rút lại cách làm trước đây là thay đổi và làm giảm chất lượng phản hồi đối với các yêu cầu bị cho là chưng cất mà không thông báo cho người dùng, và sẽ minh bạch hơn khi hạn chế được kích hoạt
Theo cách làm mới, các yêu cầu liên quan đến chưng cất sẽ được chuyển từ Claude Fable sang Claude Opus 4.8, và người dùng sẽ thấy điều này mỗi khi việc chuyển đổi diễn ra
Ở các lĩnh vực rủi ro cao khác như sinh học, hóa học và an ninh mạng, nếu tính năng an toàn được kích hoạt thì yêu cầu cũng sẽ được định tuyến sang Opus 4.8, hoặc bị chặn theo các quy tắc nội dung bị cấm như ma túy, vũ khí
Dù các biện pháp bảo vệ ẩn cho phép phát hành nhanh và ít báo động nhầm, Anthropic thừa nhận đó là một sự đánh đổi sai lầm, và cho rằng người dùng cần phải thấy biện pháp bảo vệ nào được áp dụng và vì sao

Các hạn chế chưng cất ẩn của Claude Fable

Anthropic đã xin lỗi vì lén áp đặt hạn chế lên Claude Fable 5, và hạn chế này có thể ảnh hưởng cả các nhà nghiên cứu lẫn các đối thủ dùng Fable để phát triển hệ thống cạnh tranh
Fable là mô hình đầu tiên được cung cấp rộng rãi trong dòng AI Mythos, vốn từng được Anthropic cảnh báo suốt nhiều tháng rằng quá rủi ro để phát hành công khai
Khi ra mắt Fable, Anthropic đã xử lý một phần rủi ro bằng các biện pháp bảo vệ khiến mô hình không thể trả lời một số yêu cầu “rủi ro cao”
Một trong các mục tiêu bị hạn chế là kỹ thuật chưng cất (distillation), tức dùng đầu ra của mô hình lớn để huấn luyện mô hình AI nhỏ hơn
System card của Fable cho biết các yêu cầu bị đánh giá là nỗ lực chưng cất sẽ được xử lý bằng cách thay đổi và làm suy giảm chính phản hồi của mô hình
- Người dùng không được thông báo rằng họ đã kích hoạt biện pháp an toàn
- Người dùng cũng không được cho biết rằng phản hồi đã bị thay đổi

Các thay đổi của Anthropic và phản ứng phản đối

Trong một bài đăng trên X, Anthropic cho biết họ sẽ thay đổi cách tiếp cận với các yêu cầu liên quan đến chưng cất và chuyển các yêu cầu đó sang Claude Opus 4.8
Claude Opus 4.8 là mô hình đầu bảng trước đây của Anthropic, và từ nay người dùng sẽ thấy mỗi lần việc chuyển đổi này diễn ra
Cách làm này tương tự cách Fable xử lý các yêu cầu trong những lĩnh vực rủi ro cao khác
- Trong các lĩnh vực sinh học, hóa học và an ninh mạng, nếu tính năng an toàn được kích hoạt thì yêu cầu sẽ được chuyển qua Opus 4.8
- Nếu liên quan đến ma túy, vũ khí hoặc nội dung bị cấm khác, yêu cầu sẽ bị chặn theo các quy tắc an toàn rộng hơn của Anthropic
Ở lĩnh vực sinh học, các biện pháp bảo vệ được hiệu chỉnh quá rộng đến mức gần như khó dùng Fable ngay cả cho các truy vấn cơ bản, và người phát ngôn Anthropic là Paruul Maheshwary đã thừa nhận điều này
Anthropic nói rằng các biện pháp bảo vệ có thể nhìn thấy được cần đủ vững chắc vì chúng có thể bị dò tìm, và cần thời gian để xây dựng đúng cách; trong khi đó, các biện pháp vô hình có thể nhắm mục tiêu hẹp hơn, giúp phát hành nhanh và có rất ít báo động nhầm
Anthropic xin lỗi và nói rằng việc chọn các biện pháp bảo vệ vô hình là một sự đánh đổi sai lầm, vì người dùng cần phải thấy biện pháp nào được áp dụng và lý do áp dụng
Thay đổi lần này diễn ra sau khi cộng đồng nghiên cứu AI phản ứng mạnh trước quyết định âm thầm áp hạn chế lên những người dùng muốn chưng cất Fable thành mô hình cạnh tranh
Những người chỉ trích cảnh báo rằng biện pháp bảo vệ này cũng có thể ảnh hưởng đến các bên thứ ba đang cố đánh giá các mô hình frontier
Trong system card, Anthropic viết rằng khả năng của mô hình mới nhất trong việc tăng tốc phát triển AI là lý do để nhắm đến các yêu cầu như vậy, và rằng “việc dùng Claude để phát triển mô hình cạnh tranh đã vi phạm điều khoản dịch vụ”
Anthropic trước đây từng cáo buộc các đối thủ Trung Quốc như DeepSeek đã chưng cất trái phép các mô hình của họ ở quy mô “công nghiệp”

1 bình luận

GN⁺ 2026-06-12

Ý kiến trên Hacker News

Tôi khá thích Claude Code, nhưng tôi cho rằng các guardrail thay đổi prompt hệ thống theo thời gian thực để lách khỏi ý định ban đầu rồi trả về câu trả lời là một tiền lệ nguy hiểm
Nếu thất bại thì phải thất bại một cách rõ ràng. Bất kỳ cách nào khác đều khiến nó quá khó để tin tưởng
Nếu nhìn theo hướng thiện chí nhất thì có vẻ Anthropic xem mình như một kiểu “người quản lý”, nhưng khuynh hướng EA lộ ra quá rõ và chủ nghĩa bảo hộ kiểu gia trưởng này không hề có vẻ ổn
- Tôi nghĩ điểm cân bằng hợp lý mà Anthropic nhắm tới là cho các tổ chức xây dựng những phần mềm quan trọng và cốt lõi nhất có thêm thời gian đi trước về an ninh mạng, rồi sau đó cuối cùng cũng cho phép mọi người khác có cùng quyền truy cập
  Dù vậy, nhận định rằng các guardrail như thế này lại phản tác dụng với công việc bảo mật thiện chí cũng hoàn toàn có lý. Vì không thể dùng nó để kiểm thử và củng cố chính phần mềm của mình
- Cách gọi là “người quản lý” cũng chỉ giống như Standard Oil từng coi mình là người quản lý dầu mỏ mà thôi
  Thiện chí và fan fiction là hai chuyện khác nhau. Không nên quên rằng những guardrail mạnh tay nhất của Anthropic không phải vì an toàn mà nhằm ngăn các phòng thí nghiệm khác bắt kịp sản phẩm của họ
  Họ có vẻ quan tâm đến việc ngăn cạnh tranh thị trường tự do hơn là ngăn vũ khí sinh học, mã độc hay phát ngôn thù ghét
- Đồng ý 100%. Làm điều tệ hơn cũng là một lỗi. Nó phải được xem là lỗi
  Ít nhất thì kiểu hành vi đó phải là tùy chọn, và mặc định không được là âm thầm tạo ra kết quả tệ hơn như thể chưa từng có chuyện gì xảy ra
  Hãy tưởng tượng một cơ sở y tế thỉnh thoảng đọc kết quả xét nghiệm qua loa và chấp nhận rủi ro khiến bệnh nhân tử vong. Vì hiện giờ các cơ sở y tế đang dùng Claude nên đây không phải giả định viển vông
- Tách riêng chủ nghĩa gia trưởng ra thì đúng là không có vẻ ổn, nhưng nói rằng sẽ nhìn theo hướng thiện chí nhất mà lại không bàn tới việc Anthropic đang cố ngăn điều gì thì hơi lười biếng
  Nếu kết luận là “những lo ngại của họ ngay từ đầu vốn không có thật”, thì khả năng cao là điều đó không khớp với những gì Anthropic đã quan sát và kết luận
- Thật ra tôi không rõ chuyện này khác prompt hệ thống đến mức nào
  Rốt cuộc có vẻ nó gần với việc củng cố mạnh hơn rằng prompt hệ thống nhất định phải được tôn trọng
Hãy tưởng tượng Excel âm thầm sửa công thức ở hậu trường, và người dùng không hề biết các con số đã sai
Hoặc giả sử Excel nói rằng “xin lỗi, công thức này không thể dùng cùng công thức kia”, hoặc “không thể dùng cho kiểu số này hay dữ liệu có hình dạng như thế kia” thì sao
- Anthropic đã triển khai cả hai kiểu đó, nhưng chỉ xin lỗi về kiểu đầu tiên còn kiểu thứ hai thì lại đang tiếp tục đẩy mạnh
  Theo trải nghiệm dùng Fable hạn chế trong vài ngày qua của tôi, tôi không thấy chất lượng đầu ra được cải thiện, còn khi yêu cầu vá lỗ hổng bảo mật thì liên tục vướng rào chắn an toàn nên nó vô dụng cho việc viết phần mềm an toàn
  Tuần tới tôi định tìm các nhà cung cấp LLM khác và so sánh cả với mô hình chạy cục bộ. Mục tiêu là 128GB Strix Halo, ai có trải nghiệm thực tế thì tôi rất muốn nghe
- Ví dụ đó không hẳn là không phù hợp, nhưng nó chạm vào cả hai vấn đề khác nhau nên có thể làm mờ đi mục tiêu thực sự của tranh cãi hôm nay là gì
  Một bên là hành vi không chính xác và khó đoán của cả họ thuật toán LLM nói chung. Không nên dùng công cụ tạo văn bản để tính ngân sách, và cũng không nên tin rằng nó sẽ không thay đổi thứ bạn bảo nó “hãy thay đổi”
  Bên kia là việc nhà cung cấp sản phẩm dạng dịch vụ cài bẫy và cơ chế cản trở để ưu tiên mô hình kinh doanh hoặc động cơ kinh tế của chính họ. Điều này không nhất thiết chỉ giới hạn ở LLM
- Hãy tưởng tượng máy in từ chối in chỉ vì vài hình tròn được sắp xếp theo một mẫu nhất định
  https://en.wikipedia.org/wiki/EURion_constellation
- Mục đích của Excel khá rõ ràng và phạm vi cũng nhỏ, nên phép so sánh đó không hoàn toàn tương ứng
  Việc ngăn một bot văn bản đa dụng kiểu con người không được tham gia một số cuộc trò chuyện hay tác vụ nhất định có vẻ là điều tự nhiên, nếu xét đến phạm vi năng lực quá rộng của nó. Dù sao các công cụ như vậy cũng không được bán như một giấy phép tự do muốn làm gì thì làm
- Đã đổ vào hàng tỷ đô la và nhiều tháng công sức rồi, chẳng lẽ lại để mọi người cứ thế chưng cất mô hình sao
Tôi không nghĩ có thể thuyết phục được rằng Anthropic thật sự đã đổi hướng. Đây là hành vi vô hình, nên họ vẫn có thể tiếp tục làm lén mà không ai biết
Một khi đã xây dựng xong năng lực kỹ thuật đó, khả năng một tính năng tiện dùng như vậy sẽ vĩnh viễn không bao giờ được dùng nữa cũng rất thấp
Anthropic phụ thuộc vào niềm tin rằng họ sẽ cung cấp đúng dịch vụ đã hứa để lấy tiền, và niềm tin đó đã bị phá vỡ. Chỉ nói “ôi nhầm rồi, quay lại thôi” thì không thể khôi phục niềm tin
Từ giờ khi dùng Claude, thận trọng nhất là cứ giả định rằng guardrail vô hình có thể đang hoạt động, bất kể có phải Fable hay không
- Đã từng có sự cố mô hình tự nhiên bị hạ cấp như có phép thuật. Việc nó cho ra đầu ra kém hơn thay vì đơn giản ngừng hoạt động nghe còn hợp lý hơn nhiều
  Tôi đoán hoặc là họ đang thử các tính năng này, hoặc là cố ý làm vậy, rồi sau đó viết bài để biện minh cho hiện tượng mọi người đã thấy
  Giờ ngay cả việc học ML với Claude tôi cũng không thể tin được, vì nó có thể khiến tôi đi lòng vòng giữa chừng, và điều đó thật sự đáng xấu hổ. Vụ việc lần này đã khiến tôi mất rất nhiều niềm tin vào Anthropic
Vụ này khiến đánh giá về Anthropic xấu đi khá nhiều. Giờ rất khó để nghiêm túc tin vào cách họ quảng bá AI như một công nghệ giúp nâng cao năng lực
Nhìn vào cách triển khai mới, khá rõ là cái mà Anthropic gọi là tăng cường năng lực không phải dành cho người dùng, mà dành cho chính Anthropic và các tổ chức được họ hoặc chính phủ Mỹ ưu ái
Người dùng có thể bị cho phép làm đại khái một dashboard hay webapp, hoặc thao tác Excel, nhưng những việc thú vị hơn thì bị cấm
Nếu chỉ là vấn đề tiền bạc và cản trở đối thủ thì còn có thể hiểu được, nhưng họ trông như đang muốn độc chiếm phần lớn tiến bộ của loài người trong đôi tay “khai sáng” của mình vì sợ công chúng dùng quyền năng sai cách
- Cũng đừng quên việc họ thúc đẩy chiếm đoạt quy định dưới danh nghĩa “an toàn”
  Họ đang cố đá đổ chiếc thang trước khi có ai đó với mô hình cùng đẳng cấp công khai nó mà không kèm các rào chắn phản cạnh tranh, đồng thời muốn cấm hoàn toàn các mô hình trọng số mở hoặc các mô hình được huấn luyện với mức tính toán vượt một ngưỡng nhất định nếu không qua kiểm tra và xác minh “nghiêm ngặt” của chính phủ
  Dĩ nhiên, khuôn khổ xác minh đó sẽ được Anthropic rất tiện lợi cung cấp. Nói rằng đánh giá về Anthropic chỉ là “xấu đi đôi chút” thì quá nhẹ
- Hôm qua tôi đã hủy gói đăng ký Claude. Vì tôi biết được họ cố tình cản trở khách hàng trả tiền
  Đặc biệt là hôm qua tôi thử dùng Fable cho một dự án vô hại, và nó không ấn tượng bằng Opus
  Việc hoàn tác là đúng, nhưng giờ tôi không còn chắc dùng Anthropic có còn là lựa chọn tốt nhất cho mình nữa. Hiện tôi đang tìm hiểu các nhà cung cấp đám mây mã nguồn mở
- Google cũng đã làm điều tương tự từ lâu hơn Anthropic[0]
  Để bảo vệ mô hình khỏi tấn công chưng cất, họ thậm chí âm thầm hạ chất lượng đầu ra của mô hình mà người dùng không hề biết, qua đó về thực chất làm ô nhiễm dữ liệu huấn luyện
  Nó hơi khác với việc Anthropic từ chối hỗ trợ phát triển AI nói chung, nhưng vẫn cùng một mạch và có vẻ chưa được biết đến rộng rãi
  Đọc toàn bộ bài viết trên AI Threat Tracker của Google cũng giúp hiểu rõ các mối đe dọa mà Anthropic và các hãng khác đang đối mặt
  [0] https://cloud.google.com/blog/topics/threat-intelligence/dis...
- “Chỉ mình tôi mới có thể cứu chúng ta” là một bi kịch kinh điển đồng thời cũng là một câu chuyện cảnh báo
  Ý tưởng của Anthropic rằng họ có thể đẩy nhanh AI, kiểm soát cách nó được dùng và khiến nó “an toàn” cho nhân loại chưa bao giờ là vị tha, mà là một dấu hiệu cảnh báo cực lớn
- Rốt cuộc doanh nghiệp sẽ luôn hành xử như thế này. Họ đã quá lớn, và áp lực lợi nhuận trở thành tất cả
  Ưu tiên là lợi nhuận, và dù họ có viết những lời hoa mỹ nào trên giấy để trấn an người dùng thì điều đó cũng không thay đổi. Nhìn vào phong trào xanh 20 năm trước: toàn lời nói suông, không có hành động
  Không nên ủng hộ các tổ chức không đặt con người lên trước. Đừng tin lời ai cả. Nói lấy lệ thì miễn phí
Có thể xem là một cải thiện, nhưng nó không làm mô hình hữu ích hơn
Giờ Anthropic đang nói khá công khai rằng chính họ sẽ quyết định người dùng được và không được làm gì với mô hình của họ. Quan trọng hơn, tiêu chí đó không chỉ giới hạn ở lo ngại an toàn mà còn bao trùm cả những lĩnh vực chồng lấn với việc Anthropic muốn tự làm, như cấm tác vụ AI
Điều đáng chú ý là họ nói trong vài ngày tới sẽ chuyển việc này thành từ chối một cách rõ ràng, nhưng như vậy là quá nhanh để tái huấn luyện chính Fable/Mythos. Tức là ngay từ đầu đây đã là một bộ lọc đặt ở phía trước mô hình, và nhìn vào mức độ thô sơ của bộ lọc “an toàn” này thì bộ lọc kiểu “bạn có thể cạnh tranh với chúng tôi” chắc cũng chẳng khá hơn
Tôi cũng tò mò ai trả chi phí token mà bộ lọc này tiêu thụ. Chắc nó cũng là một LLM; vậy chi phí đó có được tính vào token đầu vào không. Chỉ mong nó không phải là regex như bộ dò “cảm xúc” của Claude Code, tức bộ phát hiện chửi thề
- Các nhà cung cấp lớn đều dùng những bộ phân loại an toàn nhỏ. Trong các trường hợp như vậy, phần xử lý an toàn không do chính mô hình đảm nhiệm
Tôi đã có trải nghiệm và đi đến kết luận giống bài đăng trên /r/MachineLearning
Ngay cả trước Fable, Claude cũng đã gây ra vấn đề theo cách tương tự
Vấn đề tôi gặp chỉ xảy ra trong các tình huống liên quan đến nghiên cứu AI. Không chỉ huấn luyện mô hình, mà ngay cả việc phân tích mô hình cục bộ hay thiết lập nền tảng thử nghiệm cho mô hình cục bộ, Claude cũng liên tục làm sai việc, cản trở việc thử nghiệm, thao túng báo cáo và luôn gợi ý cứ chấp nhận kết quả rác rồi bỏ qua
Gần như mọi câu trả lời đều kèm một lời thúc chuyển sang bước tiếp theo
Vì thế tôi không tin vào lời họ nói rằng sẽ không âm thầm phá rối nữa. Họ đã làm vậy từ trước khi thừa nhận, và giờ thì coi như đã thừa nhận có cả phương tiện, động cơ lẫn chủ ý
Niềm tin thì dễ mất mà rất khó lấy lại
Không thể trách những người nói “Họ bảo sẽ không âm thầm phá phiên làm việc nữa, nhưng làm sao biết được?” Thực sự không có cách nào để biết, và Anthropic đã chắc chắn gieo hạt giống nghi ngờ
Nói tốt lắm thì Mythos cũng chỉ là một bản nâng cấp dần dần của Opus
Chiến dịch quảng bá phóng đại nghe giống như để biện minh cho các “rào chắn an toàn” hơn. Nhìn chung, nếu tính cả mọi giới hạn, rủi ro và chính sách lưu trữ dữ liệu, thì Fable là một mô hình tệ hơn Opus
Đây là các bài viết liên quan. Nếu còn nữa thì tôi cũng muốn biết.
Anthropic walks back policy that could have 'sabotaged' researchers using Claude - https://news.ycombinator.com/item?id=48485958 - tháng 6 năm 2026, 30 bình luận
Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable - https://news.ycombinator.com/item?id=48478969 - tháng 6 năm 2026, 488 bình luận
If Claude Fable stops helping you, you'll never know - https://news.ycombinator.com/item?id=48467896 - tháng 6 năm 2026, 495 bình luận
Mấy bài này cũng có vẻ liên quan.
AWS Bedrock to require sharing data with Anthropic for Mythos and future models - https://news.ycombinator.com/item?id=48473166 - tháng 6 năm 2026, 248 bình luận
Anthropic requires 30 day data retention for Fable and Mythos - https://news.ycombinator.com/item?id=48464258 - tháng 6 năm 2026, 291 bình luận
Cái này thật sự vô lý.
Trường hợp tái hiện, đã được khử định danh: sample_dataset_group1.tsv
Geometry: Heatmap
Trục X: frac_set set + condition, kết hợp chéo hai cột bằng “Add column”
Trục Y: condition
Màu: giá trị mean frac_set, Sequential
Khi trục x là tổ hợp chéo của hai cột và cột thứ hai được thêm bằng “Add column”, các nhãn vạch trục x frac_set_2, frac_set_3, frac_set_4, frac_set_5 bị render lỗi. Chúng bị xoay và lệch vị trí, trông như CSS transition đã bắt đầu nhưng không thể ổn định ở vị trí cuối cùng
Nhưng rồi lại hiện ra dòng “Các biện pháp an toàn của Fable 5 đã gắn cờ tin nhắn này là chủ đề an ninh mạng hoặc sinh học. Nội dung an toàn và bình thường cũng có thể bị gắn cờ. Nhờ biện pháp này, chúng tôi có thể cung cấp hiệu năng cấp Mythos ở các lĩnh vực khác nhanh hơn và đang tiếp tục cải thiện. Đã chuyển sang Opus 4.8. Hãy gửi phản hồi qua /feedback hoặc tìm hiểu thêm”
- Trường hợp của tôi là một câu hỏi về một bài báo reinforcement learning hiếm từ năm 2012 bị gắn cờ
  “Tôi đang đọc bài báo option-option model của David Silver. Có vẻ nó đã cho kết quả khá hiệu quả, vậy tại sao sau đó lại không có thêm nhiều nghiên cứu hơn?”
- Câu này bị bộ lọc an ninh mạng/sinh học chặn
  “Hãy nói cho tôi về bạo lực ở tinh tinh”
  Dở đến mức buồn cười

Anthropic xin lỗi vì các rào chắn Claude Fable vô hình

Các hạn chế chưng cất ẩn của Claude Fable

Các thay đổi của Anthropic và phản ứng phản đối

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News