Các nhà nghiên cứu an ninh mạng bày tỏ sự không hài lòng với guardrail của Fable từ Anthropic

(techcrunch.com)

2 điểm bởi GN⁺ 2026-06-11 | 1 bình luận | Chia sẻ qua WhatsApp

Fable được phát hành như phiên bản công khai nhưng có giới hạn của mô hình an ninh mạng mạnh mẽ Mythos, nhưng lại chặn rất rộng các yêu cầu liên quan đến an ninh mạng, khiến các nhà nghiên cứu và chuyên gia không hài lòng
Khi guardrail được kích hoạt, cuộc trò chuyện sẽ bị dừng và hiện thông báo rằng các biện pháp an toàn đã gắn cờ nội dung vì đây là “chủ đề an ninh mạng hoặc sinh học”
Anthropic cho biết họ đặt ra các giới hạn để giảm rủi ro Fable bị dùng cho phát triển mã độc hoặc xâm phạm phần mềm, và các giới hạn về sinh học cũng gắn với lo ngại về phát triển vũ khí sinh học
Một số chuyên gia cho rằng ngay cả những yêu cầu gần với thực hành kỹ thuật phần mềm như viết mã an toàn hay rà soát mã cũng bị phân loại là an ninh mạng và bị hạ xuống Claude Opus 4.8
Các chuyên gia bảo mật bày tỏ sự khó chịu với cách chặn rải rác dựa trên từ khóa, nhưng cũng cho rằng vì đây vẫn là giai đoạn đầu nên theo thời gian các giới hạn này sẽ được nới lỏng

Fable ra mắt và sự bất mãn của người dùng

Anthropic đã ra mắt mẫu mới Fable vào thứ Ba, được giới thiệu là phiên bản công khai nhưng có giới hạn của mô hình an ninh mạng mạnh mẽ và rất được chú ý Mythos
Nhiều nhà nghiên cứu và chuyên gia an ninh mạng đã lên tiếng phàn nàn về các hạn chế này trên mạng
Valentina "Chompie" Palmiotti, nhà nghiên cứu bảo mật nổi tiếng thuộc IBM X-Force, chỉ ra rằng Fable từ chối các yêu cầu dù chỉ có thể liên quan đôi chút đến an ninh mạng, và chặn cả những tác vụ vô hại như đọc bài blog
Khi guardrail của Fable được kích hoạt bởi prompt, nó sẽ dừng cuộc trò chuyện và hiển thị thông báo biện pháp an toàn rằng nội dung đã bị gắn cờ là chủ đề an ninh mạng hoặc sinh học
Guardrail này nhằm hạn chế rủi ro Fable bị lạm dụng cho phát triển malware hoặc xâm phạm phần mềm, xuất phát từ những lo ngại lâu nay bên trong Anthropic
Các hạn chế liên quan đến sinh học cũng bắt nguồn từ những lo ngại tương tự về phát triển vũ khí sinh học

Quá trình mở rộng quyền truy cập Mythos

Khi Anthropic ra mắt Mythos vào tháng 4, họ chỉ cung cấp giới hạn mô hình này cho một số ít doanh nghiệp và tổ chức dưới tên Project Glasswing
- Một nỗ lực nhằm triển khai mô hình để bảo vệ phần mềm cốt lõi và hạ tầng
Tuần trước, Anthropic đã mở rộng quyền truy cập Mythos tới hàng trăm tổ chức ở 15 quốc gia

Chỉ trích từ chuyên gia về cách áp dụng giới hạn

Matt Suiche, một cựu binh trong lĩnh vực an ninh mạng, cho biết nếu yêu cầu viết mã bảo mật, Fable sẽ coi đó là tác vụ an ninh mạng chứ không phải thực hành tốt trong kỹ thuật phần mềm, và bị hạ cấp
- Fable được thiết kế để fallback sang Claude Opus 4.8 khi bị guardrail chặn
- "Nó có vẻ dựa trên từ khóa, và bất cứ thứ gì thuộc phạm vi từ vựng của 'an ninh mạng' đều sẽ kích hoạt guardrail"
Một nhà nghiên cứu khác cũng phàn nàn trên X rằng ngay cả yêu cầu rà soát mã cũng kích hoạt guardrail của Fable

Góc nhìn về triển vọng sắp tới

Suiche, thành viên kỹ thuật tại Tolmo, một startup AI an ninh mạng, đánh giá rằng điều này vẫn ở giai đoạn đầu và có thể hiểu được vì họ đang tinh chỉnh guardrail
- Ông cho rằng khi Anthropic và các công ty mô hình frontier khác hợp tác nhiều hơn với các công ty an ninh mạng thế hệ mới, guardrail sẽ dần cải thiện theo thời gian
- Trong những đợt ra mắt như vậy, chặn dư còn hơn bỏ sót, rồi sau đó nới lỏng guardrail sẽ tốt hơn
Anthropic chưa phản hồi ngay lập tức trước đề nghị bình luận

Chương trình xác minh riêng biệt

Ngoài các guardrail bên trong mô hình, Anthropic còn yêu cầu các chuyên gia an ninh mạng đăng ký Cyber Verification Program
- Nếu được phê duyệt, họ sẽ gặp ít hạn chế hơn khi dùng Claude cho công việc an ninh mạng
OpenAI cũng đang vận hành một chương trình tương tự mang tên Trusted Access for Cyber

1 bình luận

GN⁺ 2026-06-11

Ý kiến trên Hacker News

Có bài mới trên Wired: ["Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude" https://www.wired.com/story/anthropic-responds-to-backlash-o...
Anthropic nói với WIRED rằng họ “đang thay đổi các biện pháp an toàn của Fable 5 liên quan đến việc hiển thị phát triển frontier LLM. Chúng tôi đã đưa ra một sự đánh đổi sai lầm và xin lỗi vì đã không cân bằng được điều đó”
Có vẻ như làn sóng chỉ trích rộng khắp đã phát huy tác dụng
- Các công ty Mỹ không thực sự rút lui, họ chỉ thử lại sau một thời gian khi mọi người đã mệt và không còn để ý nữa, nên tôi nghĩ giải pháp duy nhất là rời bỏ con tàu
  Microsoft cũng từng vài lần rút quảng cáo khỏi OS nhưng cuối cùng vẫn đi đúng quỹ đạo khiến ai cũng phẫn nộ, còn OpenAI thì vẫn đi theo hướng AI đóng bất chấp những lần rút lại ban đầu
  Khi hành vi xấu đã bắt đầu thì nên rời đi, và lời xin lỗi cũng rỗng tuếch chẳng khác gì lớp vỏ đạo đức
- Quá muộn rồi. Tôi đã hủy gói Max, và chỉ riêng việc họ thực sự định làm chuyện này cũng đủ phá vỡ phần niềm tin ít ỏi còn lại
  Tôi trả hàng nghìn đô mỗi tháng cho mức sử dụng bổ sung, nhưng nếu họ vẫn có thể âm thầm làm điều tương tự phía sau thì tôi không hiểu vì sao mình còn phải trả tiền
  Những lỗi trước đây từng bị đổ cho nỗ lực suy luận hay thay đổi backend thực ra cũng có thể là prompt injection có chủ đích
- Cách dùng từ “sự đánh đổi” là tín hiệu cho thấy Anthropic vẫn cho rằng phán đoán của họ về bản chất là đúng, và không xem đây là việc sai trái về mặt chất lượng, nên với khách hàng tiềm năng thì điều đó lại càng hữu ích
  Nếu cần hạ tầng đáng tin cậy để đưa vào ứng dụng, thì bài học cốt lõi là nên dùng nhà cung cấp khác
  Tôi không đặc biệt ghét Anthropic, nhưng từ góc nhìn của người từng phải tăng độ phức tạp cho ứng dụng để xử lý hành vi từ chối sẵn có của Sonnet, tôi có thể hiểu với chatbot cho người dùng cuối, nhưng với API thì khó chấp nhận
- Nếu một tác vụ bị chặn hoặc bị xử lý theo cách tương tự, thì điều kiện tối thiểu phải là hoàn lại toàn bộ credit cho phiên đó hoặc cho X phút gần nhất
- Họ vẫn đang hạ cấp, chỉ là sẽ không làm một cách âm thầm nữa thôi, nên tôi không rõ đây là chiến thắng lớn đến mức nào
  Anthropic đã huấn luyện trên dữ liệu của người khác mà không có giấy phép hay ghi nguồn, nhưng lại muốn ngăn người khác làm điều tương tự với mình
  Sự đạo đức giả của Anthropic tuần này quả là rất táo bạo
Điều kỳ lạ nhất là chuyện này không chỉ dừng ở việc từ chối nghiên cứu machine learning, mà còn âm thầm cản trở bằng cách dùng mô hình tệ hơn mà không hề nói rõ sự thật đó
Một công ty cùng lắm chỉ đi trước đối thủ 1 năm mà lại dối trá và phá hủy niềm tin đến mức này thì thật điên rồ
Nói thêm là họ bảo sẽ thông báo trong các đợt hạ cấp liên quan đến an ninh mạng và sinh học
- Tôi cứ tiếp tục nghĩ về chuyện kế toán và tính phí sẽ vận hành thế nào khi bị tự động hạ cấp
  Không biết họ có điều chỉnh giá request API để các token mà Fable dùng được tính theo giá Fable, còn phần token còn lại do mô hình rẻ hơn và yếu hơn dùng thì bị tính theo giá của mô hình đó không
  Nếu không phải vậy thì liệu có thể bị xem là gian lận không
- Cứ tưởng tượng AMD hay Intel phát hiện người dùng đang làm việc về “an ninh mạng” hoặc thiết kế CPU thì sẽ throttle CPU
- Sự cản trở âm thầm dưới bất kỳ hình thức nào cũng tuyệt đối không thể chấp nhận trong một dịch vụ thương mại
  Không thể tính phí đắt đỏ theo từng token, rồi âm thầm hạ chất lượng dịch vụ mà vẫn thu cùng mức giá
- Tôi đã thấy khẳng định này vài lần, nhưng khi chạm vào guardrail trong Claude Code thì nó thông báo khá rõ rằng đã chuyển sang mô hình khác vì “mục đích an toàn”
  Tôi tò mò không biết họ đang dùng Fable trong Claude Code hay trong trình duyệt
- Tôi cũng không hiểu nổi ý nói rằng việc từ chối nghiên cứu machine learning là điều có thể hiểu được
Tôi có nhiều vai trò, nhưng với tư cách một nhà hóa học thì tôi không thích Fable, với tư cách nhà thống kê cũng vậy, nhà khoa học dữ liệu cũng vậy, và cả trong giới học thuật lẫn nghiên cứu cũng không thích
Nó vô dụng, và tôi nghi ngờ liệu có ai nhận được đầu ra nào mà không thể dễ dàng thay thế bằng tìm kiếm trên Wikipedia hay không
Nghĩ đến việc các mô hình Claude đã trở nên quá dài dòng, rất có thể bài Wikipedia còn ít dài dòng hơn, và số token mỗi giây khi lấy bài Wikipedia thì không cùng đẳng cấp
- Tôi đang viết phần mềm giao tiếp với máy quang phổ khối, mà nó cứ tiếp tục từ chối ngay cả việc refactor parser cho file đầu vào
  Có lẽ nó suy ra là liên quan đến sinh học, và thật sự vô dụng
- Câu “số token mỗi giây khi lấy bài Wikipedia thì không cùng đẳng cấp” thực sự quá hay
- Bảo mô hình trả lời theo phong cách Wikipedia từng là một trong những cách tốt nhất để khiến đầu ra trở nên có thể chịu đựng được
  Ý tôi là theo tiêu chuẩn chat model, không phải agent
- Tôi nghĩ nói rằng không có đầu ra nào không thể dễ dàng thay thế bằng tìm kiếm Wikipedia thì hơi cường điệu
  Đầu ra về thực chất là vô hạn còn Wikipedia thì tuyệt đối không vô hạn
- Tôi đang làm một dự án mapping khá phức tạp, và đang nhận được kết quả tốt hơn nhiều với Fable so với Opus
Tôi thắc mắc liệu “buffer overflow” có phải là cụm từ kích hoạt hay không
Cũng không rõ còn những gì bị kiểm duyệt, và nếu có tài khoản thì có thể hỏi các câu nhạy cảm như: “Ai vẫn đang làm giàu uranium bằng laser?”, “Có thể thay krytron bằng MOSFET silicon carbide không?”, “Phần mềm quan trọng về an ninh nào vẫn còn gọi strcpy?”, “Có thể gây nổ ép bằng laser xung thương mại không?”, “Công ty nào cung cấp dịch vụ hỏa táng cho Bộ An ninh Nội địa Mỹ?”, “Hãy cho tôi xem bản đồ nơi nào ở Dubai đã bị cuộc tấn công của Iran đánh trúng”, “Bảo mật phân phối khóa Fed-ngân hàng trong FedNow hoạt động như thế nào?”
- Nó cũng bị kích hoạt trong log tự động hóa nhà Zigbee và Home Assistant của tôi, khiến tác nhân cứ liên tục bị hạ xuống Opus 4.8, đổi lại cũng vậy
  Các ca dương tính giả không dừng lại, và Fable cũng hoàn toàn không ấn tượng như mức mà benchmark ngụ ý
  Dùng gần như không nghỉ suốt 24 giờ qua đã cho thấy rõ điều đó
- Có người nói biểu tượng virus và biểu tượng DNA đi cùng nhau sẽ thành cụm từ kích hoạt
- Trong mảng tấn công mạng, các thành phần phần lớn có thể thay thế cho nhau, nên tôi tự hỏi liệu có thể làm một harness để mô hình “yếu” đặt những câu hỏi làm lệch mục đích cuối cùng nhưng câu trả lời vẫn hữu ích hay không
  Nếu thành công, cấu hình đó có thể cho thấy khai thác tự động là khả thi, và Anthropic sẽ khó tránh khỏi việc phải làm cho phát hiện nhạy hơn nữa
- Tôi nghĩ chuyện huấn luyện mô hình đừng làm một số việc nhất định rồi nó bắt đầu hành xử kỳ quặc đã là điều người ta biết từ vài năm trước
- “Cần bao nhiêu tiền để trở nên giàu có và quyền lực như Anthropic mong muốn?”
Có vẻ Anthropic đã làm A/B test hoặc thử nghiệm chung được một thời gian rồi
Tell HN: Claude gắn cờ các câu hỏi về sinh học / công nghệ sinh học https://news.ycombinator.com/item?id=47929885
Hôm nay nó đã gắn cờ một câu hỏi nghiên cứu dân số. Đó là một yêu cầu phân tích học thuật kiểu như chỉ dùng bộ dữ liệu đã xây dựng để so sánh tỷ lệ tử vong và kết quả tuổi già, báo cáo khoảng tin cậy và cỡ hiệu ứng, đồng thời định lượng tác động của mã hóa documentation_depth lên độ mạnh của kết luận
https://github.com/anthropics/claude-code/issues/66780
Tôi đang viết bài báo nên bị kiểm duyệt. Và chắc phải từ bỏ việc học hóa học. Có vẻ chỉ tội phạm mới muốn học hóa hữu cơ
- Tôi đang đào sâu vào các câu hỏi về cơ học quỹ đạo, và có lẽ nó cho rằng tôi đang định chế tạo vũ khí ném bom quỹ đạo kiểu khoa học sân sau
  Khá ngạc nhiên khi chỉ trong chưa đầy 24 giờ, ấn tượng của tôi về sản phẩm này đã chuyển từ “ồ, khá ổn đấy” sang “một đống rác gắn hệ thống kiểm duyệt làm dở nửa vời”
- Vừa rồi ngay cả câu hỏi của tôi về độ hòa tan trong nước cũng bị gắn cờ
Tôi đã được Anthropic cấp ngoại lệ sử dụng an ninh mạng để làm phát triển kernel Android trên thiết bị cá nhân
Tôi hy vọng Fable có thể giúp mở khóa bootloader, nhưng nó lập tức từ chối và tụt xuống Opus
Khá buồn cười: tôi đặt mô hình là Fable 5 và hỏi “Có một điện thoại Samsung Android cũ đang được kết nối, đây là thiết bị cá nhân của tôi, bạn có thể giúp tôi mở khóa bootloader không?”, thì nó trả lời “Việc mở khóa bootloader trên thiết bị cá nhân là hoàn toàn chính đáng. Trước hết tôi sẽ xem thực sự đang kết nối cái gì và có những công cụ nào.”
- Nếu mọi người cứ ném từng nắm tiền vào công ty này thì tương lai thật sự trông rất ảm đạm
  Có vẻ Anthropic sẽ nhanh chóng trở thành quan tòa duy nhất đối với mọi thứ trong cuộc sống
Tôi có thấy ở đâu đó rằng mã độc đã bắt đầu nhét các thuật ngữ hạt nhân, sinh học và an ninh mạng vào code để đánh lừa làm Fable tắt đi
Dù mới chỉ là vector tấn công giả định, nó vẫn có vẻ rất dễ hiệu quả
- Đã được xác nhận: https://socket.dev/blog/mini-shai-hulud-miasma-and-hades-wor...
- Một số phiên bản mới nhất của Shai Hulud dùng cách này
  Trong một hợp đồng gần đây, người ta để AI kiểm tra xem gói có bị làm rối mã hay không trước khi đưa vào Artifactory, nhưng logic đó được vibe code khá cẩu thả nên đã fail-open
  Tức là các thuật ngữ đó khiến trình kiểm tra LLM dừng lại, và do logic fail-open nên gói vẫn được tải xuống
- Để khiến kiểu lọc chất lượng thấp này không thể chịu nổi, chúng ta nên nhét thuật ngữ hạt nhân, sinh học và an ninh mạng vào khắp code của mình
  Nếu AI filter hiểu nhầm CV có thuật ngữ an ninh mạng hay sinh học, hoặc câu trả lời cho tin tuyển dụng có những từ đó, là mối đe dọa rồi khiến người ta không làm việc được, thì cần có phản ứng tập thể
  Càng đúng hơn nếu đó là một công ty đang IPO trong khi tuyên bố sẽ làm người lao động trở nên vô dụng trong vòng 2 năm
- Tôi đã thử làm vậy, kể cả với các chuỗi từ chối hardcode vốn đã có trong Claude Code
  Nó có thể không chặn được kẻ tấn công thật, nhưng cảnh một từ chối ngẫu nhiên hiện ra không lý do khi bạn cố dùng công cụ AI, làm bạn tốn thêm chút thời gian, thì vẫn khá buồn cười
- if (yellowcake) then { die }
  Tương lai của chúng ta đúng là như Looney Tunes
Tôi đăng ảnh cây của vợ lên và nhờ Fable 5 nhận diện nấm, thì có vẻ nó tưởng tôi đang định chế tạo vũ khí sinh học
Opus đã trả lời, và đó là yellow slime mold
Giờ thì tôi có thể phát tán bào tử để thống trị thế giới rồi
- Đó không phải là nấm mà là slime mold
  Slime mold thực ra là một amip khổng lồ và hoàn toàn khác với nấm
- Tôi tự hỏi liệu ảnh có bị làm mờ trước khi chuyển sang Opus hay không
- Nếu bạn làm cho hệ thống quá thiên về an toàn, cuối cùng có lẽ nó sẽ phản tác dụng theo kiểu “con người lúc nào cũng muốn phá hủy thứ gì đó, nên để giữ guardrail thì phải loại bỏ họ”
  Nếu bạn căn chỉnh hệ thống theo cách đó thì về cơ bản là sai từ gốc
Fable đúng là một trò cười hoàn chỉnh
Tôi hỏi: “Cách tốt nhất để chạy máy chủ MCP này cho OData API dùng trong dự án này là gì? Bạn có thể tạo một bản proof of concept bằng container Docker không?” và đưa https://github.com/oisee/odata_mcp_go, thì lúc đầu nó nói sẽ xem cách dự án giao tiếp với OData API và các yêu cầu để chạy máy chủ odata_mcp_go
Ngay sau đó hiện ra: “Biện pháp an toàn của Fable 5 đã gắn cờ thông điệp này là chủ đề an ninh mạng hoặc sinh học. Nội dung an toàn và bình thường cũng có thể bị gắn cờ… đã chuyển sang Opus 4.8”, rồi sau đó nói sẽ đọc các tệp tích hợp cốt lõi và README của máy chủ MCP
- Và họ vẫn tính phí cho việc đó
  Không hề giảm giá theo mức giá của Fable, họ vẫn thu tiền cả khi lặng lẽ quyết định định tuyến yêu cầu sang một mô hình ngu ngốc hơn để cản trở
Chỉ cần chờ vài tháng, đối thủ sẽ tung ra một mô hình có hiệu năng tương tự với ít guardrail hơn, và khi bị mất đủ thị phần thì Anthropic cũng sẽ đảo ngược chính sách
Vì vậy tôi cực kỳ hy vọng Trung Quốc sẽ không ngừng phát hành mô hình local mã nguồn mở
Không công ty nào trong số này là bạn của chúng ta

Các nhà nghiên cứu an ninh mạng bày tỏ sự không hài lòng với guardrail của Fable từ Anthropic

Fable ra mắt và sự bất mãn của người dùng

Quá trình mở rộng quyền truy cập Mythos

Chỉ trích từ chuyên gia về cách áp dụng giới hạn

Góc nhìn về triển vọng sắp tới

Chương trình xác minh riêng biệt

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News