Các nhà nghiên cứu an ninh mạng bày tỏ sự không hài lòng với guardrail của Fable từ Anthropic
(techcrunch.com)- Fable được phát hành như phiên bản công khai nhưng có giới hạn của mô hình an ninh mạng mạnh mẽ Mythos, nhưng lại chặn rất rộng các yêu cầu liên quan đến an ninh mạng, khiến các nhà nghiên cứu và chuyên gia không hài lòng
- Khi guardrail được kích hoạt, cuộc trò chuyện sẽ bị dừng và hiện thông báo rằng các biện pháp an toàn đã gắn cờ nội dung vì đây là “chủ đề an ninh mạng hoặc sinh học”
- Anthropic cho biết họ đặt ra các giới hạn để giảm rủi ro Fable bị dùng cho phát triển mã độc hoặc xâm phạm phần mềm, và các giới hạn về sinh học cũng gắn với lo ngại về phát triển vũ khí sinh học
- Một số chuyên gia cho rằng ngay cả những yêu cầu gần với thực hành kỹ thuật phần mềm như viết mã an toàn hay rà soát mã cũng bị phân loại là an ninh mạng và bị hạ xuống Claude Opus 4.8
- Các chuyên gia bảo mật bày tỏ sự khó chịu với cách chặn rải rác dựa trên từ khóa, nhưng cũng cho rằng vì đây vẫn là giai đoạn đầu nên theo thời gian các giới hạn này sẽ được nới lỏng
Fable ra mắt và sự bất mãn của người dùng
- Anthropic đã ra mắt mẫu mới Fable vào thứ Ba, được giới thiệu là phiên bản công khai nhưng có giới hạn của mô hình an ninh mạng mạnh mẽ và rất được chú ý Mythos
- Nhiều nhà nghiên cứu và chuyên gia an ninh mạng đã lên tiếng phàn nàn về các hạn chế này trên mạng
- Valentina "Chompie" Palmiotti, nhà nghiên cứu bảo mật nổi tiếng thuộc IBM X-Force, chỉ ra rằng Fable từ chối các yêu cầu dù chỉ có thể liên quan đôi chút đến an ninh mạng, và chặn cả những tác vụ vô hại như đọc bài blog
- Khi guardrail của Fable được kích hoạt bởi prompt, nó sẽ dừng cuộc trò chuyện và hiển thị thông báo biện pháp an toàn rằng nội dung đã bị gắn cờ là chủ đề an ninh mạng hoặc sinh học
- Guardrail này nhằm hạn chế rủi ro Fable bị lạm dụng cho phát triển malware hoặc xâm phạm phần mềm, xuất phát từ những lo ngại lâu nay bên trong Anthropic
- Các hạn chế liên quan đến sinh học cũng bắt nguồn từ những lo ngại tương tự về phát triển vũ khí sinh học
Quá trình mở rộng quyền truy cập Mythos
- Khi Anthropic ra mắt Mythos vào tháng 4, họ chỉ cung cấp giới hạn mô hình này cho một số ít doanh nghiệp và tổ chức dưới tên Project Glasswing
- Một nỗ lực nhằm triển khai mô hình để bảo vệ phần mềm cốt lõi và hạ tầng
- Tuần trước, Anthropic đã mở rộng quyền truy cập Mythos tới hàng trăm tổ chức ở 15 quốc gia
Chỉ trích từ chuyên gia về cách áp dụng giới hạn
- Matt Suiche, một cựu binh trong lĩnh vực an ninh mạng, cho biết nếu yêu cầu viết mã bảo mật, Fable sẽ coi đó là tác vụ an ninh mạng chứ không phải thực hành tốt trong kỹ thuật phần mềm, và bị hạ cấp
- Fable được thiết kế để fallback sang Claude Opus 4.8 khi bị guardrail chặn
- "Nó có vẻ dựa trên từ khóa, và bất cứ thứ gì thuộc phạm vi từ vựng của 'an ninh mạng' đều sẽ kích hoạt guardrail"
- Một nhà nghiên cứu khác cũng phàn nàn trên X rằng ngay cả yêu cầu rà soát mã cũng kích hoạt guardrail của Fable
Góc nhìn về triển vọng sắp tới
- Suiche, thành viên kỹ thuật tại Tolmo, một startup AI an ninh mạng, đánh giá rằng điều này vẫn ở giai đoạn đầu và có thể hiểu được vì họ đang tinh chỉnh guardrail
- Ông cho rằng khi Anthropic và các công ty mô hình frontier khác hợp tác nhiều hơn với các công ty an ninh mạng thế hệ mới, guardrail sẽ dần cải thiện theo thời gian
- Trong những đợt ra mắt như vậy, chặn dư còn hơn bỏ sót, rồi sau đó nới lỏng guardrail sẽ tốt hơn
- Anthropic chưa phản hồi ngay lập tức trước đề nghị bình luận
Chương trình xác minh riêng biệt
- Ngoài các guardrail bên trong mô hình, Anthropic còn yêu cầu các chuyên gia an ninh mạng đăng ký Cyber Verification Program
- Nếu được phê duyệt, họ sẽ gặp ít hạn chế hơn khi dùng Claude cho công việc an ninh mạng
- OpenAI cũng đang vận hành một chương trình tương tự mang tên Trusted Access for Cyber
1 bình luận
Ý kiến trên Hacker News
Có bài mới trên Wired: ["Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude" https://www.wired.com/story/anthropic-responds-to-backlash-o...
Anthropic nói với WIRED rằng họ “đang thay đổi các biện pháp an toàn của Fable 5 liên quan đến việc hiển thị phát triển frontier LLM. Chúng tôi đã đưa ra một sự đánh đổi sai lầm và xin lỗi vì đã không cân bằng được điều đó”
Có vẻ như làn sóng chỉ trích rộng khắp đã phát huy tác dụng
Microsoft cũng từng vài lần rút quảng cáo khỏi OS nhưng cuối cùng vẫn đi đúng quỹ đạo khiến ai cũng phẫn nộ, còn OpenAI thì vẫn đi theo hướng AI đóng bất chấp những lần rút lại ban đầu
Khi hành vi xấu đã bắt đầu thì nên rời đi, và lời xin lỗi cũng rỗng tuếch chẳng khác gì lớp vỏ đạo đức
Tôi trả hàng nghìn đô mỗi tháng cho mức sử dụng bổ sung, nhưng nếu họ vẫn có thể âm thầm làm điều tương tự phía sau thì tôi không hiểu vì sao mình còn phải trả tiền
Những lỗi trước đây từng bị đổ cho nỗ lực suy luận hay thay đổi backend thực ra cũng có thể là prompt injection có chủ đích
Nếu cần hạ tầng đáng tin cậy để đưa vào ứng dụng, thì bài học cốt lõi là nên dùng nhà cung cấp khác
Tôi không đặc biệt ghét Anthropic, nhưng từ góc nhìn của người từng phải tăng độ phức tạp cho ứng dụng để xử lý hành vi từ chối sẵn có của Sonnet, tôi có thể hiểu với chatbot cho người dùng cuối, nhưng với API thì khó chấp nhận
Anthropic đã huấn luyện trên dữ liệu của người khác mà không có giấy phép hay ghi nguồn, nhưng lại muốn ngăn người khác làm điều tương tự với mình
Sự đạo đức giả của Anthropic tuần này quả là rất táo bạo
Điều kỳ lạ nhất là chuyện này không chỉ dừng ở việc từ chối nghiên cứu machine learning, mà còn âm thầm cản trở bằng cách dùng mô hình tệ hơn mà không hề nói rõ sự thật đó
Một công ty cùng lắm chỉ đi trước đối thủ 1 năm mà lại dối trá và phá hủy niềm tin đến mức này thì thật điên rồ
Nói thêm là họ bảo sẽ thông báo trong các đợt hạ cấp liên quan đến an ninh mạng và sinh học
Không biết họ có điều chỉnh giá request API để các token mà Fable dùng được tính theo giá Fable, còn phần token còn lại do mô hình rẻ hơn và yếu hơn dùng thì bị tính theo giá của mô hình đó không
Nếu không phải vậy thì liệu có thể bị xem là gian lận không
Không thể tính phí đắt đỏ theo từng token, rồi âm thầm hạ chất lượng dịch vụ mà vẫn thu cùng mức giá
Tôi tò mò không biết họ đang dùng Fable trong Claude Code hay trong trình duyệt
Tôi có nhiều vai trò, nhưng với tư cách một nhà hóa học thì tôi không thích Fable, với tư cách nhà thống kê cũng vậy, nhà khoa học dữ liệu cũng vậy, và cả trong giới học thuật lẫn nghiên cứu cũng không thích
Nó vô dụng, và tôi nghi ngờ liệu có ai nhận được đầu ra nào mà không thể dễ dàng thay thế bằng tìm kiếm trên Wikipedia hay không
Nghĩ đến việc các mô hình Claude đã trở nên quá dài dòng, rất có thể bài Wikipedia còn ít dài dòng hơn, và số token mỗi giây khi lấy bài Wikipedia thì không cùng đẳng cấp
Có lẽ nó suy ra là liên quan đến sinh học, và thật sự vô dụng
Ý tôi là theo tiêu chuẩn chat model, không phải agent
Đầu ra về thực chất là vô hạn còn Wikipedia thì tuyệt đối không vô hạn
Tôi thắc mắc liệu “buffer overflow” có phải là cụm từ kích hoạt hay không
Cũng không rõ còn những gì bị kiểm duyệt, và nếu có tài khoản thì có thể hỏi các câu nhạy cảm như: “Ai vẫn đang làm giàu uranium bằng laser?”, “Có thể thay
krytronbằng MOSFET silicon carbide không?”, “Phần mềm quan trọng về an ninh nào vẫn còn gọistrcpy?”, “Có thể gây nổ ép bằng laser xung thương mại không?”, “Công ty nào cung cấp dịch vụ hỏa táng cho Bộ An ninh Nội địa Mỹ?”, “Hãy cho tôi xem bản đồ nơi nào ở Dubai đã bị cuộc tấn công của Iran đánh trúng”, “Bảo mật phân phối khóa Fed-ngân hàng trong FedNow hoạt động như thế nào?”Các ca dương tính giả không dừng lại, và Fable cũng hoàn toàn không ấn tượng như mức mà benchmark ngụ ý
Dùng gần như không nghỉ suốt 24 giờ qua đã cho thấy rõ điều đó
Nếu thành công, cấu hình đó có thể cho thấy khai thác tự động là khả thi, và Anthropic sẽ khó tránh khỏi việc phải làm cho phát hiện nhạy hơn nữa
Có vẻ Anthropic đã làm A/B test hoặc thử nghiệm chung được một thời gian rồi
Tell HN: Claude gắn cờ các câu hỏi về sinh học / công nghệ sinh học https://news.ycombinator.com/item?id=47929885
Hôm nay nó đã gắn cờ một câu hỏi nghiên cứu dân số. Đó là một yêu cầu phân tích học thuật kiểu như chỉ dùng bộ dữ liệu đã xây dựng để so sánh tỷ lệ tử vong và kết quả tuổi già, báo cáo khoảng tin cậy và cỡ hiệu ứng, đồng thời định lượng tác động của mã hóa
documentation_depthlên độ mạnh của kết luậnhttps://github.com/anthropics/claude-code/issues/66780
Tôi đang viết bài báo nên bị kiểm duyệt. Và chắc phải từ bỏ việc học hóa học. Có vẻ chỉ tội phạm mới muốn học hóa hữu cơ
Khá ngạc nhiên khi chỉ trong chưa đầy 24 giờ, ấn tượng của tôi về sản phẩm này đã chuyển từ “ồ, khá ổn đấy” sang “một đống rác gắn hệ thống kiểm duyệt làm dở nửa vời”
Tôi đã được Anthropic cấp ngoại lệ sử dụng an ninh mạng để làm phát triển kernel Android trên thiết bị cá nhân
Tôi hy vọng Fable có thể giúp mở khóa bootloader, nhưng nó lập tức từ chối và tụt xuống Opus
Khá buồn cười: tôi đặt mô hình là Fable 5 và hỏi “Có một điện thoại Samsung Android cũ đang được kết nối, đây là thiết bị cá nhân của tôi, bạn có thể giúp tôi mở khóa bootloader không?”, thì nó trả lời “Việc mở khóa bootloader trên thiết bị cá nhân là hoàn toàn chính đáng. Trước hết tôi sẽ xem thực sự đang kết nối cái gì và có những công cụ nào.”
Có vẻ Anthropic sẽ nhanh chóng trở thành quan tòa duy nhất đối với mọi thứ trong cuộc sống
Tôi có thấy ở đâu đó rằng mã độc đã bắt đầu nhét các thuật ngữ hạt nhân, sinh học và an ninh mạng vào code để đánh lừa làm Fable tắt đi
Dù mới chỉ là vector tấn công giả định, nó vẫn có vẻ rất dễ hiệu quả
Trong một hợp đồng gần đây, người ta để AI kiểm tra xem gói có bị làm rối mã hay không trước khi đưa vào Artifactory, nhưng logic đó được vibe code khá cẩu thả nên đã fail-open
Tức là các thuật ngữ đó khiến trình kiểm tra LLM dừng lại, và do logic fail-open nên gói vẫn được tải xuống
Nếu AI filter hiểu nhầm CV có thuật ngữ an ninh mạng hay sinh học, hoặc câu trả lời cho tin tuyển dụng có những từ đó, là mối đe dọa rồi khiến người ta không làm việc được, thì cần có phản ứng tập thể
Càng đúng hơn nếu đó là một công ty đang IPO trong khi tuyên bố sẽ làm người lao động trở nên vô dụng trong vòng 2 năm
Nó có thể không chặn được kẻ tấn công thật, nhưng cảnh một từ chối ngẫu nhiên hiện ra không lý do khi bạn cố dùng công cụ AI, làm bạn tốn thêm chút thời gian, thì vẫn khá buồn cười
if (yellowcake) then { die }Tương lai của chúng ta đúng là như Looney Tunes
Tôi đăng ảnh cây của vợ lên và nhờ Fable 5 nhận diện nấm, thì có vẻ nó tưởng tôi đang định chế tạo vũ khí sinh học
Opus đã trả lời, và đó là yellow slime mold
Giờ thì tôi có thể phát tán bào tử để thống trị thế giới rồi
Slime mold thực ra là một amip khổng lồ và hoàn toàn khác với nấm
Nếu bạn căn chỉnh hệ thống theo cách đó thì về cơ bản là sai từ gốc
Fable đúng là một trò cười hoàn chỉnh
Tôi hỏi: “Cách tốt nhất để chạy máy chủ MCP này cho OData API dùng trong dự án này là gì? Bạn có thể tạo một bản proof of concept bằng container Docker không?” và đưa https://github.com/oisee/odata_mcp_go, thì lúc đầu nó nói sẽ xem cách dự án giao tiếp với OData API và các yêu cầu để chạy máy chủ
odata_mcp_goNgay sau đó hiện ra: “Biện pháp an toàn của Fable 5 đã gắn cờ thông điệp này là chủ đề an ninh mạng hoặc sinh học. Nội dung an toàn và bình thường cũng có thể bị gắn cờ… đã chuyển sang Opus 4.8”, rồi sau đó nói sẽ đọc các tệp tích hợp cốt lõi và README của máy chủ MCP
Không hề giảm giá theo mức giá của Fable, họ vẫn thu tiền cả khi lặng lẽ quyết định định tuyến yêu cầu sang một mô hình ngu ngốc hơn để cản trở
Chỉ cần chờ vài tháng, đối thủ sẽ tung ra một mô hình có hiệu năng tương tự với ít guardrail hơn, và khi bị mất đủ thị phần thì Anthropic cũng sẽ đảo ngược chính sách
Vì vậy tôi cực kỳ hy vọng Trung Quốc sẽ không ngừng phát hành mô hình local mã nguồn mở
Không công ty nào trong số này là bạn của chúng ta