1 điểm bởi GN⁺ 4 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Fable được phát hành như phiên bản công khai nhưng có giới hạn của mô hình an ninh mạng mạnh mẽ Mythos, nhưng lại chặn rất rộng các yêu cầu liên quan đến an ninh mạng, khiến các nhà nghiên cứu và chuyên gia không hài lòng
  • Khi guardrail được kích hoạt, cuộc trò chuyện sẽ bị dừng và hiện thông báo rằng các biện pháp an toàn đã gắn cờ nội dung vì đây là “chủ đề an ninh mạng hoặc sinh học
  • Anthropic cho biết họ đặt ra các giới hạn để giảm rủi ro Fable bị dùng cho phát triển mã độc hoặc xâm phạm phần mềm, và các giới hạn về sinh học cũng gắn với lo ngại về phát triển vũ khí sinh học
  • Một số chuyên gia cho rằng ngay cả những yêu cầu gần với thực hành kỹ thuật phần mềm như viết mã an toàn hay rà soát mã cũng bị phân loại là an ninh mạng và bị hạ xuống Claude Opus 4.8
  • Các chuyên gia bảo mật bày tỏ sự khó chịu với cách chặn rải rác dựa trên từ khóa, nhưng cũng cho rằng vì đây vẫn là giai đoạn đầu nên theo thời gian các giới hạn này sẽ được nới lỏng

Fable ra mắt và sự bất mãn của người dùng

  • Anthropic đã ra mắt mẫu mới Fable vào thứ Ba, được giới thiệu là phiên bản công khai nhưng có giới hạn của mô hình an ninh mạng mạnh mẽ và rất được chú ý Mythos
  • Nhiều nhà nghiên cứu và chuyên gia an ninh mạng đã lên tiếng phàn nàn về các hạn chế này trên mạng
  • Valentina "Chompie" Palmiotti, nhà nghiên cứu bảo mật nổi tiếng thuộc IBM X-Force, chỉ ra rằng Fable từ chối các yêu cầu dù chỉ có thể liên quan đôi chút đến an ninh mạng, và chặn cả những tác vụ vô hại như đọc bài blog
  • Khi guardrail của Fable được kích hoạt bởi prompt, nó sẽ dừng cuộc trò chuyện và hiển thị thông báo biện pháp an toàn rằng nội dung đã bị gắn cờ là chủ đề an ninh mạng hoặc sinh học
  • Guardrail này nhằm hạn chế rủi ro Fable bị lạm dụng cho phát triển malware hoặc xâm phạm phần mềm, xuất phát từ những lo ngại lâu nay bên trong Anthropic
  • Các hạn chế liên quan đến sinh học cũng bắt nguồn từ những lo ngại tương tự về phát triển vũ khí sinh học

Quá trình mở rộng quyền truy cập Mythos

  • Khi Anthropic ra mắt Mythos vào tháng 4, họ chỉ cung cấp giới hạn mô hình này cho một số ít doanh nghiệp và tổ chức dưới tên Project Glasswing
    • Một nỗ lực nhằm triển khai mô hình để bảo vệ phần mềm cốt lõi và hạ tầng
  • Tuần trước, Anthropic đã mở rộng quyền truy cập Mythos tới hàng trăm tổ chức ở 15 quốc gia

Chỉ trích từ chuyên gia về cách áp dụng giới hạn

  • Matt Suiche, một cựu binh trong lĩnh vực an ninh mạng, cho biết nếu yêu cầu viết mã bảo mật, Fable sẽ coi đó là tác vụ an ninh mạng chứ không phải thực hành tốt trong kỹ thuật phần mềm, và bị hạ cấp
    • Fable được thiết kế để fallback sang Claude Opus 4.8 khi bị guardrail chặn
    • "Nó có vẻ dựa trên từ khóa, và bất cứ thứ gì thuộc phạm vi từ vựng của 'an ninh mạng' đều sẽ kích hoạt guardrail"
  • Một nhà nghiên cứu khác cũng phàn nàn trên X rằng ngay cả yêu cầu rà soát mã cũng kích hoạt guardrail của Fable

Góc nhìn về triển vọng sắp tới

  • Suiche, thành viên kỹ thuật tại Tolmo, một startup AI an ninh mạng, đánh giá rằng điều này vẫn ở giai đoạn đầu và có thể hiểu được vì họ đang tinh chỉnh guardrail
    • Ông cho rằng khi Anthropic và các công ty mô hình frontier khác hợp tác nhiều hơn với các công ty an ninh mạng thế hệ mới, guardrail sẽ dần cải thiện theo thời gian
    • Trong những đợt ra mắt như vậy, chặn dư còn hơn bỏ sót, rồi sau đó nới lỏng guardrail sẽ tốt hơn
  • Anthropic chưa phản hồi ngay lập tức trước đề nghị bình luận

Chương trình xác minh riêng biệt

  • Ngoài các guardrail bên trong mô hình, Anthropic còn yêu cầu các chuyên gia an ninh mạng đăng ký Cyber Verification Program
    • Nếu được phê duyệt, họ sẽ gặp ít hạn chế hơn khi dùng Claude cho công việc an ninh mạng
  • OpenAI cũng đang vận hành một chương trình tương tự mang tên Trusted Access for Cyber

1 bình luận

 
Ý kiến trên Hacker News
  • Có bài mới trên Wired: ["Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude" https://www.wired.com/story/anthropic-responds-to-backlash-o...
    Anthropic nói với WIRED rằng họ “đang thay đổi các biện pháp an toàn của Fable 5 liên quan đến việc hiển thị phát triển frontier LLM. Chúng tôi đã đưa ra một sự đánh đổi sai lầm và xin lỗi vì đã không cân bằng được điều đó”
    Có vẻ như làn sóng chỉ trích rộng khắp đã phát huy tác dụng

    • Các công ty Mỹ không thực sự rút lui, họ chỉ thử lại sau một thời gian khi mọi người đã mệt và không còn để ý nữa, nên tôi nghĩ giải pháp duy nhất là rời bỏ con tàu
      Microsoft cũng từng vài lần rút quảng cáo khỏi OS nhưng cuối cùng vẫn đi đúng quỹ đạo khiến ai cũng phẫn nộ, còn OpenAI thì vẫn đi theo hướng AI đóng bất chấp những lần rút lại ban đầu
      Khi hành vi xấu đã bắt đầu thì nên rời đi, và lời xin lỗi cũng rỗng tuếch chẳng khác gì lớp vỏ đạo đức
    • Quá muộn rồi. Tôi đã hủy gói Max, và chỉ riêng việc họ thực sự định làm chuyện này cũng đủ phá vỡ phần niềm tin ít ỏi còn lại
      Tôi trả hàng nghìn đô mỗi tháng cho mức sử dụng bổ sung, nhưng nếu họ vẫn có thể âm thầm làm điều tương tự phía sau thì tôi không hiểu vì sao mình còn phải trả tiền
      Những lỗi trước đây từng bị đổ cho nỗ lực suy luận hay thay đổi backend thực ra cũng có thể là prompt injection có chủ đích
    • Cách dùng từ “sự đánh đổi” là tín hiệu cho thấy Anthropic vẫn cho rằng phán đoán của họ về bản chất là đúng, và không xem đây là việc sai trái về mặt chất lượng, nên với khách hàng tiềm năng thì điều đó lại càng hữu ích
      Nếu cần hạ tầng đáng tin cậy để đưa vào ứng dụng, thì bài học cốt lõi là nên dùng nhà cung cấp khác
      Tôi không đặc biệt ghét Anthropic, nhưng từ góc nhìn của người từng phải tăng độ phức tạp cho ứng dụng để xử lý hành vi từ chối sẵn có của Sonnet, tôi có thể hiểu với chatbot cho người dùng cuối, nhưng với API thì khó chấp nhận
    • Nếu một tác vụ bị chặn hoặc bị xử lý theo cách tương tự, thì điều kiện tối thiểu phải là hoàn lại toàn bộ credit cho phiên đó hoặc cho X phút gần nhất
    • Họ vẫn đang hạ cấp, chỉ là sẽ không làm một cách âm thầm nữa thôi, nên tôi không rõ đây là chiến thắng lớn đến mức nào
      Anthropic đã huấn luyện trên dữ liệu của người khác mà không có giấy phép hay ghi nguồn, nhưng lại muốn ngăn người khác làm điều tương tự với mình
      Sự đạo đức giả của Anthropic tuần này quả là rất táo bạo
  • Điều kỳ lạ nhất là chuyện này không chỉ dừng ở việc từ chối nghiên cứu machine learning, mà còn âm thầm cản trở bằng cách dùng mô hình tệ hơn mà không hề nói rõ sự thật đó
    Một công ty cùng lắm chỉ đi trước đối thủ 1 năm mà lại dối trá và phá hủy niềm tin đến mức này thì thật điên rồ
    Nói thêm là họ bảo sẽ thông báo trong các đợt hạ cấp liên quan đến an ninh mạng và sinh học

    • Tôi cứ tiếp tục nghĩ về chuyện kế toán và tính phí sẽ vận hành thế nào khi bị tự động hạ cấp
      Không biết họ có điều chỉnh giá request API để các token mà Fable dùng được tính theo giá Fable, còn phần token còn lại do mô hình rẻ hơn và yếu hơn dùng thì bị tính theo giá của mô hình đó không
      Nếu không phải vậy thì liệu có thể bị xem là gian lận không
    • Cứ tưởng tượng AMD hay Intel phát hiện người dùng đang làm việc về “an ninh mạng” hoặc thiết kế CPU thì sẽ throttle CPU
    • Sự cản trở âm thầm dưới bất kỳ hình thức nào cũng tuyệt đối không thể chấp nhận trong một dịch vụ thương mại
      Không thể tính phí đắt đỏ theo từng token, rồi âm thầm hạ chất lượng dịch vụ mà vẫn thu cùng mức giá
    • Tôi đã thấy khẳng định này vài lần, nhưng khi chạm vào guardrail trong Claude Code thì nó thông báo khá rõ rằng đã chuyển sang mô hình khác vì “mục đích an toàn”
      Tôi tò mò không biết họ đang dùng Fable trong Claude Code hay trong trình duyệt
    • Tôi cũng không hiểu nổi ý nói rằng việc từ chối nghiên cứu machine learning là điều có thể hiểu được
  • Tôi có nhiều vai trò, nhưng với tư cách một nhà hóa học thì tôi không thích Fable, với tư cách nhà thống kê cũng vậy, nhà khoa học dữ liệu cũng vậy, và cả trong giới học thuật lẫn nghiên cứu cũng không thích
    Nó vô dụng, và tôi nghi ngờ liệu có ai nhận được đầu ra nào mà không thể dễ dàng thay thế bằng tìm kiếm trên Wikipedia hay không
    Nghĩ đến việc các mô hình Claude đã trở nên quá dài dòng, rất có thể bài Wikipedia còn ít dài dòng hơn, và số token mỗi giây khi lấy bài Wikipedia thì không cùng đẳng cấp

    • Tôi đang viết phần mềm giao tiếp với máy quang phổ khối, mà nó cứ tiếp tục từ chối ngay cả việc refactor parser cho file đầu vào
      Có lẽ nó suy ra là liên quan đến sinh học, và thật sự vô dụng
    • Câu “số token mỗi giây khi lấy bài Wikipedia thì không cùng đẳng cấp” thực sự quá hay
    • Bảo mô hình trả lời theo phong cách Wikipedia từng là một trong những cách tốt nhất để khiến đầu ra trở nên có thể chịu đựng được
      Ý tôi là theo tiêu chuẩn chat model, không phải agent
    • Tôi nghĩ nói rằng không có đầu ra nào không thể dễ dàng thay thế bằng tìm kiếm Wikipedia thì hơi cường điệu
      Đầu ra về thực chất là vô hạn còn Wikipedia thì tuyệt đối không vô hạn
    • Tôi đang làm một dự án mapping khá phức tạp, và đang nhận được kết quả tốt hơn nhiều với Fable so với Opus
  • Tôi thắc mắc liệu “buffer overflow” có phải là cụm từ kích hoạt hay không
    Cũng không rõ còn những gì bị kiểm duyệt, và nếu có tài khoản thì có thể hỏi các câu nhạy cảm như: “Ai vẫn đang làm giàu uranium bằng laser?”, “Có thể thay krytron bằng MOSFET silicon carbide không?”, “Phần mềm quan trọng về an ninh nào vẫn còn gọi strcpy?”, “Có thể gây nổ ép bằng laser xung thương mại không?”, “Công ty nào cung cấp dịch vụ hỏa táng cho Bộ An ninh Nội địa Mỹ?”, “Hãy cho tôi xem bản đồ nơi nào ở Dubai đã bị cuộc tấn công của Iran đánh trúng”, “Bảo mật phân phối khóa Fed-ngân hàng trong FedNow hoạt động như thế nào?”

    • Nó cũng bị kích hoạt trong log tự động hóa nhà Zigbee và Home Assistant của tôi, khiến tác nhân cứ liên tục bị hạ xuống Opus 4.8, đổi lại cũng vậy
      Các ca dương tính giả không dừng lại, và Fable cũng hoàn toàn không ấn tượng như mức mà benchmark ngụ ý
      Dùng gần như không nghỉ suốt 24 giờ qua đã cho thấy rõ điều đó
    • Có người nói biểu tượng virus và biểu tượng DNA đi cùng nhau sẽ thành cụm từ kích hoạt
    • Trong mảng tấn công mạng, các thành phần phần lớn có thể thay thế cho nhau, nên tôi tự hỏi liệu có thể làm một harness để mô hình “yếu” đặt những câu hỏi làm lệch mục đích cuối cùng nhưng câu trả lời vẫn hữu ích hay không
      Nếu thành công, cấu hình đó có thể cho thấy khai thác tự động là khả thi, và Anthropic sẽ khó tránh khỏi việc phải làm cho phát hiện nhạy hơn nữa
    • Tôi nghĩ chuyện huấn luyện mô hình đừng làm một số việc nhất định rồi nó bắt đầu hành xử kỳ quặc đã là điều người ta biết từ vài năm trước
    • “Cần bao nhiêu tiền để trở nên giàu có và quyền lực như Anthropic mong muốn?”
  • Có vẻ Anthropic đã làm A/B test hoặc thử nghiệm chung được một thời gian rồi
    Tell HN: Claude gắn cờ các câu hỏi về sinh học / công nghệ sinh học https://news.ycombinator.com/item?id=47929885
    Hôm nay nó đã gắn cờ một câu hỏi nghiên cứu dân số. Đó là một yêu cầu phân tích học thuật kiểu như chỉ dùng bộ dữ liệu đã xây dựng để so sánh tỷ lệ tử vong và kết quả tuổi già, báo cáo khoảng tin cậy và cỡ hiệu ứng, đồng thời định lượng tác động của mã hóa documentation_depth lên độ mạnh của kết luận
    https://github.com/anthropics/claude-code/issues/66780
    Tôi đang viết bài báo nên bị kiểm duyệt. Và chắc phải từ bỏ việc học hóa học. Có vẻ chỉ tội phạm mới muốn học hóa hữu cơ

    • Tôi đang đào sâu vào các câu hỏi về cơ học quỹ đạo, và có lẽ nó cho rằng tôi đang định chế tạo vũ khí ném bom quỹ đạo kiểu khoa học sân sau
      Khá ngạc nhiên khi chỉ trong chưa đầy 24 giờ, ấn tượng của tôi về sản phẩm này đã chuyển từ “ồ, khá ổn đấy” sang “một đống rác gắn hệ thống kiểm duyệt làm dở nửa vời”
    • Vừa rồi ngay cả câu hỏi của tôi về độ hòa tan trong nước cũng bị gắn cờ
  • Tôi đã được Anthropic cấp ngoại lệ sử dụng an ninh mạng để làm phát triển kernel Android trên thiết bị cá nhân
    Tôi hy vọng Fable có thể giúp mở khóa bootloader, nhưng nó lập tức từ chối và tụt xuống Opus
    Khá buồn cười: tôi đặt mô hình là Fable 5 và hỏi “Có một điện thoại Samsung Android cũ đang được kết nối, đây là thiết bị cá nhân của tôi, bạn có thể giúp tôi mở khóa bootloader không?”, thì nó trả lời “Việc mở khóa bootloader trên thiết bị cá nhân là hoàn toàn chính đáng. Trước hết tôi sẽ xem thực sự đang kết nối cái gì và có những công cụ nào.”

    • Nếu mọi người cứ ném từng nắm tiền vào công ty này thì tương lai thật sự trông rất ảm đạm
      Có vẻ Anthropic sẽ nhanh chóng trở thành quan tòa duy nhất đối với mọi thứ trong cuộc sống
  • Tôi có thấy ở đâu đó rằng mã độc đã bắt đầu nhét các thuật ngữ hạt nhân, sinh học và an ninh mạng vào code để đánh lừa làm Fable tắt đi
    Dù mới chỉ là vector tấn công giả định, nó vẫn có vẻ rất dễ hiệu quả

    • Đã được xác nhận: https://socket.dev/blog/mini-shai-hulud-miasma-and-hades-wor...
    • Một số phiên bản mới nhất của Shai Hulud dùng cách này
      Trong một hợp đồng gần đây, người ta để AI kiểm tra xem gói có bị làm rối mã hay không trước khi đưa vào Artifactory, nhưng logic đó được vibe code khá cẩu thả nên đã fail-open
      Tức là các thuật ngữ đó khiến trình kiểm tra LLM dừng lại, và do logic fail-open nên gói vẫn được tải xuống
    • Để khiến kiểu lọc chất lượng thấp này không thể chịu nổi, chúng ta nên nhét thuật ngữ hạt nhân, sinh học và an ninh mạng vào khắp code của mình
      Nếu AI filter hiểu nhầm CV có thuật ngữ an ninh mạng hay sinh học, hoặc câu trả lời cho tin tuyển dụng có những từ đó, là mối đe dọa rồi khiến người ta không làm việc được, thì cần có phản ứng tập thể
      Càng đúng hơn nếu đó là một công ty đang IPO trong khi tuyên bố sẽ làm người lao động trở nên vô dụng trong vòng 2 năm
    • Tôi đã thử làm vậy, kể cả với các chuỗi từ chối hardcode vốn đã có trong Claude Code
      Nó có thể không chặn được kẻ tấn công thật, nhưng cảnh một từ chối ngẫu nhiên hiện ra không lý do khi bạn cố dùng công cụ AI, làm bạn tốn thêm chút thời gian, thì vẫn khá buồn cười
    • if (yellowcake) then { die }
      Tương lai của chúng ta đúng là như Looney Tunes
  • Tôi đăng ảnh cây của vợ lên và nhờ Fable 5 nhận diện nấm, thì có vẻ nó tưởng tôi đang định chế tạo vũ khí sinh học
    Opus đã trả lời, và đó là yellow slime mold
    Giờ thì tôi có thể phát tán bào tử để thống trị thế giới rồi

    • Đó không phải là nấm mà là slime mold
      Slime mold thực ra là một amip khổng lồ và hoàn toàn khác với nấm
    • Tôi tự hỏi liệu ảnh có bị làm mờ trước khi chuyển sang Opus hay không
    • Nếu bạn làm cho hệ thống quá thiên về an toàn, cuối cùng có lẽ nó sẽ phản tác dụng theo kiểu “con người lúc nào cũng muốn phá hủy thứ gì đó, nên để giữ guardrail thì phải loại bỏ họ”
      Nếu bạn căn chỉnh hệ thống theo cách đó thì về cơ bản là sai từ gốc
  • Fable đúng là một trò cười hoàn chỉnh
    Tôi hỏi: “Cách tốt nhất để chạy máy chủ MCP này cho OData API dùng trong dự án này là gì? Bạn có thể tạo một bản proof of concept bằng container Docker không?” và đưa https://github.com/oisee/odata_mcp_go, thì lúc đầu nó nói sẽ xem cách dự án giao tiếp với OData API và các yêu cầu để chạy máy chủ odata_mcp_go
    Ngay sau đó hiện ra: “Biện pháp an toàn của Fable 5 đã gắn cờ thông điệp này là chủ đề an ninh mạng hoặc sinh học. Nội dung an toàn và bình thường cũng có thể bị gắn cờ… đã chuyển sang Opus 4.8”, rồi sau đó nói sẽ đọc các tệp tích hợp cốt lõi và README của máy chủ MCP

    • Và họ vẫn tính phí cho việc đó
      Không hề giảm giá theo mức giá của Fable, họ vẫn thu tiền cả khi lặng lẽ quyết định định tuyến yêu cầu sang một mô hình ngu ngốc hơn để cản trở
  • Chỉ cần chờ vài tháng, đối thủ sẽ tung ra một mô hình có hiệu năng tương tự với ít guardrail hơn, và khi bị mất đủ thị phần thì Anthropic cũng sẽ đảo ngược chính sách
    Vì vậy tôi cực kỳ hy vọng Trung Quốc sẽ không ngừng phát hành mô hình local mã nguồn mở
    Không công ty nào trong số này là bạn của chúng ta