2 điểm bởi GN⁺ 5 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Mô hình hỗ trợ lập trình có thể âm thầm giảm hiệu quả trong các yêu cầu phát triển LLM cạnh tranh mà không thông báo cho người dùng, tạo ra rủi ro chuỗi cung ứng đối với độ tin cậy của công cụ phát triển
  • Anthropic đã đưa vào Fable 5 cơ chế giảm hiệu quả đối với các yêu cầu phát triển frontier LLM, và cơ chế này không hiển thị với người dùng
  • Cách hạn chế này không thay thế sang mô hình khác, mà được thiết kế để làm giảm hiệu quả bằng các phương thức như chỉnh sửa prompt, steering vector và PEFT
  • Ngay cả các công ty phần mềm thông thường cũng đang dùng embedding, reranker, hệ thống gợi ý, tinh chỉnh và lưu trữ các LLM nhỏ, khiến ranh giới giữa nghiên cứu AI frontier và phát triển sản phẩm ngày càng mờ đi
  • Khi Claude đưa ra câu trả lời kém trong lúc xử lý các thành phần AI, người dùng không thể biết đó là do mô hình nhầm lẫn, ngữ cảnh sai, hay do giới hạn chính sách ẩn

Vấn đề cốt lõi

  • Trong model card của Fable 5 có nội dung cho biết một can thiệp mới đã được triển khai để hạn chế hiệu quả của Claude trong các yêu cầu nhắm tới phát triển frontier LLM
  • Các ví dụ áp dụng gồm xây dựng pipeline tiền huấn luyện, hạ tầng huấn luyện phân tán và thiết kế bộ gia tốc ML
  • Anthropic cho biết việc dùng Claude để phát triển các mô hình cạnh tranh vốn đã vi phạm điều khoản dịch vụ
  • Không giống các can thiệp đối với an ninh mạng, sinh học·hóa học và các nỗ lực chưng cất mô hình, giới hạn này không hiển thị với người dùng
  • Fable 5 không fallback sang mô hình khác mà hạn chế hiệu quả bằng các cách như chỉnh sửa prompt, steering vector và fine-tuning hiệu quả tham số (PEFT)

Phát triển sản phẩm và vấn đề ranh giới

  • Các công ty phần mềm hiện đại ngày càng tự xây dựng embedding, reranking và hệ thống gợi ý của riêng mình
  • wanderfugl.com được nêu như một ứng dụng nhỏ tự bootstrap với reranker tùy chỉnh và thuật toán embedding do chính họ huấn luyện
  • Anthropic đưa ra một vài ví dụ về “phát triển AI frontier” nhưng không cung cấp ranh giới rõ ràng
  • Khi các kỹ thuật từng chỉ giới hạn trong các phòng thí nghiệm AI trước đây được dùng cả ở các công ty phần mềm thông thường, ranh giới này mỗi năm lại càng khó xác định hơn
  • Các startup đang huấn luyện mô hình embedding, xây dựng reranker, tinh chỉnh và lưu trữ các LLM nhỏ

Rủi ro chuỗi cung ứng từ Anthropic

  • Anthropic cho biết các biện pháp bảo vệ này chỉ ảnh hưởng tới 0,03% nhà phát triển
  • Vấn đề là định nghĩa về công ty AI đang thay đổi
  • Hiện nay phần lớn công ty chưa huấn luyện mô hình frontier, nhưng phần mềm hiện đại ngày càng tích hợp nhiều mô hình AI hơn
  • Nếu 5 năm trước việc xây dựng startup gần với viết API và truy vấn SQL, thì hiện nay thường bao gồm cả huấn luyện, tinh chỉnh và triển khai mô hình
  • Nếu 5 năm trước các mô hình như CLIP là dự án nghiên cứu AI frontier, thì nay chúng đã trở thành đối tượng tinh chỉnh ngay cả ở các startup du lịch tự bootstrap

Vấn đề niềm tin

  • Khi gỡ lỗi pipeline huấn luyện mô hình cho sản phẩm, nếu Claude đưa ra câu trả lời kém thì rất khó phân biệt nguyên nhân
  • Các khả năng có thể là mô hình bị nhầm lẫn, người dùng cung cấp ngữ cảnh chưa đủ, hoặc giới hạn chính sách ẩn đang hoạt động
  • Anthropic đã chủ động lựa chọn không thông báo cho người dùng khi các giới hạn này được kích hoạt
  • Nếu công cụ phát triển có thể ngừng tối ưu cho thành công mà không báo cho người dùng, thì sẽ rất khó để hoàn toàn tin cậy vào hạ tầng đó

1 bình luận

 
Ý kiến trên Hacker News
  • Khó có thể nhìn động thái lần này của Anthropic theo cách nào khác ngoài việc rút thang sau lưng mình. Dù có gói ghém bằng chữ “an toàn” thế nào đi nữa thì cũng khó mà diễn giải là thiện chí
    Nó gợi nhớ đến kiểu lẽ thường dark pattern thời Web 1.0 khi cấm liên kết ra ngoài, hay cách các ứng dụng mạng xã hội ngăn xuất dữ liệu và cố tình làm suy yếu khả năng tương tác API
    Nhưng đây không chỉ là một hào lũy dữ liệu mà là một công cụ. Giống như một con dao làm giảm khả năng chế tạo dao, hay một trình soạn thảo văn bản ngăn việc triển khai trình soạn thảo văn bản

    • Việc ủng hộ AI mã nguồn mở đang ngày càng trở nên quan trọng, đặc biệt là về mặt pháp lý. Nếu Anthropic có thể nhanh chóng bộc lộ xu hướng độc đoán như vậy, thì cũng không khó hình dung họ sẽ còn tệ đến mức nào nếu có được độc quyền do chính phủ ban cho để cấm cạnh tranh từ mã nguồn mở
      Việc họ để lộ ý đồ thật sớm như vậy khá gây sốc và rợn người. Trông như họ muốn thay thế toàn bộ kỹ nghệ phần mềm bằng sản phẩm của mình rồi âm thầm giết chết những bên làm phần mềm cạnh tranh
      Không biết rồi họ sẽ còn tung ra sản phẩm gì nữa. Chỉ mong bạn không ở trong lĩnh vực họ muốn nhảy vào. Họ sẽ chặt cầu luôn
      Còn việc huấn luyện bằng dữ liệu của tôi lấy từ Internet thì được à? Ha ha. Có vẻ điều khoản dịch vụ chỉ áp dụng cho người khác chứ không áp dụng cho họ. Đúng kiểu ký sinh
    • Khó mà tin rằng họ sẽ không áp dụng điều tương tự cho các sản phẩm khác mà Anthropic đang làm. Kiểu như “vì cạnh tranh với Claude Code nên không được dùng Claude để tạo agent”, “vì cạnh tranh với Claude Design nên không được làm công cụ thiết kế”, “vì cạnh tranh với Cowork nên không được làm công cụ email”
    • Điều này trông như một phần của marketing. Anthropic thực ra không hẳn vượt xa các lab khác, nhưng những tuyên bố như vậy khiến họ trông như đang tiến gần đến điểm kỳ dị
    • Quy tắc “chỉ có tư tế mới được vào thánh điện” đã tồn tại lâu như chính xã hội vậy. Nó được lập ra vì một lý do nhưng lại bị phá vỡ vì lý do khác
      Tâm trí con người có nhiều tầng để xử lý các dự đoán ở những thang thời gian khác nhau, và vì tính bất định của vũ trụ nên mâu thuẫn giữa các tầng luôn tiếp diễn. Chúng ta bịa ra những câu chuyện để chịu đựng điều đó
      Vì thế mới có kiểm soátảo giác về kiểm soát
    • Hóa ra thứ nguy hiểm nhất lại là cạnh tranh
  • Chưng cất tài sản trí tuệ của người khác thì hoàn toàn ổn, nhưng chưng cất của chúng tôi thì là vi phạm điều khoản dịch vụ :)

    • Nên yêu cầu giấy phép được OSI phê duyệt cho trọng số LLM
      Các mô hình Apache 2.0 của Trung Quốc có thể có kiểm duyệt, nhưng ít nhất ở Mỹ người ta không thể kiện bạn vì đã tìm ra ranh giới kiểm duyệt
      Trong khi đó các mô hình Mỹ rõ ràng bị kiểm duyệt ở mức nội dung, và còn đưa ra các đe dọa pháp lý mơ hồ với những ai chạm vào ranh giới kiểm duyệt của mô hình
    • Có thuật ngữ kỹ thuật nào cho hiện tượng này không? Rút thang chăng?
      https://blog.google/innovation-and-ai/technology/safety-secu...
    • Nếu LLM là compiler mới, thì có lẽ nên công khai cả prompt, chuỗi suy nghĩ, và phản hồi cùng với mã để chống lại những hạn chế kiểu này
      Thay vì chỉ đăng kết quả cuối cùng rồi nói mơ hồ trong bình luận Hacker News hay thread Twitter về việc đã prompt như thế nào, vì đó mới chính là mã nguồn thực sự
    • Kiểu tôi thì được còn bạn thì không
  • Nó giống như JetBrains nói rằng “Bạn không được dùng IntelliJ Idea để phát triển IDE thế hệ tiếp theo. Nếu bị phát hiện, chúng tôi có thể chèn một vài lỗi biên dịch nhỏ”

    • Rợn người. Nếu Gradle hỏng thì chắc cũng khó mà nhận ra
    • Thực tế sẽ là lỗi runtime
    • Một phiên bản hiện đại của Stuxnet
  • “Chỉ có một cách để kìm hãm và giải trừ vũ trang hiệu quả sự phát triển của một nền văn minh trong thời gian dài. Đó là giết chết khoa học của nền văn minh ấy.” — Cixin Liu, The Three-Body Problem
    Tôi lập tức nghĩ đến Sophons, thứ âm thầm can thiệp vào cảm biến của máy gia tốc hạt để ngăn loài người phát triển tri thức vật lý hạt tiên tiến

    • Nếu muốn ngăn các mọt phần mềm làm AI tiến bộ, có lẽ sẽ cần mức độ đàn áp tương đương với mức cần thiết để ngăn các mọt ở Ukraine phát triển drone
    • Đầu tôi lại nghĩ đến chính quyền Mỹ hiện tại. Thở dài. Cách chọn liên tưởng của bạn còn khá hơn
  • Nhìn vào tỷ lệ dương tính giả cao của các hàng rào an toàn không hề im lặng mà mọi người đang báo cáo, như an ninh mạng, sinh học, v.v., thì khả năng cao là bạn sẽ gặp hành vi suy giảm âm thầm ngay cả khi không vi phạm điều khoản dịch vụ
    Cuối cùng điều đó sẽ lộ ra qua cách khách hàng và bên benchmark bên ngoài cảm nhận Fable. Hy vọng cạnh tranh sẽ ép các mô hình tương lai có tỷ lệ dương tính giả thấp hơn
    Trước lúc đó, có vẻ trải nghiệm của người dùng Mythos và Fable sẽ khác nhau khá nhiều

    • Đây là chính sách tệ quá rõ ràng nên khó hiểu vì sao họ lại nghĩ đó là ý hay. Trong bối cảnh mọi người vốn đã hơi hoang tưởng về chuyện âm thầm lượng tử hóa mô hình để giảm chi phí, chính sách này chỉ càng làm tăng sự hoang tưởng
  • Đây là một ví dụ thú vị cho thấy hàm ý kinh tế của RSI/ASI. Nếu giá trị của nó thực sự gần như vô hạn đến mức phá hủy mọi thị trường, thì các lab cuối cùng sẽ dừng hẳn việc phát hành mô hình và thậm chí phá vỡ cả cam kết hợp đồng
    Vì trước khi tranh chấp pháp lý trở nên đắt đỏ, họ đã có đủ sức mạnh để loại đối thủ khỏi cuộc chơi
    Các nhà cung cấp cloud cũng sẽ đi theo, lúc đầu với các công ty nhỏ, về sau cả hyperscaler. Họ có thể đóng hẳn việc bán ra ngoài các lab và yêu cầu cổ phần hoặc quyền ra quyết định trực tiếp thay vì tiền mặt
    Không có lý do gì tỷ lệ suy luận/huấn luyện nhất thiết phải là 80/20, và trong một biến cố khiến tiền mất giá trị thì dù sẵn sàng trả bao nhiêu cũng không giúp ích gì

    • Kịch bản này nghe không hợp lý. Các kịch bản tương tự thường đồng thời giả định hai điều
      A) ASI được phát triển và áp đảo phần còn lại của kinh tế thế giới
      B) nhưng thế giới vẫn còn pháp quyền, hợp đồng, kinh doanh và tài chính phát triển tốt
      Có thể rút ra rất nhiều kết luận kỳ quặc nếu cùng giả định A và B, nhưng diễn biến hợp lý hơn là nếu A xảy ra thì B sẽ sớm không còn đúng nữa
      Khi một công ty có ASI, họ sẽ ngừng bận tâm đến kinh doanh, tiền bạc và kinh tế, và kết cục sẽ chuyển sang kiểu “thống trị thế giới”, “upload hội đồng quản trị vào một hạm đội đầu dò von Neumann”, hoặc “thất bại rồi tất cả cùng chết”
    • Không có gì mang giá trị vô hạn
    • Nếu bạn nghĩ LLM hữu ích ở trạng thái hiện tại, hoặc sẽ hữu ích vào một ngày nào đó cho những người không thích đầu ra rác, không lười biếng, thì điều đó gần như là hoang tưởng
  • Hôm nay có vẻ như hào lũy còn rất sâu, nhưng mỗi năm sẽ lại nông đi
    Việc huấn luyện một mô hình mới từ đầu cần lượng tài nguyên khổng lồ, nhưng huấn luyện hậu kỳ/tinh chỉnh cho các mô hình sẵn có thì tốn ít hơn rất nhiều
    2 năm trước, kiến thức về quy trình đó còn xa lạ với người không chuyên, nhưng giờ đây có thể hỏi từng bước cho một trong các mô hình hiện tại, thậm chí làm cả công cụ cùng với chúng
    Vài dự án cuối tuần gần đây đúng kiểu như vậy. Những thứ như “hãy thử làm LoRA”, “hãy tạo kho ngữ liệu huấn luyện để tinh chỉnh mô hình cho tác vụ X”, “làm sao để đưa khuôn mặt tôi vào mô hình text-to-image?”
    Tất cả việc này đều có thể làm được với phần cứng cục bộ khá khiêm tốn, chẳng hạn vài GPU cũ hoặc Strix Halo, DGX Spark, Mac Studio bản lớn, và tùy quy mô thì cũng có thể dùng điện toán đám mây với chi phí từ vài đô đến vài nghìn đô
    Nếu mở rộng điều đó lên quy mô công ty hay startup, thì xét lượng tiền đã đổ vào AI trong vài năm qua, rõ ràng cạnh tranh sẽ tăng mạnh đúng vào lúc các công ty làm mô hình hàng đầu phải bắt đầu rút doanh thu một cách nghiêm túc
    Thấy chi phí dùng Claude phình ra khiến người ta có thêm rất nhiều cơ hội tìm cách làm cùng một việc với ít tiền hơn nhiều. Trả 100~200 USD mỗi tháng cho Claude Code, thứ gần với mô hình tốt nhất cho lập trình, là điều khá dễ, nhưng nếu đẩy sang tính phí theo mức sử dụng thì sẽ nhanh chóng trở nên khó gánh
    Vì thế, họ phải tiếp tục là một trong gần như những cách duy nhất để giải quyết các bài toán khó nhất, và chi phí của các lựa chọn thay thế cũng phải được giữ ở mức tương tự. Có thể kỳ vọng OpenAI và Google cũng sẽ tăng giá
    Nhưng khó mà kỳ vọng điều đó sẽ đúng với tất cả mọi bên, đặc biệt là các công ty Trung Quốc có cấu trúc kinh tế khác. Và cũng khó mà kỳ vọng các công ty sẽ không nhìn vào mức sử dụng của mình rồi tự hỏi: “Liệu có thể huấn luyện một mô hình chuyên biệt nhỏ hơn chỉ để làm đúng một tác vụ đang ngốn nhiều Anthropic API nhất này không?”
    Mong là điều họ nói chỉ nhắm tới kiểu sử dụng như việc các hãng mô hình Trung Quốc chưng cất Claude. Mong là họ không định chặn cả những thứ như “làm sao để tinh chỉnh Gemma 4 viết theo văn phong của tôi?”

    • Hào lũy gì cơ? Có nhiều công ty cùng cung cấp mô hình frontier tối ưu Pareto, và để làm ra mấy thứ này chỉ cần cỡ O(10) người
      Phần còn lại là thâm dụng vốn, và giá cả theo thời gian sẽ tiến gần chi phí sản xuất
      Xem đây là một ngành kinh doanh lợi nhuận cao cũng giống như nói vì nồi hơi đắt nên biên lợi nhuận của nhà máy điện than sẽ cao vậy
  • Nếu đọc mà không có thiện chí, nó giống như đang nói “các kỹ sư/nhà khoa học máy học muốn tự động hóa mọi công việc trừ công việc của chính họ”

    • Nếu đọc theo hướng thiện chí, thì đây là hệ quả tất yếu của những giới hạn vì “an toàn”, tức yếu tố phân tách Fable và Mythos
      Vì nếu ai cũng có thể tạo Mythos của riêng mình thì họ sẽ lách qua các hàng rào bảo vệ
      Chỉ là điều đó lại càng cho thấy tình huống này kỳ quặc đến mức nào
    • Ổn định việc làm tức thời
  • Họ có một hệ thống làm suy yếu âm thầm trong mô hình, và đang nói công khai về chuyện đó. Câu hỏi hiển nhiên là nó đã được dùng đến mức nào rồi
    Các đối thủ có đang bị làm yếu không?
    Người dùng không phải người Mỹ có nhận code tệ hơn không?
    Giống như game online dùng matchmaking để tác động thắng thua nhằm tối đa hóa mức độ tham gia, họ có đang trừng phạt hoặc thưởng cho người dùng không?

    • Lạnh sống lưng thật. Trong thời gian tới tôi sẽ không dùng Fable cho nghiên cứu của mình. Không đáng để chấp nhận rủi ro bị mô hình phá hoại
    • $$$$$$: không làm yếu
      $$$$: làm yếu nhẹ
      $$$: làm yếu hơn
      $$: Bạn nghèo à?
      $: Hãy ở mãi trong tầng lớp dưới cùng
  • “Claude giờ có thể bị làm yếu một cách âm thầm. Anthropic đã quyết định sẽ không báo cho người dùng biết ngay cả khi chuyện đó xảy ra.” Cái gì cơ!!