- Mô hình hỗ trợ lập trình có thể âm thầm giảm hiệu quả trong các yêu cầu phát triển LLM cạnh tranh mà không thông báo cho người dùng, tạo ra rủi ro chuỗi cung ứng đối với độ tin cậy của công cụ phát triển
- Anthropic đã đưa vào Fable 5 cơ chế giảm hiệu quả đối với các yêu cầu phát triển frontier LLM, và cơ chế này không hiển thị với người dùng
- Cách hạn chế này không thay thế sang mô hình khác, mà được thiết kế để làm giảm hiệu quả bằng các phương thức như chỉnh sửa prompt, steering vector và PEFT
- Ngay cả các công ty phần mềm thông thường cũng đang dùng embedding, reranker, hệ thống gợi ý, tinh chỉnh và lưu trữ các LLM nhỏ, khiến ranh giới giữa nghiên cứu AI frontier và phát triển sản phẩm ngày càng mờ đi
- Khi Claude đưa ra câu trả lời kém trong lúc xử lý các thành phần AI, người dùng không thể biết đó là do mô hình nhầm lẫn, ngữ cảnh sai, hay do giới hạn chính sách ẩn
Vấn đề cốt lõi
- Trong model card của Fable 5 có nội dung cho biết một can thiệp mới đã được triển khai để hạn chế hiệu quả của Claude trong các yêu cầu nhắm tới phát triển frontier LLM
- Các ví dụ áp dụng gồm xây dựng pipeline tiền huấn luyện, hạ tầng huấn luyện phân tán và thiết kế bộ gia tốc ML
- Anthropic cho biết việc dùng Claude để phát triển các mô hình cạnh tranh vốn đã vi phạm điều khoản dịch vụ
- Không giống các can thiệp đối với an ninh mạng, sinh học·hóa học và các nỗ lực chưng cất mô hình, giới hạn này không hiển thị với người dùng
- Fable 5 không fallback sang mô hình khác mà hạn chế hiệu quả bằng các cách như chỉnh sửa prompt, steering vector và fine-tuning hiệu quả tham số (PEFT)
Phát triển sản phẩm và vấn đề ranh giới
- Các công ty phần mềm hiện đại ngày càng tự xây dựng embedding, reranking và hệ thống gợi ý của riêng mình
- wanderfugl.com được nêu như một ứng dụng nhỏ tự bootstrap với reranker tùy chỉnh và thuật toán embedding do chính họ huấn luyện
- Anthropic đưa ra một vài ví dụ về “phát triển AI frontier” nhưng không cung cấp ranh giới rõ ràng
- Khi các kỹ thuật từng chỉ giới hạn trong các phòng thí nghiệm AI trước đây được dùng cả ở các công ty phần mềm thông thường, ranh giới này mỗi năm lại càng khó xác định hơn
- Các startup đang huấn luyện mô hình embedding, xây dựng reranker, tinh chỉnh và lưu trữ các LLM nhỏ
Rủi ro chuỗi cung ứng từ Anthropic
- Anthropic cho biết các biện pháp bảo vệ này chỉ ảnh hưởng tới 0,03% nhà phát triển
- Vấn đề là định nghĩa về công ty AI đang thay đổi
- Hiện nay phần lớn công ty chưa huấn luyện mô hình frontier, nhưng phần mềm hiện đại ngày càng tích hợp nhiều mô hình AI hơn
- Nếu 5 năm trước việc xây dựng startup gần với viết API và truy vấn SQL, thì hiện nay thường bao gồm cả huấn luyện, tinh chỉnh và triển khai mô hình
- Nếu 5 năm trước các mô hình như CLIP là dự án nghiên cứu AI frontier, thì nay chúng đã trở thành đối tượng tinh chỉnh ngay cả ở các startup du lịch tự bootstrap
Vấn đề niềm tin
- Khi gỡ lỗi pipeline huấn luyện mô hình cho sản phẩm, nếu Claude đưa ra câu trả lời kém thì rất khó phân biệt nguyên nhân
- Các khả năng có thể là mô hình bị nhầm lẫn, người dùng cung cấp ngữ cảnh chưa đủ, hoặc giới hạn chính sách ẩn đang hoạt động
- Anthropic đã chủ động lựa chọn không thông báo cho người dùng khi các giới hạn này được kích hoạt
- Nếu công cụ phát triển có thể ngừng tối ưu cho thành công mà không báo cho người dùng, thì sẽ rất khó để hoàn toàn tin cậy vào hạ tầng đó
1 bình luận
Ý kiến trên Hacker News
Khó có thể nhìn động thái lần này của Anthropic theo cách nào khác ngoài việc rút thang sau lưng mình. Dù có gói ghém bằng chữ “an toàn” thế nào đi nữa thì cũng khó mà diễn giải là thiện chí
Nó gợi nhớ đến kiểu lẽ thường dark pattern thời Web 1.0 khi cấm liên kết ra ngoài, hay cách các ứng dụng mạng xã hội ngăn xuất dữ liệu và cố tình làm suy yếu khả năng tương tác API
Nhưng đây không chỉ là một hào lũy dữ liệu mà là một công cụ. Giống như một con dao làm giảm khả năng chế tạo dao, hay một trình soạn thảo văn bản ngăn việc triển khai trình soạn thảo văn bản
Việc họ để lộ ý đồ thật sớm như vậy khá gây sốc và rợn người. Trông như họ muốn thay thế toàn bộ kỹ nghệ phần mềm bằng sản phẩm của mình rồi âm thầm giết chết những bên làm phần mềm cạnh tranh
Không biết rồi họ sẽ còn tung ra sản phẩm gì nữa. Chỉ mong bạn không ở trong lĩnh vực họ muốn nhảy vào. Họ sẽ chặt cầu luôn
Còn việc huấn luyện bằng dữ liệu của tôi lấy từ Internet thì được à? Ha ha. Có vẻ điều khoản dịch vụ chỉ áp dụng cho người khác chứ không áp dụng cho họ. Đúng kiểu ký sinh
Tâm trí con người có nhiều tầng để xử lý các dự đoán ở những thang thời gian khác nhau, và vì tính bất định của vũ trụ nên mâu thuẫn giữa các tầng luôn tiếp diễn. Chúng ta bịa ra những câu chuyện để chịu đựng điều đó
Vì thế mới có kiểm soát và ảo giác về kiểm soát
Chưng cất tài sản trí tuệ của người khác thì hoàn toàn ổn, nhưng chưng cất của chúng tôi thì là vi phạm điều khoản dịch vụ :)
Các mô hình Apache 2.0 của Trung Quốc có thể có kiểm duyệt, nhưng ít nhất ở Mỹ người ta không thể kiện bạn vì đã tìm ra ranh giới kiểm duyệt
Trong khi đó các mô hình Mỹ rõ ràng bị kiểm duyệt ở mức nội dung, và còn đưa ra các đe dọa pháp lý mơ hồ với những ai chạm vào ranh giới kiểm duyệt của mô hình
https://blog.google/innovation-and-ai/technology/safety-secu...
Thay vì chỉ đăng kết quả cuối cùng rồi nói mơ hồ trong bình luận Hacker News hay thread Twitter về việc đã prompt như thế nào, vì đó mới chính là mã nguồn thực sự
Nó giống như JetBrains nói rằng “Bạn không được dùng IntelliJ Idea để phát triển IDE thế hệ tiếp theo. Nếu bị phát hiện, chúng tôi có thể chèn một vài lỗi biên dịch nhỏ”
“Chỉ có một cách để kìm hãm và giải trừ vũ trang hiệu quả sự phát triển của một nền văn minh trong thời gian dài. Đó là giết chết khoa học của nền văn minh ấy.” — Cixin Liu, The Three-Body Problem
Tôi lập tức nghĩ đến Sophons, thứ âm thầm can thiệp vào cảm biến của máy gia tốc hạt để ngăn loài người phát triển tri thức vật lý hạt tiên tiến
Nhìn vào tỷ lệ dương tính giả cao của các hàng rào an toàn không hề im lặng mà mọi người đang báo cáo, như an ninh mạng, sinh học, v.v., thì khả năng cao là bạn sẽ gặp hành vi suy giảm âm thầm ngay cả khi không vi phạm điều khoản dịch vụ
Cuối cùng điều đó sẽ lộ ra qua cách khách hàng và bên benchmark bên ngoài cảm nhận Fable. Hy vọng cạnh tranh sẽ ép các mô hình tương lai có tỷ lệ dương tính giả thấp hơn
Trước lúc đó, có vẻ trải nghiệm của người dùng Mythos và Fable sẽ khác nhau khá nhiều
Đây là một ví dụ thú vị cho thấy hàm ý kinh tế của RSI/ASI. Nếu giá trị của nó thực sự gần như vô hạn đến mức phá hủy mọi thị trường, thì các lab cuối cùng sẽ dừng hẳn việc phát hành mô hình và thậm chí phá vỡ cả cam kết hợp đồng
Vì trước khi tranh chấp pháp lý trở nên đắt đỏ, họ đã có đủ sức mạnh để loại đối thủ khỏi cuộc chơi
Các nhà cung cấp cloud cũng sẽ đi theo, lúc đầu với các công ty nhỏ, về sau cả hyperscaler. Họ có thể đóng hẳn việc bán ra ngoài các lab và yêu cầu cổ phần hoặc quyền ra quyết định trực tiếp thay vì tiền mặt
Không có lý do gì tỷ lệ suy luận/huấn luyện nhất thiết phải là 80/20, và trong một biến cố khiến tiền mất giá trị thì dù sẵn sàng trả bao nhiêu cũng không giúp ích gì
A) ASI được phát triển và áp đảo phần còn lại của kinh tế thế giới
B) nhưng thế giới vẫn còn pháp quyền, hợp đồng, kinh doanh và tài chính phát triển tốt
Có thể rút ra rất nhiều kết luận kỳ quặc nếu cùng giả định A và B, nhưng diễn biến hợp lý hơn là nếu A xảy ra thì B sẽ sớm không còn đúng nữa
Khi một công ty có ASI, họ sẽ ngừng bận tâm đến kinh doanh, tiền bạc và kinh tế, và kết cục sẽ chuyển sang kiểu “thống trị thế giới”, “upload hội đồng quản trị vào một hạm đội đầu dò von Neumann”, hoặc “thất bại rồi tất cả cùng chết”
Hôm nay có vẻ như hào lũy còn rất sâu, nhưng mỗi năm sẽ lại nông đi
Việc huấn luyện một mô hình mới từ đầu cần lượng tài nguyên khổng lồ, nhưng huấn luyện hậu kỳ/tinh chỉnh cho các mô hình sẵn có thì tốn ít hơn rất nhiều
2 năm trước, kiến thức về quy trình đó còn xa lạ với người không chuyên, nhưng giờ đây có thể hỏi từng bước cho một trong các mô hình hiện tại, thậm chí làm cả công cụ cùng với chúng
Vài dự án cuối tuần gần đây đúng kiểu như vậy. Những thứ như “hãy thử làm LoRA”, “hãy tạo kho ngữ liệu huấn luyện để tinh chỉnh mô hình cho tác vụ X”, “làm sao để đưa khuôn mặt tôi vào mô hình text-to-image?”
Tất cả việc này đều có thể làm được với phần cứng cục bộ khá khiêm tốn, chẳng hạn vài GPU cũ hoặc Strix Halo, DGX Spark, Mac Studio bản lớn, và tùy quy mô thì cũng có thể dùng điện toán đám mây với chi phí từ vài đô đến vài nghìn đô
Nếu mở rộng điều đó lên quy mô công ty hay startup, thì xét lượng tiền đã đổ vào AI trong vài năm qua, rõ ràng cạnh tranh sẽ tăng mạnh đúng vào lúc các công ty làm mô hình hàng đầu phải bắt đầu rút doanh thu một cách nghiêm túc
Thấy chi phí dùng Claude phình ra khiến người ta có thêm rất nhiều cơ hội tìm cách làm cùng một việc với ít tiền hơn nhiều. Trả 100~200 USD mỗi tháng cho Claude Code, thứ gần với mô hình tốt nhất cho lập trình, là điều khá dễ, nhưng nếu đẩy sang tính phí theo mức sử dụng thì sẽ nhanh chóng trở nên khó gánh
Vì thế, họ phải tiếp tục là một trong gần như những cách duy nhất để giải quyết các bài toán khó nhất, và chi phí của các lựa chọn thay thế cũng phải được giữ ở mức tương tự. Có thể kỳ vọng OpenAI và Google cũng sẽ tăng giá
Nhưng khó mà kỳ vọng điều đó sẽ đúng với tất cả mọi bên, đặc biệt là các công ty Trung Quốc có cấu trúc kinh tế khác. Và cũng khó mà kỳ vọng các công ty sẽ không nhìn vào mức sử dụng của mình rồi tự hỏi: “Liệu có thể huấn luyện một mô hình chuyên biệt nhỏ hơn chỉ để làm đúng một tác vụ đang ngốn nhiều Anthropic API nhất này không?”
Mong là điều họ nói chỉ nhắm tới kiểu sử dụng như việc các hãng mô hình Trung Quốc chưng cất Claude. Mong là họ không định chặn cả những thứ như “làm sao để tinh chỉnh Gemma 4 viết theo văn phong của tôi?”
Phần còn lại là thâm dụng vốn, và giá cả theo thời gian sẽ tiến gần chi phí sản xuất
Xem đây là một ngành kinh doanh lợi nhuận cao cũng giống như nói vì nồi hơi đắt nên biên lợi nhuận của nhà máy điện than sẽ cao vậy
Nếu đọc mà không có thiện chí, nó giống như đang nói “các kỹ sư/nhà khoa học máy học muốn tự động hóa mọi công việc trừ công việc của chính họ”
Vì nếu ai cũng có thể tạo Mythos của riêng mình thì họ sẽ lách qua các hàng rào bảo vệ
Chỉ là điều đó lại càng cho thấy tình huống này kỳ quặc đến mức nào
Họ có một hệ thống làm suy yếu âm thầm trong mô hình, và đang nói công khai về chuyện đó. Câu hỏi hiển nhiên là nó đã được dùng đến mức nào rồi
Các đối thủ có đang bị làm yếu không?
Người dùng không phải người Mỹ có nhận code tệ hơn không?
Giống như game online dùng matchmaking để tác động thắng thua nhằm tối đa hóa mức độ tham gia, họ có đang trừng phạt hoặc thưởng cho người dùng không?
$$$$: làm yếu nhẹ
$$$: làm yếu hơn
$$: Bạn nghèo à?
$: Hãy ở mãi trong tầng lớp dưới cùng
“Claude giờ có thể bị làm yếu một cách âm thầm. Anthropic đã quyết định sẽ không báo cho người dùng biết ngay cả khi chuyện đó xảy ra.” Cái gì cơ!!