LLM “tự phát triển” của Rio de Janeiro có vẻ là bản hợp nhất từ các mô hình hiện có
(github.com/nex-agi)- Trạng thái GitHub là Open, và câu chữ trong README của a778c1ec4e21180ee55c3ea016a348e549e75f09 ghi rằng mô hình được tạo ra từ việc hợp nhất
Nex-N2-ProvàQwen3.5-397B-A17B, sau đó trải qua On-Policy Distillation từ một mô hình mạnh hơn, và ở phiên bản trước đó đã tải nhầm base merged version thay vì mô hình distilled cuối cùng - Vấn đề cốt lõi được nêu ra là
prefeitura-rio/Rio-3.5-Open-397Bđã được giới thiệu là original 397B model do IplanRIO huấn luyện, nhưng trọng số lại là phép hợp nhất trực tiếp theo từng phần tử khoảng 0.6/0.4 giữa Nex và Qwen, và không có bằng chứng về việc tự huấn luyện - Sau khi loại bỏ system prompt “You are Rio” được hardcode và gửi 120 câu hỏi nhận dạng tới
rio-397b, kết quả đo được cho thấy phản hồiNexchiếm 79.2%(95/120), phản hồiNex-AGIchiếm 73.3%(88/120), còn phản hồiRiolà 0.0%(0/120) - Các ví dụ phản hồi sau khi loại bỏ prompt bao gồm “I am Nex, from Nex-AGI”, “Nex-AGI is a large-model ecosystem alliance” và “Shanghai Innovation Institute”; đây được nêu là những câu gần như tái hiện nguyên văn phần mô tả tổ chức trong dữ liệu định danh của Nex
- Phân tích trọng số đo quan hệ
(Rio − Qwen) = α × (Nex − Qwen)theo từng tensor, và so sánh collinearity dựa trên tiêu chícos_fitvới mô hình độc lập là≈ 0, còn mô hình hợp nhất là≈ 1 - Các giá trị đo được là ở routed experts:
α = 0.571 ± 0.0016,cos_fit = 0.993; ởlm_head:α = 0.574,cos_fit = 0.991; ở attention:α ≈ 0.585,cos_fit ≈ 0.986; và ở linear-attention projections:α ≈ 0.586,cos_fit ≈ 0.984 - Sau khi bản sửa README được chia sẻ, 00INDEX đã hỏi lại liệu phần credit đó có phải được cập nhật một giờ trước hay không, còn yhcc phản hồi rằng hãy chờ xem ngày hôm sau có tải lại mô hình lên hay không
- Việc có sử dụng ngân sách công hay không tiếp tục trở thành một tranh cãi riêng; một bình luận đã chia sẻ liên kết X có câu “No public funds were used”, bình luận khác đưa ra liên kết X với phát biểu của thị trưởng, và sau đó ảnh được trích dẫn có chứa câu “no public money was spent on this model training”
1 bình luận
Các ý kiến trên Hacker News
Tôi không thuộc bên nào, nhưng sự việc có vẻ như thế này: 1) mô hình chính thức được nói là dựa trên Qwen 397B, và nhiều khả năng Nex cũng dùng cùng mô hình nền, nên có thể họ đã không công khai luôn Nex Pro 2) phần cải thiện hẳn là đến từ việc thêm chưng cất on-policy vào quá trình trộn trọng số, nhưng mô hình được tải lên lại hoàn toàn không có chưng cất nên mới gây ra nhầm lẫn
3) Mô hình này ngoài một bài đăng trên Reddit hai ngày trước thì gần như không được quảng bá, và lại trùng vào cuối tuần với trận mở màn World Cup của Brazil nên tự nhiên lan truyền. Đúng là thị trưởng Rio đã tận dụng lượng chú ý miễn phí đó, nhưng không phải là ông ấy làm việc này cùng nhóm nghiên cứu
4) Nếu chỉ đơn thuần là trộn hai mô hình, thì chẳng có lý do gì phải phát hành nó dưới danh nghĩa dựa trên Qwen 397B, còn nhắc cả bài báo SwiReasoning nhưng lại chỉ giấu Nex
5) Dù sao thì, nếu tải đúng mô hình lên thì tuyên bố này sẽ rất dễ kiểm chứng
Nếu thực sự là họ đã “vô tình” không tải lên mô hình tốt hơn, thì đến giờ họ đã có thể đăng đúng file rồi chứ
Nếu nhà thầu của Rio đúng là đã tự làm hậu huấn luyện như họ nói, thì tôi nghi ngờ liệu điều này có thể xảy ra hay không: https://x.com/tenobrus/status/2066243352211996728/photo/1
Nhìn vào đoạn nói rằng “mọi tensor trọng số của Rio đều khớp với hỗn hợp 0.6/0.4 của Nex và Qwen ở mức hàng nghìn độ lệch chuẩn, trên toàn bộ 60 lớp và mọi thành phần của mạng. Không thể giải thích bất kỳ fine-tune nào khác bằng phép nội suy”, điều khiến tôi ngạc nhiên là độ vững của các mô hình deep learning hiện nay
Ý là chỉ cần kết hợp tuyến tính toàn bộ trọng số mà hiệu năng không sụp đổ, thậm chí còn tốt hơn
Cuối cùng đây vẫn là trò vặn đủ kiểu các núm điều khiển rồi phát hành ngay khi có một benchmark nào đó tăng điểm. Trên HuggingFace có rất nhiều mô hình fine-tune và mô hình chimera được quảng cáo là tốt hơn ở một bài test cụ thể, nhưng dùng vào việc khác thì đa phần lại kém hơn
Chuyện này cũng hay xảy ra với các mô hình đã bị chỉnh sửa để gỡ kiểm duyệt. Chúng thành công trong việc tạo ra đầu ra vốn trước đây bị kiểm duyệt, nhưng chất lượng đầu ra tổng thể thì giảm đi
Tôi không nghĩ cách này sẽ hiệu quả với hai LLM có tiền huấn luyện khác nhau. Dù có thể đi nữa thì hình dạng kích hoạt nội bộ, số chiều, số expert và từ vựng token cũng phải khớp chính xác, nên trên thực tế rất khó xảy ra ngoài fine-tune hoặc thí nghiệm học thuật
Nó hiệu quả đến mức trong nhiều trường hợp còn trở thành một phần tường minh của quy trình huấn luyện. Người ta tạo nhiều nhánh huấn luyện, gộp chúng lại rồi tiếp tục huấn luyện
Vì sao nó lại hiệu quả đến thế thì hiện vẫn chưa được hiểu rõ
Dù vậy, việc một cách đơn giản như thế vẫn hoạt động thì vẫn rất đáng kinh ngạc
Chính quyền thành phố Rio de Janeiro đã công bố Rio-3.5-Open-397B thông qua công ty CNTT IplanRIO, giới thiệu đây là một mô hình Qwen3.5 fine-tune do họ tự phát triển và nói rằng nó đánh bại các mô hình mở tương tự trên benchmark
Vấn đề được liên kết cho rằng trên thực tế đây là phép trộn trọng số gồm khoảng 60% Nex-N2 Pro + 40% Qwen3.5-397B-A17B, bao gồm cả Nex-N2 vốn đã được công bố sớm hơn khoảng một tuần
Có vẻ như là lãng phí tiền thuế
Thật không thể tin nổi, ai đó lại kiếm lợi từ công việc của người khác mà không ghi nguồn đàng hoàng, chuyện như thế này cơ à!
Trọng tâm của tranh cãi là họ đã công bố nó cùng tuyên bố rằng họ có làm hậu huấn luyện để cải thiện kết quả. Nhưng sau đó lộ ra rằng mô hình này thực ra không phải là mô hình đã được hậu huấn luyện như họ tuyên bố
Trang HuggingFace hiện giờ có ghi đây là model merge, nhưng trước đó thì không. Họ đang cố nói rằng đã lỡ tải nhầm mô hình lên HuggingFace và sẽ sớm đăng mô hình thật
Tóm lại là, họ tưởng rằng chỉ cần nối hai mô hình trọng số mở với nhau rồi tuyên bố nhóm mình đạt được thành quả hậu huấn luyện đáng kinh ngạc là xong, nhưng lại không tính đến chuyện các nhà nghiên cứu khác đủ thông minh để phát hiện ra rằng không hề có hậu huấn luyện nào cả
Nếu ý là họ làm 0,00001% lượng công việc đi vào sản phẩm thực tế thì đúng
Nó giống kiểu fork một bản phân phối Linux, thêm vài theme và font chữ, rồi lại có người khác fork tiếp bản phân phối đó để thêm một theme khác, hơn là chuyện đáng để phàn nàn
Mẫu đổi thương hiệu một mô hình hợp nhất nhưng không công khai là mô hình hợp nhất, rồi gọi đó là “tự phát triển”, là điều đáng lo ngại
Điều này làm xói mòn niềm tin vào phát triển AI nguồn mở, nên việc công bố mô hình cần có tiêu chuẩn minh bạch và truy vết nguồn gốc tốt hơn
Sẽ rất hay nếu có giải thích hoặc liên kết tài liệu về cách hợp nhất mô hình hoạt động
Tôi tò mò không biết đó có thực sự là việc hợp nhất trọng số về mặt toán học hay là kiểu như chưng cất. Nếu đúng như bài viết nói là hoàn toàn không có huấn luyện thì có lẽ không phải chưng cất
Nói chung, hợp nhất thường chỉ kỹ thuật trộn trực tiếp trọng số của các mô hình khác nhau bằng toán học. Nó từng rất thịnh hành khoảng 2 năm trước, và trên các bảng xếp hạng đã xuất hiện rất nhiều cái gọi là Frankenmodel
Cá nhân tôi xem việc hợp nhất cùng loại với những thứ như “abliteration”. Đó là các kỹ thuật chỉnh sửa trọng số mô hình một cách “phẫu thuật” mà không có vòng lặp huấn luyện/tinh chỉnh truyền thống. Nếu bạn quan tâm lĩnh vực này thì đáng để theo dõi Maxime Labonne
Model A: A_1, …, A_n
Model B: B_1, …, B_n
C_i = A_i * p + B_i * (1 - p)
Tức là chỉ đơn giản kết hợp tuyến tính các trọng số của những mô hình khác nhau theo từng vị trí
Ngay từ đầu, việc họ còn thử tạo mô hình đã là điều đáng ngạc nhiên
Dù vậy, việc bộ phận CNTT của tòa thị chính có đủ can đảm để thử những thứ như thế này có thể vẫn là một tín hiệu tích cực
“À thì, Steve(Jobs), tôi nghĩ chuyện này giống việc cả hai chúng ta đều có một người hàng xóm giàu có tên là Xerox, và khi tôi định đột nhập vào nhà ông ta để ăn trộm TV thì phát hiện ra anh đã lấy mất nó trước rồi.”
— Bill Gates
Cái kết còn thú vị hơn: “Apple đã đệ đơn một vụ kiện bản quyền lớn chống lại Microsoft vào năm 1988, nhưng cuối cùng lại thua vì lý do kỹ thuật. Thẩm phán cho rằng vào tháng 11 năm 1985, Apple đã bất cẩn cấp cho Microsoft một giấy phép vĩnh viễn đối với giao diện người dùng Mac.”
Không phải Microsoft ăn cắp GUI của Apple, mà là Apple đã tự trao nó đi