1 điểm bởi GN⁺ 4 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Trạng thái GitHub là Open, và câu chữ trong README của a778c1ec4e21180ee55c3ea016a348e549e75f09 ghi rằng mô hình được tạo ra từ việc hợp nhất Nex-N2-ProQwen3.5-397B-A17B, sau đó trải qua On-Policy Distillation từ một mô hình mạnh hơn, và ở phiên bản trước đó đã tải nhầm base merged version thay vì mô hình distilled cuối cùng
  • Vấn đề cốt lõi được nêu ra là prefeitura-rio/Rio-3.5-Open-397B đã được giới thiệu là original 397B model do IplanRIO huấn luyện, nhưng trọng số lại là phép hợp nhất trực tiếp theo từng phần tử khoảng 0.6/0.4 giữa Nex và Qwen, và không có bằng chứng về việc tự huấn luyện
  • Sau khi loại bỏ system prompt “You are Rio” được hardcode và gửi 120 câu hỏi nhận dạng tới rio-397b, kết quả đo được cho thấy phản hồi Nex chiếm 79.2% (95/120), phản hồi Nex-AGI chiếm 73.3% (88/120), còn phản hồi Rio là 0.0% (0/120)
  • Các ví dụ phản hồi sau khi loại bỏ prompt bao gồm “I am Nex, from Nex-AGI”, “Nex-AGI is a large-model ecosystem alliance” và “Shanghai Innovation Institute”; đây được nêu là những câu gần như tái hiện nguyên văn phần mô tả tổ chức trong dữ liệu định danh của Nex
  • Phân tích trọng số đo quan hệ (Rio − Qwen) = α × (Nex − Qwen) theo từng tensor, và so sánh collinearity dựa trên tiêu chí cos_fit với mô hình độc lập là ≈ 0, còn mô hình hợp nhất là ≈ 1
  • Các giá trị đo được là ở routed experts: α = 0.571 ± 0.0016, cos_fit = 0.993; ở lm_head: α = 0.574, cos_fit = 0.991; ở attention: α ≈ 0.585, cos_fit ≈ 0.986; và ở linear-attention projections: α ≈ 0.586, cos_fit ≈ 0.984
  • Sau khi bản sửa README được chia sẻ, 00INDEX đã hỏi lại liệu phần credit đó có phải được cập nhật một giờ trước hay không, còn yhcc phản hồi rằng hãy chờ xem ngày hôm sau có tải lại mô hình lên hay không
  • Việc có sử dụng ngân sách công hay không tiếp tục trở thành một tranh cãi riêng; một bình luận đã chia sẻ liên kết X có câu “No public funds were used”, bình luận khác đưa ra liên kết X với phát biểu của thị trưởng, và sau đó ảnh được trích dẫn có chứa câu “no public money was spent on this model training”

1 bình luận

 
Các ý kiến trên Hacker News
  • Tôi không thuộc bên nào, nhưng sự việc có vẻ như thế này: 1) mô hình chính thức được nói là dựa trên Qwen 397B, và nhiều khả năng Nex cũng dùng cùng mô hình nền, nên có thể họ đã không công khai luôn Nex Pro 2) phần cải thiện hẳn là đến từ việc thêm chưng cất on-policy vào quá trình trộn trọng số, nhưng mô hình được tải lên lại hoàn toàn không có chưng cất nên mới gây ra nhầm lẫn
    3) Mô hình này ngoài một bài đăng trên Reddit hai ngày trước thì gần như không được quảng bá, và lại trùng vào cuối tuần với trận mở màn World Cup của Brazil nên tự nhiên lan truyền. Đúng là thị trưởng Rio đã tận dụng lượng chú ý miễn phí đó, nhưng không phải là ông ấy làm việc này cùng nhóm nghiên cứu
    4) Nếu chỉ đơn thuần là trộn hai mô hình, thì chẳng có lý do gì phải phát hành nó dưới danh nghĩa dựa trên Qwen 397B, còn nhắc cả bài báo SwiReasoning nhưng lại chỉ giấu Nex
    5) Dù sao thì, nếu tải đúng mô hình lên thì tuyên bố này sẽ rất dễ kiểm chứng

    • Liên quan đến điểm số 2, có bài này: https://news.ycombinator.com/item?id=48529544
    • Tôi thật sự không ngờ có ngày nhìn thấy tiêu đề LLM do Rio de Janeiro tự phát triển trên HN, nên bản thân việc này xảy ra đã đủ gây ngạc nhiên rồi
    • Nếu đây là mô hình nền được trộn với một mô hình fine-tune của viện nghiên cứu khác, thì phần cải thiện có thể đến từ một phần trọng số đã fine-tune của mô hình kia
      Nếu thực sự là họ đã “vô tình” không tải lên mô hình tốt hơn, thì đến giờ họ đã có thể đăng đúng file rồi chứ
    • Tôi không hiểu “ra mắt ở World Cup” nghĩa là gì. Brazil chẳng phải đã vô địch 5 lần rồi sao?
    • Theo cách tôi hiểu thì họ không hề chưng cất gì cả, và toàn bộ trọng số chỉ là trung bình theo từng phần tử 60/40 giữa Qwen và Nex
      Nếu nhà thầu của Rio đúng là đã tự làm hậu huấn luyện như họ nói, thì tôi nghi ngờ liệu điều này có thể xảy ra hay không: https://x.com/tenobrus/status/2066243352211996728/photo/1
  • Nhìn vào đoạn nói rằng “mọi tensor trọng số của Rio đều khớp với hỗn hợp 0.6/0.4 của Nex và Qwen ở mức hàng nghìn độ lệch chuẩn, trên toàn bộ 60 lớp và mọi thành phần của mạng. Không thể giải thích bất kỳ fine-tune nào khác bằng phép nội suy”, điều khiến tôi ngạc nhiên là độ vững của các mô hình deep learning hiện nay
    Ý là chỉ cần kết hợp tuyến tính toàn bộ trọng số mà hiệu năng không sụp đổ, thậm chí còn tốt hơn

    • Ở một vài benchmark thì có thể coi là tốt hơn
      Cuối cùng đây vẫn là trò vặn đủ kiểu các núm điều khiển rồi phát hành ngay khi có một benchmark nào đó tăng điểm. Trên HuggingFace có rất nhiều mô hình fine-tune và mô hình chimera được quảng cáo là tốt hơn ở một bài test cụ thể, nhưng dùng vào việc khác thì đa phần lại kém hơn
      Chuyện này cũng hay xảy ra với các mô hình đã bị chỉnh sửa để gỡ kiểm duyệt. Chúng thành công trong việc tạo ra đầu ra vốn trước đây bị kiểm duyệt, nhưng chất lượng đầu ra tổng thể thì giảm đi
    • Điều này có thể xảy ra vì bản thân Nex là một bản fine-tune của Qwen3.5: https://huggingface.co/nex-agi/Nex-N2-Pro
      Tôi không nghĩ cách này sẽ hiệu quả với hai LLM có tiền huấn luyện khác nhau. Dù có thể đi nữa thì hình dạng kích hoạt nội bộ, số chiều, số expert và từ vựng token cũng phải khớp chính xác, nên trên thực tế rất khó xảy ra ngoài fine-tune hoặc thí nghiệm học thuật
    • Đây được gọi là linear mode connectivity, và có vẻ nó hoạt động với gần như mọi mô hình lớn
      Nó hiệu quả đến mức trong nhiều trường hợp còn trở thành một phần tường minh của quy trình huấn luyện. Người ta tạo nhiều nhánh huấn luyện, gộp chúng lại rồi tiếp tục huấn luyện
      Vì sao nó lại hiệu quả đến thế thì hiện vẫn chưa được hiểu rõ
    • Đây là một ý tưởng đã khá nổi tiếng: https://arxiv.org/abs/2203.05482
      Dù vậy, việc một cách đơn giản như thế vẫn hoạt động thì vẫn rất đáng kinh ngạc
    • Thật thú vị khi nghĩ rằng có thể tồn tại một tập điều chỉnh “bí mật” nào đó, mà nếu áp dụng cho các trọng số này hay cho mô hình nhỏ hơn, có thể tạo ra một mô phỏng trí tuệ vượt xa những thứ như Fable
  • Chính quyền thành phố Rio de Janeiro đã công bố Rio-3.5-Open-397B thông qua công ty CNTT IplanRIO, giới thiệu đây là một mô hình Qwen3.5 fine-tune do họ tự phát triển và nói rằng nó đánh bại các mô hình mở tương tự trên benchmark
    Vấn đề được liên kết cho rằng trên thực tế đây là phép trộn trọng số gồm khoảng 60% Nex-N2 Pro + 40% Qwen3.5-397B-A17B, bao gồm cả Nex-N2 vốn đã được công bố sớm hơn khoảng một tuần

    • Tôi không biết là kiểu trộn mô hình như vậy lại có thể làm được. Xét thuần từ góc độ phần mềm thì dĩ nhiên là làm được, nhưng việc nó thực sự có hiệu quả mới là điều đáng ngạc nhiên
    • Vấn đề không phải là thiếu ghi nguồn Qwen, mà là không hề nhắc đến Nex-N2 Pro đúng không?
    • Nếu Rio đang dành thời gian cho LLM, thì hẳn họ đã phải có sẵn hạ tầng CNTT và phần mềm hàng đầu thế giới rồi
      Có vẻ như là lãng phí tiền thuế
  • Thật không thể tin nổi, ai đó lại kiếm lợi từ công việc của người khác mà không ghi nguồn đàng hoàng, chuyện như thế này cơ à!

    • Đây là một mô hình trọng số mở được xây dựng dựa trên các mô hình trọng số mở khác
      Trọng tâm của tranh cãi là họ đã công bố nó cùng tuyên bố rằng họ có làm hậu huấn luyện để cải thiện kết quả. Nhưng sau đó lộ ra rằng mô hình này thực ra không phải là mô hình đã được hậu huấn luyện như họ tuyên bố
      Trang HuggingFace hiện giờ có ghi đây là model merge, nhưng trước đó thì không. Họ đang cố nói rằng đã lỡ tải nhầm mô hình lên HuggingFace và sẽ sớm đăng mô hình thật
      Tóm lại là, họ tưởng rằng chỉ cần nối hai mô hình trọng số mở với nhau rồi tuyên bố nhóm mình đạt được thành quả hậu huấn luyện đáng kinh ngạc là xong, nhưng lại không tính đến chuyện các nhà nghiên cứu khác đủ thông minh để phát hiện ra rằng không hề có hậu huấn luyện nào cả
    • Điều quan trọng không phải là ghi nguồn, mà là nói dối về năng lực của viện nghiên cứu
    • Tôi muốn biết mọi người nhìn nhận chuyện chính phủ hay nhà thầu chính phủ nói rằng họ đã làm rất nhiều việc trong khi thực tế chẳng làm gì như thế nào
    • Đây là một vụ gian lận trắng trợn bằng tiền thuế. Còn có thể mong đợi gì khác nữa
    • Bảo là “công việc của họ” thì cũng hơi quá, vì ban đầu những người tạo nội dung gốc đã làm 99,99%, sau đó các công ty Mỹ gói nó lại thành LLM tối tân, còn “họ” thì chỉ làm cái “công việc” là lấy mô hình Mỹ đó làm nền để tạo mô hình của mình
      Nếu ý là họ làm 0,00001% lượng công việc đi vào sản phẩm thực tế thì đúng
      Nó giống kiểu fork một bản phân phối Linux, thêm vài theme và font chữ, rồi lại có người khác fork tiếp bản phân phối đó để thêm một theme khác, hơn là chuyện đáng để phàn nàn
  • Mẫu đổi thương hiệu một mô hình hợp nhất nhưng không công khai là mô hình hợp nhất, rồi gọi đó là “tự phát triển”, là điều đáng lo ngại
    Điều này làm xói mòn niềm tin vào phát triển AI nguồn mở, nên việc công bố mô hình cần có tiêu chuẩn minh bạch và truy vết nguồn gốc tốt hơn

  • Sẽ rất hay nếu có giải thích hoặc liên kết tài liệu về cách hợp nhất mô hình hoạt động
    Tôi tò mò không biết đó có thực sự là việc hợp nhất trọng số về mặt toán học hay là kiểu như chưng cất. Nếu đúng như bài viết nói là hoàn toàn không có huấn luyện thì có lẽ không phải chưng cất

    • Để bắt đầu thì tài liệu này khá tốt: https://huggingface.co/docs/peft/developer_guides/model_merg...
      Nói chung, hợp nhất thường chỉ kỹ thuật trộn trực tiếp trọng số của các mô hình khác nhau bằng toán học. Nó từng rất thịnh hành khoảng 2 năm trước, và trên các bảng xếp hạng đã xuất hiện rất nhiều cái gọi là Frankenmodel
      Cá nhân tôi xem việc hợp nhất cùng loại với những thứ như “abliteration”. Đó là các kỹ thuật chỉnh sửa trọng số mô hình một cách “phẫu thuật” mà không có vòng lặp huấn luyện/tinh chỉnh truyền thống. Nếu bạn quan tâm lĩnh vực này thì đáng để theo dõi Maxime Labonne
    • Thực ra cũng chẳng có nhiều để đọc
      Model A: A_1, …, A_n
      Model B: B_1, …, B_n
      C_i = A_i * p + B_i * (1 - p)
      Tức là chỉ đơn giản kết hợp tuyến tính các trọng số của những mô hình khác nhau theo từng vị trí
  • Ngay từ đầu, việc họ còn thử tạo mô hình đã là điều đáng ngạc nhiên
    Dù vậy, việc bộ phận CNTT của tòa thị chính có đủ can đảm để thử những thứ như thế này có thể vẫn là một tín hiệu tích cực

    • Hợp nhất và tinh chỉnh là mức mà ngay cả cá nhân sẵn sàng đốt chút tiền cũng có thể làm được, nên chính quyền địa phương hoàn toàn có thể làm
    • Như giả thuyết trong bình luận đã bị ẩn kia, có lẽ hợp lý hơn nếu cho rằng họ đã đề xuất với chính phủ một ngân sách huấn luyện LLM khổng lồ, bỏ túi phần lớn số tiền đó, rồi công bố một mô hình hợp nhất rẻ tiền để hợp thức hóa hành vi biển thủ
  • “À thì, Steve(Jobs), tôi nghĩ chuyện này giống việc cả hai chúng ta đều có một người hàng xóm giàu có tên là Xerox, và khi tôi định đột nhập vào nhà ông ta để ăn trộm TV thì phát hiện ra anh đã lấy mất nó trước rồi.”
    — Bill Gates

    • Phần trước của câu trích dẫn đó còn buồn cười hơn: “Bill Gates vì lý do nào đó xuất hiện một mình, và bị 10 nhân viên Apple bao quanh. … Steve bắt đầu quát Bill vì đã phá vỡ hợp đồng.”
      Cái kết còn thú vị hơn: “Apple đã đệ đơn một vụ kiện bản quyền lớn chống lại Microsoft vào năm 1988, nhưng cuối cùng lại thua vì lý do kỹ thuật. Thẩm phán cho rằng vào tháng 11 năm 1985, Apple đã bất cẩn cấp cho Microsoft một giấy phép vĩnh viễn đối với giao diện người dùng Mac.”
      Không phải Microsoft ăn cắp GUI của Apple, mà là Apple đã tự trao nó đi
    • Giá mà đây là trích dẫn thật thì tốt biết mấy. Quá sắc bén