- Nhiều nhà nghiên cứu chủ chốt của nhóm Qwen tại Alibaba đã đồng loạt từ chức, khiến tương lai của dòng mô hình Qwen 3.5 vừa được công bố trở nên khó đoán
- Trưởng nhóm Lin Junyang thông báo rời đi, sau đó nhiều nhân sự nòng cốt cũng lần lượt nghỉ việc cùng thời điểm
- Họ mô hình Qwen 3.5 ra mắt gần đây đang thu hút chú ý hơn nữa vì cho thấy hiệu năng xuất sắc ngay cả ở các mô hình nhỏ
- Khả năng tan rã của nhóm Qwen có thể trở thành một bước ngoặt quan trọng đối với hệ sinh thái nghiên cứu AI mã nguồn mở xuất phát từ Trung Quốc
Biến động nhân sự của nhóm Qwen
- Ngay sau khi Alibaba công bố dòng mô hình Qwen 3.5, trưởng nhóm Lin Junyang đã thông báo từ chức trên X (Twitter trước đây) với thông điệp: “me stepping down. bye my beloved qwen.”
- Lin là nhà nghiên cứu chủ chốt dẫn dắt việc công bố các mô hình open-weight của Qwen kể từ sau năm 2024, đồng thời là một trong những nhân sự cấp P10 trẻ tuổi nhất tại Alibaba
- Theo đưa tin của truyền thông Trung Quốc 36Kr, vào khoảng 1 giờ chiều ngày 4 tháng 3, Tongyi Lab của Alibaba đã tổ chức một cuộc họp toàn công ty khẩn cấp và CEO Wu Yongming trực tiếp giải thích tình hình với nhóm Qwen
- Việc Lin từ chức được công bố vào 0 giờ 11 phút, tức 12 giờ trước đó, và được cho là gây chấn động lớn ngay trong nội bộ nhóm
- Khoảng 2 giờ chiều, Lin để lại lời nhắn trên WeChat: “Anh em của Qwen, cứ tiếp tục theo đúng kế hoạch ban đầu. Không có vấn đề gì”, nhưng không nói rõ liệu có quay lại hay không
- Thành viên nhóm Qwen nói với 36Kr rằng “dưới nguồn lực ít hơn rất nhiều so với đối thủ, vai trò lãnh đạo của Junyang là yếu tố then chốt giúp đạt được thành quả hiện tại”
- Một số ý kiến cho rằng nguyên nhân từ chức có thể liên quan đến tái cơ cấu tổ chức trong Alibaba, khi một nhà nghiên cứu mới từng thuộc nhóm Google Gemini được bổ nhiệm làm người phụ trách Qwen, nhưng đây là thông tin chưa được xác nhận
Làn sóng rời đi của các nhân sự chủ chốt
- Sau khi Lin từ chức, đã xác nhận rằng nhiều thành viên nòng cốt cũng rời đi cùng lúc
- Binyuan Hui: trưởng phát triển mã nguồn Qwen, phụ trách toàn bộ series Qwen-Coder, chịu trách nhiệm toàn bộ quá trình huấn luyện tác tử, gần đây tham gia nghiên cứu robotics
- Bowen Yu: trưởng mảng hậu huấn luyện (post-training) của Qwen, dẫn dắt phát triển series Qwen-Instruct
- Kaixin Li: người đóng góp chủ chốt cho Qwen 3.5/VL/Coder, tiến sĩ Đại học Quốc gia Singapore
- Ngoài ra, nhiều nhà nghiên cứu trẻ khác cũng được đưa tin là đã từ chức trong cùng ngày
- Việc CEO Alibaba trực tiếp tham dự cuộc họp cho thấy phía công ty nhận thức rõ mức độ nghiêm trọng của sự việc
Đặc điểm của mô hình Qwen 3.5
- Qwen 3.5 là họ mô hình open-weight mà nhóm Qwen của Alibaba đã công bố trong vài tuần gần đây, với hiệu năng rất ấn tượng
- Qwen3.5-397B-A17B công bố ngày 17 tháng 2 là một mô hình lớn dung lượng 807GB
- Sau đó, các mô hình với nhiều kích cỡ như 122B, 35B, 27B, 9B, 4B, 2B, 0.8B cũng lần lượt được công bố
- Các mô hình 27B và 35B được đánh giá tốt trong tác vụ lập trình, còn 9B·4B·2B thì rất hiệu quả so với kích thước
- 27B và 35B có thể chạy trên Mac 32GB/64GB mà vẫn xử lý rất tốt các tác vụ coding
- Đặc biệt, mô hình 2B chỉ có 4.57GB (1.27GB khi lượng tử hóa) nhưng vẫn hỗ trợ cả suy luận và khả năng đa phương thức (thị giác)
Triển vọng sắp tới
- Nếu nhóm Qwen bị giải thể, có khả năng các thành quả nghiên cứu về việc đạt hiệu năng cao trên mô hình nhỏ sẽ bị gián đoạn
- Nếu các thành viên trong nhóm thành lập viện nghiên cứu mới hoặc gia nhập tổ chức khác, vẫn có kỳ vọng vào các nghiên cứu tiếp theo
- Tình hình hiện tại vẫn là “còn chưa rõ ràng”, và Alibaba cũng vẫn có khả năng giữ lại một phần nhân sự
Nguồn bên ngoài được tham khảo
1 bình luận
Ý kiến trên Hacker News
Tôi đã thử nghiệm Qwen3.5-35B-A3B trong vài ngày qua, và đây là mô hình có năng lực coding tác tử tốt nhất mà tôi từng dùng cho tới nay
Tôi đã để nó viết mã Rust và Elixir bằng Pi harness, và nó tự tạo test rồi kiểm tra xem có pass hay không. Nó xử lý khá tốt các vòng lặp lỗi test hoặc lỗi biên dịch trong khi vẫn tiến tới mục tiêu
Tuy vậy, giữa chừng nó có xu hướng phớt lờ chỉ dẫn và xóa sạch toàn bộ mã hỗ trợ vì cho rằng “làm thế này sẽ đơn giản hơn”
Nó chọn deadpool và deadpool-r2d2 ở giai đoạn lập kế hoạch nên tự làm mình rối. Dù vậy nhìn chung mã vẫn ổn, có lẽ chỉ cần chỉnh lại chút ở tầng cơ sở dữ liệu
Cho tới giờ đây là mô hình self-host được ổn định nhất
Từ góc nhìn doanh nghiệp thì việc đổi chiến lược là điều dễ hiểu, nhưng tôi không hiểu vì sao họ lại để các nhà nghiên cứu cốt lõi ra đi. Chẳng phải đây đang là thời điểm thiếu nhà nghiên cứu mô hình sao?
Trong bầu không khí như vậy, dù các phòng thí nghiệm ở Mỹ có chi bao nhiêu tiền thì cũng khó thu hút nhân tài
Hơn nữa, trong các công ty Trung Quốc họ có thể có ảnh hưởng lớn hơn tới quyết định
Từ thời chính quyền Trump, lượng du học sinh nước ngoài vào Mỹ đã giảm, và giờ thì việc học tiến sĩ ở Mỹ thậm chí còn bị xem như một rủi ro về danh tiếng
Nếu mô hình đám mây lãng phí token thì thấy tốn tiền, còn nếu mô hình cục bộ quay vòng lặp thì lại có cảm giác “à, nó đang suy nghĩ”
Nếu các mô hình như Qwen trở nên đủ dùng cho coding cục bộ, thì thay đổi đó có lẽ mang tính kinh tế nhiều hơn là kỹ thuật
Hiệu năng rất ấn tượng so với kích thước, nhưng với chỉ dẫn dài thì nó có xu hướng bỏ qua khoảng một nửa. Ở cỡ này thì đó là một đánh đổi chấp nhận được
Nó thậm chí còn làm cả kiểm chứng trích dẫn sai, và đã được dùng cho các bài báo trên arXiv
Tôi có tổng hợp kết quả ở trang này
Thực ra tôi từng nghĩ đây là kiểu nghiên cứu mà chính phủ nên hỗ trợ, nhưng hiện giờ các công ty Trung Quốc đang thay vai trò đó
Tốc độ cũng khá nhanh
Nếu AI có thể hoàn toàn thay thế con người, các CEO đã không phải cố gắng thuyết phục như vậy