- Huawei bị tố nội bộ rằng đã sao chép các mô hình AI cỡ lớn của Qwen và DeepSeek, sau đó đưa ra như sản phẩm tự phát triển mang tên ‘Pangu’
- Theo lời kể của một nhân viên nội bộ trong đội Pangu, một số mô hình thực chất không phải do hãng tự phát triển mà chỉ là các mô hình mã nguồn mở bên ngoài được đổi tên
- Về mặt kỹ thuật, các mô hình chủ chốt như 135B V2 và Pro MoE 72B được xác định là có mức độ trùng khớp đáng kể với cấu trúc của Qwen và DeepSeek
- Nội bộ cho biết cách làm này đã dẫn tới suy giảm tinh thần nghiên cứu và chảy máu nhân sự, đồng thời sự kém hiệu quả trong quản trị và chính sách nhân sự thiếu minh bạch càng làm vấn đề trầm trọng hơn
- Dù vẫn có những mô hình thực sự do hãng tự phát triển như Pangu V3, việc sao chép và văn hóa nghiên cứu không được ghi nhận đã để lại tổn hại lớn đối với niềm tin trong toàn tổ chức
- Người tố giác cho biết đã quyết định công khai sự thật dưới danh tính thật của mình, đồng thời kêu gọi tổ chức tự nhìn lại và thay đổi
Bi kịch của Pangu: nội tình đau đớn phía sau mô hình ngôn ngữ lớn Pangu của Huawei Noah Ark Lab
Giới thiệu người tố giác và bầu không khí tại hiện trường
- Tác giả cho biết mình thuộc đội mô hình lớn Pangu của Huawei Noah, đồng thời xác thực danh tính bằng cách đối chiếu thông tin nội bộ về cơ cấu tổ chức, dự án và thành phần lãnh đạo
- Dự án Pangu trên thực tế gần với một tổ chức giao hàng hơn là một tổ chức nghiên cứu, liên tục bị ép tiến độ, làm việc quá tải, và chịu áp lực không ngừng từ các đợt đánh giá lẫn báo cáo
- Cường độ công việc và tính quan liêu ở mức cực đoan; việc phải sống tại ký túc xá xa gia đình trong thời gian dài và làm cuối tuần diễn ra thường xuyên
- Trên thực tế, thay vì quyền tự chủ và sáng tạo trong nghiên cứu, văn hóa doanh nghiệp bị chi phối bởi tiến độ bàn giao và chỉ tiêu thành tích của từng dòng sản phẩm như Cloud, ICT
Những đêm không ngủ, ý thức sáng tạo bị chà đạp
- Sau tranh cãi về việc đạo nhái mô hình Qwen, một bộ phận nhà nghiên cứu đồng thời trải qua sự xấu hổ, tức giận và bất lực
- Bản thân người tố giác nói rằng dù lo sợ sự trả đũa từ một tập đoàn khổng lồ và mạng lưới nội bộ, họ không thể tiếp tục chịu đựng việc che giấu sự thật và quảng bá sai lệch ra bên ngoài, nên đã quyết định lên tiếng theo lương tâm
Khó khăn kỹ thuật và khởi đầu của việc sao chép
- Các mô hình Pangu giai đoạn đầu từng cố gắng tự huấn luyện trên nền tảng Huawei Ascend NPU, nhưng gặp phải hàng loạt thử sai nghiêm trọng như hiệu suất tokenizer thấp và hiệu năng mô hình yếu
- Họ bị tụt lại phía sau các mô hình dùng GPU của đối thủ như Alibaba và Zhipu, còn nỗ lực huấn luyện mô hình dense 230B nội bộ thì kết thúc trong thất bại
- Vì vậy, phòng thí nghiệm mô hình nhỏ đã gắn mác “tự phát triển”, nhưng trên thực tế lại sao chép mô hình Qwen-1.5 (110B) và chỉnh sửa nhẹ để tạo ra 135B V2 rồi đưa vào sử dụng; ngay trong nội bộ cũng lộ rõ sự tương đồng về mã và cấu trúc
- Lãnh đạo chủ chốt và ban quản lý được cho là biết rõ thực trạng này nhưng vẫn làm ngơ vì áp lực thành tích và nhu cầu thể hiện kết quả ra bên ngoài
Thành tựu kỹ thuật thực sự: Pangu V3
- Sau nhiều nỗ lực, đội ngũ đã huấn luyện độc lập từ đầu trên Ascend một mô hình Pangu V3 (135B Ultra) hoàn toàn do hãng tự phát triển
- Họ vượt qua nhiều trở ngại kỹ thuật như thống nhất tokenizer và ổn định đường cong loss, qua đó đạt hiệu năng tương đương đối thủ
- Thành tựu này là bằng chứng cho năng lực phát triển mô hình lớn độc lập, không phải sao chép, và là nguồn tự hào của đội ngũ nghiên cứu
Nỗi vất vả không được ghi nhận đằng sau sự phân công
- Phòng thí nghiệm mô hình nhỏ liên tục lấy dữ liệu, mã nguồn và kết quả rồi dễ dàng chỉnh sửa/phân phối mô hình, trong khi thành tích và phần thưởng phần lớn lại thuộc về tổ chức đó
- Vì vậy, nhiều nhà nghiên cứu tận tâm либо rời tổ chức, hoặc chua chát coi đây là vết nhơ trong sự nghiệp kỹ thuật của mình
Các trường hợp sao chép lần hai như 224B MoE/718B clone
- Trong quá trình phát triển mô hình MoE 718B mới, họ tiếp tục gần như sao chép nguyên trạng DeepSeekv3 rồi đặt tên là Pangu Pro MoE 72B để phát hành
- Nội bộ biết rõ cách làm này, nhưng bầu không khí chung là im lặng vì nỗi sợ cho sự sống còn của chính mình và nỗi sợ nói ra sự thật
Quản trị hành chính phi lý
- Với các nhà nghiên cứu thực thụ, tổ chức áp dụng nghiêm ngặt quy trình, phả hệ mô hình và hệ thống kiểm toán, khiến tốc độ phát triển bị chậm lại
- Nhưng với các mô hình sao chép, tiêu chuẩn kép “cấp trên làm thì đều được thông qua” vẫn ăn sâu bén rễ
Lý do công khai và quyết định từ chức
- Sau vụ HonestAGI, công ty bắt đầu triển khai quản lý khủng hoảng và nỗ lực che giấu ở cấp nội bộ
- Người tố giác nói rằng họ không thể tiếp tục tham gia vào “các báo cáo giả” và sự thông đồng nội bộ, đồng thời bày tỏ ý định yêu cầu xóa tên mình khỏi danh sách thành viên dự án, báo cáo, và tự nguyện nghỉ việc
Lời kêu gọi cuối cùng và tình cảm dành cho đồng nghiệp
- Nhiều đồng nghiệp đã chuyển sang ByteDance, DeepSeek, Tencent, Kuaishou và các công ty khác, cho thấy tình trạng chảy máu chất xám tại Huawei là rất nghiêm trọng
- Tác giả nhấn mạnh rằng nếu có đổi mới, môi trường phù hợp và ít cản trở chính trị hơn, họ hoàn toàn có thể phát triển mô hình lớn và chip ở đẳng cấp thế giới
- Người này cũng bày tỏ sẵn sàng chấp nhận cả nguy cơ bị đe dọa an toàn cho bản thân và gia đình do việc xác thực nội dung và các tiết lộ bổ sung sau này
Giải thích thêm về các tình tiết liên quan
- Trong trường hợp clone 135B V2, phòng thí nghiệm mô hình nhỏ chỉ hưởng lợi về khen thưởng và ưu đãi, còn gánh nặng hỗ trợ downstream và bảo trì lại bị đẩy sang đội phát triển gốc (4th brigade)
- Ngay cả trong phần ghi tên tác giả của báo cáo kỹ thuật Pangu, những người có đóng góp cốt lõi cho việc phát triển mô hình vẫn bị loại ra, trong khi có cả người không đóng góp thuộc phòng thí nghiệm mô hình nhỏ được đưa vào, cho thấy các thực hành học thuật thiếu công bằng đã trở nên phổ biến
1 bình luận
Ý kiến trên Hacker News