Khoảng cách giữa LLM open-weight và LLM đóng
(blog.doubleword.ai)- Theo Artificial Analysis Intelligence Index, thời gian để LLM open-weight bắt kịp hiệu năng trong quá khứ của LLM đóng đã liên tục rút ngắn từ mùa hè 2024
- Khi vẽ đường xu hướng trên chỉ số đơn lẻ này, khoảng cách được dự đoán sẽ về 0 tháng vào ngày 3 tháng 12 năm 2026, tức mô hình mở sẽ chạm tới nhóm mô hình đóng tiên phong theo chỉ số này
- Khi mở rộng cùng cách phân tích ra toàn bộ 18 benchmark, khoảng cách trung bình gần như đi ngang và duy trì ở mức dưới 5 tháng trong suốt toàn bộ giai đoạn
- Mức cải thiện chủ yếu đến từ benchmark lập trình, nơi khoảng cách ở các chỉ số coding giảm từ 15 tháng xuống còn 1~2 tháng
- Đánh giá chất lượng LLM dao động mạnh theo tiêu chí đo lường, nên có thể đồng thời diễn giải rằng mô hình mở sắp bắt kịp hoặc vẫn liên tục chậm hơn khoảng 5 tháng
Chỉ số đơn lẻ cho thấy sự bám đuổi nhanh
- Khoảng cách được tính bằng cách lấy mốc là nhóm dẫn đầu benchmark của LLM open-weight, rồi truy ngược xem ở thời điểm nào trong quá khứ nhóm dẫn đầu LLM đóng từng đạt cùng mức hiệu năng đó
- Chỉ số tiêu đề được sử dụng là Artificial Analysis Intelligence Index của Artificial Analysis, một chỉ số nhằm đánh giá năng lực tổng thể của mô hình
- Trên chỉ số này, khoảng cách giữa LLM open-weight và LLM đóng bắt đầu thu hẹp từ khoảng mùa hè 2024 và xu hướng thu hẹp tiếp tục kéo dài sau đó
- Nếu kéo dài đường xu hướng về tương lai, khoảng cách sẽ về 0 tháng vào ngày 3 tháng 12 năm 2026
- Tính theo thời điểm bài viết được thực hiện thì còn khoảng 6 tháng nữa
18 benchmark cho thấy một kết luận khác
- Khi áp dụng cùng phân tích lên toàn bộ 18 benchmark của Artificial Analysis, bức tranh hiện ra khác với chỉ số đơn lẻ
- Ở mỗi tháng, khoảng cách của 18 bộ dữ liệu được biểu diễn bằng boxplot, rồi tính đường xu hướng cho khoảng cách trung bình của toàn bộ tập dữ liệu
- Đường xu hướng của khoảng cách trung bình gần như hoàn toàn phẳng, và trong toàn bộ giai đoạn vẫn gần với mức dưới 5 tháng
- Phần đáng kể của cải thiện mô hình đến từ các chỉ số coding
- Chỉ số coding đã giảm từ mức chậm hơn 15 tháng xuống còn chậm hơn 1~2 tháng
- Ở hầu hết các bộ dữ liệu khác, khoảng cách có xu hướng tăng nhẹ theo thời gian
- Tùy theo tiêu chí đo lường, đánh giá về chất lượng LLM có thể thay đổi rất lớn
- Theo một tiêu chí, có thể dự đoán singularity mã nguồn mở vào khoảng dịp Giáng Sinh
- Theo tiêu chí khác, LLM mã nguồn mở vẫn đều đặn chậm hơn LLM đóng khoảng 5 tháng và khoảng cách thậm chí có thể còn nới rộng
1 bình luận
Ý kiến trên Hacker News
Vấn đề lớn nhất đối với tương lai của các mô hình trọng số mở là các mô hình trọng số mở hiện nay là kết quả dựa vào thiện chí của các tổ chức tư nhân như DeepSeek
Vòi nước có thể bị khóa bất cứ lúc nào, và cho đến khi xuất hiện một dạng phần cứng do cộng đồng sở hữu nào đó, các mô hình trọng số mở sẽ luôn mang rủi ro bị ngừng lại
Ngay cả nếu về sau không còn mô hình mới nào xuất hiện, những năng lực đã đạt được vẫn còn đó. Ngược lại, các mô hình dựa trên API có thể bị nhà cung cấp tùy ý ngừng, và chuyện
gpt5-minisớm biến mất rồi bị thay bằng5.4-miniđắt hơn là hoàn toàn có thể xảy raNvidia có lợi ích trực tiếp khi càng nhiều người chạy mô hình, nên họ có động lực tiếp tục phát hành dòng Nemotron; Google cũng vậy, vì các mô hình nhỏ dùng cho tính năng trình duyệt dù sao cũng sẽ bị rò rỉ, nên tốt hơn là giành thị phần trong giới developer
Các phòng thí nghiệm Trung Quốc cũng có động lực tiếp tục công bố mô hình, và nhờ cuộc chiến thương mại giữa các quốc gia, khả năng cao là hỗ trợ từ chính phủ cũng sẽ tiếp diễn
Kiểu như họ nói: “Chúng tôi có thể làm 90% những gì các anh làm với 1/10 chi phí, và còn tốt hơn theo các chỉ số mật độ”; ít nhất theo giả thuyết của tôi, họ trông như Hindenburg Research phiên bản AI
Có thể sẽ hình thành cấu trúc trong đó có các công ty huấn luyện mô hình, rồi cấp phép mô hình đó cho các công ty inference vận hành API
Công ty inference có thể hoạt động với vốn ít hơn nhiều, còn công ty huấn luyện không phải bị inference lấy mất tài nguyên
Một số công ty huấn luyện mô hình ở Trung Quốc đã cấp phép mô hình cho các nhà cung cấp inference theo cách này
Tôi nghĩ về mặt tài chính cũng hợp lý. Những người dùng tận dụng hết hạn mức gói đăng ký có thể khiến nhà vận hành tốn chi phí lớn hơn tiền thuê bao, và đây có thể cũng là lý do Anthropic phản ứng mạnh với việc thu thập dữ liệu từ Trung Quốc
Nếu công bố trọng số, đối thủ có thể tải mô hình về để phân tích và chạy cả ngày, thay vì phải liên tục gõ vào dịch vụ đăng ký, nhờ đó giảm gánh nặng
Với mô hình lớn nhất, gần như không có lý do để tự chạy nếu không phải là các ông lớn. Thuê phần cứng đắt một cách phi lý so với phí đăng ký và tốn hàng chục nghìn đô la; còn nếu mua thì cần hàng trăm nghìn đô la
Có những cách diễn đạt kiểu “bây giờ là thời điểm tốt để rút tiền hưu trí thành tiền mặt, bay ra một hòn đảo xa xôi và sống yên bình trong khoảng 6 tháng còn lại của nền văn minh”, và “vì vậy có lẽ ngày tận thế của mã nguồn mở vẫn chưa đến”, nhưng tôi không hiểu từ khi nào các mô hình mã nguồn mở tốt lại trở thành điềm báo tận thế
Ít nhất có thể xem đó là phòng hộ trước một dystopia kiểu cyberpunk
Vậy mà LLM mô hình mở lại bị xem như quái vật. Ý là thị trường phải để OpenAI hoặc Anthropic kiểm soát an toàn và đưa ra mọi quyết định sao
Có lẽ đó là một cách diễn đạt mang tính đùa cợt
Với xu hướng hiện nay, các mô hình Trung Quốc khó vượt qua các mô hình tối tân của Mỹ
Ưu thế của các mô hình Mỹ đến từ việc có được nhiều dữ liệu hơn và chất lượng hơn, chủ yếu là dữ liệu tổng hợp, thậm chí dùng cả những cách như tạo dữ liệu bằng các mô hình giáo viên khổng lồ — những cách gần như không thể đưa vào lưu lượng hội thoại thực tế
Các mô hình Trung Quốc tiến lên bằng cách dồn rất nhiều công sức vào tối ưu hóa mô hình, đồng thời thu thập nhiều dữ liệu huấn luyện hơn và tốt hơn từ các mô hình tối tân của Mỹ
Để các mô hình trọng số mở của Trung Quốc vượt qua các mô hình tối tân của phòng thí nghiệm Mỹ, phương trình này phải đảo chiều. Các phòng thí nghiệm Trung Quốc cần thoát khỏi việc thu hoạch dữ liệu từ mô hình tối tân, xây dựng các hệ thống dữ liệu và nỗ lực nhằm tạo ra dữ liệu mới, đồng thời cũng phải có được phần cứng thế hệ mới nhất với số lượng lớn
Bản thân việc huấn luyện mô hình ở quy mô tối tân không phải là kỳ tích không thể tưởng tượng; nơi phần cứng thật sự được đổ vào là suy luận của mô hình giáo viên
Tôi không biết bên trong z.ai hay Alibaba, cũng không biết bên trong Anthropic hay OpenAI
Nhưng khả năng họ không thu thập dữ liệu của nhau có vẻ rất thấp. Tôi tin chắc Anthropic cũng có một nhóm xem xét trọng số GLM 5.2, dù chỉ để theo dõi đối thủ
Việc một phòng thí nghiệm nào đó lấy được dữ liệu của Anthropic không có nghĩa là họ không tự nghiên cứu
Việc họ tập trung vào tối ưu hóa là vì không thể có được phần cứng tốt nhất, và lý do duy nhất khiến các phòng thí nghiệm hàng đầu tụt lại có thể chỉ là họ không có H200 hay MI350. Giờ thì họ có rồi
Bạn cũng đang đánh giá thấp một rủi ro khác. Anthropic sau khi căng thẳng với chính phủ Mỹ hiện đang giữ các mô hình “tốt nhất” thế giới trong nội bộ
Trung Quốc cũng có thể tương tự. Theo những gì được biết, chính phủ Trung Quốc cởi mở một cách bất ngờ với xuất khẩu AI và các mô hình trọng số mở, nhưng vẫn có một khả năng nhỏ song không thể xem nhẹ rằng họ đang nắm trong tay một phiên bản tốt hơn của GLM 5.2 và không ai được phép nói ra
Bề ngoài rất khó phân biệt giữa trường hợp phòng thí nghiệm Trung Quốc chậm hơn 6 tháng và trường hợp họ bị buộc phải kìm giữ mô hình tốt nhất
Tôi không xem đây là rào cản, và nó có cảm giác giống với kiểu đánh giá thấp châu Á đã kéo dài suốt 50 năm qua
Mỹ cũng không có lợi thế bẩm sinh riêng nào trong việc tạo ra LLM, và lợi thế đi trước của Mỹ rất có khả năng sẽ bị trì hoãn rồi lãng phí trong trò chơi kiểm soát xuất khẩu kiểu “quá nguy hiểm để công bố”
Trên Internet vốn đã có phần lớn kiến thức mà người ta kỳ vọng mô hình phải biết
Chưng cất từ mô hình tốt hơn bằng một lượng dữ liệu nhỏ vẫn hữu ích, nhưng việc đó gần với chuyện tìm ra các năng lực phù hợp với persona trợ lý ngoan ngoãn và kìm nén những năng lực không mong muốn như trolling hơn là chuyển những năng lực hoàn toàn không có trong mô hình gốc được huấn luyện trên Internet
Việc dùng bộ dữ liệu tinh chỉnh bằng chỉ dẫn được tạo bằng ChatGPT cho Alpaca và các mô hình tương tự là một phiên bản thô sơ của điều này
Nếu không có mục tiêu rõ ràng để bắt chước, đối thủ sẽ phải dựa nhiều hơn vào người đánh giá, nhưng ở Trung Quốc có nhiều công ty gán nhãn dữ liệu nên đó không phải trở ngại lớn
Những gì đến từ Trung Quốc không chỉ là các phương pháp mới để chưng cất mô hình
Chính phủ Mỹ dường như không có ý định cho phép truy cập các mô hình mới nhất nếu không có giấy phép rõ ràng
Ít thấy ai nói rằng các mô hình đóng có thể gần như đánh lừa benchmark
Thứ mà Anthropic hay OpenAI gắn thương hiệu là mô hình không nhất thiết chỉ là trọng số; nó có thể là cả một hệ thống backend bổ trợ cho chính mô hình
Khi đó điểm benchmark có thể cao hơn các mô hình mã nguồn mở chỉ có trọng số
Mã nguồn mở cũng vậy, benchmark cũng không được chạy mà không có bất kỳ công cụ thực thi nào
Không ai quan tâm AGI được tạo ra bằng 100% mạng nơ-ron, hay bằng 50% mạng nơ-ron và 50% script Perl
Việc một phần đáng kể cải thiện hiệu năng mô hình đến từ benchmark lập trình là hợp lý
Lập trình là một trong những ứng dụng ngắn hạn rõ ràng nhất của mô hình, có một thị trường sẵn sàng trả nhiều tiền cho token, có một kho ngữ liệu khổng lồ để làm việc, và bản thân miền bài toán đã tích hợp sẵn khả năng kiểm chứng đáng kể
Mỹ, vốn được biết đến là xứ sở tự do, giờ lại đang hạn chế đến mức nếu không phải người Mỹ thì thậm chí không được dùng mô hình tối tân
Ngược lại, Trung Quốc, nơi bị xem như một “quốc gia chuyên chế” và gần như “trái nghĩa với tự do”, lại đã tạo ra tất cả các mô hình trọng số mở có sức cạnh tranh, đặc biệt dựa trên ngành phần mềm rất tư bản chủ nghĩa
Thật sự mỉa mai
Là người Trung Quốc, tôi hiểu chiến lược này là dùng mã nguồn mở như một phương tiện cạnh tranh bất đối xứng từ vị thế đi sau, và bù đắp tài nguyên tính toán thiếu hụt bằng cách phân tán gánh nặng. Dù vậy, nó vẫn rất mỉa mai
Mỹ có thể tự gọi mình là xứ sở tự do, nhưng đã chơi trò bảo hộ kinh tế suốt hàng trăm năm
Việc này chỉ là ví dụ mới nhất mà thôi
Tôi tò mò các công ty mô hình đóng đang mang lại cú hích hiệu năng ở mức nào cho các mô hình mở
Nếu việc cải thiện của mô hình đóng dừng lại, liệu tiến bộ của mô hình mở cũng sẽ chậm lại không
Ví dụ DeepSeek đã có nhiều đổi mới về hiệu quả
Giả định rằng nếu mô hình đóng ngừng cải thiện thì tất cả mô hình đóng cũng sẽ dừng lại là rất khó xảy ra, trừ khi các mô hình sắp đâm vào một bức tường nào đó
Các công ty Trung Quốc có thể tụt sau Mỹ về năng lực tính toán, nhưng trong các lĩnh vực tạo bài toán và học tăng cường hiện đang hoạt động tốt, họ có những nhà nghiên cứu xuất sắc gần tương đương với đồng nghiệp Mỹ [0]
Đặc biệt trong những lĩnh vực có vòng phản hồi ngắn như lập trình, nhiều khả năng tốc độ cải thiện nhanh sẽ tiếp diễn cho đến khi chúng ta, những con người tầm thường, mất khả năng định nghĩa hàm mục tiêu
Ngược lại, ở các lĩnh vực phản hồi chậm hoặc đắt đỏ, tôi không kỳ vọng phép màu. Ngay cả các hãng dược khổng lồ và rất năng lực cũng không thể phát minh thuốc mới tuyệt vời một cách ổn định vì quá trình đánh giá quá chậm và đắt, và các mô hình cũng sẽ khó sớm làm được điều đó vì cùng lý do
Nếu muốn chạy học tăng cường bằng cách lặp m lần trên n lộ trình phát triển thuốc, thì dù có khả thi, chi phí sẽ là n*m nhân với 10 triệu~100 triệu USD và mất m năm
[0] Tình trạng chảy máu chất xám, trong đó nhân tài toàn cầu chảy vào các phòng thí nghiệm Mỹ thông qua hệ thống đại học Mỹ, đang cạn dần, nên lợi thế của Mỹ trong lĩnh vực này nhiều khả năng sẽ giảm
Khi nhìn cùng với các lệnh cấm xuất khẩu gần đây của Mỹ thì điều này khá thú vị
Có phải Mỹ đang lãng phí vị thế dẫn đầu khi khiến nguồn mở, đặc biệt là các phòng thí nghiệm Trung Quốc, bắt kịp về chất lượng mô hình mà công chúng có thể dùng không
Liệu các phòng thí nghiệm Mỹ có thể duy trì lợi thế ngay cả khi người dùng không thể dùng các mô hình mới nhất không
Không nói là quan trọng hay không quan trọng, nhưng tôi không rõ “Mỹ thắng” hay “Trung Quốc thắng” mang lại giá trị thực chất gì
Nếu niềm tin rằng các mô hình trọng số mở và mô hình Trung Quốc phụ thuộc nhiều vào việc chưng cất từ các mô hình tiên tiến nhất là đúng, thì khoảng cách sẽ ổn định ở mức thời gian tối thiểu cần để trích xuất dữ liệu có ý nghĩa từ mô hình tiên tiến mới nhất cộng với thời gian hoàn tất huấn luyện của mô hình phụ thuộc mới nhất
Khoảng cách này có thể được thu hẹp bằng cách nâng cao hiệu quả quy trình, nhưng không thể xóa bỏ hoàn toàn
Những nỗ lực cản trở việc chưng cất từ Anthropic hoặc OpenAI cũng có thể làm thay đổi thế cân bằng
Tôi tò mò liệu nhiều công ty và chính phủ tin rằng mình phải ở tuyến đầu của việc áp dụng LLM dẫn đầu, và đang ngày càng phụ thuộc vào chúng, có rơi vào tình huống giống truyện ngắn Superiority của Arthur C. Clarke hay không
[1] Bản gốc: https://nob.cs.ucdavis.edu/classes/ecs153-2019-04/readings/s...
[2] Wikipedia: https://en.wikipedia.org/wiki/Superiority_(short_story)