Các LLM lớn đến mức nào? (Tình hình năm 2025)

(gist.github.com/rain-1)

14 điểm bởi GN⁺ 2025-07-03 | 1 bình luận | Chia sẻ qua WhatsApp

GPT-2, GPT-3, Llama, Mixtral, DeepSeek, Minimax, Hunyuan, v.v.: tổng hợp thông tin khách quan và lịch sử phát triển về quy mô tham số và kiến trúc của các mô hình ngôn ngữ lớn chủ chốt
GPT-2 (2019) có từ 130 triệu đến 1,6 tỷ tham số, GPT-3 (2020) có 175 tỷ (175B) tham số, Llama-3.1 (2024) có 405 tỷ (405B) tham số, cho thấy quy mô của các mô hình lớn đã tăng rất nhanh
Với sự xuất hiện của kiến trúc MoE (Mixture-of-Experts), các mô hình từ cấp độ GPT-3 trở lên đã trở nên khả dụng dưới dạng mã nguồn mở/có thể tải xuống; tiêu biểu có DeepSeek V3 Base (671B), ERNIE-4.5 (424B), Mixtral-8x22B (141B) cùng nhiều mô hình siêu lớn khác
Việc so sánh giữa mô hình Dense (dùng toàn bộ tham số) và MoE (chỉ kích hoạt một phần tham số chuyên gia) đã trở nên phức tạp hơn, khiến việc so sánh "trí thông minh" thực tế không hề dễ dàng
Gần đây cũng xuất hiện nhiều xu hướng phát triển như hỗ trợ đa phương thức và đa ngôn ngữ, kiến trúc mới, tận dụng dữ liệu tổng hợp

Tài liệu này tổng hợp các thông tin thực tế về sự thay đổi quy mô của các mô hình nền tảng (base model) trong vài năm gần đây
Trọng tâm không phải chatbot hay assistant mà là các mô hình đúng nghĩa là động cơ sinh văn bản

Lịch sử

GPT-2(-medium, -large, -xl) (2019): lần lượt có 137 triệu, 380 triệu, 812 triệu và 1,61 tỷ tham số
- Được huấn luyện trên tập dữ liệu webtext khoảng 40GB (ước tính 1 tỷ token)
- Có thể xem danh sách các website đã dùng trong domains.txt
GPT-3(davinci, davinci-002) (2020): 175 tỷ tham số
- Được huấn luyện trên khoảng 400 tỷ token từ CommonCrawl, WebText2, Books1·2, Wikipedia, v.v.
- Cần huấn luyện trong nhiều tháng với hàng nghìn GPU A100 quy mô lớn
GPT-3.5, GPT-4 (2022, 2023): thông tin chính thức về kiến trúc và dữ liệu không được công bố

Llama

Llama là dòng mô hình ngôn ngữ lớn do Meta (trước đây là Facebook) phát triển, được chú ý nhờ xu hướng mở nguồn và cấu trúc có thể khai thác ngay cả với tài nguyên tương đối hạn chế
Quy mô mô hình (số lượng tham số) cùng dữ liệu huấn luyện và quá trình tiến hóa kiến trúc của nó đã dẫn dắt xu hướng mã nguồn mở trong LLM
Llama 1 (2023)
- 7B, 13B, 33B, 65B: cung cấp các phiên bản 7 tỷ, 13 tỷ, 33 tỷ và 65 tỷ tham số
- Dữ liệu huấn luyện: 1,4 nghìn tỷ (1.4T) token văn bản quy mô lớn (Books3, CommonCrawl, v.v.)
- Llama 65B là mô hình mở lớn nhất vào thời điểm đó
- Books3 là một bộ dữ liệu lớn từng trở thành chất xúc tác quan trọng cho các tranh luận pháp lý liên quan đến bản quyền
- Đặc điểm
  - Có thể chạy ngay cả với GPU tương đối nhỏ (bản 65B cũng vận hành được trên 8 GPU)
  - Phân phối trọng số mở, giúp lan rộng các mô hình phái sinh và thử nghiệm cộng đồng
Llama 2 (nửa sau 2023)
- Khi công bố có các bản 7 tỷ, 13 tỷ và 70 tỷ tham số (7B, 13B, 70B)
- Cũng công bố phiên bản hội thoại (chatbot), hỗ trợ fine-tuning và RLHF (học tăng cường từ phản hồi của con người), v.v.
- Giấy phép cho phép cả cộng đồng lẫn mục đích thương mại sử dụng (dù vẫn có một số hạn chế)
Llama 3.1 (2024)
- 405B: 405 tỷ tham số dense (sử dụng toàn bộ tham số)
- Dữ liệu huấn luyện: 2,87 nghìn tỷ token + 800 tỷ cho ngữ cảnh dài + 40 triệu cho annealing (bổ sung như code/toán học chất lượng cao) → tổng cộng 3,67 nghìn tỷ token
- Kiến trúc
  - Dựa trên Transformer, sử dụng đồng thời toàn bộ tham số trong quá trình suy luận (dense)
  - Tối đa hóa điểm benchmark chính nhờ bổ sung dữ liệu code và toán học chất lượng cao (annealing)
- Đặc điểm
  - Là mô hình dense cỡ lớn mới nhất có thể tải xuống trong nhóm mô hình mở
  - Meta không công khai rõ ràng thành phần bộ dữ liệu, và có khả năng bao gồm một số dữ liệu gây tranh cãi về bản quyền (như Books3)
  - Trong một số đánh giá, xu hướng "assistant" được tăng cường, nên có đôi chút khác biệt so với vai trò của một động cơ sinh văn bản thuần túy
Llama 4 (2025)
- Mô hình lớn nhất: 2 nghìn tỷ (2T) tham số MoE (Mixture-of-Experts, cấu trúc chuyên gia hỗn hợp)
  - A288B 16E: 288 tỷ tham số hoạt hóa, 16 chuyên gia, chỉ kích hoạt một phần trong tổng số 2 nghìn tỷ tham số
- Tình hình
  - Mô hình 2T chưa được công bố (chỉ dùng cho thử nghiệm nội bộ), chỉ các phiên bản phái sinh/rút gọn mới được công bố ra ngoài (maverick, scout, v.v.)
  - Nhiều đánh giá cho rằng các mô hình phái sinh có "trí thông minh" thấp hơn bản gốc
  - Quá trình công bố còn kéo theo tranh cãi về việc thao túng điểm benchmark (vụ lmarena), làm suy giảm độ tin cậy và xuất hiện tin đồn giải thể đội ngũ
- Đặc điểm của kiến trúc MoE
  - Chỉ kích hoạt một phần tham số chuyên gia, nên hiệu quả tính toán trên cùng số lượng tham số tốt hơn dense
  - Ngay cả các mô hình siêu lớn cũng có thể dùng trong thực tế (môi trường phân tán hoặc tài nguyên ít hơn)
Ý nghĩa và ảnh hưởng của Llama
- Dòng Llama đã thúc đẩy sự mở rộng của hệ sinh thái mã nguồn mở và phổ cập hóa các mô hình ngôn ngữ lớn
- Từ thời điểm Llama-3.1 405B được công bố, việc tải xuống/thử nghiệm các mô hình lớn cấp GPT-3/4 đã trở nên khả thi trong thực tế
- Việc áp dụng kiến trúc MoE đã làm cho quá trình huấn luyện và phân phối các mô hình siêu lớn trở nên sôi động hơn (ảnh hưởng cả đến DeepSeek, Mixtral, v.v.)
- Tuy vậy, các mô hình gần đây cũng làm dấy lên tranh luận về sự thay đổi đặc tính của một "mô hình ngôn ngữ thuần túy" do tối ưu benchmark (annealing), tăng cường xu hướng assistant, v.v.

The desert – giai đoạn trống vắng và thay đổi của các mô hình lớn mã nguồn mở

Cụm từ này chỉ giai đoạn trống kéo dài khi không thể tìm được mô hình ngôn ngữ lớn cấp GPT-3 (175 tỷ tham số) trở lên dưới dạng mã nguồn mở
Trong giai đoạn này (2020 đến giữa 2023), chỉ có các mô hình tương đối nhỏ như Llama dưới 70B được công bố,
- Một số dự án cố gắng nâng hiệu năng bằng cách fine-tune Llama nhỏ hơn (ví dụ 70B) với dữ liệu tổng hợp do GPT-3 tạo ra
- Tuy nhiên, khi văn bản do AI tạo lại được dùng để AI tiếp tục học, có thể phát sinh vấn đề suy giảm chất lượng dữ liệu (data "degeneration")
Các lý do khiến mô hình trọng số mở cấp GPT-3 vắng bóng trong thời gian dài gồm có,
- chi phí huấn luyện (hạ tầng từ hàng nghìn đến hàng chục nghìn GPU), việc bảo đảm dữ liệu, và độ khó trong phân phối cấu trúc tham số lớn cùng lúc tác động
Khi mô hình Llama-3.1 405B (405 tỷ tham số dense) được công bố, quá trình mở nguồn các mô hình siêu lớn mới thực sự bắt đầu
- Ngay trước đó (tháng 12/2023) có Mixtral-8x7B của Mistral (kiến trúc MoE, tổng 56 tỷ tham số), và vào tháng 4/2024 là Mixtral-8x22B (tổng 141 tỷ, 39 tỷ tham số hoạt hóa), v.v.
  - Nhờ tận dụng kiến trúc MoE (chuyên gia hỗn hợp), các mô hình lớn cấp GPT-3 trở nên có thể huấn luyện và phân phối với tài nguyên tương đối ít hơn
Cấu trúc MoE đặt ra nhiều mạng chuyên gia (Expert), và trong mỗi lần suy luận chỉ kích hoạt một phần
- Nhờ đó, có thể vận hành mô hình lớn với ít tài nguyên hơn (bộ nhớ và tính toán) so với kiến trúc dense
- Do giới hạn về số lượng GPU và bộ nhớ, MoE đã đóng vai trò quyết định trong việc phổ cập các mô hình mở cỡ lớn

Các mô hình lớn MoE mới nhất

Deepseek V3 Base (2024)

671 tỷ tham số (MoE), 37 tỷ tham số hoạt hóa, huấn luyện trên 14,8 nghìn tỷ token chất lượng cao
R1 (mô hình chuyên về suy luận) cũng xuất hiện; trong số các mô hình có thể tải xuống, đây là mô hình đầu tiên tiến gần đến hiệu năng cấp GPT-4
Ngay sau khi công bố, thị trường chịu tác động lớn, chẳng hạn cổ phiếu NVIDIA (NVDA) từng giảm tạm thời
Sau đó, các mô hình MoE cỡ lớn mới nổi, bao gồm cả từ Trung Quốc, liên tiếp xuất hiện
- Một số mô hình đưa vào huấn luyện các loại dữ liệu mới đa dạng để hỗ trợ đa phương thức và đa ngôn ngữ

Databricks (DBRX, tháng 3/2024)

Tổng 132 tỷ tham số, 36 tỷ hoạt hóa, 12 nghìn tỷ token
Chọn 4 trong 16 chuyên gia (chi tiết hơn so với Mistral và Grok)

Minimax (tháng 1/2025)

Tổng 456 tỷ tham số, 45,9 tỷ hoạt hóa, kiểm soát chất lượng dữ liệu huấn luyện bằng reward labeler riêng

Dots (tháng 6/2025)

Tổng 143 tỷ tham số, 14 tỷ hoạt hóa, 11,2 nghìn tỷ token, ngữ cảnh 32K
Cấu trúc top-6/128 chuyên gia, hiệu năng tương tự Qwen2.5-72B

Hunyuan (tháng 6/2025)

80 tỷ MoE, 13 tỷ hoạt hóa, 20 nghìn tỷ token, ngữ cảnh 256K
8 chuyên gia không chia sẻ được kích hoạt, chuyên gia chia sẻ luôn hoạt động

Ernie (tháng 6/2025)

Tổng 424 tỷ tham số, 47 tỷ hoạt hóa, hàng nghìn tỷ token

Kết luận và triển vọng

Tính đến 2024–2025, nhiều mô hình siêu lớn từ cấp GPT-3 (175 tỷ) trở lên đang được công bố đa dạng
405B (405 tỷ) hiện là dense base model mới nhất, nhưng các mô hình MoE mới nhất cũng đang tiếp tục mở rộng quy mô và đa dạng hóa
Việc so sánh hiệu năng Dense vs MoE vẫn còn mơ hồ; cần thêm thảo luận về cấu trúc và kích thước thực sự cần thiết cho "trí thông minh"
Các cấu trúc mới (RWKV, byte-latent, bitnet), việc tận dụng dữ liệu tổng hợp, v.v. cũng đang được thử nghiệm, nhưng sự phát triển mang tính bản chất với tư cách là động cơ sinh văn bản thuần túy vẫn còn là bài toán
Gần đây, phần lớn các mô hình lớn có xu hướng được fine-tune cho vai trò "AI assistant"; đây là thời điểm cần thiết để khám phá các hướng LLM thay thế

1 bình luận

GN⁺ 2025-07-03

Ý kiến trên Hacker News

Tôi vẫn không ngừng kinh ngạc trước việc có bao nhiêu dữ liệu được nén vào trong những mô hình có thể tải về này, hơn là chỉ có một ý kiến thuần túy mang tính kỹ thuật. Hôm qua, trên một chuyến bay không có Wi‑Fi, tôi đã tải mô hình gemma3:12b (8.1GB) qua Ollama rồi cùng bọn trẻ hỏi đủ thứ. Các câu trả lời về game gần đây, động vật, lịch sử và nhiều chủ đề khác không phải lúc nào cũng hoàn hảo, nhưng tôi vẫn thấy thật phi thường khi chừng ấy tri thức của nhân loại lại có thể nằm trong một tệp nhỏ như vậy và còn dùng được cả khi ngoại tuyến. Dù là nén có mất mát, việc có thể nén tri thức nhân loại xuống nhỏ đến thế vẫn rất đáng kinh ngạc
- Tôi thấy thật thú vị khi mô hình ngôn ngữ có thể trở thành một công cụ nén mạnh đến vậy. Nếu huấn luyện mô hình cho mục đích assistant, nó sẽ nén lịch sử hội thoại của trợ lý tốt hơn văn bản thông thường. Có một bộ đánh giá tên là UncheatableEval, cho phép nhìn ra năng lực nén của mô hình ngôn ngữ trên nhiều loại tác vụ. Bộ tiêu chuẩn này về cơ bản là một bài kiểm tra 'không thể gian lận'. Tôi nghĩ hiệu năng nén là một benchmark thực sự, nơi không thể dùng mẹo kiểu game để lách luật
- Tôi muốn giới thiệu dự án Kiwix, nơi có thể tải xuống và sử dụng nhiều tài liệu khác nhau khi ngoại tuyến. Họ cũng cung cấp các thiết bị được nạp sẵn nội dung cho những nơi kết nối Internet không ổn định hoặc không có Internet
- Để tham khảo, với Wikipedia tiếng Anh (ngày 26 tháng 6 năm 2025), có hơn 7 triệu bài viết và 63 triệu trang. Chỉ riêng văn bản đã khoảng 156GB, còn gộp tất cả các phiên bản thì tổng dung lượng cơ sở dữ liệu vào khoảng 26TB
- 8.1GB thật sự là một dung lượng rất lớn. Đó là 64.8 tỷ (64,800,000,000) bit; có lẽ ta còn hình dung được 100 bit hay 1,000 bit, nhưng 10 nghìn, 1 triệu, 64 triệu, rồi con số lớn gấp 1,000 lần như thế này thì thực sự mới cảm nhận được nó khổng lồ đến mức nào
- Lĩnh vực nghiên cứu mô hình ngôn ngữ dưới góc nhìn lý thuyết thông tin hay nén vẫn còn nhỏ, nhưng đang ngày càng trở nên quan trọng vì hiệu quả và khả năng mở rộng. Hôm nay tôi đã có một buổi thảo luận về chủ đề này, ai quan tâm thì có thể tìm xem
Deepseek v1 có khoảng 670 tỷ tham số, với kích thước vật lý khoảng 1.4TB. Tôi đoán nếu nén toàn bộ sách đã được số hóa cho đến nay thì sẽ ở mức vài TB, web công khai khoảng 50TB, và nếu gom toàn bộ văn bản điện tử tiếng Anh rồi zip lại thì có lẽ quanh mức O(100TB). Kích thước mô hình hiện nay mới chỉ ở mức 1% của toàn bộ lượng đó, và có vẻ chúng ta đã bước vào giai đoạn mà việc tiếp tục tăng kích thước không còn nâng hiệu năng lên nhiều như kỳ vọng nữa (xem gpt4.5 so với 4o). Vì lý do này, gần đây với các mô hình reasoning, chi phí tính toán đang chuyển dần sang phía thời gian inference. Để có thêm giá trị sử dụng, có lẽ tương lai sẽ tiến hóa theo hướng mô hình chuyên biệt tập trung vào từng miền cụ thể. Tôi nghĩ 1TB inference VRAM có thể trở thành mục tiêu trung hạn cho các mô hình mã nguồn mở chất lượng cao. Đây là mức cấu hình mà cả doanh nghiệp vừa và nhỏ (SME) cũng có thể với tới (ước khoảng 250B tham số)
- Nếu thêm hình ảnh và video vào thì những con số dự đoán ở trên có thể nghe giống như câu nói ngày xưa rằng 640KB là đủ. Sau đó, nếu robot tự mình khám phá thế giới để thu thập dữ liệu thì lượng thông tin còn tăng lên nữa. Nói nghiêm túc thì việc bổ sung dữ liệu hình ảnh và tương tác sẽ mang lại lợi ích đáng kể cả cho việc sinh văn bản
- Tôi đã thử tính bằng số liệu thực tế. Lấy 157 triệu bài báo khoa học và 52 triệu cuốn sách, giả sử trung bình mỗi bài 10 nghìn từ và mỗi cuốn 100 nghìn từ, rồi dùng dữ liệu sách mẫu để suy ra tỷ lệ nén. Kết quả là khoảng 30TB nếu không nén, và 5.5TB khi nén. Chỉ cần 3 thẻ microSD 2TB (tổng 750 đô) là lưu được
- Góp ý nhỏ là tôi không nghĩ dùng ký hiệu big O cho một dung lượng lưu trữ cố định như O(100TB) là phù hợp
- Không rõ 50TB đó có đang tính theo Library of Congress của Mỹ không. Toàn bộ Internet chắc chắn còn lớn hơn nhiều
- Tôi tò mò con số 'toàn bộ sách số hóa nén xuống vài TB, web công khai là 50TB' đến từ đâu. Nếu có nguồn thì tôi muốn xem. Trước đây tôi từng đọc đâu đó rằng toàn bộ tư liệu chữ viết trước thế kỷ này chỉ khoảng 50MB, nhưng không tìm lại được nguồn nên có thể tôi nhớ nhầm
Thiếu các mô hình dòng Gemma, Gemini (Google). Và cũng đáng tiếc là dòng T5 không được nhắc đến, dù nó đã đóng vai trò quan trọng trong transfer learning và sự lan rộng của lĩnh vực này. Có thể xem T5 là khởi nguồn của nhiều khái niệm
- Các mô hình Gemma không được đưa vào danh sách vì dung lượng nhỏ. T5 rất quan trọng về mặt lịch sử, nhưng vì dưới 11B nên không được nhắc nhiều riêng. Dù vậy, đây vẫn là một dòng mô hình rất ý nghĩa và thú vị

Nếu muốn nhìn trực quan, có một tài liệu vẽ biểu đồ tổng số tham số theo từng năm: Total Parameters vs. Release Year by Family
- Biểu đồ này cho thấy rất rõ GPT-3 đã là một bước nhảy lớn đến mức nào, và trong thời gian dài sau đó không ai bắt kịp được tầm đó
- Tài liệu thật sự rất tuyệt. Cảm ơn vì đã làm nó. Tôi đã để lại ảnh chụp màn hình biểu đồ, liên kết và ghi công trong phần bình luận của bài viết gốc
Bài viết rất hay. Tuy nhiên, nó có phần mặc định rằng chỉ những mô hình ngôn ngữ siêu lớn như thế này mới là đột phá tốt nhất. Các tay chơi lớn thời gian qua khá im ắng, và từ bên ngoài nhìn vào thì OpenAI chỉ hé lộ đôi chút qua hành động của họ. Có thể họ đã tạo ra những mô hình còn lớn hơn rất nhiều nhưng kết quả gây thất vọng nên lặng lẽ dừng thí nghiệm. Trên thực tế, những mô hình reasoning tuyến đầu mạnh nhất có khi lại nhỏ hơn các mô hình khổng lồ đã công bố
Tình huống này khá mỉa mai. Cộng đồng mã nguồn mở đã thử nhiều cách như mô hình 30~70B, RLHF, dữ liệu tổng hợp... để bắt kịp GPT-3 (175B), nhưng khoảng cách vẫn còn. Cuối cùng, kích thước nội tại của mô hình quả thật rất quan trọng, và chỉ khi xuất hiện những mô hình dense thật sự khổng lồ (405B) hoặc mô hình MoE (DeepSeek V3, DBRX v.v.) thì bên ngoài các phòng lab đóng kín mới có được năng lực reasoning cấp GPT-4
Tôi không đồng ý với chú thích ở đoạn nói rằng "để mô hình mã nguồn mở tiến gần mức GPT-3, phần lớn các Llama cỡ 70B đã được huấn luyện bằng dữ liệu tổng hợp do GPT-3 tạo ra". Nếu dữ liệu tổng hợp lúc nào cũng làm giảm hiệu năng thì các lab AI đã chẳng bao giờ dùng nó. Trên thực tế, họ đang tận dụng dữ liệu tổng hợp để tạo ra mô hình tốt hơn. Đúng là có các bài báo chỉ ra việc hiệu năng suy giảm trong những tình huống rất có chủ đích, kiểu 'quay vòng huấn luyện bằng chính đầu ra của nó', nhưng điều đó khác với cách mà các lab AI thực sự dùng dữ liệu tổng hợp. Lý do bài báo đó nổi tiếng là vì ý tưởng 'AI tự ăn đuôi mình rồi suy tàn' nghe quá hấp dẫn
- Đồng ý. Đặc biệt trong bối cảnh huấn luyện một mô hình nhỏ hơn bằng đầu ra của mô hình lớn hơn, distillation là một kỹ thuật cực kỳ hiệu quả. Cá nhân tôi trước đây cũng từng tinh chỉnh chuyên biệt miền cho các mô hình Llama, Mistral bằng dữ liệu do con người tạo và dữ liệu do GPT-4 sinh ra; sau khi thêm dữ liệu tổng hợp (chất lượng tốt), kết quả đã tốt hơn
Tôi thấy tiếc khi mọi người cứ lặp đi lặp lại rằng LLM là nén mất mát. Xét gần đúng thì đó có thể là một phép ví von đúng, nhưng điều chặt chẽ và thú vị hơn là LLM cũng hoạt động như một thuật toán nén không mất mát. Có hai ví dụ. 1) Có thể dùng mã hóa số học cho bất kỳ văn bản nào với chi phí tiệm cận log-likelihood của LLM (giả sử người gửi và người nhận đều có cùng tham số LLM) 2) Có thể dùng LLM và SGD (mã huấn luyện) để triển khai nén không mất mát, trong đó tham số mô hình không được tính vào độ dài mô tả. Có thể tham khảo tài liệu “compression for AGI” của Jack Rae
- Về điểm 1, các kỹ thuật nén cổ điển cũng rất hiệu quả nếu cả bên gửi lẫn bên nhận đều có cùng một từ điển lớn
Chỉ nhìn các con số như "1.61B" thì rất khó hình dung tệp thực sự lớn cỡ nào hay cần bao nhiêu VRAM. Tôi muốn biết dung lượng lưu trữ thực tế, yêu cầu phần cứng, hiện giờ nếu mua máy thì tôi có thể chạy đến mức nào, và 10 năm nữa có thể chạy được loại mô hình nào
- Nếu mỗi tham số là 1 byte (f8) thì 1.6GB, còn 2 byte (f16) thì 2.3GB. Ngoài việc nạp lên GPU còn có thêm chi phí bộ nhớ khác, nên tốt nhất cứ tính khoảng gấp 4 lần số tham số. Tức là, với 2B tham số thì nên có 8GB VRAM
- Phần lớn mô hình được huấn luyện ở 16 bit (2 byte). Mô hình 1 tỷ tham số là 2GB. Trong sử dụng thực tế, lượng tử hóa 8 bit nhỏ hơn thường đã đủ, và thông thường từ 16 bit xuống 8 bit gần như không mất hiệu năng. Vì vậy có thể tính đơn giản: mô hình 1B là 1GB, mô hình 20B là 20GB. Thậm chí với bit thấp hơn nữa (5 bit, 4 bit...) nếu mức giảm chất lượng không đáng kể thì tùy mục đích vẫn hoàn toàn dùng được trong thực tế. Thậm chí còn có trường hợp mô hình được huấn luyện trực tiếp ở 4 bit cho chất lượng tốt hơn mô hình lượng tử hóa từ 16 bit xuống. Nút thắt cổ chai của mô hình lớn không phải là dung lượng VRAM mà là băng thông. Vì vậy GPU có nhiều VRAM là quan trọng. Dù có 128GB RAM hệ thống, nếu vượt khỏi bộ nhớ GPU thì băng thông GPU-CPU không đủ, khiến CPU còn chậm hơn. GPU (ví dụ: RTX 5090) có 32GB VRAM, băng thông khoảng 1Tb/s. Dòng Apple M có 512Gb/s, AMD Strix Halo cung cấp 128GB bộ nhớ hợp nhất và băng thông 256Gb/s. Muốn xem trải nghiệm thực tế khi chạy LLM trên phần cứng consumer thì có thể tham khảo Reddit r/LocalLLaMA. Chỉ là hoạt động ở đó cũng lẫn nhiều thử nghiệm không bình thường, nên cần lưu ý. Còn tình hình 10 năm nữa thì không thể dự đoán. TSMC, Samsung, Intel đều đang dồn vào sản xuất GPU đầu bảng để đáp ứng nhu cầu của các hyperscaler, và ngành bán dẫn cũng đang ở giai đoạn rất khó dự báo vì nhiều biến số như chính trị, thương mại, AI, black swan v.v.

Các LLM lớn đến mức nào? (Tình hình năm 2025)

Lịch sử

Llama

Llama 1 (2023)

Llama 2 (nửa sau 2023)

Llama 3.1 (2024)

Llama 4 (2025)

Ý nghĩa và ảnh hưởng của Llama

The desert – giai đoạn trống vắng và thay đổi của các mô hình lớn mã nguồn mở

Các mô hình lớn MoE mới nhất

Deepseek V3 Base (2024)

Databricks (DBRX, tháng 3/2024)

Minimax (tháng 1/2025)

Dots (tháng 6/2025)

Hunyuan (tháng 6/2025)

Ernie (tháng 6/2025)

Kết luận và triển vọng

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News