Báo cáo hiện trạng AI của OpenRouter: Nghiên cứu thực chứng với 100 nghìn tỷ token

(openrouter.ai)

7 điểm bởi GN⁺ 2025-12-29 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Nghiên cứu quy mô lớn phân tích dữ liệu sử dụng LLM thực tế với hơn 100 nghìn tỷ token, theo dõi sự chuyển đổi căn bản trong phương thức suy luận AI kể từ khi mô hình suy luận o1 ra mắt vào tháng 12/2024
Mô hình mã nguồn mở đã tăng trưởng lên khoảng 30% tổng mức sử dụng, trong đó các mô hình mã nguồn mở Trung Quốc như DeepSeek V3, Kimi K2 nhanh chóng mở rộng thị phần
Nhập vai và lập trình là hai trụ cột chính của việc sử dụng LLM; hơn một nửa lượng dùng mô hình mã nguồn mở tập trung vào nhập vai, cho ra kết quả trái với giả định lấy năng suất làm trung tâm
Các mô hình suy luận xử lý hơn 50% tổng số token, trong khi suy luận tác tử nổi lên như một mẫu hình mặc định mới, với số lượng gọi công cụ và tác vụ nhiều bước gia tăng
Phát hiện hiệu ứng "chiếc giày thủy tinh" khi người dùng ban đầu có tỷ lệ duy trì cao về dài hạn, cho thấy độ phù hợp giữa mô hình và khối lượng công việc là năng lực cạnh tranh cốt lõi

Tổng quan nghiên cứu và phương pháp luận

OpenRouter là nền tảng suy luận AI đa mô hình hỗ trợ hơn 300 mô hình và hơn 60 nhà cung cấp, phục vụ hàng triệu nhà phát triển và người dùng cuối trên toàn thế giới
Tập dữ liệu phân tích gồm khoảng 2 năm metadata cấp độ request đã được ẩn danh, và không truy cập vào chính prompt hay văn bản hoàn chỉnh
Mọi phân tích đều được thực hiện thông qua nền tảng phân tích Hex bằng các truy vấn SQL có thể tái lập, cùng pipeline chuyển đổi và trực quan hóa
Phân loại nội dung được thực hiện bằng cách lấy mẫu ngẫu nhiên khoảng 0,25% tổng số prompt và xử lý qua GoogleTagClassifier, phân loại thành các nhóm như lập trình, nhập vai, dịch thuật, hỏi đáp chung, năng suất/viết lách, giáo dục, văn học/sáng tác, người lớn
Phân tích theo khu vực xác định địa lý người dùng dựa trên địa điểm thanh toán (billing location), được dùng như một proxy ổn định hơn so với IP
Giai đoạn phân tích chủ yếu là 13 tháng từ 11/2024 đến 11/2025, còn phân tích phân loại theo danh mục dựa trên dữ liệu từ sau 5/2025

Mã nguồn mở vs mô hình đóng

Mô hình mã nguồn mở (OSS) được định nghĩa là mô hình có công khai trọng số, còn mô hình đóng là mô hình chỉ có thể truy cập qua API giới hạn (ví dụ: Anthropic Claude)
Thị phần của mô hình mã nguồn mở tăng đều đặn và đạt khoảng 30% vào cuối năm 2025, gắn liền với việc ra mắt các mô hình mã nguồn mở chủ lực như DeepSeek V3, Kimi K2
Các mô hình do Trung Quốc phát triển tăng trưởng bùng nổ từ 1,2% thị phần theo tuần vào cuối 2024 lên khoảng 30% ở một số tuần, với mức trung bình năm khoảng 13,0%
- Qwen, DeepSeek và các mô hình tương tự dẫn dắt tăng trưởng bằng các đợt phát hành lặp nhanh và chu kỳ ra mắt dày đặc
Các mô hình đóng vẫn tiếp tục định nghĩa độ tin cậy và trần hiệu năng, đồng thời chiếm ưu thế trong các workload tuân thủ quy định hoặc doanh nghiệp
Mô hình OSS hấp dẫn ở hiệu quả chi phí, tính minh bạch, khả năng tùy biến, và hiện hình thành điểm cân bằng ở mức khoảng 30%
Hai loại mô hình này không loại trừ lẫn nhau mà được sử dụng bổ trợ trong ngăn xếp đa mô hình
Các tay chơi mã nguồn mở chủ chốt
- DeepSeek là bên đóng góp lớn nhất trong OSS với tổng cộng 14,37 nghìn tỷ token, nhưng các tân binh đang nhanh chóng giành thị phần
- Qwen (5,59 nghìn tỷ), Meta LLaMA (3,96 nghìn tỷ), Mistral AI (2,92 nghìn tỷ) xếp ở các vị trí tiếp theo
- Sau Summer Inflection vào giữa năm 2025, cấu trúc thị trường đã chuyển từ gần như độc quyền sang đa cực
  - Kimi K2 của MoonshotAI, dòng GPT-OSS của OpenAI, MiniMax M2 và các mô hình khác đã đạt mức độ chấp nhận đủ cho production chỉ trong vài tuần
- Tính đến cuối năm 2025, không có mô hình đơn lẻ nào vượt quá 25% token OSS, và thị phần được phân tán trên 5~7 mô hình
- Hệ sinh thái OSS là môi trường cạnh tranh có tính động rất cao, nơi chu kỳ đổi mới nhanh và vị thế dẫn đầu không được đảm bảo
Quy mô mô hình vs độ phù hợp thị trường: tầm trung là cỡ nhỏ mới
- Phân loại quy mô mô hình: nhỏ (dưới 15B), trung bình (15B~70B), lớn (trên 70B)
- Mô hình nhỏ nhìn chung có xu hướng giảm thị phần, với mức sử dụng đi xuống bất chấp nguồn cung mô hình mới
- Mô hình tầm trung bắt đầu thực sự hình thành như một danh mục với sự ra mắt của Qwen2.5 Coder 32B vào 11/2024
  - Mistral Small 3 (1/2025), GPT-OSS 20B (8/2025) và các mô hình khác nổi lên như những đối thủ mạnh
  - Điều này cho thấy người dùng đang tìm kiếm sự cân bằng giữa năng lực và hiệu quả
- Phân khúc mô hình lớn cũng trở nên đa cực với nhiều đối thủ hiệu năng cao như Qwen3 235B A22B Instruct, Z.AI GLM 4.5 Air, OpenAI GPT-OSS-120B
- Kỷ nguyên mô hình nhỏ thống trị đã kết thúc, và thị trường đang có xu hướng phân đôi giữa mô hình tầm trung và mô hình lớn
Mục đích sử dụng của mô hình mã nguồn mở
- Mục đích sử dụng lớn nhất của mô hình OSS là nhập vai (khoảng 52%) và lập trình, với hai danh mục này chiếm phần lớn lượng token OSS
- Việc nhập vai chiếm hơn 50% phản ánh rằng các mô hình mở ít bị ràng buộc bởi bộ lọc nội dung hơn, nên hấp dẫn cho các ứng dụng giả tưởng hoặc giải trí
- Với mô hình OSS Trung Quốc, nhập vai là danh mục lớn nhất ở mức khoảng 33%, nhưng lập trình và kỹ thuật gộp lại chiếm 39%, vượt quá một nửa
  - Qwen, DeepSeek và các mô hình tương tự ngày càng được dùng nhiều hơn cho tạo mã và các workload liên quan đến hạ tầng
- Trong danh mục lập trình, thị phần trong OSS thay đổi động giữa OSS Trung Quốc và OSS phương Tây
  - Giữa năm 2025, OSS Trung Quốc dẫn đầu, nhưng sang Q4, OSS phương Tây như Meta LLaMA-2 Code và dòng OpenAI GPT-OSS tăng vọt
- Lưu lượng nhập vai tính đến cuối năm 2025 được chia gần như đồng đều giữa RoW OSS (43%) và mô hình đóng (42%), thay đổi lớn so với giai đoạn đầu khi mô hình đóng chiếm 70%

Sự trỗi dậy của suy luận tác tử

Mô hình suy luận chiếm hơn một nửa tổng mức sử dụng
- Thị phần token thông qua các mô hình tối ưu cho suy luận đã tăng vọt từ mức không đáng kể đầu năm 2025 lên hơn 50%
- Việc ra mắt các hệ thống hiệu năng cao như GPT-5, Claude 4.5, Gemini 3 cùng xu hướng người dùng ưa chuộng logic nhiều bước và workflow kiểu tác tử đã thúc đẩy sự thay đổi này
- Theo dữ liệu gần đây, xAI Grok Code Fast 1 chiếm thị phần lớn nhất trong lưu lượng suy luận, tiếp theo là Google Gemini 2.5 Pro/Flash
- Mô hình mở OpenAI gpt-oss-120b cũng giữ thị phần đáng kể, cho thấy nhà phát triển ưu tiên OSS khi có thể
Mức độ chấp nhận gọi công cụ tăng lên
- Thị phần token của các request được phân loại với lý do kết thúc là Tool Call đang tăng liên tục
- Việc gọi công cụ ban đầu tập trung ở OpenAI gpt-4o-mini và dòng Anthropic Claude 3.5/3.7, nhưng từ giữa năm 2025 trở đi, ngày càng nhiều mô hình hỗ trợ cung cấp công cụ
- Sau cuối tháng 9/2025, Claude 4.5 Sonnet nhanh chóng mở rộng thị phần, còn Grok Code Fast, GLM 4.5 cũng tham gia
Thay đổi trong hình thái prompt-completion
- Prompt token trung bình đã tăng gần 4 lần, từ khoảng 1,5K lên hơn 6K
- Completion token trung bình cũng tăng gần 3 lần, từ khoảng 150 lên 400, chủ yếu do token suy luận tăng
- Các tác vụ liên quan đến lập trình là động lực chính của mức tăng prompt token, thường sử dụng hơn 20K token đầu vào
- Các danh mục khác tương đối phẳng và duy trì khối lượng thấp hơn
Chuỗi dài hơn, tương tác phức tạp hơn
- Độ dài chuỗi trung bình đã tăng hơn 3 lần trong 20 tháng qua, từ dưới 2.000 token lên hơn 5.400 token
- Các prompt liên quan đến lập trình có độ dài token trung bình dài hơn 3~4 lần so với prompt mục đích chung
- Chuỗi dài không phản ánh việc người dùng dài dòng, mà là đặc trưng của workflow tác tử tinh vi được tích hợp sẵn
Hàm ý: suy luận tác tử là mặc định mới
- Sự gia tăng thị phần suy luận, mở rộng dùng công cụ, kéo dài chuỗi và độ phức tạp ngày càng cao của tác vụ lập trình cho thấy trọng tâm sử dụng LLM đang dịch chuyển
- Một request LLM trung bình không còn là câu hỏi đơn giản hay chỉ thị tách rời, mà là một phần của vòng lặp có cấu trúc giống tác tử
- Với các nhà cung cấp mô hình, độ trễ, xử lý công cụ, hỗ trợ ngữ cảnh và khả năng chống chịu trước chuỗi công cụ độc hại ngày càng trở nên quan trọng
- Sớm thôi, nếu chưa phải bây giờ, suy luận tác tử sẽ chiếm phần lớn hoạt động suy luận

Danh mục: Mọi người sử dụng LLM như thế nào?

Danh mục chi phối
- Lập trình là danh mục mở rộng nhất quán nhất, từ khoảng 11% vào đầu năm 2025 lên hơn 50% gần đây
- Dòng Anthropic Claude liên tục chiếm hơn 60% chi tiêu liên quan đến lập trình
  - Trong tuần ngày 17 tháng 11, lần đầu tiên giảm xuống dưới 60%
- OpenAI mở rộng thị phần từ khoảng 2% lên 8% kể từ tháng 7, Google giữ ổn định ở khoảng 15%
- MiniMax được chú ý như một bên mới tham gia đang nổi lên nhanh chóng
Cấu trúc thẻ trong từng danh mục
- Roleplay: khoảng 60% là Games/Roleplaying Games, cho thấy được dùng như công cụ roleplay có cấu trúc hoặc engine nhân vật hơn là chatbot thông thường
  - Cũng bao gồm Writers Resources (15.6%) và nội dung Adult (15.4%)
- Lập trình: hơn 2/3 được gắn nhãn Programming/Other, phản ánh đặc tính prompt mã nguồn đa dụng và phạm vi rộng
  - Development Tools (26.4%) và thị phần nhỏ của các ngôn ngữ scripting cho thấy dấu hiệu chuyên môn hóa mới nổi
- Dịch thuật, khoa học, sức khỏe có cấu trúc nội bộ tương đối phẳng
  - Dịch thuật: gần như chia đều giữa Foreign Language Resources (51.1%) và Other
  - Khoa học: Machine Learning & AI (80.4%) chi phối, phần lớn là các câu hỏi siêu cấp về AI
  - Sức khỏe: là danh mục được phân mảnh mạnh nhất, không có thẻ phụ đơn lẻ nào vượt quá 25%
- Tài chính, học thuật, pháp lý phân tán hơn nhiều, không có thẻ đơn lẻ nào đạt 20%
Insight theo nhà cung cấp
- Anthropic Claude: sử dụng cho lập trình + kỹ thuật vượt 80%, roleplay và hỏi đáp chung chỉ chiếm phần nhỏ
- Google: cấu thành đa dạng gồm dịch thuật, khoa học, kỹ thuật, tri thức phổ thông; tỷ trọng coding giảm xuống khoảng 18% vào cuối năm 2025
- xAI: trong phần lớn thời gian, lập trình vượt 80%, chỉ đến cuối tháng 11 mới mở rộng sang kỹ thuật, roleplay, học thuật...
  - Có liên quan đến dòng truy cập từ người dùng không phải nhà phát triển do phát hành miễn phí
- OpenAI: đầu năm 2025, công việc khoa học chiếm hơn một nửa, nhưng đến cuối năm giảm xuống dưới 15%
  - Việc sử dụng liên quan đến lập trình và kỹ thuật mỗi loại chiếm 29%, cộng lại hơn một nửa
- DeepSeek: các tương tác thiên về roleplay, trò chuyện thông thường và giải trí chi phối hơn 2/3
- Qwen: lập trình duy trì ổn định 40~60% trong toàn bộ giai đoạn, biến động theo tuần cao ở khoa học, kỹ thuật, roleplay...

Khu vực: Việc sử dụng LLM khác nhau theo khu vực như thế nào

Phân bố sử dụng theo khu vực
- Bắc Mỹ là khu vực lớn nhất đơn lẻ nhưng trong phần lớn thời gian quan sát vẫn chiếm dưới một nửa tổng chi tiêu
- Châu Âu duy trì ổn định ở mức 10~20% thị phần chi tiêu theo tuần
- Châu Á đang nổi lên không chỉ là nơi sản sinh các mô hình frontier mà còn là khu vực tiêu dùng mở rộng nhanh chóng
  - Thị phần tăng hơn gấp đôi, từ khoảng 13% ở giai đoạn đầu bộ dữ liệu lên khoảng 31% gần đây
- Phân bố theo châu lục: Bắc Mỹ 47.22%, Châu Á 28.61%, Châu Âu 21.32%, Châu Đại Dương 1.18%, Nam Mỹ 1.21%, Châu Phi 0.46%
- Top 10 quốc gia: Mỹ (47.17%), Singapore (9.21%), Đức (7.51%), Trung Quốc (6.01%), Hàn Quốc (2.88%), Hà Lan (2.65%), Anh (2.52%), Canada (1.90%), Nhật Bản (1.77%), Ấn Độ (1.62%)
Phân bố ngôn ngữ
- Tiếng Anh chi phối với 82.87%
- Tiếng Trung giản thể (4.95%), tiếng Nga (2.47%), tiếng Tây Ban Nha (1.43%), tiếng Thái (1.03%), khác (7.25%)

Phân tích tỷ lệ giữ chân người dùng LLM

Hiện tượng “chiếc giày thủy tinh” kiểu Cinderella
- Hầu hết biểu đồ retention bị chi phối bởi mức rời bỏ cao và sự suy giảm cohort nhanh chóng, nhưng các cohort người dùng ban đầu lại cho thấy tỷ lệ giữ chân bền vững theo thời gian
- Những cohort nền tảng (foundational cohorts) này đại diện cho những người dùng đã đạt được độ phù hợp giữa workload và mô hình một cách sâu sắc và lâu dài
- Hiệu ứng giày thủy tinh: trong hệ sinh thái AI biến động nhanh, mỗi mô hình frontier mới đều được “thử” với các workload giá trị cao trước đây chưa được đáp ứng, và khi khớp chính xác với các ràng buộc kỹ thuật và kinh tế, nó tạo ra hiệu ứng khóa chặt rất mạnh
- Cohort tháng 6 năm 2025 của Gemini 2.5 Pro và cohort tháng 5 của Claude 4 Sonnet đạt tỷ lệ giữ chân khoảng 40% ở tháng thứ 5, cao hơn rõ rệt so với các cohort sau đó
- GPT-4o Mini: một cohort nền tảng duy nhất (tháng 7 năm 2024) đã thống trị khi ra mắt và thiết lập độ phù hợp workload-mô hình rất bền, sau đó mọi cohort đều rời bỏ theo cùng một kiểu
- Gemini 2.0 Flash, Llama 4 Maverick: không hình thành được cohort nền tảng hiệu suất cao, nên mọi cohort đều yếu như nhau, không được nhìn nhận là “frontier”
- Hiệu ứng boomerang của các mô hình DeepSeek: thay vì giảm đơn điệu thông thường, quan sát thấy hiện tượng bật tăng hồi sinh
  - Cohort tháng 4 năm 2025 của DeepSeek R1 tăng retention ở tháng thứ 3, còn cohort tháng 7 của DeepSeek Chat V3-0324 tăng ở tháng thứ 2
  - Điều này cho thấy những người dùng quay lại sau khi thử các lựa chọn thay thế
Hàm ý
- Giải quyết được vấn đề trước tiên sẽ trở thành lợi thế bền vững
- Mẫu retention ở cấp độ cohort là tín hiệu thực nghiệm về mức độ khác biệt của mô hình
- Ràng buộc thời gian của cửa sổ frontier: khoảng thời gian để mô hình giành được người dùng nền tảng là hẹp và tạm thời, nhưng có tính quyết định với động lực chấp nhận dài hạn
- Cohort nền tảng là dấu vân tay của tiến bộ kỹ thuật thực chất và là thời điểm mô hình AI chuyển từ điều mới lạ thành công cụ thiết yếu

Động lực chi phí vs mức sử dụng

Phân tích phân khúc workload AI theo danh mục
- Xây dựng khung 4 góc phần tư với $0.73/1M token làm mốc chi phí trung vị
- Workload cao cấp (góc trên bên phải): ứng dụng chi phí cao - mức sử dụng cao, gồm technology và science
  - technology đắt nhất nhưng vẫn duy trì mức sử dụng cao, hàm ý nhu cầu về mô hình mạnh cho thiết kế hệ thống hay kiến trúc phức tạp
- Động lực khối lượng của thị trường đại chúng (góc trên bên trái): sử dụng cao - chi phí thấp, do roleplay, programming, science chi phối
  - programming là danh mục “killer professional”, có mức sử dụng cao nhất với chi phí trung bình được tối ưu hóa mạnh
  - Mức sử dụng của roleplay ngang ngửa programming, cho thấy roleplay hướng người tiêu dùng tạo ra mức độ tương tác tương đương các ứng dụng chuyên nghiệp hàng đầu
- Chuyên gia chuyên biệt (góc dưới bên phải): khối lượng thấp - chi phí cao, gồm finance, academia, health, marketing
  - Đây là các lĩnh vực ngách chuyên môn rủi ro cao, nơi nhu cầu về độ chính xác, độ tin cậy và tri thức chuyên biệt theo miền rất lớn
- Tiện ích ngách (góc dưới bên trái): chi phí thấp - khối lượng thấp, gồm translation, legal, trivia
  - Đây là các tiện ích mang tính chức năng, tối ưu chi phí, đã bị hàng hóa hóa nên có thể dùng các lựa chọn thay thế rẻ hơn
Chi phí hiệu dụng của mô hình AI vs mức sử dụng
- Trên thang log-log, tương quan giữa giá và mức sử dụng là yếu, đường xu hướng gần như phẳng
- Nhu cầu tương đối không co giãn theo giá: giá giảm 10% thì mức sử dụng chỉ tăng khoảng 0.5~0.7%
- Có hai chế độ rõ rệt: mô hình đóng (OpenAI, Anthropic) ở vùng chi phí cao - sử dụng cao, còn mô hình mở (DeepSeek, Mistral, Qwen) ở vùng chi phí thấp - khối lượng cao
- 4 nguyên mẫu sử dụng-chi phí:
  - Dẫn đầu cao cấp: Claude 3.7 Sonnet, Claude Sonnet 4... đạt mức sử dụng cao ở khoảng $2/1M token
  - Gã khổng lồ hiệu quả: Gemini 2.0 Flash, DeepSeek V3 0324... đạt mức sử dụng tương tự với chi phí dưới $0.40/1M token
  - Đuôi dài: Qwen 2 7B Instruct, IBM Granite 4.0 Micro... chỉ vài cent/1M token nhưng mức sử dụng thấp do hiệu năng yếu hoặc độ hiện diện hạn chế
  - Chuyên gia cao cấp: GPT-4, GPT-5 Pro... khoảng $35/1M token với mức sử dụng thấp, chỉ dùng cho các workload rủi ro cao
- Có bằng chứng cho nghịch lý Jevons: các mô hình rất rẻ và nhanh được dùng cho nhiều tác vụ hơn, làm tăng tổng lượng token tiêu thụ
- Chất lượng và năng lực thường quan trọng hơn chi phí: mức sử dụng cao của các mô hình đắt tiền (Claude, GPT-4) cho thấy người dùng sẵn sàng chấp nhận chi phí cao nếu mô hình vượt trội rõ rệt hoặc có lợi thế về độ tin cậy

Thảo luận

Hệ sinh thái đa mô hình: Không có một mô hình đơn lẻ nào thống trị mọi nhu cầu sử dụng; cả mô hình đóng và mô hình mở đều giành được thị phần đáng kể
Sự đa dạng trong cách dùng vượt ra ngoài năng suất: Hơn một nửa lượng sử dụng mô hình mã nguồn mở là cho nhập vai và kể chuyện
- Làm nổi bật cơ hội cho các ứng dụng hướng tới người tiêu dùng, cá nhân hóa, và giao thoa giữa AI với IP giải trí
Agent vs con người: Sự trỗi dậy của suy luận tác tử: Chuyển từ tương tác một lượt sang suy luận tác tử, nơi mô hình lập kế hoạch, suy luận và thực thi qua nhiều bước
Triển vọng theo khu vực: Việc sử dụng LLM ngày càng mang tính toàn cầu và phân tán, thị phần của châu Á tăng từ 13% lên 31%, Trung Quốc nổi lên như một thế lực chủ chốt
Động lực chi phí vs sử dụng: Thị trường LLM vẫn chưa trở thành hàng hóa phổ thông; chỉ riêng giá cả là không đủ để giải thích mức sử dụng
- Các mô hình mã nguồn mở liên tục đẩy biên hiệu quả, làm suy giảm quyền định giá của các hệ thống đóng
Tỷ lệ giữ chân và hiện tượng chiếc giày thủy tinh Cinderella: Khi một mô hình nền tảng bứt phá, tỷ lệ giữ chân là thước đo thực sự của khả năng phòng thủ
- Độ phù hợp giữa mô hình và khối lượng công việc là năng lực cạnh tranh cốt lõi

Giới hạn

Chỉ cung cấp góc nhìn một phần về hệ sinh thái rộng hơn, dựa trên các mẫu quan sát được trong một khung thời gian hữu hạn trên một nền tảng duy nhất (OpenRouter)
Việc sử dụng trong doanh nghiệp, triển khai tự lưu trữ cục bộ, các hệ thống nội bộ khép kín... đều nằm ngoài phạm vi dữ liệu
Một số phân tích dựa vào đo lường proxy: xác định suy luận tác tử thông qua nhiều bước hoặc gọi công cụ, suy luận khu vực dựa trên thanh toán, v.v.
Kết quả cần được diễn giải như các mẫu hành vi mang tính chỉ dấu hơn là các phép đo mang tính quyết định

Kết luận

Cung cấp góc nhìn thực chứng về cách LLM đang được tích hợp vào hạ tầng điện toán của thế giới
Trong năm qua, sự xuất hiện của các mô hình cấp o1 đã kích hoạt một thay đổi theo nấc trong nhận thức về suy luận, đưa việc đánh giá vượt ra khỏi benchmark one-shot để chuyển sang các chỉ số dựa trên quy trình, đánh đổi độ trễ-chi phí và mức độ thành công dưới điều phối
Hệ sinh thái LLM đa nguyên về mặt cấu trúc, với người dùng lựa chọn hệ thống theo nhiều trục như năng lực, độ trễ, giá cả và độ tin cậy
Bản thân suy luận cũng đang thay đổi: từ hoàn thành tĩnh sang điều phối động, với sự trỗi dậy của suy luận tác tử
Về mặt khu vực, hệ sinh thái đang phân tán hơn, thị phần của châu Á mở rộng, và Trung Quốc nổi lên vừa là nhà phát triển mô hình vừa là nước xuất khẩu
o1 không chấm dứt cạnh tranh mà mở rộng không gian thiết kế, thúc đẩy sự dịch chuyển từ đặt cược kiểu nguyên khối sang tư duy hệ thống, từ trực giác sang đo đạc, và từ chênh lệch trên leaderboard sang phân tích sử dụng theo kinh nghiệm thực tế
Giai đoạn tiếp theo tập trung vào sự xuất sắc trong vận hành: đo lường mức độ hoàn thành công việc thực tế, giảm phương sai dưới biến đổi phân phối, và căn chỉnh hành vi mô hình với các yêu cầu thực của khối lượng công việc ở quy mô production

Báo cáo hiện trạng AI của OpenRouter: Nghiên cứu thực chứng với 100 nghìn tỷ token

Tổng quan nghiên cứu và phương pháp luận

Mã nguồn mở vs mô hình đóng

Các tay chơi mã nguồn mở chủ chốt

Quy mô mô hình vs độ phù hợp thị trường: tầm trung là cỡ nhỏ mới

Mục đích sử dụng của mô hình mã nguồn mở

Sự trỗi dậy của suy luận tác tử

Mô hình suy luận chiếm hơn một nửa tổng mức sử dụng

Mức độ chấp nhận gọi công cụ tăng lên

Thay đổi trong hình thái prompt-completion

Chuỗi dài hơn, tương tác phức tạp hơn

Hàm ý: suy luận tác tử là mặc định mới

Danh mục: Mọi người sử dụng LLM như thế nào?

Danh mục chi phối

Cấu trúc thẻ trong từng danh mục

Insight theo nhà cung cấp

Khu vực: Việc sử dụng LLM khác nhau theo khu vực như thế nào

Phân bố sử dụng theo khu vực

Phân bố ngôn ngữ

Phân tích tỷ lệ giữ chân người dùng LLM

Hiện tượng “chiếc giày thủy tinh” kiểu Cinderella

Hàm ý

Động lực chi phí vs mức sử dụng

Phân tích phân khúc workload AI theo danh mục

Chi phí hiệu dụng của mô hình AI vs mức sử dụng

Thảo luận

Giới hạn

Kết luận

Bài viết liên quan

Chưa có bình luận nào.