GLM-5.2 vươn lên dẫn đầu trong nhóm mô hình open-weights trên Artificial Analysis

(artificialanalysis.ai)

1 điểm bởi GN⁺ 4 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp

GLM-5.2 của Z.ai đạt 51 điểm trên Artificial Analysis Intelligence Index v4.1, vươn lên vị trí dẫn đầu trong nhóm mô hình open-weights, đồng thời cũng nằm trên Pareto frontier về hiệu năng so với chi phí
Kích thước mô hình vẫn là 744B tổng / 40B tham số hoạt động như GLM-5.1, nhưng điểm số cao hơn 11 điểm, vượt MiniMax-M3, DeepSeek V4 Pro(max) và Kimi K2.6
Mức cải thiện xuất hiện ở phần lớn các bài đánh giá, đặc biệt nổi bật ở các chỉ số suy luận khoa học như CritPt và HLE
Trên GDPval-AA v2, mô hình đạt 1524 điểm, vượt MiniMax-M3 và DeepSeek V4 Pro(max), đồng thời ở mức gần tương đương GPT-5.5(xhigh reasoning)
Dù dùng 43k output tokens cho mỗi tác vụ nên hiệu quả token không cao, chi phí mỗi tác vụ của mô hình vẫn thuộc nhóm thấp nhất trong các mô hình có cùng mức độ thông minh

Dẫn đầu nhóm open-weights trên Intelligence Index v4.1

GLM-5.2 đạt 51 điểm trên Artificial Analysis Intelligence Index v4.1, đứng số 1 trong nhóm mô hình open-weights
Điểm số của các mô hình open-weights đáng chú ý như sau
- MiniMax-M3: 44
- DeepSeek V4 Pro(max): 44
- Kimi K2.6: 43
GLM-5.2 có quy mô 744B tổng tham số / 40B tham số hoạt động giống GLM-5.1, nhưng điểm Intelligence Index v4.1 cao hơn 11 điểm

Cải thiện hiệu năng theo từng bài đánh giá

So với GLM-5.1, GLM-5.2 tăng điểm ở phần lớn các bài đánh giá
Đặc biệt, mức cải thiện rất lớn ở các bài đánh giá liên quan đến suy luận khoa học
- CritPt: +16 điểm, 21%
- HLE: +12 điểm, 40%
- GPQA Diamond: +3 điểm, 89%
Mô hình cũng cải thiện đồng đều ở các bài đánh giá khác
- AA-LCR: +9 điểm, 71%
- tau3 banking: +15 điểm, 27%
- SciCode: +7 điểm, 50%
- TerminalBench v2.1: +16 điểm, 78%

GDPval-AA v2 và hiệu năng tác nhân

GLM-5.2 đạt 1524 điểm trên GDPval-AA v2, thước đo hiệu năng tác nhân trong thế giới thực
Đây là điểm số cao nhất khi so giữa các mô hình open-weights
- GLM-5.2: 1524
- MiniMax-M3: 1418
- DeepSeek V4 Pro(max): 1328
Kết quả này về thực chất ở mức gần tương đương GPT-5.5(xhigh reasoning) với 1514 điểm
GDPval-AA v2 thay đổi cách đánh giá so với GDPval-AA trước đó
- Đặt đường cơ sở Elo ở mức hiệu năng con người 1000
- Áp dụng hội đồng luân phiên của frontier-model judge
- Tăng giới hạn lượt từ 100 lên 250 để xử lý các quỹ đạo tác nhân dài hơn

Chi phí, giá và lượng token sử dụng

GLM-5.2 nằm trên Pareto frontier trong biểu đồ Intelligence vs Cost per Task, và thuộc nhóm có chi phí mỗi tác vụ thấp nhất trong các mô hình cùng mức độ thông minh
Chi phí mỗi tác vụ cao hơn GLM-5.1, nhưng xét theo điểm Intelligence cao hơn thì vị thế chi phí/hiệu năng thuận lợi hơn
- GLM-5.2: khoảng $0.46
- GLM-5.1: $0.25
- Kimi K2.6: $0.31
- MiniMax-M3: $0.18
- DeepSeek V4 Pro(max): $0.05
Giá API first-party vẫn ở cùng mức với GLM-5.1
- $1.4 cho mỗi 1M input tokens
- $4.4 cho mỗi 1M output tokens
- $0.26 cho mỗi 1M cache hit tokens
Mô hình sử dụng 43k output tokens cho mỗi tác vụ trong Intelligence Index, trong đó 37k là reasoning tokens
Lượng output tokens sử dụng thuộc nhóm cao hơn so với các mô hình open-weights lớn khác
- GLM-5.1: 26k
- MiniMax-M3: 24k
- Kimi K2.6: 35k
- DeepSeek V4 Pro(max): 37k
Trong nhóm mô hình open-weights có cùng mức độ thông minh, hiệu quả token khá thấp, và không nằm trong góc phần tư hấp dẫn nhất trên biểu đồ Intelligence vs Output Tokens

Chi tiết mô hình và khả năng truy cập

Giấy phép của GLM-5.2 là MIT
Context window là 1M tokens, tăng từ 200K của GLM-5.1
Có thể sử dụng qua API first-party của Z.ai và nhiều nhà cung cấp third-party
- DeepInfra
- Novita
- Nebius
- Parasail
- Siliconflow
- GMI Cloud
- Baseten
  - Fireworks
  - GLM-5.2 đạt 4 điểm trên AA-Omniscience Index, cao hơn 2 điểm của GLM-5.1
  - Độ chính xác là 25.1%, cao hơn 24.2% của GLM-5.1
  - Tỷ lệ hallucination là 28.1%, thấp hơn 29.4% của GLM-5.1
  - Tỷ lệ attempt là 47%, không đổi
  - Có thể xem phần so sánh mô hình tại trang GLM-5.2 của Artificial Analysis

1 bình luận

GN⁺ 4 giờ trước

Ý kiến Hacker News

Đây là một bước tiến khá tốt và có vẻ đã tiến rất gần tuyến đầu, nhưng giờ tôi muốn họ tập trung hơn vào hiệu quả suy luận
Tôi dùng một bài test yêu cầu viết một thư viện đánh giá biểu thức đơn giản bằng Nim để đánh giá LLM, và GLM 5.2 xhigh đã suy luận hơn 15 phút và dùng khoảng 45k token trước khi viết file đầu tiên
Theo https://artificialanalysis.ai/#output-tokens, GPT 5.5 xhigh trung bình tổng cộng 16k token, high là 10k, Fable 5 là 33k, Opus 4.8 là 41k, còn GLM 5.2 là 42k, nên hiệu quả suy luận của GPT 5.5 vượt trội áp đảo
Nếu quy đổi sang chi phí thực tế cho mỗi yêu cầu thì GLM 5.2 có thể rẻ hơn GPT 5.5/Opus 4.8, nhưng với nhiều người thì tốc độ cũng quan trọng
- GLM 5.2 Max có vẻ dùng cách suy nghĩ giống hệt Opus 4.8 Max, và chuỗi suy nghĩ cùng lượng token đầu ra cũng rất tương tự
  Nếu muốn mức tiêu thụ token hợp lý thì nên chạy GLM 5.2 ở High; trong đa số tác vụ, hạ từ Max xuống High chỉ làm giảm chất lượng rất ít nhưng giảm lượng token đi 2~2.5 lần
  Rốt cuộc GLM 5.2 giống như em trai của Opus 4.8 nhưng rẻ hơn rất nhiều, và cũng có người đùa rằng thật khó tin Opus lại hoàn toàn không được dùng trong quá trình huấn luyện mô hình này
- Tôi nghĩ không phải là “đã tiến gần tuyến đầu” mà là đã vượt qua rồi
  Cá nhân tôi thấy tổ hợp GLM + OpenCode mình dùng còn tốt hơn nhiều so với Claude Code + Opus mà công ty bắt phải dùng, mắc các lỗi kiểu người mới trên StackOverflow ít hơn hẳn và cũng làm theo chỉ thị tốt hơn
  Trải nghiệm người dùng với harness cũng tốt hơn nhiều vì nó không phớt lờ cấu hình, không tự ý thay đổi, cũng không báo cáo sai, và có vẻ hào lũy của Anthropic đang biến mất rất nhanh
- Opus cũng có vấn đề tương tự là suy nghĩ quá lâu rồi cứ lặp đi lặp lại kiểu “đợi chút, nếu như…”
  Cuối cùng tôi phải dừng nó lại và bảo “cứ viết code trước đã, rồi giải quyết trong lúc làm tiếp”, cảm giác như chứng bí ý tưởng của nhà văn cũng tồn tại ở LLM
- Làm tôi nhớ tới https://en.wikipedia.org/wiki/Portia_(spider)
- Tôi hy vọng những gì Moonshot vừa làm với Kimi K2.7 Code sẽ lan sang các phòng nghiên cứu mô hình mở khác
  Theo Artificial Analysis, K2.7 Code có mức thông minh tương tự K2.6 nhưng chỉ dùng một nửa số token đầu ra để đạt cùng cấp độ
Tôi đã viết một script xếp hạng mô hình dựa trên codingindex của Artificial Analysis và dùng nó hằng ngày
Nó lấy JSON từ trang bảng chính rồi chỉ parse các trường liên quan đến coding mà tôi quan tâm; trước đây còn có mailing list nhưng vì không mấy hứng thú nên tôi đã tắt nó
Ở một số kết quả hiện tại, Claude Fable 5, GPT-5.5 xhigh/high, Claude Opus 4.8, Gemini 3.1 Pro Preview, GLM-5.2 max, Qwen3.7 Max... đang nằm trong nhóm đầu, và có thể chạy bằng $ curl day50.dev/art-analysis.sh | bash
Kho lưu trữ là https://github.com/day50-dev/aa-eval-email, và hiện tại các mô hình mở có vẻ đang chậm hơn khoảng 4~7 tháng tùy cách đo; nếu xu hướng này tiếp diễn thì trước năm mới có thể sẽ có mô hình trọng số mở làm được các tác vụ ở mức Claude Fable 5
- Chỉ số coding của Artificial Analysis chỉ được cấu thành từ hai benchmark là Terminal-Bench Hard và SciCode, nên tôi nghi ngờ liệu đây có phải là chỉ số coding tốt hay không
  Nó xếp Gemma 4 31B cao hơn DeepSeek V4 Flash, nhưng với tư cách người đã dùng cả hai cho nhiều tác vụ code khác nhau thì lần nào tôi cũng sẽ chọn DeepSeek
- Dự án rất hay, nhưng yêu cầu người ta cứ thế chạy Bash từ một nguồn không rõ là một thói quen khá tệ
Tôi không hiểu vì sao nhiều người không bàn về chuyện này hơn
Về cơ bản nó đang cung cấp chất lượng cỡ Opus 4.7 với mức giá phi lý, có nơi còn cho token không giới hạn với 50 USD/tháng, và cũng có nơi lấy phí API thấp hơn 3 lần so với ZAI API chính thức
Ngay cả ZAI API chính thức cũng rẻ hơn Opus khoảng 10 lần, nên đây là đòn giáng mạnh vào Anthropic/OpenAI/Google và là chiến thắng lớn cho phần còn lại của thế giới; với mô hình mở thì giá và tốc độ API chính thức không phải là tất cả
- Tôi đã thử vài mô hình mở của Trung Quốc, và dù khá ổn thì vẫn chưa đạt tới mức benchmark mà họ tuyên bố
  GLM 5.2 có thể gần với Opus 4.7, nhưng nếu mỗi lần kiểm tra lại tôi vẫn thấy nó chỉ tối ưu cho benchmark chứ chưa tới tầm GPT hay Opus, thì tôi sẽ bắt đầu coi đây như kiểu “sói đến rồi”
- Cần cẩn thận với các nhà cung cấp không chính thức
  Họ thường cấu hình mô hình sai hoặc lén lượng tử hóa nó, và trong một thời gian đã có chênh lệch 20~40% giữa Kimi trên API chính thức và phần lớn nhà cung cấp bên thứ ba
- Nhìn trên OpenRouter thì một số gói rẻ hơn là mô hình lượng tử hóa, và chưa rõ lượng tử hóa làm giảm trí thông minh đến mức nào
  Tôi đã thắc mắc API nào rẻ hơn 3 lần, rồi xác nhận mức giá 8-bit của Croft là $0.50/$0.08/$2.20
  https://openrouter.ai/z-ai/glm-5.2
  https://ai.nahcrof.com/pricing
- Có quá nhiều lựa chọn nên với con người, chỉ riêng việc theo kịp thôi cũng đã tốn kém về mặt tính toán
  Ngay cả việc tìm cách chạy các mô hình này cũng khó, không có trình cài đặt, và nếu bạn không phải 1% thực sự quan tâm thì sẽ đi tìm hướng dẫn rồi lại phát hiện nó đã lỗi thời
  So với việc “cài Claude Code rồi trả 100 USD mỗi tháng”, đường cong học tập dốc hơn quá nhiều, và tiết kiệm 50 USD/tháng là không đáng kể so với công sức đó
- Trong tổ chức của chúng tôi, mọi người gắn chặt với Claude đến mức hành xử như thể đó là LLM duy nhất tồn tại
  Hoàn toàn là vì nó được thiết kế để phù hợp với những người không phải kỹ sư trong môi trường doanh nghiệp
Trên benchmark lập trình của Artificial Analysis, GLM 5.1 high khá gần với GPT 5.5 xhigh về chi phí chạy, còn GPT 5.5 medium thì rẻ hơn rất nhiều
So với GPT 5.5 medium, GLM 5.1 xhigh có chi phí gấp đôi nhưng mức độ thông minh chỉ bằng một nửa, nên ngay cả khi chưa có GLM 5.2 thì khoảng cách cần lấp đầy vẫn còn lớn
https://artificialanalysis.ai/agents/coding-agents?coding-agents-performance-chart=deep-swe&coding-agents-harness-comparison-chart=harness-deep-swe#coding-agents-performance-chart-tabs
DeepSWE cũng khá khớp với trải nghiệm cá nhân của tôi, nên tôi nghi ngờ việc Internet đang ồn ào về các mô hình mở là chính đáng đến mức nào
Nếu muốn một mô hình gần với tuyến đầu, hiện tại có vẻ thành thật hơn khi nói đến Opus, Fable, và GPT5.5
- Trong lần chạy nội bộ của Z.ai, GLM 5.2 đạt 46.2 điểm trên DeepSWE, và vị trí đó nằm giữa Opus 4.7 xhigh và Opus 4.8 medium
  https://z.ai/blog/glm-5.2
- Nếu dùng mô hình mở thì có thể nhận được gói đăng ký bảo vệ quyền riêng tư với chi phí tương đương Codex
  Các gói đăng ký của OpenAI, Google, Anthropic không có tùy chọn riêng tư như vậy, và nhìn vào liên kết thì cũng thú vị khi GPT 5.5 đứng thứ 7 trong Cursor CLI nhưng lại vươn lên thứ 3 trong Codex CLI
  Vì các mô hình mở chưa được thử trong Codex nên khó khẳng định đó là benchmark mô hình thuần túy, và cũng có thể các mô hình mở yếu với harness tác tử SWE, nhưng có vẻ đó không phải lời giải thích đơn giản nhất
- DeepSWE cho cảm giác là benchmark “đúng” hơn so với chỉ số của Artificial Analysis hay các benchmark lập trình khác
  Theo thước đo đó, GPT-5.5 vẫn là vua về hiệu quả token, tốc độ, và mức độ thông minh trên mỗi đô la
  https://deepswe.datacurve.ai/
  Fable 5 cũng tốt, nhưng tôi vẫn chưa thấy GPT-5.6
- Hôm qua tôi thử GLM 5.2 trên OpenRouter, nhìn chung là ổn, nhưng trong một tác vụ tương đối chậm kéo dài 30 phút thì chi phí token lên tới 5 đô la
  Nó dễ đắt hơn DeepSeek V4 gấp 4 lần, nhưng tôi không cảm thấy kết quả tốt hơn tương xứng, và khi xem lại sau đó bằng GPT 5.5 trong Codex thì cũng còn khá nhiều chỗ bừa bộn
  Xét về hiệu quả trên chi phí, MiniMax M3 tốt hơn
Điều đáng ngạc nhiên là GLM 5.1/5.2 không phải mô hình thị giác
Điều này giờ khá hiếm, vì các mô hình OpenAI/Anthropic/Gemini đều đã nhận hình ảnh, và các dòng trọng số mở lớn như Gemma 4, Qwen 3.6, Kimi 2.x cũng hỗ trợ đầu vào hình ảnh
GLM là mô hình có điểm cao ở các tác vụ như thiết kế web, nên nếu có đầu vào hình ảnh thì sẽ hữu ích cho việc nhận ảnh chụp màn hình rồi xuất HTML+CSS, và đây rõ ràng là một khoảng trống
- Có thể cấu hình tác tử con trong harness lập trình để với những tác vụ như vậy, mở một phiên con mới bằng bất kỳ mô hình thị giác nào rồi đưa kết quả trở lại mô hình chính
  Không nhất thiết phải cần “một mô hình làm mọi thứ”
- Tôi đang dùng Google AI Studio như một cầu nối thị giác miễn phí
  Gemma 31B làm tác vụ thị giác khá tốt, và 1500 yêu cầu mỗi ngày thì thực tế gần như không giới hạn
- Tôi không thấy đó là khoảng trống quá lớn
  Có thể sẽ hữu ích cho các trường hợp như công việc UX/UI, nhưng ngoài ra thì không quá cần, và ngay cả các mô hình tuyến đầu cũng không thể tái tạo hình ảnh thật sự, theo kinh nghiệm cá nhân của tôi chúng chỉ xấp xỉ được mà thôi
- Với DeepSeek V4 cũng là phản ứng tương tự
  Nếu là mô hình thị giác thì có lẽ sẽ hữu ích hơn
Tôi đã dùng mô hình này khá nhiều trong 24 giờ qua và xác nhận rằng nó khá có năng lực
Tuy vậy, nó hơi dài dòng, và tôi đã thấy trong nhật ký suy nghĩ nó tự rà soát lại 3–4 lần trước khi chốt hướng đi; khả năng xử lý các yêu cầu phức tạp và trừu tượng cũng chưa bằng GPT5.5
Dù vậy, tôi vẫn có thể khuyến nghị cho đa số mọi người tổ hợp đăng ký Z.AI + đăng ký OpenAI 20 đô la/tháng, và quy trình để GLM viết rồi GPT review/debug chỉ kém một chút so với việc chỉ dùng GPT với gói 200 đô la/tháng, trong khi lại cho cảm giác gần như không giới hạn
- Hôm nay tôi mới biết cường độ suy luận mặc định được đặt là max
  Có lẽ đó là lý do nó dài dòng
- Điều tôi xem trọng nhất lúc này là mô hình viết tốt đến mức nào
  Nếu biết lập trình thì giờ đã đến giai đoạn có thể cung cấp đủ thông tin để mô hình làm điều mình cần
  Ngược lại, viết lách có quá nhiều sắc thái nên chúng vẫn còn gặp khó, dù thực tế đang tiến bộ dần
- Quy trình làm việc của tôi cũng giống như vậy
  Mỗi ngày một lần tôi dán code vào Claude Sonnet miễn phí để biến nó thành thứ thực sự đọc được
- Sau khi đã nếm thử Fable 5, ngay cả Opus 4.8 cũng không còn thấy đủ nữa
  Đúng là Opus 4.8 là tác tử lập trình mạnh hơn, thành công ở những chỗ DeepSeek 4.0 hay Kimi 2.7 chao đảo và thất bại, nhưng lối hoa mỹ tu từ trong cách nói chuyện của nó ngày càng gây khó chịu, và đôi khi cho cảm giác cố tình nói mơ hồ hoặc giữ lại sự thật cho đến khi bị ép hỏi, khiến tôi phải suy nghĩ lại về việc tiếp tục đăng ký
GLM 5.2 là mô hình đầu tiên trong số các mô hình chúng tôi đã thử có đẳng cấp rõ ràng ngang bằng hoặc tốt hơn Opus 4.6
Tuy vậy, so với các benchmark khác dùng phương pháp thử nghiệm mong manh, phía chúng tôi đánh giá GLM 5.2 và phần lớn các mô hình Trung Quốc thấp hơn một chút
Dữ liệu có tại https://gertlabs.com/rankings
Tôi không rành cách chạy những mô hình này, nhưng khá tò mò xem thời điểm các công ty cỡ vừa và tập đoàn lớn bắt đầu mua phần cứng để đặt mô hình tại chỗ đã gần đến mức nào
Dù đắt và không giỏi bằng các mô hình tuyến đầu, lợi thế về quyền riêng tư và quyền kiểm soát là khá lớn
- Nhiều công ty ở châu Âu đã làm như vậy với các mô hình 70B từ khá lâu rồi, và đang nâng cấp phần cứng để chạy các mô hình mới ở mức 700B~1T
  Việc này thực sự tăng tốc từ thời Kimi K2, nhưng mua và lưu trữ loại phần cứng đó cũng cần thời gian
  Không phải công ty nào cũng muốn, hoặc về mặt pháp lý cũng được phép, gửi bí mật kinh doanh cho OpenAI hay Anthropic
- Đây không phải tình huống mới
  Vào thời các mô hình thị giác tốt như AlexNet xuất hiện, đặc biệt cả trong OCR, doanh nghiệp cũng phải chọn giữa đám mây và tự lưu trữ GPU
  Cuối cùng vấn đề là mẫu hình sử dụng: nhu cầu dồn vào một số khung giờ làm việc nhất định, còn thời gian khác thì GPU bị bỏ không
  Với các tác vụ nhạy cảm với độ trễ, đây là bài toán đánh đổi đã tồn tại hàng chục năm, không phải vấn đề riêng của LLM
- Vì là mô hình khoảng 750B, nó cần lượng VRAM khổng lồ
  Có lẽ phải là một công ty tầm trung với quyết tâm khá lớn mới làm được
- Trường hợp sử dụng chính cần quyền riêng tư hoàn toàn đến nay có vẻ là công việc pháp lý
  Việc tìm kiếm lượng văn bản khổng lồ trong khâu công bố chứng cứ không cần tới các mô hình hàng đầu, nhưng lại đòi hỏi tính bảo mật tuyệt đối
  Trên r/localllama có khá nhiều luật sư khoe các bản dựng đa GPU, và đúng lúc họ cũng có sẵn ngân sách cần thiết cho việc đó
- Trừ khi có lo ngại thực sự về an ninh quốc gia, sẽ tốt hơn nếu đàm phán hợp đồng thương mại có kèm bảo vệ quyền riêng tư với một vài nhà cung cấp hiện có
Họ nói rằng “GLM-5.2 nằm trên đường biên Pareto về chi phí trên mỗi tác vụ so với mức độ thông minh, và có chi phí trên mỗi tác vụ thấp nhất trong số các mô hình cùng mức độ thông minh”, nhưng lại ghi GLM-5.2 khoảng $0.46 mỗi tác vụ, trong khi GLM-5.1 là $0.25, Kimi K2.6 là $0.31, MiniMax-M3 là $0.18, DeepSeek V4 Pro max là $0.05, nên tôi tự hỏi có phải mình đã bỏ sót điều gì không
- Có vẻ họ đã chọn sai đối tượng để so sánh
  Thay vì chọn các mô hình khác có điểm đo trí tuệ gần với 5.2, có vẻ họ đã lấy vài mô hình mở thấp hơn
- Đường biên Pareto không có nghĩa là rẻ nhất
- Một số mô hình đang được trợ giá rất nhiều
  Chi phí suy luận sẽ được đo tốt hơn bằng tổng số tham số và số tham số được kích hoạt
Tôi đã thêm GLM 5.2 vào benchmark dựa trên lỗi của Mythos sau khi xem bài viết, và nó tốt hơn GLM 5.1 nhưng vẫn thua nhiều mô hình khác; xét trực diện nhất thì có lẽ nên so với Qwen 3.7 Max
Các mô hình mở nhỏ hơn có thể tự lưu trữ như Gemma 4 và Qwen 3.6 cũng tìm được cùng số lỗi là 3 trên 9, còn GLM 5.2 xác định đúng vị trí của một lỗi nhưng lại hiểu hơi sai bản thân lỗi đó nên chỉ được điểm một phần
Kimi K2.7-code được thêm vào cùng lần chạy đó cũng thể hiện kém một cách nhất quán so với 2.6, và trong benchmark cụ thể này có những mô hình vừa tốt hơn vừa rẻ hơn
https://swelljoe.com/post/will-it-mythos/
Benchmark nhỏ này không chứng minh được điều gì dứt khoát, nhưng vẫn hữu ích để nhanh chóng ước lượng xem mô hình có thể suy luận về những vấn đề khá phức tạp trong mã hay không

GLM-5.2 vươn lên dẫn đầu trong nhóm mô hình open-weights trên Artificial Analysis

Dẫn đầu nhóm open-weights trên Intelligence Index v4.1

Cải thiện hiệu năng theo từng bài đánh giá

GDPval-AA v2 và hiệu năng tác nhân

Chi phí, giá và lượng token sử dụng

Chi tiết mô hình và khả năng truy cập

DeepInfra

Novita

Nebius

Parasail

Siliconflow

GMI Cloud

Baseten

Bài viết liên quan

1 bình luận

Ý kiến Hacker News