Kết quả đánh giá mô hình CursorBench 3.1

(cursor.com)

1 điểm bởi GN⁺ 4 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp

Trong bảng đánh giá mô hình lập trình của Cursor, Fable 5 Max đứng đầu với 72.9%, trở thành mốc chuẩn cho cuộc cạnh tranh ở nhóm dẫn đầu
Dòng Fable 5 chiếm trọn vị trí từ hạng 1 đến hạng 4 với Max, Extra High, High, Medium, cho thấy khoảng cách rõ rệt so với các nhóm mô hình khác
Sau top 5 là Opus 4.7 Max 64.8%, GPT-5.5 Extra High 64.3%, Fable 5 Low 64.2%, Opus 4.8 Max 63.8%, Composer 2.5 63.2%
CursorBench 3.1 bổ sung các tác vụ tập trung vào hiểu codebase, tìm lỗi, lập kế hoạch và code review, đồng thời cải thiện tiêu chí chấm điểm cho một số tác vụ chỉnh sửa
Chi phí trung bình trên mỗi tác vụ được tính từ giá token công khai và số token sử dụng theo từng tác vụ; chênh lệch điểm nhỏ có thể không có ý nghĩa thống kê

Fable 5 thống trị nhóm dẫn đầu

Bảng CursorBench 3.1 so sánh đồng thời thứ hạng, điểm số, chi phí trung bình trên mỗi tác vụ và các chỉ số liên quan đến mức sử dụng của từng mô hình
Từ hạng 1 đến hạng 4 đều thuộc về dòng Fable 5
- Fable 5 Max: 72.9%, $18.02, 63,842, 76
- Fable 5 Extra High: 72.0%, $13.74, 48,754, 63
- Fable 5 High: 70.6%, $10.81, 37,173, 54
- Fable 5 Medium: 69.8%, $8.27, 28,507, 47
Trong nhóm hạng 5~10 có sự pha trộn giữa các mô hình Opus, GPT-5.5, Fable và Composer
- Opus 4.7 Max: 64.8%, $11.02, 62,989, 96
- GPT-5.5 Extra High: 64.3%, $4.37, 17,905, 46
- Fable 5 Low: 64.2%, $5.70, 18,882, 36
- Opus 4.8 Max: 63.8%, $7.59, 77,370, 60
- Composer 2.5: 63.2%, $0.55, 15,152, 37
- GPT-5.5 High: 62.6%, $3.59, 13,329, 40

Điểm số của các mô hình nhóm giữa và nhóm dưới

Hạng 11~20 chủ yếu do các mô hình Opus, Sonnet và GPT-5.5 chiếm giữ
- Opus 4.8 Extra High: 62.1%, $6.14, 55,622, 54
- Opus 4.7 Extra High: 61.6%, $7.11, 43,942, 72
- Sonnet 5 Max: 61.2%, $6.87, 93,485, 93
- Opus 4.7 High: 59.4%, $5.01, 32,227, 59
- GPT-5.5 Medium: 59.2%, $2.22, 9,065, 35
- Opus 4.8 High: 58.4%, $4.41, 36,788, 45
- Sonnet 5 Extra High: 58.4%, $5.23, 58,228, 86
- Sonnet 5 High: 57.0%, $3.74, 41,735, 66
- Opus 4.8 Medium: 56.6%, $3.83, 31,684, 41
- Sonnet 5 Medium: 54.9%, $2.57, 27,469, 53
Hạng 21~36 bao gồm GLM, Kimi, Gemini, Sonnet, Composer, v.v.
- GLM 5.2 Max: 54.6%, $3.11, 51,312, 83
- Opus 4.8 Low: 54.3%, $2.93, 22,726, 36
- Opus 4.7 Medium: 52.7%, $2.93, 19,193, 41
- Kimi K2.7 Code: 52.7%, $1.92, 32,902, 70
- Composer 2: 52.2%, $0.56, 14,163, 40
- GLM 5.2 High: 50.7%, $2.46, 30,621, 76
- Gemini 3.5 Flash: 49.8%, $1.94, 35,105, 79
- Sonnet 4.6 Max: 49.0%, $3.09, 40,280, 55
- GPT-5.5 Low: 48.8%, $1.19, 4,923, 24
- Sonnet 4.6 High: 48.8%, $3.06, 37,352, 57
- Opus 4.7 Low: 48.3%, $1.87, 13,164, 29
- Sonnet 5 Low: 47.7%, $1.46, 17,028, 37
- Kimi 2.6: 47.6%, $1.27, 24,783, 56
- Sonnet 4.6 Medium: 46.0%, $2.64, 31,360, 50
- Sonnet 4.6 Low: 41.5%, $1.89, 21,211, 50
- Kimi 2.5: 31.9%, $0.87, 9,446, 30

Phạm vi đánh giá của CursorBench 3.1

CursorBench 3.1 đưa vào các bài toán tập trung vào hiểu codebase, tìm lỗi, lập kế hoạch và code review
Tiêu chí chấm điểm của một số tác vụ chỉnh sửa cũng được cải thiện
CursorBench 3.0 là bộ tác vụ ban đầu tập trung vào các bài toán chỉnh sửa, refactoring và sửa lỗi

Cách tính chi phí và giới hạn khi diễn giải

Chi phí trung bình trên mỗi tác vụ được tính bằng cách sử dụng per-million-token pricing công khai của từng mô hình
Bao gồm toàn bộ chi phí cho đầu vào, đọc cache, ghi cache và đầu ra
Sau khi áp giá lên số token mà từng mô hình dùng trong các tác vụ của CursorBench 3.1, hệ thống tính trung bình cho toàn bộ tác vụ
Kết quả vẫn còn độ biến động, và các chênh lệch điểm nhỏ có thể không có ý nghĩa thống kê

1 bình luận

GN⁺ 4 giờ trước

Ý kiến trên Hacker News

Hơi hoài nghi
Trong benchmark của Cursor, mô hình Composer 2.5 của Cursor được cho là tốt ngang Opus 4.8 max và GPT-5.5 xhigh, trong khi giá thấp hơn nhiều
Nhưng trong bài kiểm thử của Artificial Analysis, Composer 2.5 tụt lại khá xa: https://artificialanalysis.ai/agents/coding-agents
Nhìn vào benchmark DeepSWE, GPT-5.5 xhigh đạt 64, Opus 4.8 max đạt 56, còn Cursor 2.5 là 16
Tôi không nghi ngờ việc Cursor có thể phù hợp với một số người, nhưng tuyên bố rằng nó là đối thủ của Opus 4.8 hay GPT-5.5 thì đáng ngờ. Việc nó thể hiện tốt trên benchmark của chính mình nhưng lại tụt mạnh trên benchmark bên thứ ba trông quá thuận tiện
- Tôi đang làm việc tại Cursor. Khi Composer 2.5 ra mắt, nó khá cạnh tranh trên benchmark tổng hợp của AA, và tôi nhớ là đứng thứ 3 tổng thể
  Gần đây AA đã chuyển sang dùng DeepSWE, benchmark này tập trung nhiều hơn vào các tác vụ có phạm vi rất dài. Composer hiện vẫn chưa mạnh ở những tác vụ như vậy, nên chúng tôi đang làm việc để cải thiện trong mô hình tiếp theo
  Nhìn chung, Composer thể hiện tốt ở một số benchmark và không tốt ở một số benchmark khác. Dù vậy, tôi vẫn cho rằng ở mức giá hiện tại, đây là một mô hình rất có năng lực. Nếu thấy hành vi cụ thể hay điểm yếu nào, hãy báo ở đây hoặc gửi mail tới lrobinson at cursor.com
- Không khó để hiểu chuyện gì đang xảy ra. Họ đã làm reinforcement learning theo các mẫu và năng lực cụ thể trong dữ liệu của chính mình, nên đương nhiên họ sẽ tạo ra benchmark khớp với tập huấn luyện
  Trớ trêu là trong phạm vi hẹp mà “khách hàng riêng” của Cursor thực sự quan tâm, benchmark đó có thể còn chính xác hơn Artificial Analysis. Ngoài phạm vi đó thì cứ xem nó như một điểm dữ liệu nữa thôi
- DeepSWE có hơi khiếm khuyết ở chỗ chỉ dùng execution harness của riêng nó, và điều đó gây vấn đề với các mô hình mà harness đó không hỗ trợ đúng cách
  Có nhiều bằng chứng cho thấy harness ảnh hưởng lớn tới cách các mô hình này hoạt động, nhưng DeepSWE lại loại bỏ hoàn toàn yếu tố đó. Có lẽ họ chỉ kiểm tra xem nó có hoạt động tốt trên một vài mô hình họ ưa thích hay không
  Như đã được báo cáo trong issue GitHub, harness không dùng cache nên tính toán chi phí cũng có vấn đề. Không có benchmark nào hoàn hảo, nhưng điều này giải thích được khá nhiều chênh lệch giữa các benchmark
- Phiên Cursor gần như chính là đối tượng mà mô hình Composer được reinforcement learning trên đó. Benchmark này và dữ liệu huấn luyện về cơ bản phải cùng một phân phối
- Tôi không rõ về benchmark, nhưng đã dùng Composer 2.5 khá nhiều và trong công việc thực tế thì nó hoạt động khá tốt
Việc chọn trục như thế này khá khó hiểu. Tôi tưởng bên trái là phía rẻ nhất, nhưng hóa ra lại là phía đắt nhất
Tôi hiểu cách bố trí để góc trên bên phải là tốt nhất, nhưng trục chi phí bị đảo ngược thì vẫn không trực quan
Bỏ chuyện đó sang một bên, hằng ngày tôi làm các triển khai rất khó, ở mức agent chỉ vừa đủ làm được, gần như cả ngày; với những việc cần “xác thực thật sự”, trong một thời gian tôi phải giữ Opus ở chế độ max. Cảm giác như đó gần như là cách duy nhất để Opus hoạt động ít nhất gần với GPT-5.5 xhigh
Khi dùng GPT-5.5 qua gói đăng ký thì cửa sổ ngữ cảnh nhỏ, 400k nhưng hiệu dụng khoảng 258k, nên tôi đang dùng Opus
Khác biệt là GPT-5.5 xhigh rất nhanh trong hầu hết các trường hợp thực tế. Việc triển khai tổng thể cũng hiệu quả, và với các câu hỏi không cần suy nghĩ sâu thì nó trả lời nhanh một cách thích ứng
Ngược lại, Opus 4.8 Max nghiền ngẫm mọi thứ lâu một cách không cần thiết, ngay cả triển khai đơn giản cũng có thể mất vài giờ, nên tôi chủ yếu dùng nó cho lập kế hoạch và review
Fable tốt hơn nhiều ở suy nghĩ thích ứng và phản hồi nhanh, nhưng có lẽ vẫn kém GPT-5.5 xhigh. Có vẻ mọi người đã nói đủ về ưu nhược điểm rồi, và tiếc là với các tác vụ khó của tôi, nó vẫn chưa phải là người triển khai đáng tin cậy. Vẫn là vùng của GPT, còn Fable có xu hướng để lại những lỗ hổng lớn và nguy hiểm bên trong phần triển khai nếu không được chăm sóc kỹ
- Có điều gì trong câu “hằng ngày tôi làm các triển khai rất khó, ở mức agent chỉ vừa đủ làm được, gần như cả ngày” có thể kiểm chứng được không? Hay chúng ta chỉ phải tin vậy? Tất cả nghe buồn cười vì quá chủ quan
- Nếu Fable để lại lỗ hổng nguy hiểm trong phần triển khai, tôi nghĩ có thể trộn GLM hoặc DeepSeek vào để tích hợp cho mục đích red team mã nguồn
  Theo thiết kế, Fable bị mù về bảo mật[0], còn các mô hình mở thì làm mảng đó khá tốt
  [0] Chưa rõ GPT-5.6 sẽ thế nào, nhưng nhìn blog thì có vẻ nó cũng sẽ có bộ lọc an toàn thận trọng quá mức tương tự
  Điều thú vị là các bài viết phát hành Opus gần đây còn khoe rằng họ cố ý hạ năng lực bảo mật. “during its [Opus 4.7] training we experimented with efforts to differentially reduce these ["cyber"] capabilities”
- Kiểu Gartner. Góc trên bên phải là vị trí họ muốn tới
- Tôi đồng ý về chuyện tại sao lại đảo trục x. Biểu đồ này trở nên rất khó hiểu với người quan sát thông thường
- Tôi tò mò liệu “khi dùng GPT-5.5 qua gói đăng ký thì cửa sổ ngữ cảnh nhỏ” có thực sự tạo khác biệt trong công việc thực tế không
  Tôi đang dùng 5.5 high/xhigh để tối ưu và benchmark một codebase C, và chỉ đọc code ban đầu thôi cũng gần như lấp đầy cửa sổ ngữ cảnh đầu tiên
  Phiên làm việc tự động nén khoảng 5–15 lần, nhưng vì công việc mỗi lần chủ yếu tập trung vào cửa sổ mới nhất nên nó xử lý tạm ổn
  Trong lập trình, điểm mạnh của GPT lớn hơn Opus, nên có vẻ nó vượt qua được khác biệt về cửa sổ ngữ cảnh
Khó tin là Composer 2.5 lại tốt đến vậy. Tôi đã so sánh với GLM 5.2 và Opus 4.6, nhưng nó thiếu độ sâu trong việc suy nghĩ về vấn đề và suy luận phản biện
Nó tốt trong việc thực thi kế hoạch do mô hình khác tạo ra, nhưng ngay cả khi đó cũng thường thao tác mã một cách kỳ lạ, rất khác với cách các tệp xung quanh thực sự hoạt động
- Hiện tôi không dùng Cursor nữa, nhưng trải nghiệm khi dùng cách đây không lâu cũng tương tự. Tôi lập kế hoạch bằng Opus, triển khai bằng Composer, rồi dọn dẹp bằng Opus
  Composer có năng lực nếu có một kế hoạch tốt, nhưng không đến mức đáng kinh ngạc. Dù vậy, điều tôi thật sự thích là tốc độ
  Việc Opus mất 30 phút thì Composer hoàn thành trong 5–10 phút. Tất nhiên kết quả không hoàn hảo, nên tôi vẫn qua bước dọn dẹp bằng Opus hoặc Codex
  Rốt cuộc đó là vấn đề cân bằng, luôn thay đổi, và hoàn toàn phụ thuộc vào bài toán đang giải. Tôi giữ sự linh hoạt và điều chỉnh theo quy trình hiệu quả nhất tại thời điểm đó
- Nhìn những chuyện này, tôi chỉ nghĩ đó là một ranh giới lởm chởm. Tôi không nghi ngờ trải nghiệm cá nhân. Tháng trước tôi đã dùng Composer 2.5 bằng Grok và credit tài khoản X Premium
  Không phải là đang chế tạo tên lửa, nhưng khá ấn tượng. Mọi mô hình đôi lúc đều làm chuyện ngớ ngẩn, nhưng nó xử lý khá tốt các tác vụ tôi yêu cầu và cũng cho ra vài kết quả ấn tượng
  Trên Grok thì nhanh, và so với các mô hình khác tôi đã dùng nhiều, tôi cho là tốt hơn gemini 3.1. Theo tiêu chuẩn của tôi, 3.5 và antigravity kém hơn gemini cli trước đây. Nó ngang ngửa Opus 4.6. Tôi chưa dùng các mô hình mới hơn của Claude Code
Nếu tôi hiểu đúng biểu đồ, Fable đang dùng ít token hơn so với sonet và opus để hoàn thành cùng một tác vụ. Nếu vậy thì đó là điều tốt
Một thời gian tôi có cảm giác các mô hình cứ phun token bừa bãi để đạt kết quả tốt hơn, nên nếu bản thân mô hình đang tốt lên mà không tạo ra nhiều token hơn thì đó thực sự là thành quả
Câu hỏi 1: Vì sao số bước lại quan trọng trong biểu đồ này? Nó cho biết điều gì?
Câu hỏi 2: Vì sao lại đảo trục ngang để 0 không nằm ở gốc mà ở bên phải? Đây có phải cách làm thông minh mới không? Tôi có vẻ chưa từng thấy trước đây
Thú vị là Opus 4.7 lại có kết quả tốt hơn 4.8. Giá mà họ cũng kiểm thử 4.6. Hôm qua tôi thấy có người ở đây bị chế giễu vì cứ khăng khăng rằng 4.6 tốt hơn mô hình kế nhiệm
Tuy nhiên benchmark luôn rất tinh vi. Trên DeepSWE, GPT-5.5 thắng Opus-4.8 với khoảng cách khá lớn, nhưng trên FrontierCode thì ngược lại
Benchmark đáng tin cậy duy nhất là khối lượng công việc thực tế của chính bạn
Mỗi khi có benchmark mới, các mô hình Trung Quốc lại có kết quả thấp hơn nhiều so với mức kỳ vọng theo các benchmark hiện có, rồi sau một thời gian lại phục hồi
- Đó là phép màu của chưng cất
Ước gì tất cả các trang kiểu này đều hiển thị biểu đồ đường biên Pareto chi phí/hiệu năng. Điều quan trọng chủ yếu là hai yếu tố đó. Cũng có thể thêm tham số tốc độ để biến thành 3 chiều
https://paraplouis.github.io/llm-pareto-frontier/ là biểu đồ tốt nhất tôi từng thấy, nhưng không được cập nhật thường xuyên như tôi muốn
- Trang đó không hữu ích lắm. Vì nó không phản ánh token suy luận, caching và hiệu quả của chúng
  GLM5.2 được quảng bá bởi mọi đội quân dư luận 50 xu mà PLA có thể huy động trên Internet, nhưng quá trình suy nghĩ quá dài dòng nên lộ ra điểm yếu
  Các mô hình của Anthropic cũng có vấn đề tương tự, nhưng bắt đầu từ nền tảng trí tuệ thực tế cao hơn nhiều
  Chính vì vậy các so sánh đáng tin cậy giờ đây được trình bày dựa trên tổng chi phí để hoàn thành tác vụ, chứ không phải chi phí token đầu vào/đầu ra tùy ý
Tôi đã dùng Composer 2.5 và GPT 5.5 rất nhiều trên cả Cursor lẫn Codex, và tuyên bố rằng hiệu năng của Composer 2.5 gần với GPT 5.5 là hoàn toàn vô lý
Nó nhanh hơn, nhưng chất lượng hoàn toàn không ở mức đó
Hơn nữa Composer chỉ dùng được khi có gói thuê bao tháng của Cursor, nên so sánh chi phí cũng không có ý nghĩa. Với một gói OpenAI có giá tương tự, bạn có thể dùng các mô hình tốt hơn với mức sử dụng tương đương
Phần thú vị nhất là chi phí. GPT 5.5 và sonnet 5 có cùng chi phí với GLM 5.2 nhưng là các mô hình có năng lực hơn
Mô hình của Cursor xuất sắc trên benchmark của Cursor, đúng là tin nóng lúc 11 giờ
Tuy vậy, các mô hình khác đều được đặt ở vị trí khá hợp lý, đúng như trải nghiệm trực tiếp của tôi
Fable đắt gấp 10 lần nhưng áp đảo các mô hình khác trong hầu hết trường hợp. Tuy nhiên đôi khi không phải là lựa chọn giữa rẻ và đắt, mà là giữa đắt nhưng làm được và hoàn toàn không thể làm được. Cũng như các mô hình khác, cần học xem ranh giới đó nằm ở đâu

Kết quả đánh giá mô hình CursorBench 3.1

Fable 5 thống trị nhóm dẫn đầu

Điểm số của các mô hình nhóm giữa và nhóm dưới

Phạm vi đánh giá của CursorBench 3.1

Cách tính chi phí và giới hạn khi diễn giải

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News