Kết quả đánh giá mô hình CursorBench 3.1
(cursor.com)- Trong bảng đánh giá mô hình lập trình của Cursor, Fable 5 Max đứng đầu với 72.9%, trở thành mốc chuẩn cho cuộc cạnh tranh ở nhóm dẫn đầu
- Dòng Fable 5 chiếm trọn vị trí từ hạng 1 đến hạng 4 với Max, Extra High, High, Medium, cho thấy khoảng cách rõ rệt so với các nhóm mô hình khác
- Sau top 5 là Opus 4.7 Max 64.8%, GPT-5.5 Extra High 64.3%, Fable 5 Low 64.2%, Opus 4.8 Max 63.8%, Composer 2.5 63.2%
- CursorBench 3.1 bổ sung các tác vụ tập trung vào hiểu codebase, tìm lỗi, lập kế hoạch và code review, đồng thời cải thiện tiêu chí chấm điểm cho một số tác vụ chỉnh sửa
- Chi phí trung bình trên mỗi tác vụ được tính từ giá token công khai và số token sử dụng theo từng tác vụ; chênh lệch điểm nhỏ có thể không có ý nghĩa thống kê
Fable 5 thống trị nhóm dẫn đầu
- Bảng CursorBench 3.1 so sánh đồng thời thứ hạng, điểm số, chi phí trung bình trên mỗi tác vụ và các chỉ số liên quan đến mức sử dụng của từng mô hình
- Từ hạng 1 đến hạng 4 đều thuộc về dòng Fable 5
- Fable 5 Max: 72.9%, $18.02, 63,842, 76
- Fable 5 Extra High: 72.0%, $13.74, 48,754, 63
- Fable 5 High: 70.6%, $10.81, 37,173, 54
- Fable 5 Medium: 69.8%, $8.27, 28,507, 47
- Trong nhóm hạng 5~10 có sự pha trộn giữa các mô hình Opus, GPT-5.5, Fable và Composer
- Opus 4.7 Max: 64.8%, $11.02, 62,989, 96
- GPT-5.5 Extra High: 64.3%, $4.37, 17,905, 46
- Fable 5 Low: 64.2%, $5.70, 18,882, 36
- Opus 4.8 Max: 63.8%, $7.59, 77,370, 60
- Composer 2.5: 63.2%, $0.55, 15,152, 37
- GPT-5.5 High: 62.6%, $3.59, 13,329, 40
Điểm số của các mô hình nhóm giữa và nhóm dưới
- Hạng 11~20 chủ yếu do các mô hình Opus, Sonnet và GPT-5.5 chiếm giữ
- Opus 4.8 Extra High: 62.1%, $6.14, 55,622, 54
- Opus 4.7 Extra High: 61.6%, $7.11, 43,942, 72
- Sonnet 5 Max: 61.2%, $6.87, 93,485, 93
- Opus 4.7 High: 59.4%, $5.01, 32,227, 59
- GPT-5.5 Medium: 59.2%, $2.22, 9,065, 35
- Opus 4.8 High: 58.4%, $4.41, 36,788, 45
- Sonnet 5 Extra High: 58.4%, $5.23, 58,228, 86
- Sonnet 5 High: 57.0%, $3.74, 41,735, 66
- Opus 4.8 Medium: 56.6%, $3.83, 31,684, 41
- Sonnet 5 Medium: 54.9%, $2.57, 27,469, 53
- Hạng 21~36 bao gồm GLM, Kimi, Gemini, Sonnet, Composer, v.v.
- GLM 5.2 Max: 54.6%, $3.11, 51,312, 83
- Opus 4.8 Low: 54.3%, $2.93, 22,726, 36
- Opus 4.7 Medium: 52.7%, $2.93, 19,193, 41
- Kimi K2.7 Code: 52.7%, $1.92, 32,902, 70
- Composer 2: 52.2%, $0.56, 14,163, 40
- GLM 5.2 High: 50.7%, $2.46, 30,621, 76
- Gemini 3.5 Flash: 49.8%, $1.94, 35,105, 79
- Sonnet 4.6 Max: 49.0%, $3.09, 40,280, 55
- GPT-5.5 Low: 48.8%, $1.19, 4,923, 24
- Sonnet 4.6 High: 48.8%, $3.06, 37,352, 57
- Opus 4.7 Low: 48.3%, $1.87, 13,164, 29
- Sonnet 5 Low: 47.7%, $1.46, 17,028, 37
- Kimi 2.6: 47.6%, $1.27, 24,783, 56
- Sonnet 4.6 Medium: 46.0%, $2.64, 31,360, 50
- Sonnet 4.6 Low: 41.5%, $1.89, 21,211, 50
- Kimi 2.5: 31.9%, $0.87, 9,446, 30
Phạm vi đánh giá của CursorBench 3.1
- CursorBench 3.1 đưa vào các bài toán tập trung vào hiểu codebase, tìm lỗi, lập kế hoạch và code review
- Tiêu chí chấm điểm của một số tác vụ chỉnh sửa cũng được cải thiện
- CursorBench 3.0 là bộ tác vụ ban đầu tập trung vào các bài toán chỉnh sửa, refactoring và sửa lỗi
Cách tính chi phí và giới hạn khi diễn giải
- Chi phí trung bình trên mỗi tác vụ được tính bằng cách sử dụng per-million-token pricing công khai của từng mô hình
- Bao gồm toàn bộ chi phí cho đầu vào, đọc cache, ghi cache và đầu ra
- Sau khi áp giá lên số token mà từng mô hình dùng trong các tác vụ của CursorBench 3.1, hệ thống tính trung bình cho toàn bộ tác vụ
- Kết quả vẫn còn độ biến động, và các chênh lệch điểm nhỏ có thể không có ý nghĩa thống kê
1 bình luận
Ý kiến trên Hacker News
Hơi hoài nghi
Trong benchmark của Cursor, mô hình Composer 2.5 của Cursor được cho là tốt ngang Opus 4.8 max và GPT-5.5 xhigh, trong khi giá thấp hơn nhiều
Nhưng trong bài kiểm thử của Artificial Analysis, Composer 2.5 tụt lại khá xa: https://artificialanalysis.ai/agents/coding-agents
Nhìn vào benchmark DeepSWE, GPT-5.5 xhigh đạt 64, Opus 4.8 max đạt 56, còn Cursor 2.5 là 16
Tôi không nghi ngờ việc Cursor có thể phù hợp với một số người, nhưng tuyên bố rằng nó là đối thủ của Opus 4.8 hay GPT-5.5 thì đáng ngờ. Việc nó thể hiện tốt trên benchmark của chính mình nhưng lại tụt mạnh trên benchmark bên thứ ba trông quá thuận tiện
Gần đây AA đã chuyển sang dùng DeepSWE, benchmark này tập trung nhiều hơn vào các tác vụ có phạm vi rất dài. Composer hiện vẫn chưa mạnh ở những tác vụ như vậy, nên chúng tôi đang làm việc để cải thiện trong mô hình tiếp theo
Nhìn chung, Composer thể hiện tốt ở một số benchmark và không tốt ở một số benchmark khác. Dù vậy, tôi vẫn cho rằng ở mức giá hiện tại, đây là một mô hình rất có năng lực. Nếu thấy hành vi cụ thể hay điểm yếu nào, hãy báo ở đây hoặc gửi mail tới lrobinson at cursor.com
Trớ trêu là trong phạm vi hẹp mà “khách hàng riêng” của Cursor thực sự quan tâm, benchmark đó có thể còn chính xác hơn Artificial Analysis. Ngoài phạm vi đó thì cứ xem nó như một điểm dữ liệu nữa thôi
Có nhiều bằng chứng cho thấy harness ảnh hưởng lớn tới cách các mô hình này hoạt động, nhưng DeepSWE lại loại bỏ hoàn toàn yếu tố đó. Có lẽ họ chỉ kiểm tra xem nó có hoạt động tốt trên một vài mô hình họ ưa thích hay không
Như đã được báo cáo trong issue GitHub, harness không dùng cache nên tính toán chi phí cũng có vấn đề. Không có benchmark nào hoàn hảo, nhưng điều này giải thích được khá nhiều chênh lệch giữa các benchmark
Việc chọn trục như thế này khá khó hiểu. Tôi tưởng bên trái là phía rẻ nhất, nhưng hóa ra lại là phía đắt nhất
Tôi hiểu cách bố trí để góc trên bên phải là tốt nhất, nhưng trục chi phí bị đảo ngược thì vẫn không trực quan
Bỏ chuyện đó sang một bên, hằng ngày tôi làm các triển khai rất khó, ở mức agent chỉ vừa đủ làm được, gần như cả ngày; với những việc cần “xác thực thật sự”, trong một thời gian tôi phải giữ Opus ở chế độ max. Cảm giác như đó gần như là cách duy nhất để Opus hoạt động ít nhất gần với GPT-5.5 xhigh
Khi dùng GPT-5.5 qua gói đăng ký thì cửa sổ ngữ cảnh nhỏ, 400k nhưng hiệu dụng khoảng 258k, nên tôi đang dùng Opus
Khác biệt là GPT-5.5 xhigh rất nhanh trong hầu hết các trường hợp thực tế. Việc triển khai tổng thể cũng hiệu quả, và với các câu hỏi không cần suy nghĩ sâu thì nó trả lời nhanh một cách thích ứng
Ngược lại, Opus 4.8 Max nghiền ngẫm mọi thứ lâu một cách không cần thiết, ngay cả triển khai đơn giản cũng có thể mất vài giờ, nên tôi chủ yếu dùng nó cho lập kế hoạch và review
Fable tốt hơn nhiều ở suy nghĩ thích ứng và phản hồi nhanh, nhưng có lẽ vẫn kém GPT-5.5 xhigh. Có vẻ mọi người đã nói đủ về ưu nhược điểm rồi, và tiếc là với các tác vụ khó của tôi, nó vẫn chưa phải là người triển khai đáng tin cậy. Vẫn là vùng của GPT, còn Fable có xu hướng để lại những lỗ hổng lớn và nguy hiểm bên trong phần triển khai nếu không được chăm sóc kỹ
Theo thiết kế, Fable bị mù về bảo mật[0], còn các mô hình mở thì làm mảng đó khá tốt
[0] Chưa rõ GPT-5.6 sẽ thế nào, nhưng nhìn blog thì có vẻ nó cũng sẽ có bộ lọc an toàn thận trọng quá mức tương tự
Điều thú vị là các bài viết phát hành Opus gần đây còn khoe rằng họ cố ý hạ năng lực bảo mật. “during its [Opus 4.7] training we experimented with efforts to differentially reduce these ["cyber"] capabilities”
Tôi đang dùng 5.5 high/xhigh để tối ưu và benchmark một codebase C, và chỉ đọc code ban đầu thôi cũng gần như lấp đầy cửa sổ ngữ cảnh đầu tiên
Phiên làm việc tự động nén khoảng 5–15 lần, nhưng vì công việc mỗi lần chủ yếu tập trung vào cửa sổ mới nhất nên nó xử lý tạm ổn
Trong lập trình, điểm mạnh của GPT lớn hơn Opus, nên có vẻ nó vượt qua được khác biệt về cửa sổ ngữ cảnh
Khó tin là Composer 2.5 lại tốt đến vậy. Tôi đã so sánh với GLM 5.2 và Opus 4.6, nhưng nó thiếu độ sâu trong việc suy nghĩ về vấn đề và suy luận phản biện
Nó tốt trong việc thực thi kế hoạch do mô hình khác tạo ra, nhưng ngay cả khi đó cũng thường thao tác mã một cách kỳ lạ, rất khác với cách các tệp xung quanh thực sự hoạt động
Composer có năng lực nếu có một kế hoạch tốt, nhưng không đến mức đáng kinh ngạc. Dù vậy, điều tôi thật sự thích là tốc độ
Việc Opus mất 30 phút thì Composer hoàn thành trong 5–10 phút. Tất nhiên kết quả không hoàn hảo, nên tôi vẫn qua bước dọn dẹp bằng Opus hoặc Codex
Rốt cuộc đó là vấn đề cân bằng, luôn thay đổi, và hoàn toàn phụ thuộc vào bài toán đang giải. Tôi giữ sự linh hoạt và điều chỉnh theo quy trình hiệu quả nhất tại thời điểm đó
Không phải là đang chế tạo tên lửa, nhưng khá ấn tượng. Mọi mô hình đôi lúc đều làm chuyện ngớ ngẩn, nhưng nó xử lý khá tốt các tác vụ tôi yêu cầu và cũng cho ra vài kết quả ấn tượng
Trên Grok thì nhanh, và so với các mô hình khác tôi đã dùng nhiều, tôi cho là tốt hơn gemini 3.1. Theo tiêu chuẩn của tôi, 3.5 và antigravity kém hơn gemini cli trước đây. Nó ngang ngửa Opus 4.6. Tôi chưa dùng các mô hình mới hơn của Claude Code
Nếu tôi hiểu đúng biểu đồ, Fable đang dùng ít token hơn so với sonet và opus để hoàn thành cùng một tác vụ. Nếu vậy thì đó là điều tốt
Một thời gian tôi có cảm giác các mô hình cứ phun token bừa bãi để đạt kết quả tốt hơn, nên nếu bản thân mô hình đang tốt lên mà không tạo ra nhiều token hơn thì đó thực sự là thành quả
Câu hỏi 1: Vì sao số bước lại quan trọng trong biểu đồ này? Nó cho biết điều gì?
Câu hỏi 2: Vì sao lại đảo trục ngang để 0 không nằm ở gốc mà ở bên phải? Đây có phải cách làm thông minh mới không? Tôi có vẻ chưa từng thấy trước đây
Thú vị là Opus 4.7 lại có kết quả tốt hơn 4.8. Giá mà họ cũng kiểm thử 4.6. Hôm qua tôi thấy có người ở đây bị chế giễu vì cứ khăng khăng rằng 4.6 tốt hơn mô hình kế nhiệm
Tuy nhiên benchmark luôn rất tinh vi. Trên DeepSWE, GPT-5.5 thắng Opus-4.8 với khoảng cách khá lớn, nhưng trên FrontierCode thì ngược lại
Benchmark đáng tin cậy duy nhất là khối lượng công việc thực tế của chính bạn
Mỗi khi có benchmark mới, các mô hình Trung Quốc lại có kết quả thấp hơn nhiều so với mức kỳ vọng theo các benchmark hiện có, rồi sau một thời gian lại phục hồi
Ước gì tất cả các trang kiểu này đều hiển thị biểu đồ đường biên Pareto chi phí/hiệu năng. Điều quan trọng chủ yếu là hai yếu tố đó. Cũng có thể thêm tham số tốc độ để biến thành 3 chiều
https://paraplouis.github.io/llm-pareto-frontier/ là biểu đồ tốt nhất tôi từng thấy, nhưng không được cập nhật thường xuyên như tôi muốn
GLM5.2 được quảng bá bởi mọi đội quân dư luận 50 xu mà PLA có thể huy động trên Internet, nhưng quá trình suy nghĩ quá dài dòng nên lộ ra điểm yếu
Các mô hình của Anthropic cũng có vấn đề tương tự, nhưng bắt đầu từ nền tảng trí tuệ thực tế cao hơn nhiều
Chính vì vậy các so sánh đáng tin cậy giờ đây được trình bày dựa trên tổng chi phí để hoàn thành tác vụ, chứ không phải chi phí token đầu vào/đầu ra tùy ý
Tôi đã dùng Composer 2.5 và GPT 5.5 rất nhiều trên cả Cursor lẫn Codex, và tuyên bố rằng hiệu năng của Composer 2.5 gần với GPT 5.5 là hoàn toàn vô lý
Nó nhanh hơn, nhưng chất lượng hoàn toàn không ở mức đó
Hơn nữa Composer chỉ dùng được khi có gói thuê bao tháng của Cursor, nên so sánh chi phí cũng không có ý nghĩa. Với một gói OpenAI có giá tương tự, bạn có thể dùng các mô hình tốt hơn với mức sử dụng tương đương
Phần thú vị nhất là chi phí. GPT 5.5 và sonnet 5 có cùng chi phí với GLM 5.2 nhưng là các mô hình có năng lực hơn
Mô hình của Cursor xuất sắc trên benchmark của Cursor, đúng là tin nóng lúc 11 giờ
Tuy vậy, các mô hình khác đều được đặt ở vị trí khá hợp lý, đúng như trải nghiệm trực tiếp của tôi
Fable đắt gấp 10 lần nhưng áp đảo các mô hình khác trong hầu hết trường hợp. Tuy nhiên đôi khi không phải là lựa chọn giữa rẻ và đắt, mà là giữa đắt nhưng làm được và hoàn toàn không thể làm được. Cũng như các mô hình khác, cần học xem ranh giới đó nằm ở đâu