Cursor đã công bố Composer 2, một mô hình AI chuyên cho lập trình với hiệu năng đẳng cấp frontier và mức giá rẻ.
Hiệu năng
Mô hình này đã ghi nhận mức cải thiện lớn so với thế hệ trước trên mọi benchmark chính.
Mô hình được đánh giá bằng ba bài kiểm tra
CursorBench — benchmark cho các tác vụ lập trình thực tế do chính Cursor xây dựng. Từ Composer 1 → 1.5 → 2, điểm số tăng từ 38.0 → 44.2 → 61.3. Trong quá trình từ 1 lên 2, hiệu năng tăng khoảng 61%, và đặc biệt ở giai đoạn 1.5 → 2 đã nhảy vọt khoảng 17 điểm, tạo nên bước tiến lớn nhất của thế hệ này.
Terminal-Bench 2.0 — bài đánh giá agent dựa trên terminal do Laude Institute quản lý. Bài test này đo khả năng hoàn thành công việc bằng cách thực thi lệnh thực tế trong terminal. Điểm số tăng từ 40.0 → 47.9 → 61.7, cho thấy mô hình tăng trưởng gần như giống hệt CursorBench.
SWE-bench Multilingual — phiên bản đa ngôn ngữ của benchmark kỹ thuật phần mềm nổi tiếng, nơi mô hình giải quyết các issue GitHub thực tế bằng mã nguồn. Điểm số tăng từ 56.9 → 65.9 → 73.7. Ngay từ thời Composer 1, mô hình đã khởi đầu ở mức 56 điểm, cao hơn hai benchmark còn lại, điều này cho thấy khả năng viết bản vá mã nguồn đã tương đối mạnh từ sớm.
Điểm chính
Ở cả ba benchmark, mức tăng trong giai đoạn 1.5 → 2 đều lớn hơn nhiều so với 1 → 1.5, và đây chính là trọng tâm của lần công bố này. Đây cũng là giai đoạn mà sự kết hợp giữa pretraining liên tục và reinforcement learning phát huy hiệu quả. Mức 73.7 trên SWE-bench Multilingual hiện thuộc nhóm cao nhất trong các mô hình đã được công bố.
Phiên bản tiêu chuẩn: đầu vào $0.50 / đầu ra $2.50 (mỗi một triệu token)
Phiên bản nhanh (fast): đầu vào $1.50 / đầu ra $7.50 (mỗi một triệu token)
Phiên bản nhanh sẽ được cung cấp làm tùy chọn mặc định, và điểm mạnh là mức giá thấp hơn so với các mô hình tốc độ cao cùng phân khúc. Với người dùng gói cá nhân, còn có một hạn mức sử dụng riêng với lượng cơ bản khá rộng rãi được bao gồm sẵn.
Bình luận
Điều đáng chú ý là Cursor đang nghiêm túc chuyển hướng khỏi vai trò lớp sử dụng các mô hình bên ngoài như Claude hay GPT, để trực tiếp huấn luyện mô hình riêng của mình. Đặc biệt, cách định vị hiệu năng trên giá thành rất quyết liệt, và có thể được hiểu là chiến lược tích hợp theo chiều dọc đến tận lớp mô hình trong thị trường coding agent. Những ai trước đây dùng Claude Sonnet hoặc GPT-4o trong Cursor có thể thử chuyển sang Composer 2.
5 bình luận
Được biết đây là mô hình từng được huấn luyện tăng cường trên mô hình Kimi k2.
Từ góc độ tối ưu chi phí khi dùng thử cả Kiro lẫn Cursor
thì có vẻ Cursor tốt hơn ở phần nâng cao
Tốc độ cũng nhanh hơn
Phần tổng hợp liên quan, vui lòng tham khảo Xác nhận Cursor Composer 2 là mô hình áp dụng RL trên Kimi K2.5
Liên quan:
Tôi đã chỉnh sửa tiêu đề cho phù hợp với nội dung này.