3 điểm bởi princox 4 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • CEO của Cursor, Michael Truell, công bố trên X rằng “Composer 2.5 đã trở thành mô hình được chọn nhiều nhất trong Cursor. Trong một ngày, tất cả người dùng sẽ được cung cấp mức sử dụng gấp 10 lần”
  • Đây là tín hiệu cho thấy tỷ lệ chấp nhận đã tăng nhanh ngay sau khi ra mắt, với xu hướng mô hình nội bộ được chọn làm mặc định thay cho các mô hình của Anthropic/OpenAI

Tóm tắt chính về Composer 2.5
• Mô hình agentic coding nội bộ thế hệ thứ 3 của Cursor, chính thức ra mắt vào ngày 18/5
• Dùng Kimi K2.5 mã nguồn mở của Moonshot AI làm nền tảng, giống Composer 2, và lần này được nêu rõ ngay trong đoạn đầu thông báo (động thái được cho là nhằm phản ánh việc trước đó từng bị chỉ trích vì không công khai rõ base Kimi vào tháng 3)
• 85% tổng compute được dành cho pipeline học tăng cường nội bộ và post-training của Cursor, sử dụng số lượng synthetic coding tasks nhiều gấp 25 lần so với Composer 2
• Để tăng độ tin cậy trong các tác vụ long-horizon, Cursor giới thiệu “targeted RL dựa trên phản hồi văn bản” — thay vì chỉ đưa ra một reward duy nhất sau rollout dài, hệ thống chèn gợi ý trực tiếp vào đúng điểm phát sinh tool call sai để tinh chỉnh credit assignment chính xác hơn
Benchmark (Composer 2.5 vs Opus 4.7 vs GPT-5.5 vs Composer 2)
• Terminal-Bench 2.0: 69.3% vs 69.4% vs 82.7% vs 61.7%  — gần như ngang bằng với Opus 4.7, nhưng kém GPT-5.5 khoảng 13 điểm
• SWE-Bench Multilingual: 79.8% vs 80.5% vs 77.8% vs 73.7%  — kém Opus 4.7 0,7 điểm, nhưng vượt GPT-5.5
• CursorBench v3.1 (default setting): Composer 2.5 63.2%, Opus 4.7 xhigh default 61.6%, GPT-5.5 medium default 59.2%  — ở cấu hình mặc định mà lập trình viên thực sự sử dụng, đã vượt cả hai mô hình frontier
Giá — vũ khí mạnh nhất
• Standard tier: input $0.50/M, output $2.50/M. Fast tier (mặc định tương tác): input $3.00/M, output $15.00/M 
• Đạt hiệu năng tương đương Opus 4.7 trên SWE-Bench Multilingual nhưng chỉ bằng khoảng 1/10 mức giá của Anthropic 
• Theo CursorBench, đạt độ chính xác 63% với chi phí trung bình mỗi task dưới $1 — trong khi Opus/GPT có hiệu năng tương đương đắt hơn thêm vài USD mỗi task 
Bức tranh lớn được công bố cùng lúc
• Ngoài Composer 2.5, Cursor cũng công bố đang huấn luyện từ đầu một mô hình lớn hơn gấp 10 lần, sử dụng khoảng 1 triệu GPU cấp H100 của Colossus 2 cùng hạ tầng xAI (SpaceXAI) (chưa có ngày phát hành) 
• Theo CEO Michael Truell, hiện 35% PR được merge nội bộ tại Cursor là do autonomous agent tạo ra 
• Trong bối cảnh Claude Code gây áp lực lên Cursor khi ARR đạt 2,5 tỷ USD và vượt mốc 300.000 khách hàng doanh nghiệp, Cursor đang phản công bằng mô hình riêng của mình 
Hạn chế sử dụng / bình luận
• Composer 2.5 chỉ dùng được trong Cursor IDE, Cursor CLI và Cursor web — không có API bên ngoài, mirror trên HuggingFace hay gateway của bên thứ ba 
• Việc dựa trên Kimi K2.5 vẫn là yếu tố cần cân nhắc trong các ngành chịu quản lý hoặc công việc liên quan đến liên bang 
• Bản phát hành này cho thấy Cursor, khởi đầu như một “IDE wrapper”, đang chuyển mình nghiêm túc thành một model lab. Đây cũng là ví dụ cho thấy chỉ với post-training trên cùng một base đã có thể kéo lên hơn +6 điểm, là một data point đáng chú ý cho câu hỏi “vertical RL có thể thắng raw scale đến đâu”
• Nguồn: X (@mntruell), Cursor: Introducing Composer 2.5, OfficeChai

1 bình luận

 

Mới ra nên tôi đang dùng thử, và Composer 2.5 khá là dùng được.