- Composer do Cursor công bố là một mô hình tác tử thông minh tốc độ cao dành cho kỹ thuật phần mềm, đạt tốc độ tạo mã nhanh gấp 4 lần so với các mô hình tương tự
- Mô hình được huấn luyện để giải quyết các vấn đề thực tế trong codebase quy mô lớn, tận dụng công cụ tìm kiếm và chỉnh sửa để xử lý các tác vụ ở nhiều mức độ khó khác nhau
- Kết hợp kiến trúc Mixture-of-Experts(MoE) và học tăng cường(RL) để hỗ trợ hiểu và sinh ngữ cảnh dài hạn trong chỉnh sửa mã, lập kế hoạch và trả lời
- Thông qua đánh giá Cursor Bench, không chỉ đo độ chính xác của mô hình mà còn đánh giá tính nhất quán với codebase và mức độ tuân thủ các thực hành kỹ thuật
- Tận dụng hạ tầng RL bất đồng bộ dựa trên PyTorch·Ray và huấn luyện độ chính xác thấp MXFP8 để huấn luyện hiệu quả trên hàng nghìn GPU và cải thiện tốc độ suy luận
Tổng quan về Composer
- Composer là một mô hình tác tử mới được phát triển với mục tiêu trí tuệ và tốc độ cho kỹ thuật phần mềm
- Trong benchmark, mô hình ghi nhận tốc độ tạo mã nhanh gấp 4 lần so với các mô hình tương tự
- Được tối ưu hóa trong Cursor như một tác tử chuyên giải quyết vấn đề trên codebase quy mô lớn
- Mô hình được huấn luyện để giải quyết các vấn đề ở nhiều mức độ khó khác nhau bằng cách sử dụng công cụ tìm kiếm và chỉnh sửa trong môi trường thực tế
- Qua đó mang lại trải nghiệm phát triển mang tính tương tác tốc độ cao
Bối cảnh phát triển
- Composer bắt nguồn từ kinh nghiệm phát triển mô hình tự động hoàn thành mã tùy chỉnh của Cursor(Cursor Tab)
- Nhóm xác nhận rằng các nhà phát triển ưa chuộng những mô hình vừa thông minh vừa phản hồi nhanh
- Dựa trên mô hình thử nghiệm ban đầu Cheetah, Composer được thiết kế như một phiên bản nhanh hơn và thông minh hơn đã được cải tiến từ đó
- Mục tiêu là xây dựng một mô hình cung cấp phản hồi tức thì trong khi vẫn duy trì luồng làm việc của nhà phát triển
Kiến trúc mô hình và phương pháp huấn luyện
- Composer là một mô hình ngôn ngữ Mixture-of-Experts(MoE), hỗ trợ hiểu và sinh ngữ cảnh dài hạn
- Mô hình được chuyên biệt hóa cho nhiều môi trường phát triển khác nhau thông qua học tăng cường(RL)
- Ở mỗi bước huấn luyện, mô hình nhận mô tả bài toán và tạo ra chỉnh sửa mã, kế hoạch và câu trả lời tối ưu
- Mô hình sử dụng các công cụ như đọc và chỉnh sửa tệp, thực thi lệnh terminal, tìm kiếm ngữ nghĩa trên toàn bộ codebase
- Trong quá trình RL, mô hình tự học các hành vi hữu ích như thực hiện tìm kiếm phức tạp, sửa lỗi linter, viết và chạy unit test
Đánh giá và benchmark
- Cursor Bench là bộ đánh giá nội bộ bao gồm các yêu cầu kỹ thuật thực tế và lời giải tối ưu
- Bộ này đo lường độ chính xác của mô hình, mức độ tuân thủ các trừu tượng của codebase, và mức độ phù hợp với các thực hành kỹ thuật phần mềm
- Composer được xếp vào nhóm mô hình “Fast Frontier”, được so sánh với Haiku 4.5, Gemini Flash 2.5 và các mô hình khác hướng tới suy luận hiệu quả
- Dù chậm hơn các mô hình Frontier hàng đầu như GPT-5, Sonnet 4.5, mô hình vẫn có hiệu quả cao so với tốc độ
Hạ tầng và thiết kế hệ thống
- Để huấn luyện mô hình MoE quy mô lớn, Cursor đã xây dựng hạ tầng RL bất đồng bộ dựa trên PyTorch và Ray
- Kết hợp MXFP8 MoE kernel, song song hóa chuyên gia, và song song dữ liệu phân mảnh lai
- Mở rộng huấn luyện trên hàng nghìn NVIDIA GPU đồng thời giảm thiểu chi phí truyền thông
- Thông qua huấn luyện độ chính xác thấp MXFP8, mô hình vừa cải thiện tốc độ suy luận vừa không cần lượng tử hóa hậu xử lý
- Trong RL, mô hình có thể gọi mọi công cụ của Cursor Agent
- Hỗ trợ chỉnh sửa mã, tìm kiếm ngữ nghĩa, grep chuỗi, thực thi lệnh terminal, v.v.
- Để làm điều này, hệ thống chạy song song hàng trăm nghìn môi trường sandbox trên đám mây
- Mở rộng hạ tầng Background Agents hiện có để xử lý tải huấn luyện kiểu bùng nổ
Ứng dụng nội bộ và triển khai
- Nhóm Cursor đang tích cực sử dụng Composer cho công việc phát triển nội bộ
- Nhiều kỹ sư sử dụng Composer trong phát triển phần mềm hằng ngày
- Qua lần công bố này, Cursor kỳ vọng các nhà phát triển khác cũng có thể tận dụng hữu ích công cụ này
Phụ lục: Phân loại benchmark nội bộ
- Fast Frontier: mô hình suy luận hiệu quả (Haiku 4.5, Gemini Flash 2.5, v.v.)
- Best Open: mô hình có trọng số mở (Qwen Coder, GLM 4.6, v.v.)
- Frontier 7/2025: các mô hình tốt nhất tính đến tháng 7/2025
- Best Frontier: các mô hình có hiệu năng cao hơn Composer như GPT-5, Sonnet 4.5
- Cách tính Tokens per Second được chuẩn hóa theo tokenizer mới nhất của Anthropic
1 bình luận
Ý kiến trên Hacker News
Tôi thấy thiếu minh bạch quá nhiều
Hiệu năng mô hình chỉ được công bố bằng benchmark nội bộ, mà ngay cả dữ liệu đó cũng không công khai nên khó tin cậy
Có nói về huấn luyện RL, nhưng hoàn toàn không có thông tin cốt lõi như pre-training hay có fine-tuning hay không
Cho đến khi họ công bố chi tiết hoặc có benchmark độc lập từ bên ngoài, tôi vẫn hoài nghi mọi tuyên bố
Nếu công bố, dữ liệu đó có thể bị đưa vào tập huấn luyện của các LLM khác và làm mất tính hiệu lực khoa học
Nhưng nếu giữ kín thì ngược lại cũng có thể họ đã chọn lọc dữ liệu có lợi cho mình
Rốt cuộc đây là một thế tiến thoái lưỡng nan rất khó giải quyết
Cursor thu thập hàng nghìn dữ liệu accept/reject theo thời gian thực, nên đó là vòng phản hồi tốt nhất
Phản ứng của người dùng thực tế hữu ích hơn benchmark rất nhiều, và nhờ đó có thể cải thiện mô hình nhanh chóng
Gần đây họ còn thêm tính năng tích hợp multi-agent + git tree, tạo ra cấu trúc tận dụng hành vi người dùng như tín hiệu học tập
Tôi nghĩ kiểu cạnh tranh này sẽ nâng chất lượng của toàn thị trường và tạo ra vòng tuần hoàn tích cực giúp giảm chi phí sử dụng
Tôi vẫn cảm thấy mô hình Tab của Cursor là tốt nhất
Nội dung liên quan được tổng hợp khá rõ trong bài blog chính thức
Nếu có thể áp dụng cách tiếp cận này sang mô hình agentic coding thì sẽ thực sự rất thú vị
Động lực của dự án này ngay từ đầu cũng xuất phát từ ý tưởng tạo ra một tác nhân kiểu Tab
Tôi gần như luôn để Claude Code chạy thường trực, còn Tab chỉ can thiệp khi mô hình hoàn toàn bị bí
Điều ấn tượng là những tình huống thất bại như vậy đang ngày càng ít đi
Giá mà đổi thành kiểu shift+tab thì hay hơn
Mỗi lần tôi tự viết mã lại có cảm giác đang phải tranh giành thụt đầu dòng với AI nên khá khó chịu
Tôi là nhà nghiên cứu ML của Cursor và đã tham gia dự án này
Rất hoan nghênh phản hồi về mô hình hoặc bài blog
Nhưng nếu Composer là mô hình mở được fine-tune bằng RL, tôi thắc mắc vì sao vẫn giữ kín trọng số
Một chút lợi thế hiệu năng sẽ sớm biến mất, nên ngược lại chiến lược mở có vẻ sẽ có lợi hơn để xây dựng niềm tin với nhà phát triển
Cá nhân tôi không mấy hứng thú với mô hình đóng
Trước đây tôi từng thử Cursor rồi bỏ cuộc, nhưng lần này Composer1 nhanh và chính xác hơn GPT5 Codex rất nhiều
Cả tốc độ lẫn chất lượng đều tốt nên tôi định dùng lại
Sẽ công bằng hơn nếu có phiên bản hiển thị tên từng mô hình riêng lẻ thay vì nhóm lại
Tôi dùng Claude cho giai đoạn lập kế hoạch, nhưng ở giai đoạn thực thi thì Composer hiệu quả hơn nhiều
Khoảng mức Sonnet 4.5 là ngưỡng chất lượng tối thiểu mà tôi có thể chấp nhận
Điều quan trọng hơn tốc độ là không phải vật lộn để lấy được đầu ra mình muốn
Có thể tôi hiểu nhầm, nhưng tôi tò mò liệu các mô hình được so sánh trong bài này có phải đều là mô hình nội bộ của Cursor không
Một kiểu muốn mô hình tự chủ xử lý các tác vụ dài,
kiểu còn lại muốn tương tác và cộng tác với mô hình
Với nhóm sau, tốc độ quan trọng hơn rất nhiều, còn với nhóm đầu thì trí tuệ quan trọng hơn
Với tôi thì việc thiếu hiểu ngữ cảnh mới là vấn đề lớn hơn, nên còn tùy tình huống
Dùng mô hình ngoài Claude thì tốn token hơn và hiệu quả kém hơn
Claude 4.5 Sonnet giải quyết cùng một công việc với chi phí chỉ bằng một nửa
Tôi thích phản hồi nhanh hơn là độ chính xác tuyệt đối
Tôi vui vì có mô hình mới, nhưng khó mà tin được khi biểu đồ thiếu số liệu và tên mô hình
Họ nói khó công bố chi tiết huấn luyện, nhưng đã thu được kết quả cho thấy RL mở rộng tốt
Nhiều người chỉ trích Cursor, nhưng tôi đã dùng Copilot, Claude Code, Codex, Gemini CLI, Cline và đủ thứ khác, và cuối cùng vẫn thấy mức độ hoàn thiện của Cursor là cao nhất
Tốc độ và độ ổn định đặc biệt nổi bật, đúng là mang cảm giác của một sản phẩm thực thụ
Nhiều khi yêu cầu bị treo hơn 30 giây, trong khi Claude Code nhanh và ổn định hơn nhiều
Hôm nay tôi thử lại mô hình mới thì Composer1 nhanh thật nhưng vẫn còn lỗi kết nối
Với việc hiện thực hóa nhanh thứ tôi muốn, Cursor là tốt nhất
Tự động hoàn thành của nó cũng khá hữu ích khi refactor
Trong số các đối thủ, chỉ Cursor là thật sự nghiêm túc về thời gian hoàn tất phản hồi
Cursor hoàn toàn dẫn trước ở khía cạnh đó
Tôi đã thử hệ thống mới nhưng lại có cảm giác hiệu năng bị giảm sút
Ngay cả ứng dụng cơ bản cũng không chạy đúng, và nó cũng xử lý thất bại cả CSS lẫn ngữ cảnh terminal
Tốc độ cũng ngày càng chậm, cuối cùng tôi lại quay về Sonnet
Hy vọng đây chưa phải bản ổn định
Tôi thật sự rất thích Cursor
Tôi đã dùng Copilot, Claude và nhiều công cụ khác, nhưng rồi vẫn quay lại Cursor
Đặc biệt tự động hoàn thành Tab rất chính xác trong các công việc refactor
Nó chậm và chất lượng gợi ý thấp
Cursor nhanh hơn nhiều và các gợi ý cũng hữu ích hơn
Tuy vậy vì quá nhanh nên đôi khi nó cứ liên tục hiện ra những gợi ý không cần thiết, điều đó hơi đáng tiếc
Dù vậy vẫn có tính năng snooze nên có thể xử lý được
Có một hình ảnh con bồ nông đi xe đạp của Composer 1
Liên kết ảnh