Composer: Mô hình frontier tốc độ cao được xây dựng bằng học tăng cường

(cursor.com)

2 điểm bởi GN⁺ 2025-10-30 | 1 bình luận | Chia sẻ qua WhatsApp

Composer do Cursor công bố là một mô hình tác tử thông minh tốc độ cao dành cho kỹ thuật phần mềm, đạt tốc độ tạo mã nhanh gấp 4 lần so với các mô hình tương tự
Mô hình được huấn luyện để giải quyết các vấn đề thực tế trong codebase quy mô lớn, tận dụng công cụ tìm kiếm và chỉnh sửa để xử lý các tác vụ ở nhiều mức độ khó khác nhau
Kết hợp kiến trúc Mixture-of-Experts(MoE) và học tăng cường(RL) để hỗ trợ hiểu và sinh ngữ cảnh dài hạn trong chỉnh sửa mã, lập kế hoạch và trả lời
Thông qua đánh giá Cursor Bench, không chỉ đo độ chính xác của mô hình mà còn đánh giá tính nhất quán với codebase và mức độ tuân thủ các thực hành kỹ thuật
Tận dụng hạ tầng RL bất đồng bộ dựa trên PyTorch·Ray và huấn luyện độ chính xác thấp MXFP8 để huấn luyện hiệu quả trên hàng nghìn GPU và cải thiện tốc độ suy luận

Tổng quan về Composer

Composer là một mô hình tác tử mới được phát triển với mục tiêu trí tuệ và tốc độ cho kỹ thuật phần mềm
- Trong benchmark, mô hình ghi nhận tốc độ tạo mã nhanh gấp 4 lần so với các mô hình tương tự
- Được tối ưu hóa trong Cursor như một tác tử chuyên giải quyết vấn đề trên codebase quy mô lớn
Mô hình được huấn luyện để giải quyết các vấn đề ở nhiều mức độ khó khác nhau bằng cách sử dụng công cụ tìm kiếm và chỉnh sửa trong môi trường thực tế
- Qua đó mang lại trải nghiệm phát triển mang tính tương tác tốc độ cao

Bối cảnh phát triển

Composer bắt nguồn từ kinh nghiệm phát triển mô hình tự động hoàn thành mã tùy chỉnh của Cursor(Cursor Tab)
- Nhóm xác nhận rằng các nhà phát triển ưa chuộng những mô hình vừa thông minh vừa phản hồi nhanh
Quảng cáo
Dựa trên mô hình thử nghiệm ban đầu Cheetah, Composer được thiết kế như một phiên bản nhanh hơn và thông minh hơn đã được cải tiến từ đó
- Mục tiêu là xây dựng một mô hình cung cấp phản hồi tức thì trong khi vẫn duy trì luồng làm việc của nhà phát triển

Kiến trúc mô hình và phương pháp huấn luyện

Composer là một mô hình ngôn ngữ Mixture-of-Experts(MoE), hỗ trợ hiểu và sinh ngữ cảnh dài hạn
Mô hình được chuyên biệt hóa cho nhiều môi trường phát triển khác nhau thông qua học tăng cường(RL)
- Ở mỗi bước huấn luyện, mô hình nhận mô tả bài toán và tạo ra chỉnh sửa mã, kế hoạch và câu trả lời tối ưu
- Mô hình sử dụng các công cụ như đọc và chỉnh sửa tệp, thực thi lệnh terminal, tìm kiếm ngữ nghĩa trên toàn bộ codebase
Trong quá trình RL, mô hình tự học các hành vi hữu ích như thực hiện tìm kiếm phức tạp, sửa lỗi linter, viết và chạy unit test

Đánh giá và benchmark

Cursor Bench là bộ đánh giá nội bộ bao gồm các yêu cầu kỹ thuật thực tế và lời giải tối ưu
- Bộ này đo lường độ chính xác của mô hình, mức độ tuân thủ các trừu tượng của codebase, và mức độ phù hợp với các thực hành kỹ thuật phần mềm
Composer được xếp vào nhóm mô hình “Fast Frontier”, được so sánh với Haiku 4.5, Gemini Flash 2.5 và các mô hình khác hướng tới suy luận hiệu quả
- Dù chậm hơn các mô hình Frontier hàng đầu như GPT-5, Sonnet 4.5, mô hình vẫn có hiệu quả cao so với tốc độ

Hạ tầng và thiết kế hệ thống

Để huấn luyện mô hình MoE quy mô lớn, Cursor đã xây dựng hạ tầng RL bất đồng bộ dựa trên PyTorch và Ray
- Kết hợp MXFP8 MoE kernel, song song hóa chuyên gia, và song song dữ liệu phân mảnh lai
- Mở rộng huấn luyện trên hàng nghìn NVIDIA GPU đồng thời giảm thiểu chi phí truyền thông
Thông qua huấn luyện độ chính xác thấp MXFP8, mô hình vừa cải thiện tốc độ suy luận vừa không cần lượng tử hóa hậu xử lý
Trong RL, mô hình có thể gọi mọi công cụ của Cursor Agent
- Hỗ trợ chỉnh sửa mã, tìm kiếm ngữ nghĩa, grep chuỗi, thực thi lệnh terminal, v.v.
- Để làm điều này, hệ thống chạy song song hàng trăm nghìn môi trường sandbox trên đám mây
- Mở rộng hạ tầng Background Agents hiện có để xử lý tải huấn luyện kiểu bùng nổ
Quảng cáo

Ứng dụng nội bộ và triển khai

Nhóm Cursor đang tích cực sử dụng Composer cho công việc phát triển nội bộ
- Nhiều kỹ sư sử dụng Composer trong phát triển phần mềm hằng ngày
Qua lần công bố này, Cursor kỳ vọng các nhà phát triển khác cũng có thể tận dụng hữu ích công cụ này

Phụ lục: Phân loại benchmark nội bộ

Fast Frontier: mô hình suy luận hiệu quả (Haiku 4.5, Gemini Flash 2.5, v.v.)
Best Open: mô hình có trọng số mở (Qwen Coder, GLM 4.6, v.v.)
Frontier 7/2025: các mô hình tốt nhất tính đến tháng 7/2025
Best Frontier: các mô hình có hiệu năng cao hơn Composer như GPT-5, Sonnet 4.5
Cách tính Tokens per Second được chuẩn hóa theo tokenizer mới nhất của Anthropic

1 bình luận

GN⁺ 2025-10-30

Ý kiến trên Hacker News

Tôi thấy thiếu minh bạch quá nhiều
Hiệu năng mô hình chỉ được công bố bằng benchmark nội bộ, mà ngay cả dữ liệu đó cũng không công khai nên khó tin cậy
Có nói về huấn luyện RL, nhưng hoàn toàn không có thông tin cốt lõi như pre-training hay có fine-tuning hay không
Cho đến khi họ công bố chi tiết hoặc có benchmark độc lập từ bên ngoài, tôi vẫn hoài nghi mọi tuyên bố
- Tôi hiểu lý do không công bố benchmark nội bộ
  Nếu công bố, dữ liệu đó có thể bị đưa vào tập huấn luyện của các LLM khác và làm mất tính hiệu lực khoa học
  Nhưng nếu giữ kín thì ngược lại cũng có thể họ đã chọn lọc dữ liệu có lợi cho mình
  Rốt cuộc đây là một thế tiến thoái lưỡng nan rất khó giải quyết
- Thực ra tôi nghĩ điều quan trọng là dữ liệu người dùng thực tế
  Cursor thu thập hàng nghìn dữ liệu accept/reject theo thời gian thực, nên đó là vòng phản hồi tốt nhất
  Phản ứng của người dùng thực tế hữu ích hơn benchmark rất nhiều, và nhờ đó có thể cải thiện mô hình nhanh chóng
  Gần đây họ còn thêm tính năng tích hợp multi-agent + git tree, tạo ra cấu trúc tận dụng hành vi người dùng như tín hiệu học tập
  Tôi nghĩ kiểu cạnh tranh này sẽ nâng chất lượng của toàn thị trường và tạo ra vòng tuần hoàn tích cực giúp giảm chi phí sử dụng
Tôi vẫn cảm thấy mô hình Tab của Cursor là tốt nhất
Nội dung liên quan được tổng hợp khá rõ trong bài blog chính thức
Nếu có thể áp dụng cách tiếp cận này sang mô hình agentic coding thì sẽ thực sự rất thú vị
- Đội của chúng tôi cũng dùng Tab rất nhiều
  Động lực của dự án này ngay từ đầu cũng xuất phát từ ý tưởng tạo ra một tác nhân kiểu Tab
- Không biết bạn đã từng dùng Windsurfs chưa
- Mô hình Tab đúng là tốt, nhưng đôi khi tôi cũng thấy nó giống như một cuộc đua làm roi ngựa tốt hơn
  Tôi gần như luôn để Claude Code chạy thường trực, còn Tab chỉ can thiệp khi mô hình hoàn toàn bị bí
  Điều ấn tượng là những tình huống thất bại như vậy đang ngày càng ít đi
- Mô hình Tab rất xuất sắc, nhưng đáng tiếc là hiện tại nó chưa hiểu được ngữ cảnh của phiên chat AI đang diễn ra
- Tính năng thì tốt nhưng phím tắt chưa ổn
  Giá mà đổi thành kiểu shift+tab thì hay hơn
  Mỗi lần tôi tự viết mã lại có cảm giác đang phải tranh giành thụt đầu dòng với AI nên khá khó chịu
Tôi là nhà nghiên cứu ML của Cursor và đã tham gia dự án này
Rất hoan nghênh phản hồi về mô hình hoặc bài blog
- Phần mô tả hệ thống rất ấn tượng
  Nhưng nếu Composer là mô hình mở được fine-tune bằng RL, tôi thắc mắc vì sao vẫn giữ kín trọng số
  Một chút lợi thế hiệu năng sẽ sớm biến mất, nên ngược lại chiến lược mở có vẻ sẽ có lợi hơn để xây dựng niềm tin với nhà phát triển
  Cá nhân tôi không mấy hứng thú với mô hình đóng
- Thật sự rất ấn tượng
  Trước đây tôi từng thử Cursor rồi bỏ cuộc, nhưng lần này Composer1 nhanh và chính xác hơn GPT5 Codex rất nhiều
  Cả tốc độ lẫn chất lượng đều tốt nên tôi định dùng lại
- Biểu đồ đầu tiên trong blog quá mơ hồ
  Sẽ công bằng hơn nếu có phiên bản hiển thị tên từng mô hình riêng lẻ thay vì nhóm lại
- Hôm nay tôi dùng thử Composer, Sonnet 4.5 và Gemini 2.5 Pro cùng nhau, và thấy sự kết hợp giữa tốc độ và chất lượng của Composer là thỏa mãn nhất
  Tôi dùng Claude cho giai đoạn lập kế hoạch, nhưng ở giai đoạn thực thi thì Composer hiệu quả hơn nhiều
- Nhìn biểu đồ log thì có vẻ cần thêm khoảng 50% năng lực tính toán nữa để đạt đến mô hình frontier, nên tôi tò mò vì sao họ dừng huấn luyện ở đó
Khoảng mức Sonnet 4.5 là ngưỡng chất lượng tối thiểu mà tôi có thể chấp nhận
Điều quan trọng hơn tốc độ là không phải vật lộn để lấy được đầu ra mình muốn
Có thể tôi hiểu nhầm, nhưng tôi tò mò liệu các mô hình được so sánh trong bài này có phải đều là mô hình nội bộ của Cursor không
- Sonnet 4.5 mới ra được một tháng mà đã bị xem là “mức tối thiểu” thì cũng khá thú vị
- Tôi nghĩ có hai kiểu người dùng
  Một kiểu muốn mô hình tự chủ xử lý các tác vụ dài,
  kiểu còn lại muốn tương tác và cộng tác với mô hình
  Với nhóm sau, tốc độ quan trọng hơn rất nhiều, còn với nhóm đầu thì trí tuệ quan trọng hơn
  Với tôi thì việc thiếu hiểu ngữ cảnh mới là vấn đề lớn hơn, nên còn tùy tình huống
- Sonnet 4.5 rất xuất sắc, nhưng không biết bạn đã thử Composer chưa
- Tôi cũng tương tự
  Dùng mô hình ngoài Claude thì tốn token hơn và hiệu quả kém hơn
  Claude 4.5 Sonnet giải quyết cùng một công việc với chi phí chỉ bằng một nửa
- Lý do tôi nhắc đến chuyện so sánh là để cho thấy Cursor nghiêm túc thế nào với trải nghiệm người dùng lấy tốc độ làm trung tâm
  Tôi thích phản hồi nhanh hơn là độ chính xác tuyệt đối
Tôi vui vì có mô hình mới, nhưng khó mà tin được khi biểu đồ thiếu số liệu và tên mô hình
- Trong chú thích có giải thích liên quan đến mô hình
  Họ nói khó công bố chi tiết huấn luyện, nhưng đã thu được kết quả cho thấy RL mở rộng tốt
Nhiều người chỉ trích Cursor, nhưng tôi đã dùng Copilot, Claude Code, Codex, Gemini CLI, Cline và đủ thứ khác, và cuối cùng vẫn thấy mức độ hoàn thiện của Cursor là cao nhất
Tốc độ và độ ổn định đặc biệt nổi bật, đúng là mang cảm giác của một sản phẩm thực thụ
- Tôi cũng từng dùng Cursor nhưng đã bỏ vì vấn đề độ tin cậy
  Nhiều khi yêu cầu bị treo hơn 30 giây, trong khi Claude Code nhanh và ổn định hơn nhiều
  Hôm nay tôi thử lại mô hình mới thì Composer1 nhanh thật nhưng vẫn còn lỗi kết nối
- Tôi cũng đã thử nhiều công cụ, nhưng cuối cùng lại quay về Cursor
  Với việc hiện thực hóa nhanh thứ tôi muốn, Cursor là tốt nhất
- Cursor đôi lúc có bị treo, nhưng UI cho phép hoàn tác rất dễ, nên không đến mức khó chịu
  Tự động hoàn thành của nó cũng khá hữu ích khi refactor
- Bạn nói đã thử nhiều lựa chọn thay thế rồi, nhưng không biết Zed thì đã thử chưa?
- Thú vị thật khi bạn đã thử Claude mà vẫn thích Cursor hơn
Trong số các đối thủ, chỉ Cursor là thật sự nghiêm túc về thời gian hoàn tất phản hồi
Cursor hoàn toàn dẫn trước ở khía cạnh đó
- Chúng tôi cũng thích nhiều mô hình khác nhau, nhưng cho rằng điều quan trọng là tìm ra điểm cân bằng giữa nhanh và thông minh (nhà nghiên cứu Cursor)
Tôi đã thử hệ thống mới nhưng lại có cảm giác hiệu năng bị giảm sút
Ngay cả ứng dụng cơ bản cũng không chạy đúng, và nó cũng xử lý thất bại cả CSS lẫn ngữ cảnh terminal
Tốc độ cũng ngày càng chậm, cuối cùng tôi lại quay về Sonnet
Hy vọng đây chưa phải bản ổn định
Tôi thật sự rất thích Cursor
Tôi đã dùng Copilot, Claude và nhiều công cụ khác, nhưng rồi vẫn quay lại Cursor
Đặc biệt tự động hoàn thành Tab rất chính xác trong các công việc refactor
- Một tháng trước tôi đã thử quay về VS Code + Copilot, nhưng bỏ cuộc chỉ sau 4 ngày
  Nó chậm và chất lượng gợi ý thấp
  Cursor nhanh hơn nhiều và các gợi ý cũng hữu ích hơn
  Tuy vậy vì quá nhanh nên đôi khi nó cứ liên tục hiện ra những gợi ý không cần thiết, điều đó hơi đáng tiếc
  Dù vậy vẫn có tính năng snooze nên có thể xử lý được
Có một hình ảnh con bồ nông đi xe đạp của Composer 1
Liên kết ảnh
- Trông ra tốt hơn tôi tưởng rất nhiều

Composer: Mô hình frontier tốc độ cao được xây dựng bằng học tăng cường

Tổng quan về Composer

Bối cảnh phát triển

Kiến trúc mô hình và phương pháp huấn luyện

Đánh giá và benchmark

Hạ tầng và thiết kế hệ thống

Ứng dụng nội bộ và triển khai

Phụ lục: Phân loại benchmark nội bộ

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News