- Cursor công bố đã tiến hành một thí nghiệm trong đó ‘tác nhân lập trình tự chủ’ hoạt động suốt nhiều tuần, nhằm khám phá liệu có thể tự động hóa những dự án mà đội ngũ con người phải mất nhiều tháng hay không
- Để kiểm chứng hệ thống này, họ đặt ra mục tiêu ‘xây dựng trình duyệt web từ đầu’ và tuyên bố các tác nhân đã viết hơn 1 triệu dòng mã trong khoảng một tuần
- Tuy nhiên, kho GitHub công khai (fastrender) cho thấy nhiều lỗi biên dịch và CI thất bại, xác nhận rằng đây không phải một trình duyệt có thể chạy được
- Cursor không đưa ra bằng chứng về việc nó có hoạt động hay không, demo có thể tái hiện, hay commit có thể build, và cũng không có căn cứ thành công cụ thể nào cho kết quả thí nghiệm
- Dù vậy, Cursor vẫn diễn đạt rằng “các tác nhân đã đạt được tiến triển có ý nghĩa trong dự án lớn”, để lại ấn tượng thành công dù chưa có kiểm chứng hiệu năng thực tế
Tổng quan về thí nghiệm trên blog của Cursor
- Ngày 14 tháng 1 năm 2026, Cursor đăng bài blog “Scaling long-running autonomous coding”
- Mục tiêu là khám phá “có thể mở rộng các tác nhân lập trình tự chủ đến mức nào cho những dự án mà đội ngũ con người phải mất nhiều tháng”
- Sau khi thử nhiều cách tiếp cận, Cursor giải thích rằng họ đã đạt tới một hệ thống “giải quyết được vấn đề điều phối và có thể mở rộng sang các dự án lớn mà không cần một tác nhân đơn lẻ”
- Để kiểm chứng, họ thực hiện thí nghiệm ‘xây dựng trình duyệt web từ đầu’, và cho biết các tác nhân đã viết hơn 1 triệu dòng mã trong khoảng một tuần trên 1.000 tệp
Sự mơ hồ của kết quả thí nghiệm
- Cursor khẳng định rằng “các tác nhân mới đã hiểu được codebase và đạt tiến triển có ý nghĩa”, và “hàng trăm worker đã cùng lúc push lên cùng một nhánh”
- Tuy nhiên, không nói rõ liệu trình duyệt có thực sự hoạt động hay không
- Bài viết có kèm video chụp màn hình, nhưng không có demo chạy được hay phần mô tả kết quả cụ thể
- Ngoài câu “xây dựng trình duyệt từ đầu là cực kỳ khó”, không có bằng chứng nào cho thấy nó hoạt động
Kết quả kiểm chứng codebase
- Khi trực tiếp build kho lưu trữ, xảy ra lỗi biên dịch thư viện ‘fastrender’ (34 lỗi, 94 cảnh báo)
- Kết quả chạy GitHub Actions gần đây cũng cho thấy lỗi workflow và nhiều lỗi biên dịch
- Trong 100 commit gần nhất, không có commit nào build thành công
- Phần mã bên trong được đánh giá là sản phẩm ở mức ‘AI slop’ không có ý đồ hay cấu trúc
- Có vẻ như ngay cả các lệnh
cargo build hay cargo check cũng chưa từng được chạy
- Issue liên quan #98 hiện vẫn đang mở
Vấn đề về tính tái hiện và độ tin cậy
- Blog của Cursor không hề có mô tả nào về cách chạy, kết quả kỳ vọng hay cách nó hoạt động
- Không cung cấp demo có thể tái hiện, hướng dẫn build, hay commit đã được kiểm chứng (tag/release/commit)
- Dù vậy, cách cấu trúc và diễn đạt của bài viết lại khiến nó trông như một “nguyên mẫu đang hoạt động”
- Cursor không nói rõ rằng “nó hoạt động”, nên không phải là tuyên bố sai sự thật, nhưng vẫn để lại ấn tượng ngầm về thành công
Kết luận và đánh giá
- Cursor không tuyên bố đây là “trình duyệt đạt mức production”, nhưng các cách diễn đạt như ‘tiến triển có ý nghĩa’ và ‘xây dựng trình duyệt’ khiến thí nghiệm trông như đã thành công
- Tuy nhiên, hoàn toàn không có bằng chứng hoạt động, mã có thể build, hay kết quả có thể tái hiện
- Tuyên bố rằng “hàng trăm tác nhân đã cộng tác và đạt tiến triển trong một dự án lớn” là một khẳng định không có bất kỳ bằng chứng nào
- Nó thậm chí còn không đáp ứng được tiêu chuẩn tối thiểu là “có thể biên dịch và render được một tệp HTML đơn giản”
- Cuối cùng, thí nghiệm của Cursor không cho thấy nhiều về khả năng mở rộng của lập trình tự chủ, mà chủ yếu phơi bày giới hạn của việc sinh mã ở quy mô lớn
5 bình luận
kkk
Bài liên quan - 장시간 실행되는 자율 코딩의 확장
Thực ra là đã cho thấy rất thành công rằng các nhà phát triển vẫn chưa thể bị sa thải được~
Kết quả thành công = này lũ lãnh đạo, nghĩa là các người vẫn chưa thể sa thải bọn tôi đâu
Ý kiến trên Hacker News
Ý kiến cho rằng thử nghiệm tuần này rốt cuộc chỉ ở mức một wrapper không hoạt động của Servo (trình duyệt viết bằng Rust) lẽ ra phải được đẩy lên đầu
Có thể xem bình luận liên quan tại đây
Với các LLM mới nhất, có vẻ chúng cũng khá hiệu quả trong việc tẩy rửa giấy phép hoặc sao chép phụ thuộc. Có thể sẽ là một benchmark mới thú vị
Xin nâng ly với Cursor vì đã mang đến màn giải trí hôm nay
Nhưng rồi hóa ra nó không có cả engine và ở trạng thái hỏng hoàn toàn, đúng là Cursor thật xấu hổ
Bài blog chính thức của Cursor được viết với giọng điệu khá thận trọng, nhưng
trên Twitter lại tạo cảm giác phóng đại kiểu “đã làm ra trình duyệt bằng GPT-5.2”
Thực tế là họ tách hàng nghìn agent ra để tích lũy commit suốt nhiều tuần, nhưng sản phẩm làm ra vẫn chưa chạy được
ourshoặctheirsthì lúc nào cũng giải quyết đượcTôi đã tự kiểm tra bằng cách chạy
cargo checkvới 100 commit gần nhấtKết quả là tất cả đều thất bại. Xem log kết quả
Kiểu quảng bá này rốt cuộc có vẻ là một phần của chiến lược gọi vốn
Trước đây họ cũng nhiều lần đăng các bài viết mơ hồ, chẳng hạn như mô hình nội bộ đã viết được bao nhiêu code
Không có nghĩa là hoàn toàn không có nội dung thực chất, nhưng vẫn đáng tiếc khi họ không chia sẻ công khai kết quả
Cursor từng rất được chú ý, nhưng giờ agent chạy trong terminal mới là xu hướng chính
Công ty chúng tôi cũng đang hủy hợp đồng với Cursor để chuyển sang Claude Code
Có lẽ dự án trình duyệt lần này là nỗ lực để thu hút sự chú ý trở lại
Lúc GPT-5 ra mắt cũng tương tự. Tiến bộ thực chất đang chậm lại
Cuối cùng, câu trả lời vẫn là kiểm chứng thay vì niềm tin
Cursor cũng đang làm một bản sao Excel bằng thí nghiệm tương tự
Theo repo GitHub,
trong 160.000 lần workflow chỉ có 247 lần thành công, còn đa số thất bại vì vượt ngân sách
Các agent hoàn toàn không bận tâm đến những ràng buộc như vậy
Commit mới nhất giờ đã có thể build và chạy được (ít nhất là trên Mac)
Nhưng nó vẫn là một mớ mã hỗn độn 3 triệu dòng
Trang xuất hiện trong video quảng bá của Cursor không render được. Có lẽ họ đã dùng một bản build khác
cargo checkthì qua, nhưng nếu xemgit logsẽ thấy có gì đó đáng ngờCó dấu vết cho thấy không phải agent mà là con người đã trực tiếp chỉnh sửa
Xem phân tích log commit
Tôi nghĩ bài gốc đơn giản chỉ là một tiêu đề câu click
Cụm “hàng nghìn agent AI đã tạo ra một trình duyệt” quá kích thích sự tò mò
Thật tiếc khi cụm “tin giả” đã bị nhiễm màu chính trị, vì trong lĩnh vực này nó là cách diễn đạt quá đúng
CEO của Cursor khẳng định rằng họ “đã xây dựng rendering engine và JS VM bằng Rust từ đầu”, nhưng
nếu xem danh sách dependency thực tế
thì họ dùng nguyên các thư viện dựa trên Servo như html5ever, cssparser, rquickjs
Rốt cuộc nó chỉ ở mức bọc ngoài Servo, thậm chí còn không biên dịch được
Đa số mọi người chỉ cần nhìn code là biết ngay, nên có lẽ họ nghĩ rằng công chúng sẽ không kiểm tra
Nhận thức sai kiểu này cứ thế lan ra, rồi đến lúc được đính chính thì cũng chẳng ai quan tâm
Vậy mà thành 3M dòng thì đúng là buồn cười
Xem thêm tại đây
Đó là khu vực khó nhất trong trình duyệt
Tôi nghĩ cách làm marketing kiểu này còn phản tác dụng
Thiết kế và UX của Cursor rất tốt, nhưng khi làm việc chuyên sâu thì lỗi lại quá nhiều
Có khá hơn đôi chút sau khi thêm mô hình Claude, nhưng vẫn thua Antigravity
Thêm nữa, giới hạn gói $20 cũng hết rất nhanh. Khả năng mô hình tốt hơn gấp 10 lần mà lại rẻ hơn 10 lần là rất thấp
Nhìn cách mô hình kinh doanh của OpenAI chuyển dần sang dựa vào quảng cáo,
tôi lại có cảm giác Google hiểu công nghệ này thực tế hơn
Những câu chuyện kiểu này rốt cuộc là dành cho những người bán xẻng
Những CEO không hiểu rõ có thể bị lừa bởi các tin kiểu này và đi sa thải nhân sự thật