‘Thí nghiệm trình duyệt’ mới nhất của Cursor ngụ ý thành công dù không có bằng chứng

(embedding-shapes.github.io)

5 điểm bởi GN⁺ 2026-01-17 | 5 bình luận | Chia sẻ qua WhatsApp

Cursor công bố đã tiến hành một thí nghiệm trong đó ‘tác nhân lập trình tự chủ’ hoạt động suốt nhiều tuần, nhằm khám phá liệu có thể tự động hóa những dự án mà đội ngũ con người phải mất nhiều tháng hay không
Để kiểm chứng hệ thống này, họ đặt ra mục tiêu ‘xây dựng trình duyệt web từ đầu’ và tuyên bố các tác nhân đã viết hơn 1 triệu dòng mã trong khoảng một tuần
Tuy nhiên, kho GitHub công khai (fastrender) cho thấy nhiều lỗi biên dịch và CI thất bại, xác nhận rằng đây không phải một trình duyệt có thể chạy được
Cursor không đưa ra bằng chứng về việc nó có hoạt động hay không, demo có thể tái hiện, hay commit có thể build, và cũng không có căn cứ thành công cụ thể nào cho kết quả thí nghiệm
Dù vậy, Cursor vẫn diễn đạt rằng “các tác nhân đã đạt được tiến triển có ý nghĩa trong dự án lớn”, để lại ấn tượng thành công dù chưa có kiểm chứng hiệu năng thực tế

Tổng quan về thí nghiệm trên blog của Cursor

Ngày 14 tháng 1 năm 2026, Cursor đăng bài blog “Scaling long-running autonomous coding”
- Mục tiêu là khám phá “có thể mở rộng các tác nhân lập trình tự chủ đến mức nào cho những dự án mà đội ngũ con người phải mất nhiều tháng”
Sau khi thử nhiều cách tiếp cận, Cursor giải thích rằng họ đã đạt tới một hệ thống “giải quyết được vấn đề điều phối và có thể mở rộng sang các dự án lớn mà không cần một tác nhân đơn lẻ”
Để kiểm chứng, họ thực hiện thí nghiệm ‘xây dựng trình duyệt web từ đầu’, và cho biết các tác nhân đã viết hơn 1 triệu dòng mã trong khoảng một tuần trên 1.000 tệp
- Mã nguồn được công khai trên kho GitHub wilsonzlin/fastrender

Sự mơ hồ của kết quả thí nghiệm

Cursor khẳng định rằng “các tác nhân mới đã hiểu được codebase và đạt tiến triển có ý nghĩa”, và “hàng trăm worker đã cùng lúc push lên cùng một nhánh”
- Tuy nhiên, không nói rõ liệu trình duyệt có thực sự hoạt động hay không
Bài viết có kèm video chụp màn hình, nhưng không có demo chạy được hay phần mô tả kết quả cụ thể
Ngoài câu “xây dựng trình duyệt từ đầu là cực kỳ khó”, không có bằng chứng nào cho thấy nó hoạt động

Kết quả kiểm chứng codebase

Khi trực tiếp build kho lưu trữ, xảy ra lỗi biên dịch thư viện ‘fastrender’ (34 lỗi, 94 cảnh báo)
Kết quả chạy GitHub Actions gần đây cũng cho thấy lỗi workflow và nhiều lỗi biên dịch
- Trong 100 commit gần nhất, không có commit nào build thành công
Phần mã bên trong được đánh giá là sản phẩm ở mức ‘AI slop’ không có ý đồ hay cấu trúc
- Có vẻ như ngay cả các lệnh cargo build hay cargo check cũng chưa từng được chạy
- Issue liên quan #98 hiện vẫn đang mở
Quảng cáo

Vấn đề về tính tái hiện và độ tin cậy

Blog của Cursor không hề có mô tả nào về cách chạy, kết quả kỳ vọng hay cách nó hoạt động
Không cung cấp demo có thể tái hiện, hướng dẫn build, hay commit đã được kiểm chứng (tag/release/commit)
Dù vậy, cách cấu trúc và diễn đạt của bài viết lại khiến nó trông như một “nguyên mẫu đang hoạt động”
Cursor không nói rõ rằng “nó hoạt động”, nên không phải là tuyên bố sai sự thật, nhưng vẫn để lại ấn tượng ngầm về thành công

Kết luận và đánh giá

Cursor không tuyên bố đây là “trình duyệt đạt mức production”, nhưng các cách diễn đạt như ‘tiến triển có ý nghĩa’ và ‘xây dựng trình duyệt’ khiến thí nghiệm trông như đã thành công
Tuy nhiên, hoàn toàn không có bằng chứng hoạt động, mã có thể build, hay kết quả có thể tái hiện
Tuyên bố rằng “hàng trăm tác nhân đã cộng tác và đạt tiến triển trong một dự án lớn” là một khẳng định không có bất kỳ bằng chứng nào
- Nó thậm chí còn không đáp ứng được tiêu chuẩn tối thiểu là “có thể biên dịch và render được một tệp HTML đơn giản”
Cuối cùng, thí nghiệm của Cursor không cho thấy nhiều về khả năng mở rộng của lập trình tự chủ, mà chủ yếu phơi bày giới hạn của việc sinh mã ở quy mô lớn

5 bình luận

sinbumu 2026-01-19

Thực ra là đã cho thấy rất thành công rằng các nhà phát triển vẫn chưa thể bị sa thải được~

jjw9512151 2026-01-18

Kết quả thành công = này lũ lãnh đạo, nghĩa là các người vẫn chưa thể sa thải bọn tôi đâu

kimjoin2 2026-01-18

kkk

laeyoung 2026-01-17

Bài liên quan - 장시간 실행되는 자율 코딩의 확장

GN⁺ 2026-01-17

Ý kiến trên Hacker News

Ý kiến cho rằng thử nghiệm tuần này rốt cuộc chỉ ở mức một wrapper không hoạt động của Servo (trình duyệt viết bằng Rust) lẽ ra phải được đẩy lên đầu
Có thể xem bình luận liên quan tại đây
- Tò mò không biết đã có ai thử viết lại bằng AI một dự án mã nguồn mở phổ biến chưa
  Với các LLM mới nhất, có vẻ chúng cũng khá hiệu quả trong việc tẩy rửa giấy phép hoặc sao chép phụ thuộc. Có thể sẽ là một benchmark mới thú vị
- Tôi có thấy một tweet nói rằng thực sự đã có người biên dịch thành công
- Kết quả tiêu cực cũng có giá trị. Nếu cố tình công khai thì đáng tôn trọng, còn nếu vô tình lộ ra thì khá buồn cười
  Xin nâng ly với Cursor vì đã mang đến màn giải trí hôm nay
- Lúc đầu nhìn ảnh chụp màn hình tôi thoáng thấy công việc của mình đang gặp nguy hiểm
  Nhưng rồi hóa ra nó không có cả engine và ở trạng thái hỏng hoàn toàn, đúng là Cursor thật xấu hổ
Bài blog chính thức của Cursor được viết với giọng điệu khá thận trọng, nhưng
trên Twitter lại tạo cảm giác phóng đại kiểu “đã làm ra trình duyệt bằng GPT-5.2”
Thực tế là họ tách hàng nghìn agent ra để tích lũy commit suốt nhiều tuần, nhưng sản phẩm làm ra vẫn chưa chạy được
- Cụm từ “đã giải quyết merge conflict” không có nhiều ý nghĩa. Chỉ cần dùng chiến lược ours hoặc theirs thì lúc nào cũng giải quyết được
- Vậy thì có ai thực sự chạy được nó chưa? Ảnh chụp màn hình đó từ đâu ra? Trong mã có quá nhiều lỗi
- Nếu đọc nội dung trong liên kết thì đúng là trông như trình duyệt đã chạy được, nên tôi không hiểu sao lại gọi đó là “thận trọng”
Tôi đã tự kiểm tra bằng cách chạy cargo check với 100 commit gần nhất
Kết quả là tất cả đều thất bại. Xem log kết quả
- Hiện có một bình luận mới nói rằng giờ nó đã biên dịch được
- Thật ra cũng có thể ảnh chụp màn hình đã bị chỉnh sửa. Theo lưỡi dao Occam, đó là lời giải thích đơn giản nhất
Kiểu quảng bá này rốt cuộc có vẻ là một phần của chiến lược gọi vốn
Trước đây họ cũng nhiều lần đăng các bài viết mơ hồ, chẳng hạn như mô hình nội bộ đã viết được bao nhiêu code
Không có nghĩa là hoàn toàn không có nội dung thực chất, nhưng vẫn đáng tiếc khi họ không chia sẻ công khai kết quả
- Không giống các nhà cung cấp mô hình khác, điều tôi luôn khó chịu là họ không công bố benchmark
  Cursor từng rất được chú ý, nhưng giờ agent chạy trong terminal mới là xu hướng chính
  Công ty chúng tôi cũng đang hủy hợp đồng với Cursor để chuyển sang Claude Code
  Có lẽ dự án trình duyệt lần này là nỗ lực để thu hút sự chú ý trở lại
- Kiểu phóng đại này rốt cuộc chỉ là thổi phồng định giá thị trường. Không thể biện minh được
- Dạo này mọi công ty LLM đều dựa vào kiểu marketing “vibe-coded” hơn là sự thật
  Lúc GPT-5 ra mắt cũng tương tự. Tiến bộ thực chất đang chậm lại
- Trước đây tôi ghét những sự cường điệu kiểu này, nhưng giờ đã xem đó là thực tế của thế giới
  Cuối cùng, câu trả lời vẫn là kiểm chứng thay vì niềm tin
Cursor cũng đang làm một bản sao Excel bằng thí nghiệm tương tự
Theo repo GitHub,
trong 160.000 lần workflow chỉ có 247 lần thành công, còn đa số thất bại vì vượt ngân sách
Các agent hoàn toàn không bận tâm đến những ràng buộc như vậy
Commit mới nhất giờ đã có thể build và chạy được (ít nhất là trên Mac)
Nhưng nó vẫn là một mớ mã hỗn độn 3 triệu dòng
Trang xuất hiện trong video quảng bá của Cursor không render được. Có lẽ họ đã dùng một bản build khác
- cargo check thì qua, nhưng nếu xem git log sẽ thấy có gì đó đáng ngờ
  Có dấu vết cho thấy không phải agent mà là con người đã trực tiếp chỉnh sửa
  Xem phân tích log commit
Tôi nghĩ bài gốc đơn giản chỉ là một tiêu đề câu click
Cụm “hàng nghìn agent AI đã tạo ra một trình duyệt” quá kích thích sự tò mò
- Từ giờ khi ai đó nói “AI đã tạo ra trình duyệt”, ta có thể đưa ví dụ này ra làm liên kết
- Các dự án thực ra không chạy được vẫn đang quay vòng rất nhanh trong chu kỳ tin tức
  Thật tiếc khi cụm “tin giả” đã bị nhiễm màu chính trị, vì trong lĩnh vực này nó là cách diễn đạt quá đúng
CEO của Cursor khẳng định rằng họ “đã xây dựng rendering engine và JS VM bằng Rust từ đầu”, nhưng
nếu xem danh sách dependency thực tế
thì họ dùng nguyên các thư viện dựa trên Servo như html5ever, cssparser, rquickjs
Rốt cuộc nó chỉ ở mức bọc ngoài Servo, thậm chí còn không biên dịch được
- Tôi không hiểu vì sao họ lại khẳng định đã tự triển khai CSS và JS
  Đa số mọi người chỉ cần nhìn code là biết ngay, nên có lẽ họ nghĩ rằng công chúng sẽ không kiểm tra
  Nhận thức sai kiểu này cứ thế lan ra, rồi đến lúc được đính chính thì cũng chẳng ai quan tâm
- Thực tế nó được ghép từ các thư viện sẵn có như parser HTML/CSS của Servo, QuickJS, resvg, egui, wgpu
  Vậy mà thành 3M dòng thì đúng là buồn cười
- Nó còn bao gồm cả selectors, taffy, và một số phần dùng dependency phiên bản cũ
- JS engine chỉ là bản sao một dự án cá nhân được chép vào thư mục vendor
  Xem thêm tại đây
- Tôi cũng tò mò phần mã layout là lấy từ Servo hay do Cursor tự viết
  Đó là khu vực khó nhất trong trình duyệt
Tôi nghĩ cách làm marketing kiểu này còn phản tác dụng
Thiết kế và UX của Cursor rất tốt, nhưng khi làm việc chuyên sâu thì lỗi lại quá nhiều
Có khá hơn đôi chút sau khi thêm mô hình Claude, nhưng vẫn thua Antigravity
Thêm nữa, giới hạn gói $20 cũng hết rất nhanh. Khả năng mô hình tốt hơn gấp 10 lần mà lại rẻ hơn 10 lần là rất thấp
- Sau khi dùng thử các ứng dụng đầy lỗi của nhiều công ty AI, tôi thấy rằng trong công việc thực tế vẫn cần kỹ năng của con người
  Nhìn cách mô hình kinh doanh của OpenAI chuyển dần sang dựa vào quảng cáo,
  tôi lại có cảm giác Google hiểu công nghệ này thực tế hơn
Những câu chuyện kiểu này rốt cuộc là dành cho những người bán xẻng
Những CEO không hiểu rõ có thể bị lừa bởi các tin kiểu này và đi sa thải nhân sự thật