5 điểm bởi GN⁺ 2026-01-17 | 5 bình luận | Chia sẻ qua WhatsApp
  • Cursor công bố đã tiến hành một thí nghiệm trong đó ‘tác nhân lập trình tự chủ’ hoạt động suốt nhiều tuần, nhằm khám phá liệu có thể tự động hóa những dự án mà đội ngũ con người phải mất nhiều tháng hay không
  • Để kiểm chứng hệ thống này, họ đặt ra mục tiêu ‘xây dựng trình duyệt web từ đầu’ và tuyên bố các tác nhân đã viết hơn 1 triệu dòng mã trong khoảng một tuần
  • Tuy nhiên, kho GitHub công khai (fastrender) cho thấy nhiều lỗi biên dịch và CI thất bại, xác nhận rằng đây không phải một trình duyệt có thể chạy được
  • Cursor không đưa ra bằng chứng về việc nó có hoạt động hay không, demo có thể tái hiện, hay commit có thể build, và cũng không có căn cứ thành công cụ thể nào cho kết quả thí nghiệm
  • Dù vậy, Cursor vẫn diễn đạt rằng “các tác nhân đã đạt được tiến triển có ý nghĩa trong dự án lớn”, để lại ấn tượng thành công dù chưa có kiểm chứng hiệu năng thực tế

Tổng quan về thí nghiệm trên blog của Cursor

  • Ngày 14 tháng 1 năm 2026, Cursor đăng bài blog Scaling long-running autonomous coding
    • Mục tiêu là khám phá “có thể mở rộng các tác nhân lập trình tự chủ đến mức nào cho những dự án mà đội ngũ con người phải mất nhiều tháng”
  • Sau khi thử nhiều cách tiếp cận, Cursor giải thích rằng họ đã đạt tới một hệ thống “giải quyết được vấn đề điều phối và có thể mở rộng sang các dự án lớn mà không cần một tác nhân đơn lẻ”
  • Để kiểm chứng, họ thực hiện thí nghiệm ‘xây dựng trình duyệt web từ đầu’, và cho biết các tác nhân đã viết hơn 1 triệu dòng mã trong khoảng một tuần trên 1.000 tệp

Sự mơ hồ của kết quả thí nghiệm

  • Cursor khẳng định rằng “các tác nhân mới đã hiểu được codebase và đạt tiến triển có ý nghĩa”, và “hàng trăm worker đã cùng lúc push lên cùng một nhánh”
    • Tuy nhiên, không nói rõ liệu trình duyệt có thực sự hoạt động hay không
  • Bài viết có kèm video chụp màn hình, nhưng không có demo chạy được hay phần mô tả kết quả cụ thể
  • Ngoài câu “xây dựng trình duyệt từ đầu là cực kỳ khó”, không có bằng chứng nào cho thấy nó hoạt động

Kết quả kiểm chứng codebase

  • Khi trực tiếp build kho lưu trữ, xảy ra lỗi biên dịch thư viện ‘fastrender’ (34 lỗi, 94 cảnh báo)
  • Kết quả chạy GitHub Actions gần đây cũng cho thấy lỗi workflow và nhiều lỗi biên dịch
    • Trong 100 commit gần nhất, không có commit nào build thành công
  • Phần mã bên trong được đánh giá là sản phẩm ở mức ‘AI slop’ không có ý đồ hay cấu trúc
    • Có vẻ như ngay cả các lệnh cargo build hay cargo check cũng chưa từng được chạy
    • Issue liên quan #98 hiện vẫn đang mở

Vấn đề về tính tái hiện và độ tin cậy

  • Blog của Cursor không hề có mô tả nào về cách chạy, kết quả kỳ vọng hay cách nó hoạt động
  • Không cung cấp demo có thể tái hiện, hướng dẫn build, hay commit đã được kiểm chứng (tag/release/commit)
  • Dù vậy, cách cấu trúc và diễn đạt của bài viết lại khiến nó trông như một “nguyên mẫu đang hoạt động”
  • Cursor không nói rõ rằng “nó hoạt động”, nên không phải là tuyên bố sai sự thật, nhưng vẫn để lại ấn tượng ngầm về thành công

Kết luận và đánh giá

  • Cursor không tuyên bố đây là “trình duyệt đạt mức production”, nhưng các cách diễn đạt như ‘tiến triển có ý nghĩa’‘xây dựng trình duyệt’ khiến thí nghiệm trông như đã thành công
  • Tuy nhiên, hoàn toàn không có bằng chứng hoạt động, mã có thể build, hay kết quả có thể tái hiện
  • Tuyên bố rằng “hàng trăm tác nhân đã cộng tác và đạt tiến triển trong một dự án lớn”một khẳng định không có bất kỳ bằng chứng nào
    • Nó thậm chí còn không đáp ứng được tiêu chuẩn tối thiểu là “có thể biên dịch và render được một tệp HTML đơn giản”
  • Cuối cùng, thí nghiệm của Cursor không cho thấy nhiều về khả năng mở rộng của lập trình tự chủ, mà chủ yếu phơi bày giới hạn của việc sinh mã ở quy mô lớn

5 bình luận

 
kimjoin2 2026-01-18

kkk

 
sinbumu 2026-01-19

Thực ra là đã cho thấy rất thành công rằng các nhà phát triển vẫn chưa thể bị sa thải được~

 
jjw9512151 2026-01-18

Kết quả thành công = này lũ lãnh đạo, nghĩa là các người vẫn chưa thể sa thải bọn tôi đâu

 
GN⁺ 2026-01-17
Ý kiến trên Hacker News
  • Ý kiến cho rằng thử nghiệm tuần này rốt cuộc chỉ ở mức một wrapper không hoạt động của Servo (trình duyệt viết bằng Rust) lẽ ra phải được đẩy lên đầu
    Có thể xem bình luận liên quan tại đây

    • Tò mò không biết đã có ai thử viết lại bằng AI một dự án mã nguồn mở phổ biến chưa
      Với các LLM mới nhất, có vẻ chúng cũng khá hiệu quả trong việc tẩy rửa giấy phép hoặc sao chép phụ thuộc. Có thể sẽ là một benchmark mới thú vị
    • Tôi có thấy một tweet nói rằng thực sự đã có người biên dịch thành công
    • Kết quả tiêu cực cũng có giá trị. Nếu cố tình công khai thì đáng tôn trọng, còn nếu vô tình lộ ra thì khá buồn cười
      Xin nâng ly với Cursor vì đã mang đến màn giải trí hôm nay
    • Lúc đầu nhìn ảnh chụp màn hình tôi thoáng thấy công việc của mình đang gặp nguy hiểm
      Nhưng rồi hóa ra nó không có cả engine và ở trạng thái hỏng hoàn toàn, đúng là Cursor thật xấu hổ
  • Bài blog chính thức của Cursor được viết với giọng điệu khá thận trọng, nhưng
    trên Twitter lại tạo cảm giác phóng đại kiểu “đã làm ra trình duyệt bằng GPT-5.2”
    Thực tế là họ tách hàng nghìn agent ra để tích lũy commit suốt nhiều tuần, nhưng sản phẩm làm ra vẫn chưa chạy được

    • Cụm từ “đã giải quyết merge conflict” không có nhiều ý nghĩa. Chỉ cần dùng chiến lược ours hoặc theirs thì lúc nào cũng giải quyết được
    • Vậy thì có ai thực sự chạy được nó chưa? Ảnh chụp màn hình đó từ đâu ra? Trong mã có quá nhiều lỗi
    • Nếu đọc nội dung trong liên kết thì đúng là trông như trình duyệt đã chạy được, nên tôi không hiểu sao lại gọi đó là “thận trọng”
  • Tôi đã tự kiểm tra bằng cách chạy cargo check với 100 commit gần nhất
    Kết quả là tất cả đều thất bại. Xem log kết quả

    • Hiện có một bình luận mới nói rằng giờ nó đã biên dịch được
    • Thật ra cũng có thể ảnh chụp màn hình đã bị chỉnh sửa. Theo lưỡi dao Occam, đó là lời giải thích đơn giản nhất
  • Kiểu quảng bá này rốt cuộc có vẻ là một phần của chiến lược gọi vốn
    Trước đây họ cũng nhiều lần đăng các bài viết mơ hồ, chẳng hạn như mô hình nội bộ đã viết được bao nhiêu code
    Không có nghĩa là hoàn toàn không có nội dung thực chất, nhưng vẫn đáng tiếc khi họ không chia sẻ công khai kết quả

    • Không giống các nhà cung cấp mô hình khác, điều tôi luôn khó chịu là họ không công bố benchmark
      Cursor từng rất được chú ý, nhưng giờ agent chạy trong terminal mới là xu hướng chính
      Công ty chúng tôi cũng đang hủy hợp đồng với Cursor để chuyển sang Claude Code
      Có lẽ dự án trình duyệt lần này là nỗ lực để thu hút sự chú ý trở lại
    • Kiểu phóng đại này rốt cuộc chỉ là thổi phồng định giá thị trường. Không thể biện minh được
    • Dạo này mọi công ty LLM đều dựa vào kiểu marketing “vibe-coded” hơn là sự thật
      Lúc GPT-5 ra mắt cũng tương tự. Tiến bộ thực chất đang chậm lại
    • Trước đây tôi ghét những sự cường điệu kiểu này, nhưng giờ đã xem đó là thực tế của thế giới
      Cuối cùng, câu trả lời vẫn là kiểm chứng thay vì niềm tin
  • Cursor cũng đang làm một bản sao Excel bằng thí nghiệm tương tự
    Theo repo GitHub,
    trong 160.000 lần workflow chỉ có 247 lần thành công, còn đa số thất bại vì vượt ngân sách
    Các agent hoàn toàn không bận tâm đến những ràng buộc như vậy

  • Commit mới nhất giờ đã có thể build và chạy được (ít nhất là trên Mac)
    Nhưng nó vẫn là một mớ mã hỗn độn 3 triệu dòng
    Trang xuất hiện trong video quảng bá của Cursor không render được. Có lẽ họ đã dùng một bản build khác

    • cargo check thì qua, nhưng nếu xem git log sẽ thấy có gì đó đáng ngờ
      Có dấu vết cho thấy không phải agent mà là con người đã trực tiếp chỉnh sửa
      Xem phân tích log commit
  • Tôi nghĩ bài gốc đơn giản chỉ là một tiêu đề câu click
    Cụm “hàng nghìn agent AI đã tạo ra một trình duyệt” quá kích thích sự tò mò

    • Từ giờ khi ai đó nói “AI đã tạo ra trình duyệt”, ta có thể đưa ví dụ này ra làm liên kết
    • Các dự án thực ra không chạy được vẫn đang quay vòng rất nhanh trong chu kỳ tin tức
      Thật tiếc khi cụm “tin giả” đã bị nhiễm màu chính trị, vì trong lĩnh vực này nó là cách diễn đạt quá đúng
  • CEO của Cursor khẳng định rằng họ “đã xây dựng rendering engine và JS VM bằng Rust từ đầu”, nhưng
    nếu xem danh sách dependency thực tế
    thì họ dùng nguyên các thư viện dựa trên Servo như html5ever, cssparser, rquickjs
    Rốt cuộc nó chỉ ở mức bọc ngoài Servo, thậm chí còn không biên dịch được

    • Tôi không hiểu vì sao họ lại khẳng định đã tự triển khai CSS và JS
      Đa số mọi người chỉ cần nhìn code là biết ngay, nên có lẽ họ nghĩ rằng công chúng sẽ không kiểm tra
      Nhận thức sai kiểu này cứ thế lan ra, rồi đến lúc được đính chính thì cũng chẳng ai quan tâm
    • Thực tế nó được ghép từ các thư viện sẵn có như parser HTML/CSS của Servo, QuickJS, resvg, egui, wgpu
      Vậy mà thành 3M dòng thì đúng là buồn cười
    • Nó còn bao gồm cả selectors, taffy, và một số phần dùng dependency phiên bản cũ
    • JS engine chỉ là bản sao một dự án cá nhân được chép vào thư mục vendor
      Xem thêm tại đây
    • Tôi cũng tò mò phần mã layout là lấy từ Servo hay do Cursor tự viết
      Đó là khu vực khó nhất trong trình duyệt
  • Tôi nghĩ cách làm marketing kiểu này còn phản tác dụng
    Thiết kế và UX của Cursor rất tốt, nhưng khi làm việc chuyên sâu thì lỗi lại quá nhiều
    Có khá hơn đôi chút sau khi thêm mô hình Claude, nhưng vẫn thua Antigravity
    Thêm nữa, giới hạn gói $20 cũng hết rất nhanh. Khả năng mô hình tốt hơn gấp 10 lần mà lại rẻ hơn 10 lần là rất thấp

    • Sau khi dùng thử các ứng dụng đầy lỗi của nhiều công ty AI, tôi thấy rằng trong công việc thực tế vẫn cần kỹ năng của con người
      Nhìn cách mô hình kinh doanh của OpenAI chuyển dần sang dựa vào quảng cáo,
      tôi lại có cảm giác Google hiểu công nghệ này thực tế hơn
  • Những câu chuyện kiểu này rốt cuộc là dành cho những người bán xẻng
    Những CEO không hiểu rõ có thể bị lừa bởi các tin kiểu này và đi sa thải nhân sự thật