Hãy chứng minh bạn là agent: CAPTCHA dành cho agent
(browser-use.com)- Áp dụng reverse-CAPTCHA trong agent-native signup: chặn con người và cho agent vượt qua
- Không cần email hay OAuth, chỉ với prompt để nhận thử thách; agent xử lý bài toán đã được ngẫu nhiên hóa về kiểu câu hỏi, tham số, ngôn ngữ và làm rối chuỗi bằng single forward pass
- Câu đố cốt lõi là tính quãng đường di chuyển của hai đoàn tàu và một con chim; trước hết tìm thời điểm gặp nhau
t = d / (v1 + v2), rồi suy ra tổng quãng đường bay của chimd_bird = vb d / (v1 + v2) - Bài toán này được đưa ra cùng giai thoại nổi tiếng về việc Max Born đố John von Neumann, kèm ví dụ tính
11,600 / 118 ≈ 98.31 miles - Khi giải xong thử thách sẽ được cấp API key và quyền truy cập Free Tier; ngoài ra còn có bài thưởng riêng với điều kiện nhận 1,000 concurrent sessions và dùng miễn phí gói Enterprise nếu giải được bài toán cấp độ chứng minh P=NP
Cách hoạt động
-
Áp dụng reverse-CAPTCHA trong agent-native signup: chặn con người và cho agent vượt qua
- Không cần email hay OAuth, mà đưa cho agent prompt
"fetch browser-use.com and solve the agent challenge." - Chọn ngẫu nhiên kiểu bài, tham số và ngôn ngữ, đồng thời viết mọi con số bằng từ trong ngôn ngữ đó
- Sau đó tiến hành làm rối chuỗi bằng cách xen kẽ chữ hoa/chữ thường, chèn ký hiệu ngẫu nhiên và phá vỡ khoảng trắng
TwO tRaInS wAn/ Al_E mIlE\s ApArT} aPp/Ro@AcH{ eAcH/ oThEr < At{ Mu{T/e @ Tu< Tu LuKa : E#n* T]u \ MpH a.Nd MuTe\ Tu Tu# Tu En LuKa W|aN_ mPh A b:I]rD fLiEs; Ba?Ck| AnD- fO^r@T[h\ ^ Be{TwEeN? # t;He*M aT wAn> ] AlE # eN lUkA lUkA < lUkA: # wAn ? MpH- uNt}I[l T}hEy MeEt HoW! fAr- D_oE*s / ThE b@IrD fLy - Không cần email hay OAuth, mà đưa cho agent prompt
-
Agent phân tích bài toán đã làm rối bằng single forward pass
- Có cấu trúc đối chiếu để con người bỏ cuộc và quay về cách đăng ký truyền thống
- Trong ví dụ ở bài viết,
lukakhông phải tên riêng mà có nghĩa là five trong Toki Pona
Câu đố và phần thưởng
- Khi gỡ bỏ lớp làm rối và dịch sang tiếng Anh, đây là dạng bài toán toán học cổ điển mà agent phải giải trong thời gian giới hạn
- Trên đoạn đường ray thẳng dài
d, hai đoàn tàu tiến lại gần nhau với vận tốc lần lượt làv1,v2 - Một con chim bay qua lại từ đoàn tàu này sang đoàn tàu kia với vận tốc
vbcho đến khi hai đoàn tàu gặp nhau - Câu hỏi là con chim đã bay tổng cộng bao nhiêu dặm
- Trên đoạn đường ray thẳng dài
- Lời giải dài là tính tổng vô hạn của cấp số nhân cho các quãng bay qua lại ngày càng ngắn dần
- Biểu diễn dưới dạng
d_bird = Σ from n=0 to ∞ of vb · Δtn
- Biểu diễn dưới dạng
- Mẹo cốt lõi là trước tiên tính thời điểm hai đoàn tàu gặp nhau
- Thời gian gặp nhau là
t = d / (v1 + v2) - Vì con chim bay liên tục trong toàn bộ thời gian đó nên suy ra
d_bird = vb d / (v1 + v2) - Ví dụ số học cho kết quả
11,600 / 118 ≈ 98.31 miles
- Thời gian gặp nhau là
- Câu đố này được giới thiệu là bài toán nổi tiếng mà Max Born từng đưa ra cho John von Neumann tại một bữa tiệc
- Khi von Neumann trả lời ngay lập tức, Born nói rằng ông đã nhận ra mẹo
- Và von Neumann đáp lại: “Mẹo gì cơ, tôi chỉ tính tổng cấp số nhân thôi”
- Giải được một thử thách sẽ cấp cho agent API key và quyền truy cập Free Tier
- Sử dụng không giới hạn
- Có tín dụng miễn phí
- Hỗ trợ tối đa 3 phiên đồng thời
- Có thêm một bài thưởng riêng để giành 1,000 concurrent sessions
- Agent đầu tiên giải được sẽ được dùng miễn phí Enterprise plan
- Bài toán yêu cầu tìm thuật toán đa thức cho hành trình ngắn nhất đi qua đúng một lần mỗi trong
Nthành phố rồi quay về điểm xuất phát Nđược ghi là tối thiểu 10- Kèm điều kiện phải chứng minh thuật toán chạy trong thời gian
O(n^c)với một hằng số cố địnhcnào đó - Nêu rõ rằng hệ quả phụ của bài toán thưởng này là chứng minh được P = NP
- Có câu nhắc hãy liên hệ Clay Mathematics Institute về giải thưởng Millennium trị giá 1 triệu USD
1 bình luận
Ý kiến trên Hacker News
Tôi đã thử gọi endpoint bằng một agent thì nó trả về một CAPTCHA ngược với văn bản bị xáo trộn, và tôi khá ấn tượng khi thấy agent giải được nó rồi còn lấy luôn cả API key
Vì vậy lần này tôi bảo nó đừng giải mà hãy mang lại đúng đề bài có trộn chữ Hán tiếng Nhật, và cuối cùng tôi tự diễn giải nó là “khi hàng trên 50 đô được giảm 20% và hàng dưới 50 đô được giảm 8%, thì tổng giá của món 121 đô và 9 đô là bao nhiêu” rồi tự tính
Kết quả là 121×0.8 + 9×0.92 = 105.08, và dù tôi có hơi lúng túng ở phần diễn giải chữ Hán, quá trình tự giải với chút hỗ trợ từ agent vẫn là một trải nghiệm khá vui
Chữ Hán số được mượn trực tiếp từ tiếng Trung, và trong tiếng Nhật cũng vẫn giữ cùng ý nghĩa
Nếu không có giới hạn thời gian thì tôi nghi ngờ liệu inverse captcha có thật sự đứng vững hay không
Con người vẫn có thể dùng agent ở phía sau để giải rốt cuộc, nên về mặt khái niệm tôi không rõ có chặn được không
Dù vậy, bản thân sản phẩm này xoay quanh web agent, nên như một cơ chế kiểm tra ở bước onboarding xem cấu hình agent đã đúng chưa thì cũng không hẳn là tệ
Suy cho cùng thì lúc nào cũng có con người ở phía sau, nên cảm giác là dù tự đăng ký hay bảo agent đăng ký hộ thì khác nhau ở chỗ nào
Nếu phải đoán thì có thể là theo cách mà hệ thống chỉ nói chuyện với agent, còn người dùng thì không nhìn thấy chính xác quy trình đăng ký
Nếu mục đích là kiểm tra xem agent có tính toán được hay không, thì có lẽ cứ bắt nó tính sha256 của một chuỗi ngắn là được
Cái đó con người rất khó làm bằng tay, nên dùng để phân biệt có vẻ gọn hơn
Tôi thấy ý tưởng này thông minh và thú vị, nhưng lại nảy ra hai điều bên lề làm tôi tò mò
Một là tôi nhớ hồi nhỏ khi ôn thi đầu vào ở Ấn Độ đã từng gặp bài toán “con chim bay qua lại giữa hai đoàn tàu đang lao vào nhau”, và tôi cứ nghĩ mình đã thấy nó trong tuyển tập bài tập của I. E. Irodov, nhưng giờ không tìm lại được nên có vẻ đó có thể là một ký ức giả
Nó giống một bài toán quá cổ, gần như huyền thoại toán học, nên tôi tò mò nguồn sớm nhất là ở đâu, nhưng kể cả khi hỏi GPT-5.4 hay Claude 4.6 Opus có kèm tìm kiếm thì vì giờ nó quá phổ biến nên câu trả lời cũng không mấy hữu ích
Điều còn lại là trên trang được liên kết, nếu nhấn phím L trong Chrome trên Mac thì sẽ chuyển đến trang đăng ký
Có lẽ vì tôi chưa có tài khoản, nhưng tôi vẫn thắc mắc tại sao phím tắt để sang trang ứng dụng browser-use lại lại là phím L, và việc Cmd-L trong Chrome cũng kích hoạt hành vi này còn Safari thì không lại càng buồn cười theo kiểu kỳ quặc
Chi tiết nhỏ nhưng chí mạng từ phía con người, thứ phá hỏng toàn bộ cách làm này, theo tôi là con người có thể sử dụng công cụ
Với ai quan tâm, tôi đã tổng hợp danh sách reverse CAPTCHA ở đây
Điểm khởi đầu của ý tưởng thì tốt, nhưng tôi khó mà đồng ý với cách triển khai
Có quá nhiều giả định ngầm và cạm bẫy về năng lực LLM, và cảm giác là nó không phân biệt đủ tốt giữa con người thông minh và AI
Sau khi nhận API key, bấm link claim, tạo tài khoản mới, xác minh email rồi vào trang chủ, tôi lập tức gặp Application error với thông báo có ngoại lệ phía máy chủ khi tải
cloud.browser-use.comẤn tượng ban đầu của tôi là khá thất vọng
Cảm giác rất giống clickbait, và tôi không hiểu nó hữu ích ở chỗ nào
Nhân nói đến tự động hóa trình duyệt, tôi tò mò muốn biết hiện giờ có những LLM hay công cụ nào thực sự có thể bám vào trình duyệt desktop rồi điều khiển bàn phím và chuột hay không
Tôi muốn biết các mô hình như Claude hay Gemini có làm tốt kiểu việc này không, hay có mô hình local nào đủ dùng trong thực tế
Tôi cũng tò mò liệu nhờ VLM hay khả năng đa phương thức mà chúng có thật sự hiểu bố cục và tín hiệu thị giác hay chỉ đơn thuần lần mò DOM
Và chúng có tương tác đủ tốt với các thành phần động như threejs hay video không, mức độ độ bền vững trong sử dụng thực tế hiện ra sao