3 điểm bởi GN⁺ 2 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Áp dụng reverse-CAPTCHA trong agent-native signup: chặn con người và cho agent vượt qua
  • Không cần email hay OAuth, chỉ với prompt để nhận thử thách; agent xử lý bài toán đã được ngẫu nhiên hóa về kiểu câu hỏi, tham số, ngôn ngữ và làm rối chuỗi bằng single forward pass
  • Câu đố cốt lõi là tính quãng đường di chuyển của hai đoàn tàu và một con chim; trước hết tìm thời điểm gặp nhau t = d / (v1 + v2), rồi suy ra tổng quãng đường bay của chim d_bird = vb d / (v1 + v2)
  • Bài toán này được đưa ra cùng giai thoại nổi tiếng về việc Max Born đố John von Neumann, kèm ví dụ tính 11,600 / 118 ≈ 98.31 miles
  • Khi giải xong thử thách sẽ được cấp API key và quyền truy cập Free Tier; ngoài ra còn có bài thưởng riêng với điều kiện nhận 1,000 concurrent sessions và dùng miễn phí gói Enterprise nếu giải được bài toán cấp độ chứng minh P=NP

Cách hoạt động

  • Áp dụng reverse-CAPTCHA trong agent-native signup: chặn con người và cho agent vượt qua

    • Không cần email hay OAuth, mà đưa cho agent prompt "fetch browser-use.com and solve the agent challenge."
    • Chọn ngẫu nhiên kiểu bài, tham số và ngôn ngữ, đồng thời viết mọi con số bằng từ trong ngôn ngữ đó
    • Sau đó tiến hành làm rối chuỗi bằng cách xen kẽ chữ hoa/chữ thường, chèn ký hiệu ngẫu nhiên và phá vỡ khoảng trắng
    TwO tRaInS wAn/ Al_E mIlE\s ApArT} aPp/Ro@AcH{  
    eAcH/ oThEr  <  At{ Mu{T/e @ Tu< Tu LuKa  :  
    E#n* T]u \ MpH a.Nd MuTe\ Tu Tu# Tu En LuKa  
    W|aN_ mPh A b:I]rD fLiEs; Ba?Ck| AnD- fO^r@T[h\  
    ^ Be{TwEeN? # t;He*M aT wAn> ] AlE  # eN lUkA  
    lUkA <  lUkA: # wAn ? MpH- uNt}I[l T}hEy MeEt  
    HoW! fAr- D_oE*s /  ThE b@IrD fLy  
    
  • Agent phân tích bài toán đã làm rối bằng single forward pass

    • Có cấu trúc đối chiếu để con người bỏ cuộc và quay về cách đăng ký truyền thống
    • Trong ví dụ ở bài viết, luka không phải tên riêng mà có nghĩa là five trong Toki Pona

Câu đố và phần thưởng

  • Khi gỡ bỏ lớp làm rối và dịch sang tiếng Anh, đây là dạng bài toán toán học cổ điển mà agent phải giải trong thời gian giới hạn
    • Trên đoạn đường ray thẳng dài d, hai đoàn tàu tiến lại gần nhau với vận tốc lần lượt là v1, v2
    • Một con chim bay qua lại từ đoàn tàu này sang đoàn tàu kia với vận tốc vb cho đến khi hai đoàn tàu gặp nhau
    • Câu hỏi là con chim đã bay tổng cộng bao nhiêu dặm
  • Lời giải dài là tính tổng vô hạn của cấp số nhân cho các quãng bay qua lại ngày càng ngắn dần
    • Biểu diễn dưới dạng d_bird = Σ from n=0 to ∞ of vb · Δtn
  • Mẹo cốt lõi là trước tiên tính thời điểm hai đoàn tàu gặp nhau
    • Thời gian gặp nhau là t = d / (v1 + v2)
    • Vì con chim bay liên tục trong toàn bộ thời gian đó nên suy ra d_bird = vb d / (v1 + v2)
    • Ví dụ số học cho kết quả 11,600 / 118 ≈ 98.31 miles
  • Câu đố này được giới thiệu là bài toán nổi tiếng mà Max Born từng đưa ra cho John von Neumann tại một bữa tiệc
    • Khi von Neumann trả lời ngay lập tức, Born nói rằng ông đã nhận ra mẹo
    • Và von Neumann đáp lại: “Mẹo gì cơ, tôi chỉ tính tổng cấp số nhân thôi”
  • Giải được một thử thách sẽ cấp cho agent API key và quyền truy cập Free Tier
    • Sử dụng không giới hạn
    • Có tín dụng miễn phí
    • Hỗ trợ tối đa 3 phiên đồng thời
  • Có thêm một bài thưởng riêng để giành 1,000 concurrent sessions
    • Agent đầu tiên giải được sẽ được dùng miễn phí Enterprise plan
    • Bài toán yêu cầu tìm thuật toán đa thức cho hành trình ngắn nhất đi qua đúng một lần mỗi trong N thành phố rồi quay về điểm xuất phát
    • N được ghi là tối thiểu 10
    • Kèm điều kiện phải chứng minh thuật toán chạy trong thời gian O(n^c) với một hằng số cố định c nào đó
    • Nêu rõ rằng hệ quả phụ của bài toán thưởng này là chứng minh được P = NP
    • Có câu nhắc hãy liên hệ Clay Mathematics Institute về giải thưởng Millennium trị giá 1 triệu USD

1 bình luận

 
Ý kiến trên Hacker News
  • Tôi đã thử gọi endpoint bằng một agent thì nó trả về một CAPTCHA ngược với văn bản bị xáo trộn, và tôi khá ấn tượng khi thấy agent giải được nó rồi còn lấy luôn cả API key
    Vì vậy lần này tôi bảo nó đừng giải mà hãy mang lại đúng đề bài có trộn chữ Hán tiếng Nhật, và cuối cùng tôi tự diễn giải nó là “khi hàng trên 50 đô được giảm 20% và hàng dưới 50 đô được giảm 8%, thì tổng giá của món 121 đô và 9 đô là bao nhiêu” rồi tự tính
    Kết quả là 121×0.8 + 9×0.92 = 105.08, và dù tôi có hơi lúng túng ở phần diễn giải chữ Hán, quá trình tự giải với chút hỗ trợ từ agent vẫn là một trải nghiệm khá vui

    • Xét theo ngữ cảnh, nếu không thấy ký tự đặc trưng riêng của tiếng Nhật mà chỉ có chữ Hán số, thì gọi đó là Chinese characters có lẽ chính xác hơn là tiếng Nhật
      Chữ Hán số được mượn trực tiếp từ tiếng Trung, và trong tiếng Nhật cũng vẫn giữ cùng ý nghĩa
    • Thực ra kiểu bài này với hơn 100 triệu người trên thế giới có lẽ chỉ đọc như một bài toán hơi bị làm nhiễu chút thôi
  • Nếu không có giới hạn thời gian thì tôi nghi ngờ liệu inverse captcha có thật sự đứng vững hay không
    Con người vẫn có thể dùng agent ở phía sau để giải rốt cuộc, nên về mặt khái niệm tôi không rõ có chặn được không

    • Với tôi thì nó giống một kiểu trò đùa marketing nhắm vào độc giả HN, và quả thật có vẻ đã thành công trong việc thu hút chú ý
      Dù vậy, bản thân sản phẩm này xoay quanh web agent, nên như một cơ chế kiểm tra ở bước onboarding xem cấu hình agent đã đúng chưa thì cũng không hẳn là tệ
    • Ban đầu tôi cũng nghĩ tương tự, và đã bối rối không biết mình bỏ sót gì hay là chưa hiểu đúng khái niệm
      Suy cho cùng thì lúc nào cũng có con người ở phía sau, nên cảm giác là dù tự đăng ký hay bảo agent đăng ký hộ thì khác nhau ở chỗ nào
      Nếu phải đoán thì có thể là theo cách mà hệ thống chỉ nói chuyện với agent, còn người dùng thì không nhìn thấy chính xác quy trình đăng ký
    • Theo cảm nhận của tôi thì nó gần như chỉ là flame-bait
  • Nếu mục đích là kiểm tra xem agent có tính toán được hay không, thì có lẽ cứ bắt nó tính sha256 của một chuỗi ngắn là được
    Cái đó con người rất khó làm bằng tay, nên dùng để phân biệt có vẻ gọn hơn

  • Tôi thấy ý tưởng này thông minh và thú vị, nhưng lại nảy ra hai điều bên lề làm tôi tò mò
    Một là tôi nhớ hồi nhỏ khi ôn thi đầu vào ở Ấn Độ đã từng gặp bài toán “con chim bay qua lại giữa hai đoàn tàu đang lao vào nhau”, và tôi cứ nghĩ mình đã thấy nó trong tuyển tập bài tập của I. E. Irodov, nhưng giờ không tìm lại được nên có vẻ đó có thể là một ký ức giả
    Nó giống một bài toán quá cổ, gần như huyền thoại toán học, nên tôi tò mò nguồn sớm nhất là ở đâu, nhưng kể cả khi hỏi GPT-5.4 hay Claude 4.6 Opus có kèm tìm kiếm thì vì giờ nó quá phổ biến nên câu trả lời cũng không mấy hữu ích
    Điều còn lại là trên trang được liên kết, nếu nhấn phím L trong Chrome trên Mac thì sẽ chuyển đến trang đăng ký
    Có lẽ vì tôi chưa có tài khoản, nhưng tôi vẫn thắc mắc tại sao phím tắt để sang trang ứng dụng browser-use lại lại là phím L, và việc Cmd-L trong Chrome cũng kích hoạt hành vi này còn Safari thì không lại càng buồn cười theo kiểu kỳ quặc

  • Chi tiết nhỏ nhưng chí mạng từ phía con người, thứ phá hỏng toàn bộ cách làm này, theo tôi là con người có thể sử dụng công cụ

  • Với ai quan tâm, tôi đã tổng hợp danh sách reverse CAPTCHA ở đây

  • Điểm khởi đầu của ý tưởng thì tốt, nhưng tôi khó mà đồng ý với cách triển khai
    Có quá nhiều giả định ngầm và cạm bẫy về năng lực LLM, và cảm giác là nó không phân biệt đủ tốt giữa con người thông minh và AI

  • Sau khi nhận API key, bấm link claim, tạo tài khoản mới, xác minh email rồi vào trang chủ, tôi lập tức gặp Application error với thông báo có ngoại lệ phía máy chủ khi tải cloud.browser-use.com
    Ấn tượng ban đầu của tôi là khá thất vọng

    • Có khi bên đó đã nhận ra rằng bạn không phải agent
  • Cảm giác rất giống clickbait, và tôi không hiểu nó hữu ích ở chỗ nào

    • Tôi cũng nghĩ vậy, nó giống một marketing blog post hơn là thứ thực sự hữu ích
  • Nhân nói đến tự động hóa trình duyệt, tôi tò mò muốn biết hiện giờ có những LLM hay công cụ nào thực sự có thể bám vào trình duyệt desktop rồi điều khiển bàn phím và chuột hay không
    Tôi muốn biết các mô hình như Claude hay Gemini có làm tốt kiểu việc này không, hay có mô hình local nào đủ dùng trong thực tế
    Tôi cũng tò mò liệu nhờ VLM hay khả năng đa phương thức mà chúng có thật sự hiểu bố cục và tín hiệu thị giác hay chỉ đơn thuần lần mò DOM
    Và chúng có tương tác đủ tốt với các thành phần động như threejs hay video không, mức độ độ bền vững trong sử dụng thực tế hiện ra sao