5 điểm bởi mercuriusdream 2026-03-16 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Bình thường tôi chỉ thỉnh thoảng đọc GN, đây là lần đầu tiên gửi bài. Mong mọi người giúp đỡ!


Thay vì dùng các Web Surf agent omnimodal hiện có nhưng còn nhiều bất định, nếu lấy DOM qua CDP rồi định dạng và nén ở mức tối thiểu để LLM có thể hiểu, sau đó biến nó thành MCP thì sao? Đây là thư viện được tạo ra từ ý tưởng đó.

Lý do tạo ra

  • Web agent dựa trên ảnh chụp màn hình cần vision model và tiêu tốn token cực lớn.
  • Cách tuần tự hóa DOM hiện có bao gồm cả class CSS, wrapper div, script..., nên một trang có thể lên tới 50.000~100.000 token.
  • Điều agent cần thực ra chỉ là nút bấm, liên kết, ô nhập liệu và văn bản, nên việc dùng nguyên cả context window cho việc đó là không hiệu quả.

Cách hoạt động

  • Kết nối tới instance Chrome thông qua CDP, sau đó loại bỏ toàn bộ những gì không cần thiết ngoại trừ các phần tử tối thiểu cần để phân biệt trong DOM.
  • Sau đó, gắn ID ngắn cho từng phần tử và truyền nội dung đó cho Agent.
  • Cũng hỗ trợ tương tác với các phần tử có thể tương tác từ phía agent như click("B1"), type("I1", "검색어")!

Benchmark

  • GitHub: 84,357 -> 2,593 token (32x)
  • Wikipedia: 123,615 -> 12,097 token (10x)
  • MDN: 24,923 -> 1,793 token (14x)
  • HN: 8,736 -> 1,038 token (8.4x)
  • Trung bình giảm 93% token, thời gian phân tích khoảng 30ms

Thông số theo paper

  • Dựa trên TypeScript, runtime hỗ trợ Bun Native và cả Node 18+
  • Phụ thuộc runtime chrome-remote-interface
  • Backend dựa trên ElysiaJS

Liên kết


Ban đầu tôi làm để dùng cho việc debug cá nhân, dùng thử rồi thấy hữu ích hơn mong đợi nên đã open source và phát hành. Mọi người thử dùng xem và rất mong nhận được nhiều phản hồi!

Chưa có bình luận nào.

Chưa có bình luận nào.