42 điểm bởi xguru 2026-02-11 | 3 bình luận | Chia sẻ qua WhatsApp
  • WebMCP là một tiêu chuẩn đề xuất được thiết kế để website trực tiếp phơi bày các công cụ có cấu trúc cho AI agent bên trong trình duyệt
  • Thay vì scraping màn hình hay suy luận DOM như trước đây, web sẽ tự cung cấp "có thể làm gì trên trang này" cùng đầu vào/đầu ra dưới dạng hợp đồng tường minh
  • Hỗ trợ từ tác vụ dựa trên form HTML đến tương tác JavaScript phức tạp thông qua API khai báo và API mệnh lệnh
  • Cấu trúc hợp đồng cho phép agent khám phá (Discovery) các công cụ của trang, mô tả I/O bằng JSON Schema, và chia sẻ trạng thái (State) của trang hiện tại
  • Được đưa vào Chrome 146 dưới dạng bản early preview. Để trải nghiệm sớm, cần đăng ký Chrome built-in AI Early Preview Program
  • Trong khi MCP hiện tại là giao thức phía máy chủ, WebMCP khác biệt ở chỗ đây là giao thức dành cho AI agent phía client trong trình duyệt

Bản nháp đặc tả: WebMCP Early Preview

Bối cảnh ra đời của WebMCP

  • Trong môi trường web agent, tỷ trọng AI thay người dùng thực hiện các tác vụ thực tế như đặt chỗ, gửi biểu mẫu, thay đổi thiết lập, điều hướng đang tăng lên
  • Web hiện nay vốn được thiết kế cho con người, nên agent phải suy luận ý nghĩa nút bấm hay cấu trúc form
  • Vì vậy, lỗi nhập liệu, ánh xạ sai trường và tính mong manh khi UI thay đổi liên tục xảy ra
  • Để giải quyết vấn đề này, WebMCP đưa vào hợp đồng tương tác tường minh giữa web và agent
  • Thay vì để agent đoán mục đích của nút hay cấu trúc form, website sẽ công khai giao diện của chính mình một cách tường minh
  • Hợp đồng này gồm ba yếu tố cốt lõi:
    • Discovery: agent truy vấn theo cách chuẩn hóa các công cụ mà trang hỗ trợ (ví dụ: checkout, filter_results)
    • JSON Schema: định nghĩa tường minh đầu vào và đầu ra kỳ vọng để giảm ảo giác (hallucination) hoặc hiểu sai
    • State: sự hiểu biết được chia sẻ về ngữ cảnh trang hiện tại, giúp agent nắm được các tài nguyên có thể dùng theo thời gian thực

Các khái niệm cốt lõi của WebMCP

  • Phơi bày công cụ có cấu trúc

    • Website khai báo các chức năng mình cung cấp dưới dạng công cụ (tool)
    • Mỗi công cụ xác định rõ tên, mô tả, schema đầu vào (JSON Schema) và kết quả thực thi
    • Agent có thể biết chính xác cần gọi cái gì mà không phải diễn giải DOM
  • Hợp đồng thay cho suy luận

    • Thay vì đoán ý nghĩa nút bấm hay phân tích UI lịch, web tự công khai ý định và quy tắc
    • Định dạng đầu vào/đầu ra được cố định nên giảm ảo giác và lỗi vận hành
    • Ngay cả khi UI thay đổi, nếu hợp đồng công cụ vẫn giữ nguyên thì hành vi của agent vẫn ổn định

Hai mô hình API

  • API khai báo (Declarative API)

    • Chỉ cần thêm thuộc tính vào phần tử HTML <form> là có thể biến thành công cụ
    • Dùng các thuộc tính toolname, tooldescription để khai báo ý nghĩa của công cụ
    • Các trường trong form sẽ trở thành tham số đầu vào của công cụ
    • Trình duyệt sẽ tự động chuyển chúng thành JSON Schema
    • Phù hợp với tác vụ đơn giản, lặp lại và UI sẵn có dựa trên form
  • API mệnh lệnh (Imperative API)

    • Đăng ký công cụ trực tiếp bằng JavaScript
    • Cung cấp các API như registerTool, provideContext, unregisterTool
    • Phù hợp với logic phức tạp, rẽ nhánh điều kiện, xử lý bất đồng bộ và hành vi dựa trên trạng thái
    • Rất hữu ích trong SPA hoặc các ứng dụng web nâng cao

Cách trình duyệt và agent tương tác

  • Khi agent gọi công cụ, trình duyệt sẽ tự động focus và nhập vào UI tương ứng
  • Có thể phân biệt form có được agent gọi hay không bằng cờ agentInvoked
  • Khi thành công hoặc bị hủy sẽ phát sinh các sự kiện toolactivated, toolcancel
  • Cung cấp phản hồi trực quan thông qua CSS pseudo-class (:tool-form-active, :tool-submit-active)
  • Có thể hợp nhất luồng sử dụng của con người và agent trong cùng một mô hình trạng thái UI

Các kịch bản sử dụng tiêu biểu

  • Trên website hãng hàng không, nếu cung cấp công cụ book_flight, agent có thể gửi trực tiếp thông tin hành khách có cấu trúc mà không cần phân tích UI lịch
  • Trên cổng y tế hoặc pháp lý, có thể truyền đạt rõ ý nghĩa các trường thông qua công cụ submit_application
  • Trên trang thiết lập dành cho nhà phát triển, có thể phơi bày công cụ như run_diagnostics để tự động chạy các menu ẩn
  • Đặc biệt hiệu quả trong các lĩnh vực cần nhập liệu độ tin cậy cao như hỗ trợ khách hàng, thương mại điện tử, dịch vụ du lịch

Khác biệt giữa WebMCP và MCP

  • MCP (Model Context Protocol) là giao thức phía máy chủ, cần triển khai máy chủ riêng
  • WebMCP hoạt động bên trong trình duyệt và tích hợp trực tiếp vào ứng dụng web hiện có
  • Có thể cung cấp chức năng phía client cho agent mà không cần máy chủ
  • Điểm khác biệt cốt lõi là đây là cách tiếp cận tập trung vào frontend với giả định có trình duyệt dành cho agent

Trạng thái hiện tại và giới hạn

  • Có thể sử dụng trên Chrome 146 trở lên khi bật flag
  • Không hoạt động trong môi trường headless và cần ngữ cảnh duyệt web hiển thị
  • Hiện vẫn chưa có cơ chế tự động phát hiện các website cung cấp công cụ
  • Nhà phát triển phải tự chịu trách nhiệm đồng bộ trạng thái UI
  • Đang ở giai đoạn preview ban đầu nên vẫn có khả năng API thay đổi và phát sinh va chạm khi triển khai

3 bình luận

 
xguru 2026-02-11

@firt đã nói về việc này trên X, và sau đó nó trở thành một chủ đề khá nóng. Tôi đặt liên kết là của Google.

Nghe nói rằng khi tự động hóa website, thay vì phân tích screenshot/DOM thì chỉ cần 10% số token cũng có thể làm được.
Điều này cũng trùng khớp với dự đoán rằng phần mềm giúp tiết kiệm chi phí token sẽ sống sót dưới áp lực chọn lọc kiểu tiến hóa.

 
crawler 2026-02-11

Nếu Chrome dẫn dắt thì có lẽ các trình duyệt khác cũng sẽ sớm tích hợp theo.

 
parkindani 2026-02-11

Có cảm giác như Swagger dành cho agent.