agents.txt — Đề xuất tiêu chuẩn sitemap tài liệu dành cho AI agent
(github.com/baekenough)Hiện nay, khi một AI agent thông thường chưa được tinh chỉnh tìm nội dung trong tài liệu web, cách làm của nó là mở từng trang một giống như con người.
Mỗi trang HTML đều kéo theo sidebar, header và footer, nên lượng nhiễu còn nhiều hơn rất nhiều so với phần nội dung thực sự cần thiết.
Muốn duyệt một website tài liệu dài 651 trang thì sẽ tiêu tốn tới hàng triệu token.
robots.txt dùng để báo cho crawler rằng “đừng vào đây”,
còn sitemap.xml là để đưa danh sách URL cho công cụ tìm kiếm,
nhưng cả hai đều không giúp ích nhiều cho việc để AI agent nhanh chóng tìm ra trang mà nó cần.
llms.txt cũng chỉ là phần mô tả dạng tự do nên không phù hợp cho việc điều hướng có cấu trúc.
agents.txt là một tệp chỉ mục có cấu trúc mà các website tài liệu đặt tại đường dẫn /.well-known/agents.txt.
AI agent chỉ cần đọc đúng một tệp này là với mốc 651 trang, khoảng 3.200 token,
có thể trả lời ngay các câu hỏi như “trang nào nói về prompt caching” hay “Python SDK quickstart là gì”
mà không cần crawl từng trang.
Trong dự án đề xuất này, phần điều hướng cho tài liệu chính thức của claude-code và gpt-codex hỗ trợ bốn định dạng: TXT, MD, JSON và XML.
Nó cũng bao gồm 12 kiểu annotation cho loại trang và tính năng nén mẫu SDK.
Đây là cùng một ý tưởng với việc Vercel giảm 93% lượng token sử dụng bằng agent-browser, nhưng được tiếp cận ở cấp độ tiêu chuẩn web thay vì ở từng ứng dụng riêng lẻ.
Vì có vẻ cách tốt nhất là làm demo bằng agent, nên tôi đã viết một agent tên là NAVIGATOR.md ở thư mục gốc của dự án.
Có thể xem bản triển khai tham chiếu tại https://agentnav.baekenough.com.
Rất mong nhận được phản hồi từ mọi người.
Chưa có bình luận nào.