- Những câu hỏi nảy sinh khi tự động hóa tương tác web bằng GPT-4(V)
- Làm thế nào để ánh xạ phản hồi của LLM tới các phần tử web?
- Làm thế nào để đánh dấu trang nhằm giúp LLM hiểu rõ hơn không gian làm việc của nó?
- Làm thế nào để cung cấp "ảnh chụp màn hình" cho LLM chỉ hỗ trợ văn bản?
- Tarsier là tiện ích thị giác dành cho tác nhân web đa phương thức
- Hoạt động bằng cách gắn "thẻ" trực quan lên các phần tử có thể tương tác trên trang thông qua các ID như [1]
- Nhờ đó cung cấp ánh xạ giữa phần tử và ID để GPT-4(V) có thể thực hiện tác vụ
- Các phần tử có thể tương tác được định nghĩa là các nút, liên kết hoặc trường nhập liệu hiển thị trên trang
- Có thể cung cấp biểu diễn văn bản của trang
- Tức là ngay cả với LLM không đa phương thức cũng có thể tương tác sâu hơn
- Đây là điểm quan trọng khi xét đến các vấn đề hiệu năng của những mô hình ngôn ngữ-thị giác hiện có
- Ngoài ra còn cung cấp tiện ích OCR chuyển ảnh chụp màn hình của trang thành chuỗi có cấu trúc khoảng trắng để LLM không có thị giác có thể hiểu được
- Các dịch vụ OCR được hỗ trợ
- Hiện tại chỉ hỗ trợ Google Cloud Vision, và sẽ hỗ trợ Amazon Textract cùng Microsoft Azure Computer Vision
Chưa có bình luận nào.