Tarsier - Tiện ích thị giác cho tác nhân tương tác web

xguru · 2023-11-16T10:03:01+09:00

Những câu hỏi nảy sinh khi tự động hóa tương tác web bằng GPT-4(V) Làm thế nào để ánh xạ phản hồi của LLM tới các phần tử web? Làm thế nào để đánh dấu trang nhằm giúp LLM hiểu rõ hơn không gian làm việc của nó? Làm thế nào để cung cấp "ảnh chụp màn hình" cho LLM chỉ hỗ trợ văn bản? Tarsier là tiện ích thị giác dành cho tác nhân web đa phương thức Hoạt động bằng cách gắn "thẻ" trực quan lên các phần tử có thể tương tác trên trang thông qua các ID như [1] Nhờ đó cung cấp ánh xạ giữa phần tử và ID để GPT-4(V) có thể thực hiện tác vụ Các phần tử có thể tương tác được định nghĩa là các nút, liên kết hoặc trường nhập liệu hiển thị trên trang Có thể cung cấp biểu diễn văn bản của trang Tức là ngay cả với LLM không đa phương thức cũng có thể tương tác sâu hơn Đây là điểm quan trọng khi xét đến các vấn đề hiệu năng của những mô hình ngôn ngữ-thị giác hiện có Ngoài ra còn cung cấp tiện ích OCR chuyển ảnh chụp màn hình của trang thành chuỗi có cấu trúc khoảng trắng để LLM không có thị giác có thể hiểu được Các dịch vụ OCR được hỗ trợ Hiện tại chỉ hỗ trợ Google Cloud Vision, và sẽ hỗ trợ Amazon Textract cùng Microsoft Azure Computer Vision

(github.com/reworkd)

6 điểm bởi xguru 2023-11-16 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Những câu hỏi nảy sinh khi tự động hóa tương tác web bằng GPT-4(V)
- Làm thế nào để ánh xạ phản hồi của LLM tới các phần tử web?
- Làm thế nào để đánh dấu trang nhằm giúp LLM hiểu rõ hơn không gian làm việc của nó?
- Làm thế nào để cung cấp "ảnh chụp màn hình" cho LLM chỉ hỗ trợ văn bản?
Tarsier là tiện ích thị giác dành cho tác nhân web đa phương thức
- Hoạt động bằng cách gắn "thẻ" trực quan lên các phần tử có thể tương tác trên trang thông qua các ID như [1]
- Nhờ đó cung cấp ánh xạ giữa phần tử và ID để GPT-4(V) có thể thực hiện tác vụ
- Các phần tử có thể tương tác được định nghĩa là các nút, liên kết hoặc trường nhập liệu hiển thị trên trang
- Có thể cung cấp biểu diễn văn bản của trang
  - Tức là ngay cả với LLM không đa phương thức cũng có thể tương tác sâu hơn
  - Đây là điểm quan trọng khi xét đến các vấn đề hiệu năng của những mô hình ngôn ngữ-thị giác hiện có
- Ngoài ra còn cung cấp tiện ích OCR chuyển ảnh chụp màn hình của trang thành chuỗi có cấu trúc khoảng trắng để LLM không có thị giác có thể hiểu được
Các dịch vụ OCR được hỗ trợ
- Hiện tại chỉ hỗ trợ Google Cloud Vision, và sẽ hỗ trợ Amazon Textract cùng Microsoft Azure Computer Vision

Tarsier - Tiện ích thị giác cho tác nhân tương tác web

Bài viết liên quan

Chưa có bình luận nào.