Khám phá web bằng GPT-4 Vision và Vimium
(github.com/ishan0102)vimGPT: Mang đến sân chơi cho mô hình đa phương thức
Tổng quan
- Việc ứng dụng các mô hình ngôn ngữ lớn (LLMs) cho duyệt web đang được nhiều startup và dự án mã nguồn mở khám phá.
- Dự án này tập trung thử nghiệm liệu có thể duyệt web chỉ bằng năng lực thị giác của GPT-4V hay không.
- Mô hình gặp khó khăn trong việc xác định đối tượng cần nhấp nếu không có DOM trình duyệt ở dạng văn bản.
Thiết lập
- Cài đặt các yêu cầu Python:
pip install -r requirements.txt - Cần tải Vimium về cục bộ và nạp tiện ích mở rộng thủ công khi chạy Playwright:
./setup.sh
Ý tưởng
- Đang cân nhắc sử dụng Assistant API khi được phát hành để tự động truy xuất ngữ cảnh.
- Có thể phát triển một phiên bản đặc biệt của Vimium để phủ lớp các phần tử một cách chọn lọc dựa trên ngữ cảnh.
- Vấn đề mô hình không nhận diện được ở độ phân giải thấp có thể được cải thiện bằng cách dùng hình ảnh độ phân giải cao hơn.
- Có thể tinh chỉnh LLaVa hoặc CogVLM để nhanh hơn và rẻ hơn.
- Có kế hoạch dùng Vision API nếu nó hỗ trợ chế độ JSON, nhưng hiện tại vẫn phải dựa vào cách prompting thô hơn.
- Đang cân nhắc cách để Vision API trả về chỉ thị tổng quát, rồi chuẩn hóa chúng bằng API chế độ JSON.
- Cũng đang xem xét bổ sung chuyển giọng nói thành văn bản bằng Whisper hoặc mô hình khác để loại bỏ nhập liệu bằng văn bản và tăng khả năng tiếp cận.
- Muốn làm cho nó hoạt động trong chính trình duyệt của người dùng thay vì một trình duyệt nhân tạo.
- Cung cấp các khung hình tùy theo việc Vimium có được kích hoạt hay không, phòng trường hợp mô hình không nhìn thấy phần dưới các hình chữ nhật màu vàng.
- Ngoài đầu vào hình ảnh, còn có thể cung cấp cây truy cập trợ năng của Chrome làm đầu vào để đưa ra bố cục các phần tử tương tác có thể ánh xạ tới các ràng buộc Vimium.
Tài liệu tham khảo
Ý kiến của GN⁺
Điểm quan trọng nhất của bài viết này là nỗ lực đổi mới trải nghiệm duyệt web bằng cách tận dụng các mô hình ngôn ngữ lớn như GPT-4V. Việc cung cấp cho mô hình một cách để tương tác với web thông qua tiện ích mở rộng Vimium là một cách tiếp cận thú vị, và nó có tiềm năng cải thiện khả năng tiếp cận cũng như tính tương tác trên web. Với những người đam mê công nghệ và nhà phát triển phần mềm, các thử nghiệm như vậy mang lại góc nhìn về tương lai của trí tuệ nhân tạo và sự tiến hóa của giao diện web, vì thế đây là một chủ đề rất hấp dẫn.
1 bình luận
Ý kiến trên Hacker News
Thật khó tin là giờ những thứ như thế này đã có thể làm được:
Ở chỗ làm của tôi, nợ kỹ thuật quá lớn nên có nhiều người phải sao chép dữ liệu thủ công:
Lời chào từ tác giả:
Có ý kiến cho rằng vim là một "implementation" phù hợp với ChatGPT:
Thảo luận về công việc chụp màn hình và duyệt web bằng GPT-4 Vision:
Chia sẻ trải nghiệm thử nghiệm qua giao diện ChatGPT:
Câu hỏi về việc những công cụ này sẽ ảnh hưởng thế nào đến theo dõi web hay quảng cáo:
Có thể tạo ra một hệ thống lái tự động cho trình duyệt:
Ý kiến tích cực rằng GPT-4V đã mang lại một góc nhìn mới cho web scraping:
Chia sẻ trải nghiệm sử dụng thực tế: