2 điểm bởi GN⁺ 2023-11-10 | 1 bình luận | Chia sẻ qua WhatsApp

vimGPT: Mang đến sân chơi cho mô hình đa phương thức

Tổng quan

  • Việc ứng dụng các mô hình ngôn ngữ lớn (LLMs) cho duyệt web đang được nhiều startup và dự án mã nguồn mở khám phá.
  • Dự án này tập trung thử nghiệm liệu có thể duyệt web chỉ bằng năng lực thị giác của GPT-4V hay không.
  • Mô hình gặp khó khăn trong việc xác định đối tượng cần nhấp nếu không có DOM trình duyệt ở dạng văn bản.

Thiết lập

  • Cài đặt các yêu cầu Python: pip install -r requirements.txt
  • Cần tải Vimium về cục bộ và nạp tiện ích mở rộng thủ công khi chạy Playwright: ./setup.sh

Ý tưởng

  • Đang cân nhắc sử dụng Assistant API khi được phát hành để tự động truy xuất ngữ cảnh.
  • Có thể phát triển một phiên bản đặc biệt của Vimium để phủ lớp các phần tử một cách chọn lọc dựa trên ngữ cảnh.
  • Vấn đề mô hình không nhận diện được ở độ phân giải thấp có thể được cải thiện bằng cách dùng hình ảnh độ phân giải cao hơn.
  • Có thể tinh chỉnh LLaVa hoặc CogVLM để nhanh hơn và rẻ hơn.
  • Có kế hoạch dùng Vision API nếu nó hỗ trợ chế độ JSON, nhưng hiện tại vẫn phải dựa vào cách prompting thô hơn.
  • Đang cân nhắc cách để Vision API trả về chỉ thị tổng quát, rồi chuẩn hóa chúng bằng API chế độ JSON.
  • Cũng đang xem xét bổ sung chuyển giọng nói thành văn bản bằng Whisper hoặc mô hình khác để loại bỏ nhập liệu bằng văn bản và tăng khả năng tiếp cận.
  • Muốn làm cho nó hoạt động trong chính trình duyệt của người dùng thay vì một trình duyệt nhân tạo.
  • Cung cấp các khung hình tùy theo việc Vimium có được kích hoạt hay không, phòng trường hợp mô hình không nhìn thấy phần dưới các hình chữ nhật màu vàng.
  • Ngoài đầu vào hình ảnh, còn có thể cung cấp cây truy cập trợ năng của Chrome làm đầu vào để đưa ra bố cục các phần tử tương tác có thể ánh xạ tới các ràng buộc Vimium.

Tài liệu tham khảo

Ý kiến của GN⁺

Điểm quan trọng nhất của bài viết này là nỗ lực đổi mới trải nghiệm duyệt web bằng cách tận dụng các mô hình ngôn ngữ lớn như GPT-4V. Việc cung cấp cho mô hình một cách để tương tác với web thông qua tiện ích mở rộng Vimium là một cách tiếp cận thú vị, và nó có tiềm năng cải thiện khả năng tiếp cận cũng như tính tương tác trên web. Với những người đam mê công nghệ và nhà phát triển phần mềm, các thử nghiệm như vậy mang lại góc nhìn về tương lai của trí tuệ nhân tạo và sự tiến hóa của giao diện web, vì thế đây là một chủ đề rất hấp dẫn.

1 bình luận

 
GN⁺ 2023-11-10
Ý kiến trên Hacker News
  • Thật khó tin là giờ những thứ như thế này đã có thể làm được:

    • Có các tùy chọn có thể chọn để giúp người dùng thực hiện một tác vụ cụ thể: 'navigate', 'type', 'click', 'done'.
    • 'navigate' phải di chuyển tới URL được chỉ định, còn 'type' và 'click' nhận một chuỗi để xử lý.
    • Khi click thì phải trả về chuỗi ký tự màu vàng, còn khi gõ thì phải trả về thông điệp dưới dạng chuỗi.
    • Nếu trang đã đạt yêu cầu thì trả về khóa 'done', và bắt buộc chỉ được phản hồi ở định dạng JSON.
  • Ở chỗ làm của tôi, nợ kỹ thuật quá lớn nên có nhiều người phải sao chép dữ liệu thủ công:

    • Bày tỏ sự kỳ vọng rằng những công cụ như thế này sẽ hoạt động như một lớp có thể giải quyết các vấn đề hiện có.
  • Lời chào từ tác giả:

    • Cảm ơn vì đã chia sẻ dự án, và nhờ mọi người cứ đặt câu hỏi nếu có.
    • Trong README có các ý tưởng cho bước tiếp theo, nên rất hoan nghênh đóng góp.
  • Có ý kiến cho rằng vim là một "implementation" phù hợp với ChatGPT:

    • Có thể làm mọi thứ bằng luồng văn bản, và trên Internet đã có rất nhiều vimscript.
    • Nhắc rằng họ cũng đã bắt đầu một thử nghiệm tương tự và chia sẻ liên kết dự án liên quan.
  • Thảo luận về công việc chụp màn hình và duyệt web bằng GPT-4 Vision:

    • Sau khi thất bại trong việc overlay thông tin lên ảnh chụp màn hình, cách lấy accessibility tree từ playwright dưới dạng văn bản rồi cho model biết các tùy chọn tương tác đã cho kết quả tốt hơn.
    • Đề xuất tác giả thêm ý tưởng này vào danh sách ý tưởng cho tương lai.
  • Chia sẻ trải nghiệm thử nghiệm qua giao diện ChatGPT:

    • Đề xuất cập nhật CSS để loại bỏ gradient và các góc bo tròn.
    • Tổ hợp nền đỏ với chữ trắng đậm cho kết quả nhất quán nhất.
    • Khuyên tăng kích thước font, tách các nhãn nếu chúng chồng lên nhau và thêm mũi tên.
    • Khuyến nghị gửi cho API cả hai loại ảnh: có chú thích và không có chú thích.
  • Câu hỏi về việc những công cụ này sẽ ảnh hưởng thế nào đến theo dõi web hay quảng cáo:

    • Tiềm năng trở thành một "trình chặn quảng cáo" nơi agent tìm đúng thứ người dùng muốn thay họ mà không có quảng cáo hay popup.
    • Hình dung rằng điều này có thể làm giảm tầm quan trọng của SEO và cải thiện chất lượng Internet.
    • Mặt khác cũng bày tỏ lo ngại về các tác động tiêu cực mà quảng cáo có thể mang lại.
  • Có thể tạo ra một hệ thống lái tự động cho trình duyệt:

    • Nếu công nghệ này được triển khai ở quy mô lớn, sẽ rất khó phân biệt bot traffic.
    • Nêu vấn đề rằng trong ngắn hạn, nó sẽ không rẻ hoặc dễ tiếp cận.
  • Ý kiến tích cực rằng GPT-4V đã mang lại một góc nhìn mới cho web scraping:

    • Dự đoán đoạn code này hoặc code tương tự sẽ được ứng dụng trong nhiều dự án.
    • Ví dụ có thể dùng để scraping các website như LinkedIn hay Twitter, hoặc cho phân tích đối thủ, hiểu biết về ngành, thu thập tin tức, v.v.
  • Chia sẻ trải nghiệm sử dụng thực tế:

    • Gặp vấn đề các chú thích nhỏ cho tùy chọn có thể click thường không xuất hiện trên màn hình, khiến hệ thống rơi vào vòng lặp.
    • Đã đăng nhập Twitter thành công, nhưng nhanh chóng dùng hết giới hạn 100 image API.
    • Đề xuất trong các phiên bản tương lai nên chủ yếu dùng trình duyệt dựa trên văn bản, và chỉ dùng vision trong những tình huống phức tạp.