- Tự động hóa trình duyệt bằng cách chuyển các lệnh ngôn ngữ tự nhiên thành tương tác trình duyệt (mã Selenium)
- Mục tiêu là tự động hóa các tác vụ đơn giản thay cho người dùng, những tác vụ lặp đi lặp lại, tốn thời gian và hầu như không đòi hỏi nỗ lực nhận thức
- Được thiết kế để giúp tự động hóa quy trình làm việc trên web một cách dễ dàng và có thể chạy trong trình duyệt bằng cách cung cấp một engine chuyển đổi truy vấn ngôn ngữ tự nhiên thành mã Selenium
Tính năng chính
- Xử lý ngôn ngữ tự nhiên: Hiểu các chỉ dẫn bằng ngôn ngữ tự nhiên để thực hiện tương tác trên trình duyệt
- Tích hợp Selenium: Tích hợp mượt mà với Selenium để tự động hóa trình duyệt web
- Mã nguồn mở: Được xây dựng dựa trên các dự án mã nguồn mở như transformers và llama-index, đồng thời tận dụng các mô hình mã nguồn mở để đảm bảo tính minh bạch phù hợp với lợi ích của người dùng
- Hỗ trợ mô hình cục bộ để bảo vệ quyền riêng tư và khả năng kiểm soát: Hỗ trợ các mô hình cục bộ như
Gemma-7b để người dùng có thể kiểm soát hoàn toàn trợ lý AI của mình và bảo đảm quyền riêng tư
- Kỹ thuật AI nâng cao: Sử dụng embedding cục bộ (
bge-small-en-v1.5) để thực hiện RAG và trích xuất phần HTML phù hợp nhất, sau đó tận dụng Few-shot learning và Chain of Thought để suy ra đoạn mã Selenium phù hợp nhất cho việc thực hiện tác vụ, giúp LLM (Nous-Hermes-2-Mixtral-8x7B-DPO) không cần fine-tune cho sinh mã vẫn có thể thực hiện tác vụ
Bắt đầu
- Có thể thử LaVague trên notebook Colab.
Lộ trình
- Dù còn là dự án giai đoạn đầu, nhưng nó có thể phát triển theo hướng phổ cập các mô hình AI minh bạch và được căn chỉnh, có khả năng hành động trên Internet vì người dùng.
- Các hướng khám phá chính bao gồm fine-tune mô hình cục bộ để trở thành chuyên gia trong Text2Action, cải thiện truy xuất để chỉ dùng những phần mã liên quan cho việc sinh mã, và hỗ trợ các engine trình duyệt khác (ví dụ: playwright) hoặc các framework tự động hóa khác.
Ý kiến của GN⁺
- LaVague có tiềm năng tiết kiệm thời gian và nâng cao năng suất bằng cách tự động hóa các tác vụ lặp lại của người dùng. Điều này có thể đặc biệt hữu ích với các công việc như nhập dữ liệu lặp lại hoặc điền biểu mẫu.
- Được phát triển trên nền tảng mã nguồn mở, nó mang lại tính minh bạch và khả năng chỉnh sửa cho cả người dùng lẫn nhà phát triển. Điều này có thể giúp thúc đẩy đổi mới dựa trên cộng đồng và xây dựng niềm tin của người dùng.
- Công nghệ tự động hóa mà LaVague theo đuổi đã tích hợp với các công cụ quen thuộc với nhiều doanh nghiệp và nhà phát triển như Selenium, nên có thể dễ dàng đưa vào quy trình làm việc hiện có.
- Tự động hóa ứng dụng AI đòi hỏi độ chính xác và hiệu quả cao. Những kỹ thuật như Few-shot learning và Chain of Thought mà LaVague cung cấp có thể giúp giảm thiểu lỗi phát sinh khi xử lý các tác vụ phức tạp.
- Việc áp dụng các công nghệ này đòi hỏi phải cân nhắc đến quyền riêng tư của người dùng và bảo mật dữ liệu. Hỗ trợ mô hình cục bộ có thể là một cách để giải quyết các lo ngại đó, nhưng người dùng vẫn cần theo dõi cẩn thận cách dữ liệu của mình được xử lý.
2 bình luận
Có vẻ rất ổn vì có thể thử nghiệm ngay trong môi trường notebook. May là việc tích hợp với Playwright đã có trong roadmap,,
Ý kiến trên Hacker News
Ý kiến về việc thử công cụ mới
Trải nghiệm về việc dọn sạch Google Photos
Ý kiến về các công cụ tự động hóa trình duyệt như TaxyAI
Trải nghiệm về kiểm thử Selenium
Lo ngại về việc bỏ qua chỉ dẫn tự động hóa trên website
Ý kiến về tác động tiềm tàng của tự động hóa
Sự hứng thú về khả năng tương thích mô hình
Ảnh hưởng tới bỏ phiếu trực tuyến
Tầm quan trọng của benchmark thể hiện tỷ lệ thành công
Sự quan tâm tới dự án