- Công cụ sử dụng LLM và thị giác máy tính để tự động hóa các quy trình làm việc trên trình duyệt
- Các giải pháp tự động hóa hiện có phụ thuộc vào phân tích DOM và tương tác dựa trên XPath, vốn dễ bị hỏng khi bố cục website thay đổi; trong khi đó, Skyvern thực hiện việc này bằng cách phân tích các mục trong viewport theo thời gian thực và lập kế hoạch tương tác
- Ưu điểm:
- Có thể hoạt động cả trên các website mới và ánh xạ các yếu tố trực quan thành hành động cần thiết cho tác vụ mà không cần mã tùy chỉnh.
- Chịu được thay đổi bố cục website và không sử dụng XPath hay selector được định nghĩa sẵn.
- Có thể áp dụng một workflow duy nhất cho nhiều website và giải quyết vấn đề thông qua tương tác ngay cả trong những tình huống phức tạp.
Cách hoạt động
- Hệ thống tác nhân: Skyvern sử dụng nhiều tác nhân để hiểu website, lập kế hoạch và thực thi tác vụ.
- Tác nhân yếu tố có thể tương tác: Phân tích HTML của website và trích xuất các yếu tố có thể tương tác.
- Tác nhân điều hướng: Lập kế hoạch điều hướng để hoàn thành tác vụ.
- Tác nhân trích xuất dữ liệu: Trích xuất dữ liệu từ website.
- Tác nhân mật khẩu: Điền biểu mẫu mật khẩu.
- Tác nhân 2FA: Điền biểu mẫu 2FA.
- Tác nhân tự động hoàn thành động: Điền các biểu mẫu tự động hoàn thành động.
Skyvern Cloud
- Phiên bản đám mây: Phiên bản cloud được quản lý của Skyvern cho phép chạy song song nhiều instance Skyvern để tự động hóa workflow ở quy mô lớn mà không cần quản lý hạ tầng. Ngoài ra còn bao gồm cơ chế chống phát hiện bot, mạng proxy và khả năng giải CAPTCHA.
Tác vụ và workflow của Skyvern
- Tác vụ: Khối xây dựng cơ bản của Skyvern, dùng để chỉ dẫn điều hướng website nhằm đạt được một mục tiêu cụ thể.
- Workflow: Kết nối nhiều tác vụ lại thành một đơn vị công việc. Ví dụ, có thể tự động hóa quy trình tự động mua sản phẩm trong một cửa hàng thương mại điện tử.
1 bình luận
Ý kiến trên Hacker News
Có sự quan tâm đến thông báo về tính năng "sử dụng máy tính" của Claude từ Anthropic và câu hỏi về điểm khác biệt của Skyvern
Có nhắc đến việc gần đây xuất hiện nhiều lớp bọc AI tận dụng Playwright
Có lo ngại về việc phải viết nhiều prompt và sử dụng dữ liệu dạng văn bản thuần trong video ví dụ của Skyvern
Có ý kiến cho rằng tần suất website thiết kế lại đã bị phóng đại
Có nhắc đến rủi ro của các startup dựa trên LLM bên thứ ba
Có lời chúc mừng việc Skyvern được mã nguồn mở theo AGPL và câu hỏi về kế hoạch tích hợp LangChain
Giải thích khái niệm "tự động hóa trình duyệt"
Đặt câu hỏi về các trường hợp sử dụng và hệ quả dài hạn của các công cụ tự động hóa quy trình làm việc bằng LLM
Có lo ngại rằng Skyvern đang chồng thêm một lớp phức tạp lên trên một quy trình vốn đã phức tạp
Có câu hỏi liệu ai đã từng chạy Skyvern trên modal.com hay chưa
Có câu hỏi về hiệu năng trên WebArena và VisualWebArena
Có câu hỏi liệu Cloudflare có khả năng chặn Skyvern hay không
Có câu hỏi liệu ai đã từng chạy Skyvern trên website của các hãng hàng không hay chưa