4 điểm bởi GN⁺ 2024-10-25 | 1 bình luận | Chia sẻ qua WhatsApp
  • Công cụ sử dụng LLM và thị giác máy tính để tự động hóa các quy trình làm việc trên trình duyệt
  • Các giải pháp tự động hóa hiện có phụ thuộc vào phân tích DOM và tương tác dựa trên XPath, vốn dễ bị hỏng khi bố cục website thay đổi; trong khi đó, Skyvern thực hiện việc này bằng cách phân tích các mục trong viewport theo thời gian thực và lập kế hoạch tương tác
  • Ưu điểm:
    • Có thể hoạt động cả trên các website mới và ánh xạ các yếu tố trực quan thành hành động cần thiết cho tác vụ mà không cần mã tùy chỉnh.
    • Chịu được thay đổi bố cục website và không sử dụng XPath hay selector được định nghĩa sẵn.
    • Có thể áp dụng một workflow duy nhất cho nhiều website và giải quyết vấn đề thông qua tương tác ngay cả trong những tình huống phức tạp.

Cách hoạt động

  • Hệ thống tác nhân: Skyvern sử dụng nhiều tác nhân để hiểu website, lập kế hoạch và thực thi tác vụ.
    • Tác nhân yếu tố có thể tương tác: Phân tích HTML của website và trích xuất các yếu tố có thể tương tác.
    • Tác nhân điều hướng: Lập kế hoạch điều hướng để hoàn thành tác vụ.
    • Tác nhân trích xuất dữ liệu: Trích xuất dữ liệu từ website.
    • Tác nhân mật khẩu: Điền biểu mẫu mật khẩu.
    • Tác nhân 2FA: Điền biểu mẫu 2FA.
    • Tác nhân tự động hoàn thành động: Điền các biểu mẫu tự động hoàn thành động.

Skyvern Cloud

  • Phiên bản đám mây: Phiên bản cloud được quản lý của Skyvern cho phép chạy song song nhiều instance Skyvern để tự động hóa workflow ở quy mô lớn mà không cần quản lý hạ tầng. Ngoài ra còn bao gồm cơ chế chống phát hiện bot, mạng proxy và khả năng giải CAPTCHA.

Tác vụ và workflow của Skyvern

  • Tác vụ: Khối xây dựng cơ bản của Skyvern, dùng để chỉ dẫn điều hướng website nhằm đạt được một mục tiêu cụ thể.
  • Workflow: Kết nối nhiều tác vụ lại thành một đơn vị công việc. Ví dụ, có thể tự động hóa quy trình tự động mua sản phẩm trong một cửa hàng thương mại điện tử.

1 bình luận

 
GN⁺ 2024-10-25
Ý kiến trên Hacker News
  • Có sự quan tâm đến thông báo về tính năng "sử dụng máy tính" của Claude từ Anthropic và câu hỏi về điểm khác biệt của Skyvern

    • Mọi người thắc mắc Skyvern khác gì so với tính năng mới của Claude
  • Có nhắc đến việc gần đây xuất hiện nhiều lớp bọc AI tận dụng Playwright

    • Họ cho rằng ứng dụng trong BPA (tự động hóa quy trình kinh doanh) hấp dẫn hơn tự động hóa kiểm thử
    • Với tự động hóa kiểm thử, độ chính xác và khả năng lặp lại là quan trọng, còn với BPA thì chỉ kết quả mới quan trọng
  • Có lo ngại về việc phải viết nhiều prompt và sử dụng dữ liệu dạng văn bản thuần trong video ví dụ của Skyvern

    • Dù được nói là ít mang tính kỹ thuật hơn so với sinh mã bằng Playwright, họ cho rằng không có nhiều người có thể quản lý được việc này
    • Có lo ngại về bảo mật khi truyền thông tin đăng nhập website và thông tin thẻ tín dụng dưới dạng văn bản thuần
  • Có ý kiến cho rằng tần suất website thiết kế lại đã bị phóng đại

    • Tự động hóa bằng Playwright có thể cho biết khi nào cần cập nhật thông qua bước xác minh nếu quy trình thay đổi, nhưng ở Skyvern thì không thấy tùy chọn đó
  • Có nhắc đến rủi ro của các startup dựa trên LLM bên thứ ba

    • Sự tham gia của các ông lớn như Anthropic, OpenAI và Google sẽ khiến cạnh tranh trở nên khốc liệt
  • Có lời chúc mừng việc Skyvern được mã nguồn mở theo AGPL và câu hỏi về kế hoạch tích hợp LangChain

    • Họ cũng tò mò về công nghệ đã được dùng để xây dựng logic suy nghĩ/hành động của Skyvern
  • Giải thích khái niệm "tự động hóa trình duyệt"

    • Đây là việc tạo ra một chương trình thao tác website, tương tự Selenium
  • Đặt câu hỏi về các trường hợp sử dụng và hệ quả dài hạn của các công cụ tự động hóa quy trình làm việc bằng LLM

    • Họ nêu ra các câu hỏi như liệu công cụ này có giải quyết được vấn đề thiếu khả năng tương tác giữa các công cụ, có lách qua các biện pháp bảo mật hay được dùng để trì hoãn việc bảo trì các công cụ nội bộ hay không
  • Có lo ngại rằng Skyvern đang chồng thêm một lớp phức tạp lên trên một quy trình vốn đã phức tạp

    • Họ cho rằng dự án có thể hữu ích, nhưng vẫn nghi ngờ về hiệu quả lâu dài
  • Có câu hỏi liệu ai đã từng chạy Skyvern trên modal.com hay chưa

  • Có câu hỏi về hiệu năng trên WebArena và VisualWebArena

  • Có câu hỏi liệu Cloudflare có khả năng chặn Skyvern hay không

  • Có câu hỏi liệu ai đã từng chạy Skyvern trên website của các hãng hàng không hay chưa

    • Website của các hãng hàng không thay đổi thường xuyên và có các biện pháp chống scraping rất mạnh