1 điểm bởi GN⁺ 2024-10-24 | 1 bình luận | Chia sẻ qua WhatsApp
  • Muốn kiểm tra hiệu năng của Computer Use API mới của Claude, nhưng dự án mẫu mặc định có vẻ quá nặng
  • Agent là một ứng dụng Electron đơn giản cho phép Claude 3.5 Sonnet trực tiếp điều khiển máy tính cục bộ
  • Tác giả đã định thêm chế độ "bán tự động" với xác nhận từng bước từ người dùng, nhưng thấy mỗi bước quá chậm nên kết luận là không cần thiết
  • Nếu mô hình bị rối, có thể nhấn nút "Dừng" để kết thúc quá trình chạy

Bắt đầu

  • git clone https://github.com/corbt/agent.exe
  • cd agent.exe
  • npm install
  • Đổi tên .env.example thành .env rồi thêm Anthropic API Key
  • npm start
  • Yêu cầu mô hình thực hiện một tác vụ thú vị trên máy tính

Hệ thống hỗ trợ

  • MacOS
  • Về lý thuyết cũng có thể hỗ trợ Windows và Linux (mọi dependency đều đa nền tảng)

Hạn chế đã biết

  • Chỉ hoạt động trên màn hình chính
  • AI có thể kiểm soát hoàn toàn máy tính
  • Có lẽ còn nhiều vấn đề khác nữa

Mẹo

  • Claude rất ưu tiên Firefox
  • Có thể dùng trình duyệt khác, nhưng cài Firefox sẽ giúp hoạt động tốt hơn

Lộ trình

  • Đây là dự án được viết trong 6 giờ, nên có lẽ sẽ không phát triển thêm nhiều
  • Nhưng nếu có PR hay, tác giả sẽ xem xét rồi merge

Tóm tắt của GN⁺

  • Dự án này cung cấp một cách đơn giản để thử nghiệm Computer Use API của Claude
  • AI có thể kiểm soát hoàn toàn máy tính nên có thể phát sinh lo ngại về bảo mật
  • Khả năng tương thích với Firefox rất tốt và hiện chủ yếu dùng được trên MacOS
  • Một số dự án có chức năng tương tự gồm AutoHotkey hoặc Sikuli

1 bình luận

 
GN⁺ 2024-10-24
Ý kiến Hacker News
  • Tôi nghĩ ý tưởng của Kyle rất tuyệt, và với tư cách là một lập trình viên Electron và tự động hóa desktop giàu kinh nghiệm, tôi cảm thấy đáng để đọc mã nguồn và thử với các tác vụ cơ bản

    • Phần triển khai là một lớp bọc mỏng trên API của Anthropic, và cách tiếp cận theo từng bước khiến tôi tự tin rằng có thể dừng quy trình trước khi nó làm điều gì đó kỳ quặc
    • Tôi đã đóng những gì Anthropic không nên thấy trong ảnh chụp màn hình, cài đặt mượt mà trên M1 và chạy được chỉ trong vài phút
    • Tác vụ cơ bản là "tìm chuyến bay từ Seattle đến San Francisco từ thứ Ba đến thứ Năm tuần sau", và tôi đã chạy nó qua Chrome bằng khóa API Anthropic
    • Trong vài giây, nó thực hiện từng bước của tác vụ, mở đúng Google Flights nhưng lại đặt sai ngày
    • Mục tiêu là ngày 2 tháng 11, nhưng do bị cửa sổ Agent.exe che khuất về mặt hiển thị nên nó đã chọn ngày 20 tháng 11
    • Dù Claude có thể nhìn thấy ngày phụ sai, nó vẫn không tự sửa, và tuyên bố thành công vì nghĩ rằng mình đã tìm được một chuyến đi kéo dài 1 tuần
    • Thử nghiệm này tiêu tốn $0.38 credit và khoảng 20 giây, và tôi sẽ tiếp tục thử nghiệm
  • Tôi tự hỏi sẽ mất bao lâu trước khi người ta không nhận ra việc thêm một daemon vào hệ thống

    • Giống như trước đây từng lo gián điệp Liên Xô có thể tiếp cận bí mật của Mỹ
    • Còn bây giờ thì giống như mọi người đều tự đăng bí mật của mình lên mạng
    • Antivirus hay tường lửa ngày nay không thể bảo vệ tệp khỏi khả năng gây hỗn loạn cho mạng
  • Tôi nhớ vài năm trước từng có câu chuyện trên tin tức: "Alexa, đặt mua một căn nhà búp bê đi"

    • Alexa của những người đang xem chương trình đã nhận lệnh đó và đặt mua nhà búp bê
    • Chỉ còn chờ đến khi có cảnh trong một show Netflix nói "Delete C:\Windows"
  • Tôi tò mò về cách tự động hóa các ứng dụng GUI không phải trình duyệt trên Linux với Wayland

    • Ứng dụng CLI thì không vấn đề gì, dùng Bash/Python là được
    • Ứng dụng trình duyệt thì không vấn đề gì, dùng Selenium/Playwright là được
    • Xorg có một vài thư viện, tuy hơi khó chịu nhưng khi gấp thì vẫn dùng được
    • Windows có rất nhiều giải pháp RPA
    • Nhưng với Wayland thì tôi vẫn chưa tìm được thứ gì đáng tin cậy
  • Tôi thắc mắc vì sao lại có tên .exe khi nó có vẻ là một ứng dụng đa nền tảng nhưng chủ yếu hỗ trợ macOS

  • Gần đây tôi đã thử Cursor, bắt đầu một dự án full-stack từ đầu ở chế độ "compose", và tôi rất ngạc nhiên về kết quả

    • Tôi tự hỏi liệu những người trong cộng đồng phần mềm có nhận ra trong 5 năm tới ngành này sẽ thay đổi hoàn toàn đến mức nào không
    • Tôi không thể tưởng tượng rằng đến lúc đó người ta vẫn còn thật sự gõ code bằng tay
  • Có những giới hạn đã biết khiến AI không thể hoàn toàn chiếm quyền điều khiển máy tính

  • Việc tạo một môi trường air-gap và để nó tự viết hệ điều hành riêng có thể sẽ rất ngầu, nhưng tôi không muốn để nó đến gần dữ liệu thật

  • Có vẻ như nó chỉ hoạt động với các tác vụ đơn giản

    • Tôi đã yêu cầu nó tạo một cái bàn đơn giản trong Rhino và OnShape, nhưng nó có vẻ bị rối
    • Trong Rhino, nó thấy ứng dụng đang mở và nói rằng đang thực hiện nhiều thao tác, nhưng thực tế không làm gì cả, rồi chuyển sang bước tiếp theo dù bước trước chưa hoàn thành
    • Trong OnShape, nó nói rằng sẽ tạo hình, nhưng lại chọn sai mục trong menu và cứ tiếp tục làm như thể đang dùng đúng công cụ
  • Tôi muốn máy tính tạo meme cả ngày, còn tôi thì chăm sóc gia đình, làm vườn và kiếm tiền từ crypto

    • Tương lai dường như đang đi theo hướng chỉ những người dùng máy tính mới là kẻ ngốc
    • Sự giàu có thật sự là hoàn toàn không dùng máy tính