4 điểm bởi xguru 2024-10-28 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Kết quả sau khi thử dùng Computer Use API của Anthropic,
    • chậm, không đáng tin cậy và dễ chiếm quyền máy tính, nhưng "cực kỳ thú vị"
  • Claude Computer mang lại cảm giác về một 'agent' thực thụ vì vision là API gắn kết mọi thứ, nên lúc nào cũng có thể làm được điều gì đó

Nó hoạt động như thế nào?

  • Claude Computer Use về cơ bản có vẻ là Claude 3.5 được fine-tune bằng dữ liệu tương tác máy tính
  • Nó hiểu ảnh chụp màn hình của máy tính và những gì bên trong tốt hơn hẳn các mô hình khác

[Điểm làm tốt]

Đọc và điều hướng màn hình (tương đối)

  • Hầu như chưa từng thấy Claude đọc sai nội dung trong ảnh chụp màn hình
  • So với các AI khác, nó khá giỏi xác định tọa độ như (500,250) 위치의 입력창을 클릭하세요 (dù có thể lệch nhẹ tùy kích thước màn hình)

Function calling

  • Tôi vốn quen nghĩ function calling nghiêm ngặt hơn nhưng lại tệ hơn structured output, nhưng Claude Computer dùng function calling rất tốt
  • Ví dụ, nếu được cung cấp hàm công cụ trình duyệt có thể đi ngay tới một website, nó sẽ ưu tiên hàm đó thay vì bấm vào biểu tượng trình duyệt

Suy nghĩ theo từng bước

  • Nếu được yêu cầu phân rã công việc, Claude thường khá giỏi trong việc xác định các bước cần làm và bắt đầu thực hiện

[Điểm làm chưa tốt]

Biết khi nào cần đọc màn hình

  • Vì chụp ảnh màn hình tốn kém, AI có xu hướng giả định thao tác của mình đã thành công
  • Ví dụ, nếu nó nhập vào một trường nhưng trường đó không có focus, thì về sau rất khó phát hiện ra. OS function calling cần mô tả rất chính xác liệu kết quả mong muốn có thực sự xảy ra hay không
  • Đây là cách Claude mắc kẹt thường xuyên nhất. Đến lúc chụp ảnh màn hình mới thì nó đã không còn biết mình đang tiến triển tới đâu

Lấy thêm dữ liệu

  • Nếu bảo nó tìm 3 quán shawarma gần nhất, Claude sẽ nhập 'shawarma' vào Google Maps và chọn 3 kết quả đầu tiên
  • Nếu cần bấm chuột, gần như nó sẽ không bao giờ vào menu để chọn 'sắp xếp theo khoảng cách' trước
  • Điều này có thể được giải quyết bằng cấu trúc prompt tốt hơn

Ghi nhớ trạng thái

  • Trong Computer Use, nhiều phần hơn của trạng thái chương trình được lưu trong hình ảnh, và có vẻ nó dễ bị yếu ở việc hồi tưởng lại những thứ đó
  • Điều này cũng áp dụng với những gì nó đã làm trong quá khứ, như các tab từng mở hay ứng dụng từng thay đổi
  • Tốt nhất là khiến Claude xuất trạng thái liên quan ra dưới dạng văn bản nhiều nhất có thể và cung cấp trạng thái hệ thống qua công cụ

Điều hướng modal và popup

  • Claude thường bị rối nhất với modal và popup, không biết cách bấm để thoát khỏi chúng hoặc không nhận ra mình đang ở sai trạng thái

[Cần gì?]

Cung cấp càng nhiều trạng thái hệ thống càng tốt

  • Lý tưởng nhất là chỉ muốn Claude Computer dùng vision khi thực sự tuyệt đối cần thiết
  • Nếu cung cấp các công cụ giúp hiểu trạng thái dễ dàng mà không cần vision, nó có thể di chuyển nhanh hơn và suy nghĩ rõ ràng hơn
  • Sẽ rất hữu ích nếu cung cấp những thứ như:
    • danh sách các ứng dụng đang mở
    • ứng dụng nào đang có focus hoạt động
    • bên trong ứng dụng đó, thành phần nào đang có focus
    • càng nhiều function calling càng tốt để điều hướng riêng trong ứng dụng đó
      • đặc biệt công cụ trình duyệt là rất quan trọng (ví dụ: để đi tới một URL cụ thể hoặc tìm kiếm)

Cách xử lý sự không chắc chắn

  • Đây là vấn đề chưa được giải quyết lớn nhất trong phát triển agent
  • Điều quan trọng nhất với agent là độ tin cậy, và độ tin cậy cần có đầu vào và phản hồi
  • Trong quá trình thử nghiệm, có nhiều lần rất rõ ràng là Claude không biết mình nên làm gì, nhưng thay vì dừng lại hoặc hỏi thì nó cứ tiếp tục làm tới
  • Tôi đã dành khá nhiều thời gian để tạo công cụ hỏi đáp nhằm khiến AI đặt câu hỏi hoặc suy luận khi bị kẹt. Nhưng nó gần như không dùng đến
  • Điều này cũng hợp lý. Function calling phù hợp nhất khi nó biết mình cần thông tin gì và chỉ việc truy xuất nó
  • Tuy nhiên, biết khi nào mình không chắc chắn lại là một vấn đề khác. Nhà phát triển agent cần có thể tin tưởng rằng AI sẽ báo cáo sự không chắc chắn của chính nó

[Con đường phía trước]

  • Claude Computer Use là bước đầu tiên hướng tới hành vi agent thực thụ
  • Có khả năng chúng ta vẫn chưa khai thác hết năng lực của mô hình hiện tại này
  • Tuy nhiên, rõ ràng để tạo ra trải nghiệm agent thực sự thì sẽ cần nhiều hơn là chỉ function calling của LLM

Chưa có bình luận nào.

Chưa có bình luận nào.