Claude Computer Use - Vision có phải là API tối thượng?

xguru · 2024-10-28T09:41:01+09:00

Kết quả sau khi thử dùng Computer Use API của Anthropic, chậm, không đáng tin cậy và dễ chiếm quyền máy tính, nhưng "cực kỳ thú vị" Claude Computer mang lại cảm giác về một 'agent' thực thụ vì vision là API gắn kết mọi thứ, nên lúc nào cũng có thể làm được điều gì đó Nó hoạt động như thế nào? Claude Computer Use về cơ bản có vẻ là Claude 3.5 được fine-tune bằng dữ liệu tương tác máy tính Nó hiểu ảnh chụp màn hình của máy tính và những gì bên trong tốt hơn hẳn các mô hình khác [Điểm làm tốt] Đọc và điều hướng màn hình (tương đối) Hầu như chưa từng thấy Claude đọc sai nội dung trong ảnh chụp màn hình So với các AI khác, nó khá giỏi xác định tọa độ như (500,250) 위치의 입력창을 클릭하세요 (dù có thể lệch nhẹ tùy kích thước màn hình) Function calling Tôi vốn quen nghĩ function calling nghiêm ngặt hơn nhưng lại tệ hơn structured output, nhưng Claude Computer dùng function calling rất tốt Ví dụ, nếu được cung cấp hàm công cụ trình duyệt có thể đi ngay tới một website, nó sẽ ưu tiên hàm đó thay vì bấm vào biểu tượng trình duyệt Suy nghĩ theo từng bước Nếu được yêu cầu phân rã công việc, Claude thường khá giỏi trong việc xác định các bước cần làm và bắt đầu thực hiện [Điểm làm chưa tốt] Biết khi nào cần đọc màn hình Vì chụp ảnh màn hình tốn kém, AI có xu hướng giả định thao tác của mình đã thành công Ví dụ, nếu nó nhập vào một trường nhưng trường đó không có focus, thì về sau rất khó phát hiện ra. OS function calling cần mô tả rất chính xác liệu kết quả mong muốn có thực sự xảy ra hay không Đây là cách Claude mắc kẹt thường xuyên nhất. Đến lúc chụp ảnh màn hình mới thì nó đã không còn biết mình đang tiến triển tới đâu Lấy thêm dữ liệu Nếu bảo nó tìm 3 quán shawarma gần nhất, Claude sẽ nhập 'shawarma' vào Google Maps và chọn 3 kết quả đầu tiên Nếu cần bấm chuột, gần như nó sẽ không bao giờ vào menu để chọn 'sắp xếp theo khoảng cách' trước Điều này có thể được giải quyết bằng cấu trúc prompt tốt hơn Ghi nhớ trạng thái Trong Computer Use, nhiều phần hơn của trạng thái chương trình được lưu trong hình ảnh, và có vẻ nó dễ bị yếu ở việc hồi tưởng lại những thứ đó Điều này cũng áp dụng với những gì nó đã làm trong quá khứ, như các tab từng mở hay ứng dụng từng thay đổi Tốt nhất là khiến Claude xuất trạng thái liên quan ra dưới dạng văn bản nhiều nhất có thể và cung cấp trạng thái hệ thống qua công cụ Điều hướng modal và popup Claude thường bị rối nhất với modal và popup, không biết cách bấm để thoát khỏi chúng hoặc không nhận ra mình đang ở sai trạng thái [Cần gì?] Cung cấp càng nhiều trạng thái hệ thống càng tốt Lý tưởng nhất là chỉ muốn Claude Computer dùng vision khi thực sự tuyệt đối cần thiết Nếu cung cấp các công cụ giúp hiểu trạng thái dễ dàng mà không cần vision, nó có thể di chuyển nhanh hơn và suy nghĩ rõ ràng hơn Sẽ rất hữu ích nếu cung cấp những thứ như: danh sách các ứng dụng đang mở ứng dụng nào đang có focus hoạt động bên trong ứng dụng đó, thành phần nào đang có focus càng nhiều function calling càng tốt để điều hướng riêng trong ứng dụng đó đặc biệt công cụ trình duyệt là rất quan trọng (ví dụ: để đi tới một URL cụ thể hoặc tìm kiếm) Cách xử lý sự không chắc chắn Đây là vấn đề chưa được giải quyết lớn nhất trong phát triển agent Điều quan trọng nhất với agent là độ tin cậy, và độ tin cậy cần có đầu vào và phản hồi Trong quá trình thử nghiệm, có nhiều lần rất rõ ràng là Claude không biết mình nên làm gì, nhưng thay vì dừng lại hoặc hỏi thì nó cứ tiếp tục làm tới Tôi đã dành khá nhiều thời gian để tạo công cụ hỏi đáp nhằm khiến AI đặt câu hỏi hoặc suy luận khi bị kẹt. Nhưng nó gần như không dùng đến Điều này cũng hợp lý. Function calling phù hợp nhất khi nó biết mình cần thông tin gì và chỉ việc truy xuất nó Tuy nhiên, biết khi nào mình không chắc chắn lại là một vấn đề khác. Nhà phát triển agent cần có thể tin tưởng rằng AI sẽ báo cáo sự không chắc chắn của chính nó [Con đường phía trước] Claude Computer Use là bước đầu tiên hướng tới hành vi agent thực thụ Có khả năng chúng ta vẫn chưa khai thác hết năng lực của mô hình hiện tại này Tuy nhiên, rõ ràng để tạo ra trải nghiệm agent thực sự thì sẽ cần nhiều hơn là chỉ function calling của LLM

(thariq.io)

4 điểm bởi xguru 2024-10-28 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Kết quả sau khi thử dùng Computer Use API của Anthropic,
- chậm, không đáng tin cậy và dễ chiếm quyền máy tính, nhưng "cực kỳ thú vị"
Claude Computer mang lại cảm giác về một 'agent' thực thụ vì vision là API gắn kết mọi thứ, nên lúc nào cũng có thể làm được điều gì đó

Nó hoạt động như thế nào?

Claude Computer Use về cơ bản có vẻ là Claude 3.5 được fine-tune bằng dữ liệu tương tác máy tính
Nó hiểu ảnh chụp màn hình của máy tính và những gì bên trong tốt hơn hẳn các mô hình khác

[Điểm làm tốt]

Đọc và điều hướng màn hình (tương đối)

Hầu như chưa từng thấy Claude đọc sai nội dung trong ảnh chụp màn hình
So với các AI khác, nó khá giỏi xác định tọa độ như (500,250) 위치의 입력창을 클릭하세요 (dù có thể lệch nhẹ tùy kích thước màn hình)

Function calling

Tôi vốn quen nghĩ function calling nghiêm ngặt hơn nhưng lại tệ hơn structured output, nhưng Claude Computer dùng function calling rất tốt
Ví dụ, nếu được cung cấp hàm công cụ trình duyệt có thể đi ngay tới một website, nó sẽ ưu tiên hàm đó thay vì bấm vào biểu tượng trình duyệt

Suy nghĩ theo từng bước

Nếu được yêu cầu phân rã công việc, Claude thường khá giỏi trong việc xác định các bước cần làm và bắt đầu thực hiện

[Điểm làm chưa tốt]

Biết khi nào cần đọc màn hình

Vì chụp ảnh màn hình tốn kém, AI có xu hướng giả định thao tác của mình đã thành công
Ví dụ, nếu nó nhập vào một trường nhưng trường đó không có focus, thì về sau rất khó phát hiện ra. OS function calling cần mô tả rất chính xác liệu kết quả mong muốn có thực sự xảy ra hay không
Đây là cách Claude mắc kẹt thường xuyên nhất. Đến lúc chụp ảnh màn hình mới thì nó đã không còn biết mình đang tiến triển tới đâu

Lấy thêm dữ liệu

Nếu bảo nó tìm 3 quán shawarma gần nhất, Claude sẽ nhập 'shawarma' vào Google Maps và chọn 3 kết quả đầu tiên
Nếu cần bấm chuột, gần như nó sẽ không bao giờ vào menu để chọn 'sắp xếp theo khoảng cách' trước
Điều này có thể được giải quyết bằng cấu trúc prompt tốt hơn

Ghi nhớ trạng thái

Trong Computer Use, nhiều phần hơn của trạng thái chương trình được lưu trong hình ảnh, và có vẻ nó dễ bị yếu ở việc hồi tưởng lại những thứ đó
Điều này cũng áp dụng với những gì nó đã làm trong quá khứ, như các tab từng mở hay ứng dụng từng thay đổi
Tốt nhất là khiến Claude xuất trạng thái liên quan ra dưới dạng văn bản nhiều nhất có thể và cung cấp trạng thái hệ thống qua công cụ

Điều hướng modal và popup

Claude thường bị rối nhất với modal và popup, không biết cách bấm để thoát khỏi chúng hoặc không nhận ra mình đang ở sai trạng thái

[Cần gì?]

Cung cấp càng nhiều trạng thái hệ thống càng tốt

Lý tưởng nhất là chỉ muốn Claude Computer dùng vision khi thực sự tuyệt đối cần thiết
Nếu cung cấp các công cụ giúp hiểu trạng thái dễ dàng mà không cần vision, nó có thể di chuyển nhanh hơn và suy nghĩ rõ ràng hơn
Sẽ rất hữu ích nếu cung cấp những thứ như:
- danh sách các ứng dụng đang mở
- ứng dụng nào đang có focus hoạt động
- bên trong ứng dụng đó, thành phần nào đang có focus
- càng nhiều function calling càng tốt để điều hướng riêng trong ứng dụng đó
  - đặc biệt công cụ trình duyệt là rất quan trọng (ví dụ: để đi tới một URL cụ thể hoặc tìm kiếm)

Cách xử lý sự không chắc chắn

Đây là vấn đề chưa được giải quyết lớn nhất trong phát triển agent
Điều quan trọng nhất với agent là độ tin cậy, và độ tin cậy cần có đầu vào và phản hồi
Trong quá trình thử nghiệm, có nhiều lần rất rõ ràng là Claude không biết mình nên làm gì, nhưng thay vì dừng lại hoặc hỏi thì nó cứ tiếp tục làm tới
Tôi đã dành khá nhiều thời gian để tạo công cụ hỏi đáp nhằm khiến AI đặt câu hỏi hoặc suy luận khi bị kẹt. Nhưng nó gần như không dùng đến
Điều này cũng hợp lý. Function calling phù hợp nhất khi nó biết mình cần thông tin gì và chỉ việc truy xuất nó
Tuy nhiên, biết khi nào mình không chắc chắn lại là một vấn đề khác. Nhà phát triển agent cần có thể tin tưởng rằng AI sẽ báo cáo sự không chắc chắn của chính nó

[Con đường phía trước]

Claude Computer Use là bước đầu tiên hướng tới hành vi agent thực thụ
Có khả năng chúng ta vẫn chưa khai thác hết năng lực của mô hình hiện tại này
Tuy nhiên, rõ ràng để tạo ra trải nghiệm agent thực sự thì sẽ cần nhiều hơn là chỉ function calling của LLM