- Anthropic đã công bố Claude 3.5 Sonnet được nâng cấp và mô hình mới Claude 3.5 Haiku
- Tính năng computer use, cho phép ra lệnh để Claude sử dụng máy tính như con người, được giới thiệu mới dưới dạng beta công khai
- Hiệu năng tổng thể được cải thiện trong khi vẫn giữ nguyên mức giá và tốc độ hiện có
Giới thiệu tính năng Computer Use
- Các nhà phát triển có thể thông qua API để chỉ định cho Claude sử dụng máy tính như một người thật
- Có thể thực hiện các tác vụ như xem màn hình, di chuyển con trỏ, nhấp nút và nhập văn bản
- Hiện vẫn đang ở giai đoạn thử nghiệm nên đôi khi có thể bất tiện và phát sinh lỗi
- Asana, Canva, Cognition, DoorDash, Replit và The Browser Company đã bắt đầu khám phá khả năng này để thực hiện các công việc cần hàng chục bước, đôi khi là hàng trăm bước
Claude 3.5 Sonnet: năng lực kỹ thuật phần mềm hàng đầu ngành
- Claude 3.5 Sonnet được cập nhật cho thấy cải thiện rộng khắp trên các benchmark trong ngành, đặc biệt là mức tăng hiệu năng mạnh ở các tác vụ coding theo kiểu agent và sử dụng công cụ
- Trên SWE-bench Verified, hiệu năng tăng từ 33.4% lên 49.0%, đạt điểm cao hơn mọi mô hình công khai hiện có
- Trên TAU-bench, hiệu năng cũng tăng từ 62.6% lên 69.2% trong lĩnh vực bán lẻ và từ 36.0% lên 46.0% trong lĩnh vực hàng không
- Theo phản hồi ban đầu từ các khách hàng như GitLab, Cognition và The Browser Company, Claude 3.5 Sonnet thể hiện một bước nhảy vọt đáng kể trong coding dựa trên AI
Claude 3.5 Haiku: kết hợp công nghệ tiên tiến với tính kinh tế và tốc độ
- Claude 3.5 Haiku là phiên bản thế hệ tiếp theo của mô hình nhanh nhất
- Mô hình này được cải thiện trên mọi lĩnh vực năng lực với cùng chi phí và tốc độ tương đương Haiku thế hệ trước, đồng thời vượt qua Claude 3 Opus, mô hình lớn nhất trước đây
- Đặc biệt mạnh ở các tác vụ coding, đạt 40.6% trên SWE-bench Verified và vượt qua nhiều agent sử dụng các mô hình công khai tiên tiến hiện có, bao gồm Claude 3.5 Sonnet trước đó và GPT-4o
- Với các đặc điểm như độ trễ thấp, khả năng tuân thủ chỉ dẫn tốt hơn và sử dụng công cụ chính xác hơn, mô hình này phù hợp cho các sản phẩm hướng người dùng, các tác vụ sub-agent chuyên biệt và việc tạo ra trải nghiệm cá nhân hóa từ lượng dữ liệu khổng lồ
Dạy Claude cách điều hướng máy tính một cách có trách nhiệm
- Với tính năng computer use, Anthropic đang thử một điều mang tính nền tảng hoàn toàn mới
- Thay vì tạo ra các công cụ riêng cho từng tác vụ cụ thể, họ đang dạy Claude các kỹ năng sử dụng máy tính mang tính tổng quát
- Các nhà phát triển có thể dùng tính năng ban đầu này để tự động hóa các quy trình lặp đi lặp lại, xây dựng và kiểm thử phần mềm, cũng như thực hiện các công việc mở như nghiên cứu
- Trên OSWorld, Claude 3.5 Sonnet đạt 14.9% trong hạng mục chỉ dùng ảnh chụp màn hình, vượt xa mức 7.8% của hệ thống AI đứng thứ hai
- Tính năng computer use vẫn chưa hoàn thiện và có thể mở ra các con đường mới cho các mối đe dọa như spam, thông tin sai lệch và lừa đảo, nên Anthropic đang áp dụng cách tiếp cận chủ động để triển khai an toàn
Triển vọng tương lai của Computer Use
- Việc học hỏi từ lần triển khai ban đầu của công nghệ còn ở giai đoạn sớm này sẽ giúp hiểu rõ hơn về tiềm năng và tác động của các hệ thống AI ngày càng mạnh mẽ
- Anthropic mong người dùng thử khám phá các mô hình mới và phiên bản beta công khai của tính năng computer use, đồng thời chia sẻ phản hồi
- Họ tin rằng những phát triển này sẽ mở ra các khả năng mới trong cách cộng tác với Claude
Ý kiến của GN⁺
- Tính năng computer use có vẻ tương tự RPA (Robotic Process Automation), nhưng cung cấp cách tiếp cận linh hoạt và tổng quát hơn
- Dự kiến sẽ rất hữu ích cho việc tự động hóa các tác vụ lặp lại trong doanh nghiệp, nhưng ở giai đoạn đầu nên bắt đầu từ các công việc ít quan trọng hơn do cần tính đến khả năng phát sinh lỗi
- Tính năng này được dự đoán sẽ cạnh tranh với các công cụ RPA hiện có như Power Automate và UiPath, và ranh giới giữa AI với RPA trong tương lai có thể sẽ ngày càng mờ đi
- Xét về mặt bảo mật, việc trao quyền điều khiển máy tính cho AI có thể tạo ra rủi ro mới, nên sẽ cần kiểm soát truy cập nghiêm ngặt và giám sát chặt chẽ
1 bình luận
Ý kiến Hacker News