10 điểm bởi GN⁺ 2024-10-23 | 1 bình luận | Chia sẻ qua WhatsApp
  • Anthropic đã công bố Claude 3.5 Sonnet được nâng cấp và mô hình mới Claude 3.5 Haiku
  • Tính năng computer use, cho phép ra lệnh để Claude sử dụng máy tính như con người, được giới thiệu mới dưới dạng beta công khai
  • Hiệu năng tổng thể được cải thiện trong khi vẫn giữ nguyên mức giá và tốc độ hiện có

Giới thiệu tính năng Computer Use

  • Các nhà phát triển có thể thông qua API để chỉ định cho Claude sử dụng máy tính như một người thật
  • Có thể thực hiện các tác vụ như xem màn hình, di chuyển con trỏ, nhấp nút và nhập văn bản
  • Hiện vẫn đang ở giai đoạn thử nghiệm nên đôi khi có thể bất tiện và phát sinh lỗi
  • Asana, Canva, Cognition, DoorDash, Replit và The Browser Company đã bắt đầu khám phá khả năng này để thực hiện các công việc cần hàng chục bước, đôi khi là hàng trăm bước

Claude 3.5 Sonnet: năng lực kỹ thuật phần mềm hàng đầu ngành

  • Claude 3.5 Sonnet được cập nhật cho thấy cải thiện rộng khắp trên các benchmark trong ngành, đặc biệt là mức tăng hiệu năng mạnh ở các tác vụ coding theo kiểu agent và sử dụng công cụ
  • Trên SWE-bench Verified, hiệu năng tăng từ 33.4% lên 49.0%, đạt điểm cao hơn mọi mô hình công khai hiện có
  • Trên TAU-bench, hiệu năng cũng tăng từ 62.6% lên 69.2% trong lĩnh vực bán lẻ và từ 36.0% lên 46.0% trong lĩnh vực hàng không
  • Theo phản hồi ban đầu từ các khách hàng như GitLab, Cognition và The Browser Company, Claude 3.5 Sonnet thể hiện một bước nhảy vọt đáng kể trong coding dựa trên AI

Claude 3.5 Haiku: kết hợp công nghệ tiên tiến với tính kinh tế và tốc độ

  • Claude 3.5 Haiku là phiên bản thế hệ tiếp theo của mô hình nhanh nhất
  • Mô hình này được cải thiện trên mọi lĩnh vực năng lực với cùng chi phí và tốc độ tương đương Haiku thế hệ trước, đồng thời vượt qua Claude 3 Opus, mô hình lớn nhất trước đây
  • Đặc biệt mạnh ở các tác vụ coding, đạt 40.6% trên SWE-bench Verified và vượt qua nhiều agent sử dụng các mô hình công khai tiên tiến hiện có, bao gồm Claude 3.5 Sonnet trước đó và GPT-4o
  • Với các đặc điểm như độ trễ thấp, khả năng tuân thủ chỉ dẫn tốt hơn và sử dụng công cụ chính xác hơn, mô hình này phù hợp cho các sản phẩm hướng người dùng, các tác vụ sub-agent chuyên biệt và việc tạo ra trải nghiệm cá nhân hóa từ lượng dữ liệu khổng lồ

Dạy Claude cách điều hướng máy tính một cách có trách nhiệm

  • Với tính năng computer use, Anthropic đang thử một điều mang tính nền tảng hoàn toàn mới
  • Thay vì tạo ra các công cụ riêng cho từng tác vụ cụ thể, họ đang dạy Claude các kỹ năng sử dụng máy tính mang tính tổng quát
  • Các nhà phát triển có thể dùng tính năng ban đầu này để tự động hóa các quy trình lặp đi lặp lại, xây dựng và kiểm thử phần mềm, cũng như thực hiện các công việc mở như nghiên cứu
  • Trên OSWorld, Claude 3.5 Sonnet đạt 14.9% trong hạng mục chỉ dùng ảnh chụp màn hình, vượt xa mức 7.8% của hệ thống AI đứng thứ hai
  • Tính năng computer use vẫn chưa hoàn thiện và có thể mở ra các con đường mới cho các mối đe dọa như spam, thông tin sai lệch và lừa đảo, nên Anthropic đang áp dụng cách tiếp cận chủ động để triển khai an toàn

Triển vọng tương lai của Computer Use

  • Việc học hỏi từ lần triển khai ban đầu của công nghệ còn ở giai đoạn sớm này sẽ giúp hiểu rõ hơn về tiềm năng và tác động của các hệ thống AI ngày càng mạnh mẽ
  • Anthropic mong người dùng thử khám phá các mô hình mới và phiên bản beta công khai của tính năng computer use, đồng thời chia sẻ phản hồi
  • Họ tin rằng những phát triển này sẽ mở ra các khả năng mới trong cách cộng tác với Claude

Ý kiến của GN⁺

  • Tính năng computer use có vẻ tương tự RPA (Robotic Process Automation), nhưng cung cấp cách tiếp cận linh hoạt và tổng quát hơn
  • Dự kiến sẽ rất hữu ích cho việc tự động hóa các tác vụ lặp lại trong doanh nghiệp, nhưng ở giai đoạn đầu nên bắt đầu từ các công việc ít quan trọng hơn do cần tính đến khả năng phát sinh lỗi
  • Tính năng này được dự đoán sẽ cạnh tranh với các công cụ RPA hiện có như Power Automate và UiPath, và ranh giới giữa AI với RPA trong tương lai có thể sẽ ngày càng mờ đi
  • Xét về mặt bảo mật, việc trao quyền điều khiển máy tính cho AI có thể tạo ra rủi ro mới, nên sẽ cần kiểm soát truy cập nghiêm ngặt và giám sát chặt chẽ

1 bình luận

 
GN⁺ 2024-10-23
Ý kiến Hacker News
  • Sonnet đứng số 1 trên bảng xếp hạng chỉnh sửa mã của aider với 84.2%. Khi dùng chế độ "architect", nó thiết lập SOTA ở mức 85.7%. DeepSeek được dùng làm mô hình "editor"
    • Sonnet cũng đạt SOTA 92.1% trên benchmark tái cấu trúc khó hơn
  • Claude 3.5 Opus không còn được nhắc đến trong tài liệu chính thức của Anthropic. Điều này cho thấy việc phát hành có thể đã bị trì hoãn hoặc bị hủy
  • Với tư cách là người phát triển sản phẩm AI SaaS, tôi từng nghĩ tích hợp API sẽ giải quyết phần lớn tự động hóa AI, nhưng rồi nhận ra rất nhiều phần mềm thực tế lại giao tiếp trực tiếp với con người
    • Ví dụ, anh rể tôi là bác sĩ dùng phần mềm tùy chỉnh với biểu mẫu MFC trên Windows, còn kế toán thì dùng một phần mềm rất mạnh tên là Cantax
    • Nếu ở trong không gian SaaS, bạn dễ tin rằng ai cũng phải có API backend client-server, nhưng thực tế không phải vậy
  • Khả năng sử dụng máy tính này cực kỳ ấn tượng
    • Đây không chỉ là một tác nhân dùng máy tính như công cụ, mà là một tác nhân suy luận tự chủ có thể được giao mục tiêu và sẽ dùng máy tính cùng trình duyệt để đạt được mục tiêu đó
    • Có khả năng vượt qua OpenAI GPT-o1
  • Việc Anthropic tập trung vào an toàn AI là điều thú vị. AI có khả năng dùng máy tính và trình duyệt để hoàn thành mục tiêu được yêu cầu
  • Claude đã vượt ChatGPT trong 8 tháng qua, nhưng lượng người dùng vẫn ít hơn
  • Sự khác biệt giữa Sonnet và Opus không rõ ràng. Trên website Anthropic, Opus được nói là mô hình tiên tiến nhất, nhưng ở chỗ khác lại nói Sonnet là mô hình nhanh nhất và tiên tiến nhất
    • Kết quả thử nghiệm thủ công cho cảm giác Opus cho phản hồi tốt hơn đôi chút, nhưng không thể chắc chắn
  • Bản demo lập trình với Claude cần được thảo luận nhiều hơn
    • Có thể lập trình cho người dùng cuối thực thụ và lập trình dành cho quản lý sản phẩm sẽ sớm xuất hiện
  • Một số chuyện thú vị đã xảy ra khi huấn luyện với API mới
    • Claude từng dừng một bản ghi màn hình dài khiến toàn bộ video bị mất, hoặc trong lúc demo lập trình lại đi xem ảnh của Vườn quốc gia Yellowstone v.v.