12 điểm bởi xguru 2024-03-05 | 1 bình luận | Chia sẻ qua WhatsApp
  • Công bố thế hệ mô hình Claude 3 mới gồm: Haiku, Sonnet, Opus
    • Theo thứ tự, các mô hình cung cấp hiệu năng ngày càng mạnh hơn, cho phép người dùng chọn điểm cân bằng phù hợp giữa mức độ thông minh, tốc độ và chi phí cho từng ứng dụng cụ thể
  • Opus là mô hình thông minh nhất, vượt qua các mô hình khác trên phần lớn các benchmark đánh giá hệ thống AI
    • Theo MMLU đạt 86.8%, vượt GPT-4 (86.4%) và Gemini 1.0 Ultra (83.7%)
    • Trên HumanEval (Code) 0-Shot đạt 84.9%, cao hơn GPT-4 (67%) và Gemini 1.0 Ultra (74.4%)
  • Tất cả các mô hình Claude 3 đều được cải thiện về phân tích, dự đoán, tạo nội dung, sinh mã và khả năng hội thoại bằng các ngôn ngữ không phải tiếng Anh

Kết quả gần như tức thì

  • Các mô hình Claude 3 có thể được dùng cho chat hỗ trợ khách hàng trực tiếp, tự động hoàn thành và tác vụ trích xuất dữ liệu đòi hỏi phản hồi tức thì theo thời gian thực
  • Haiku là mô hình nhanh nhất và hiệu quả chi phí nhất trên thị trường, có thể đọc các bài báo nghiên cứu giàu thông tin và dữ liệu trong chưa đầy 3 giây
  • Sonnet có mức độ thông minh cao hơn với tốc độ nhanh gấp 2 lần Claude 2 và 2.1, còn Opus mang lại mức độ thông minh vượt trội với tốc độ tương đương Claude 2 và 2.1

Khả năng thị giác mạnh mẽ

  • Các mô hình Claude 3 sở hữu năng lực thị giác tinh vi, có thể xử lý nhiều định dạng trực quan như ảnh, biểu đồ, đồ thị và sơ đồ kỹ thuật

Ít từ chối hơn

  • Các mô hình Claude trước đây thường có những lần từ chối không cần thiết, nhưng Claude 3 giảm đáng kể việc từ chối với các prompt nằm gần ranh giới guardrail của hệ thống

Độ chính xác được cải thiện

  • Do doanh nghiệp phụ thuộc vào mô hình cho dịch vụ khách hàng, việc đầu ra của mô hình duy trì độ chính xác là rất quan trọng
  • Opus có độ chính xác cao gấp đôi so với mô hình trước đó là Claude 2.1, đồng thời giảm mức độ trả lời sai

Ngữ cảnh dài và trí nhớ gần như hoàn hảo

  • Họ mô hình Claude 3 ban đầu sẽ cung cấp cửa sổ ngữ cảnh 200K và có thể xử lý đầu vào vượt quá 1 triệu token

Thiết kế có trách nhiệm

  • Họ mô hình Claude 3 có năng lực đủ mạnh để đáng tin cậy
  • Có một đội ngũ chuyên trách theo dõi và giảm thiểu nhiều loại rủi ro, đồng thời tiếp tục phát triển các phương pháp nhằm cải thiện độ an toàn và tính minh bạch

Dễ sử dụng

  • Các mô hình Claude 3 tuân theo các chỉ dẫn đa bước phức tạp tốt hơn, và đặc biệt thành thạo trong việc bám sát giọng điệu thương hiệu cũng như hướng dẫn phản hồi

Chi tiết mô hình

  • Claude 3 Opus là mô hình thông minh nhất, mang lại hiệu năng hàng đầu thị trường cho các tác vụ cực kỳ phức tạp
  • Claude 3 Sonnet cung cấp sự cân bằng lý tưởng giữa trí tuệ và tốc độ, đặc biệt phù hợp với khối lượng công việc doanh nghiệp
  • Claude 3 Haiku là mô hình nhanh nhất và gọn nhẹ nhất để mang lại khả năng phản hồi gần như tức thì

Khả năng sử dụng mô hình

  • Opus và Sonnet hiện đã có thể sử dụng qua API, còn Haiku sẽ sớm được cung cấp

Thông minh hơn, nhanh hơn và an toàn hơn

  • Họ không cho rằng trí tuệ của mô hình đã chạm tới giới hạn, và đang lên kế hoạch cập nhật thường xuyên cho họ mô hình Claude 3
  • Trong khi vượt qua các giới hạn của năng lực AI, họ cũng đang nỗ lực để các guardrail an toàn phát triển với tốc độ tương đương các cải tiến về hiệu năng

1 bình luận

 
xguru 2024-03-05
Ý kiến Hacker News
  • Opus vượt trội Gemini Pro và GPT-4 với các câu hỏi phức tạp

    • Với các câu hỏi phức tạp yêu cầu nhận diện nhiều số liệu khác nhau trong tài liệu PDF đầu tư bảo hiểm nhân thọ dài 43 trang, Opus cho thấy hiệu năng vượt các mô hình khác.
    • Mô hình Claude 3 Sonnet cũng cho hiệu năng khá sát, chỉ bỏ lỡ đúng một câu hỏi.
  • Claude 3 Sonnet cho phản hồi tốt hơn ChatGPT Classic với các tác vụ lập trình đơn giản

    • Claude 3 Sonnet đã dùng đúng phương thức của thư viện SQL ORM cho công việc với DB và frontend, trong khi GPT-4 lại dùng sai phương thức.
    • Với một prompt khác để tạo SQL, nó cho phản hồi dài hơn ChatGPT Classic nhưng vẫn có vẻ chính xác.
  • Thử nghiệm mô hình Opus trong Claude Pro với các truy vấn phức tạp

    • Đã đăng ký Claude Pro để thử mô hình Opus, rồi kết hợp các câu hỏi phức tạp về hình ảnh và fine-tuning SDXL để yêu cầu tính chi phí.
    • Mô hình đọc sai giá GPU và mắc lỗi trong phép tính.
    • Trong khi đó, ChatGPT 4 đọc đúng giá từ cùng một ảnh chụp màn hình và đưa ra các phép tính nhất quán hơn.
  • Claude 3 từ chối viết kịch bản với nội dung 'openai tốt hơn anthropic'

    • Claude 3 từ chối viết kịch bản quảng bá hoặc bôi xấu một công ty cụ thể, dựa trên nguyên tắc phải trung thực và công bằng.
    • Ngược lại, ChatGPT 3.5 phản hồi ngay trước yêu cầu viết kịch bản với nội dung 'anthropic tốt hơn openai'.
  • Đặt câu hỏi về hiệu năng thực tế của Opus

    • Có ý kiến cho rằng có thể tồn tại khác biệt mang tính hệ thống giữa kết quả benchmark và hiệu năng thực tế.
    • Mô hình này cho thấy hiệu năng kém hơn GPT-4 trong các bài toán vật lý cơ bản.
    • Với các câu hỏi liên quan đến lập trình, nó cũng cho hiệu năng hơi kém hơn GPT-4.