1 điểm bởi GN⁺ 2025-02-25 | 2 bình luận | Chia sẻ qua WhatsApp

Công bố

  • Claude 3.7 Sonnet và Claude Code đã được công bố. Claude 3.7 Sonnet là mô hình suy luận lai đầu tiên trên thị trường, cung cấp phản hồi nhanh và tư duy từng bước. Người dùng API có thể tinh chỉnh chi tiết thời gian suy nghĩ của mô hình.
  • Claude 3.7 Sonnet thể hiện hiệu năng đặc biệt mạnh trong lập trình và phát triển web frontend. Claude Code là công cụ dòng lệnh cho phép giao trực tiếp các tác vụ kỹ thuật ngay trong terminal, được cung cấp dưới dạng bản xem trước nghiên cứu giới hạn.
  • Claude 3.7 Sonnet hiện có trên tất cả các gói Claude, Anthropic API, Amazon Bedrock và Vertex AI của Google Cloud. Chế độ suy nghĩ mở rộng khả dụng trên mọi nền tảng ngoại trừ tầng Claude miễn phí.

Claude 3.7 Sonnet: suy luận thực dụng ở đẳng cấp tiên tiến nhất

  • Claude 3.7 Sonnet được phát triển theo một triết lý khác với các mô hình suy luận hiện có. Giống như con người dùng một bộ não cho cả phản hồi nhanh lẫn suy ngẫm sâu, Anthropic tin rằng suy luận nên là một năng lực tích hợp.
  • Claude 3.7 Sonnet hợp nhất LLM thông thường và mô hình suy luận thành một, cho phép người dùng chọn giữa phản hồi thông thường và suy nghĩ sâu. Ở chế độ suy nghĩ mở rộng, hiệu năng được cải thiện trong toán học, vật lý, lập trình và nhiều lĩnh vực khác.
  • Khi sử dụng Claude 3.7 Sonnet qua API, người dùng có thể điều chỉnh ngân sách dành cho suy nghĩ. Điều này cho phép cân bằng giữa tốc độ và chất lượng phản hồi.
  • Claude 3.7 Sonnet tập trung vào các trường hợp sử dụng kinh doanh thực tế hơn là các bài toán toán học và khoa học máy tính thuần túy. Trong các thử nghiệm ban đầu, mô hình cho thấy kết quả xuất sắc về năng lực lập trình.

Claude Code

  • Claude Code là công cụ giúp nhà phát triển tìm kiếm mã, chỉnh sửa tệp, chạy kiểm thử, commit và push mã lên GitHub, cùng nhiều tác vụ khác.
  • Claude Code đặc biệt hữu ích cho phát triển hướng kiểm thử, gỡ lỗi các vấn đề phức tạp và refactor quy mô lớn. Trong các thử nghiệm ban đầu, công cụ này đã rút ngắn đáng kể thời gian phát triển.
  • Mục tiêu của Claude Code là giúp Anthropic hiểu cách các nhà phát triển sử dụng Claude để phản ánh vào các cải tiến mô hình trong tương lai.

Làm việc với codebase cùng Claude

  • Trải nghiệm lập trình trên Claude.ai đã được cải thiện. Tích hợp GitHub nay khả dụng trên tất cả các gói Claude, cho phép nhà phát triển kết nối trực tiếp kho mã với Claude.
  • Claude 3.7 Sonnet trở thành đối tác mạnh mẽ trong sửa lỗi, phát triển tính năng và viết tài liệu nhờ khả năng hiểu sâu các dự án cá nhân, công việc và mã nguồn mở.

Xây dựng có trách nhiệm

  • Claude 3.7 Sonnet đã trải qua quá trình kiểm thử và đánh giá rộng rãi với sự hợp tác của các chuyên gia bên ngoài nhằm bảo đảm bảo mật, an toàn và độ tin cậy.
  • Một system card đề cập đến các kết quả an toàn mới đã được cung cấp. Tài liệu này bao gồm đánh giá về chính sách mở rộng có trách nhiệm mà các phòng thí nghiệm AI và nhà nghiên cứu khác có thể áp dụng.

Hướng tới tương lai

  • Claude 3.7 Sonnet và Claude Code là bước tiến quan trọng hướng tới các hệ thống AI có thể tăng cường năng lực con người. Chúng mở rộng thành tựu của con người thông qua suy luận sâu, làm việc tự chủ và hợp tác hiệu quả.
  • Anthropic mong chờ mọi người khám phá các tính năng mới và sáng tạo cùng chúng, đồng thời hoan nghênh phản hồi để tiếp tục cải thiện.

2 bình luận

 
GN⁺ 2025-02-25
Ý kiến trên Hacker News
  • Claude 3.7 Sonnet đạt 60.4% trên bảng xếp hạng đa ngôn ngữ của Aider

    • Ghi điểm cao ngay cả khi không dùng chế độ suy nghĩ, và vượt kỷ lục của Sonnet 3.5
    • Aider 0.75.0 hỗ trợ 3.7 Sonnet
    • Hỗ trợ chế độ suy nghĩ và kết quả benchmark sẽ sớm được công bố
  • Boris từ nhóm Claude Code sẽ trả lời các câu hỏi về sản phẩm

  • Benchmark LLM của Kagi đã được cập nhật với Sonnet 3.7 ở chế độ mục đích chung và chế độ suy nghĩ

    • Được đánh giá là LLM mục đích chung mạnh thứ hai sau Gemini 2.0 pro
    • Ở chế độ suy nghĩ, nó ở mức tương đương o1-mini và o3-mini
    • Nhìn chung cung cấp chất lượng cao và tốc độ ở cùng một mức giá
    • Sẽ được kích hoạt trên Kagi Assistant trong vòng 24 giờ
  • Có một tính năng thú vị có thể phân tích hồ sơ HN

    • Đang được dùng để thử độ hài hước của các model mới
  • OpenAI đang tập trung vào cách doanh nghiệp thực tế sử dụng LLM

    • Mục tiêu là "model thông minh nhất", nhưng trên thực tế chủ yếu được dùng cho hỗ trợ học tập, chuyển đổi dữ liệu và viết mã
    • Cân bằng giữa "trí tuệ" và "tính thực dụng" là điều quan trọng
  • Việc Anthropic tập trung vào code là hợp lý

    • Không rõ đối thủ cạnh tranh của Devin sẽ ra sao
  • Đã cập nhật Cursor lên phiên bản mới nhất và thêm claude-3.7-sonnet vào danh sách model

    • claude-3.7-sonnet-thinking cũng hoạt động
    • Tính năng điều khiển thời gian suy nghĩ sẽ sớm được bổ sung
  • Ấn tượng mạnh trong lần tương tác đầu tiên với Claude 3.7 Sonnet

    • Được hỗ trợ giải quyết một vấn đề với CloudFlare Pages Functions
    • Claude 3.7 đã xác định chính xác vấn đề và đưa ra giải pháp
  • Claude đã viết lại một nửa luận văn cử nhân chỉ trong 30 giây

    • Gemini Flash 2 đã thất bại
  • o1 pro đã vài lần cho thấy kết quả đáng kinh ngạc

    • Được hỗ trợ rà soát mã MCU phức tạp
    • o1 pro hiểu đoạn mã dùng SPI và chỉ ra vấn đề
    • Chế độ suy nghĩ của Claude 3.7 không hữu ích lắm
    • o1 pro đã giúp giải quyết vấn đề IPsec VPN
    • Đang dùng song song ChatGPT và Claude để so sánh
 
riskatcher 2025-02-25

So với flash 2 thì chênh lệch giá quá lớn để đem ra so.. đúng kiểu nằm giữa o1pro và o3-mini.