Anthropic ra mắt Claude 3.7 Sonnet
(anthropic.com)Anthropic đã ra mắt Claude 3.7 Sonnet, mô hình thông minh nhất của hãng cho đến nay. Đây là mô hình suy luận lai đầu tiên trên thị trường, có thể cung cấp cả phản hồi tức thì lẫn quá trình suy nghĩ từng bước được hiển thị cho người dùng.
Các điểm nổi bật:
- Cho thấy cải thiện hiệu năng lớn trong lập trình và phát triển web frontend
- Giới thiệu công cụ dòng lệnh mới 'Claude Code' - cho phép nhà phát triển giao trực tiếp các tác vụ kỹ thuật cho Claude từ terminal
- Có sẵn trên tất cả các gói Claude (Free, Pro, Team, Enterprise) cùng với Anthropic API, AWS Bedrock và Google Cloud Vertex AI
- Chế độ suy nghĩ mở rộng khả dụng trên mọi nền tảng ngoại trừ gói miễn phí
- Giá giữ nguyên như mô hình trước: $3 cho mỗi một triệu token đầu vào, $15 cho mỗi một triệu token đầu ra (bao gồm token suy nghĩ)
Cải thiện hiệu năng:
- Đạt hiệu năng hàng đầu trên SWE-bench Verified và TAU-bench
- Trong các thử nghiệm ban đầu với Cursor, Cognition, Vercel, Replit, Canva..., mô hình đã chứng minh năng lực vượt trội trong xử lý codebase phức tạp, sử dụng công cụ nâng cao, lập kế hoạch và chỉnh sửa mã, cũng như cập nhật toàn bộ stack
- Cho thấy khả năng tạo mã ở mức production và giảm lỗi
- Cải thiện về toán học, vật lý và khả năng tuân theo chỉ thị
Claude Code:
- Có thể tìm kiếm và đọc mã, chỉnh sửa tệp, viết và chạy kiểm thử, commit và push mã lên GitHub, sử dụng công cụ dòng lệnh
- Đặc biệt hữu ích cho phát triển hướng kiểm thử, gỡ lỗi các vấn đề phức tạp và refactor quy mô lớn
- Hoàn thành trong một lần các tác vụ thường mất hơn 45 phút, giúp rút ngắn đáng kể thời gian phát triển
- Hiện được cung cấp dưới dạng bản xem trước nghiên cứu giới hạn
Tích hợp GitHub:
- Giờ đây tính năng tích hợp GitHub khả dụng trên mọi gói Claude
- Dựa trên khả năng hiểu sâu hơn về các dự án cá nhân, công việc và mã nguồn mở
- Đóng vai trò là đối tác mạnh mẽ trong sửa lỗi, phát triển tính năng, viết tài liệu và hơn thế nữa
- Cung cấp hỗ trợ trên các dự án GitHub quan trọng của người dùng
Về cải thiện an toàn, số phản hồi từ chối không cần thiết đã giảm 45% so với mô hình trước, đồng thời mô hình có thể phân biệt tinh tế hơn giữa các yêu cầu có hại và vô hại.
5 bình luận
CEO Anthropic Dario Amodei: Mô hình DeepSeek không quá đáng kinh ngạc
Perplexity cũng đã được thêm rồi nhỉ.
Nhưng có vẻ vẫn chưa dùng được suy luận..
Tôi đã cài đặt và thử dùng Claude Code, rồi hỏi phần tổng quan của hai dự án như trong video.
Total cost: $0.1151
Total cost: $0.0855
Tức là dùng khoảng 0,2 USD nhỉ..?
Nếu ví dụ trong video là một tác vụ mất hơn 45 phút thì có lẽ đây đã là một tác vụ khá đắt.
Rất đắt, không có tỷ lệ giá/hiệu năng tốt. Trong sử dụng thực tế thì có vẻ o3-mini còn tốt hơn, nhưng nếu dùng cho lập trình thì vì cần bước suy luận ngắn và phải giải quyết token trung gian nên xét riêng cho mục đích đó có vẻ là tốt nhất. Giá thì cũng..
Chế độ tư duy mở rộng (Thinking Mode - Extended)
Có vẻ họ đã chọn một cách tiếp cận khác với các mô hình suy luận riêng biệt như o1 của OpenAI hay R1 của DeepSeek. Có vẻ như họ đã tích hợp hai chế độ trong cùng một mô hình duy nhất.
Ngoài ra, khi trực tiếp hỏi mô hình về ngày cutoff của dữ liệu huấn luyện, nó trả lời là vào cuối tháng 10 năm 2024~!