18 điểm bởi humblebee 2025-02-25 | 5 bình luận | Chia sẻ qua WhatsApp

Anthropic đã ra mắt Claude 3.7 Sonnet, mô hình thông minh nhất của hãng cho đến nay. Đây là mô hình suy luận lai đầu tiên trên thị trường, có thể cung cấp cả phản hồi tức thì lẫn quá trình suy nghĩ từng bước được hiển thị cho người dùng.

Các điểm nổi bật:

  • Cho thấy cải thiện hiệu năng lớn trong lập trình và phát triển web frontend
  • Giới thiệu công cụ dòng lệnh mới 'Claude Code' - cho phép nhà phát triển giao trực tiếp các tác vụ kỹ thuật cho Claude từ terminal
  • Có sẵn trên tất cả các gói Claude (Free, Pro, Team, Enterprise) cùng với Anthropic API, AWS Bedrock và Google Cloud Vertex AI
  • Chế độ suy nghĩ mở rộng khả dụng trên mọi nền tảng ngoại trừ gói miễn phí
  • Giá giữ nguyên như mô hình trước: $3 cho mỗi một triệu token đầu vào, $15 cho mỗi một triệu token đầu ra (bao gồm token suy nghĩ)

Cải thiện hiệu năng:

  • Đạt hiệu năng hàng đầu trên SWE-bench Verified và TAU-bench
  • Trong các thử nghiệm ban đầu với Cursor, Cognition, Vercel, Replit, Canva..., mô hình đã chứng minh năng lực vượt trội trong xử lý codebase phức tạp, sử dụng công cụ nâng cao, lập kế hoạch và chỉnh sửa mã, cũng như cập nhật toàn bộ stack
  • Cho thấy khả năng tạo mã ở mức production và giảm lỗi
  • Cải thiện về toán học, vật lý và khả năng tuân theo chỉ thị

Claude Code:

  • Có thể tìm kiếm và đọc mã, chỉnh sửa tệp, viết và chạy kiểm thử, commit và push mã lên GitHub, sử dụng công cụ dòng lệnh
  • Đặc biệt hữu ích cho phát triển hướng kiểm thử, gỡ lỗi các vấn đề phức tạp và refactor quy mô lớn
  • Hoàn thành trong một lần các tác vụ thường mất hơn 45 phút, giúp rút ngắn đáng kể thời gian phát triển
  • Hiện được cung cấp dưới dạng bản xem trước nghiên cứu giới hạn

Tích hợp GitHub:

  • Giờ đây tính năng tích hợp GitHub khả dụng trên mọi gói Claude
  • Dựa trên khả năng hiểu sâu hơn về các dự án cá nhân, công việc và mã nguồn mở
  • Đóng vai trò là đối tác mạnh mẽ trong sửa lỗi, phát triển tính năng, viết tài liệu và hơn thế nữa
  • Cung cấp hỗ trợ trên các dự án GitHub quan trọng của người dùng

Về cải thiện an toàn, số phản hồi từ chối không cần thiết đã giảm 45% so với mô hình trước, đồng thời mô hình có thể phân biệt tinh tế hơn giữa các yêu cầu có hại và vô hại.

5 bình luận

 
yeorinhieut 2025-02-25

Perplexity cũng đã được thêm rồi nhỉ.
Nhưng có vẻ vẫn chưa dùng được suy luận..

 
bearmett 2025-02-25

Tôi đã cài đặt và thử dùng Claude Code, rồi hỏi phần tổng quan của hai dự án như trong video.

Total cost: $0.1151
Total cost: $0.0855

Tức là dùng khoảng 0,2 USD nhỉ..?

Nếu ví dụ trong video là một tác vụ mất hơn 45 phút thì có lẽ đây đã là một tác vụ khá đắt.

 
riskatcher 2025-02-25

Rất đắt, không có tỷ lệ giá/hiệu năng tốt. Trong sử dụng thực tế thì có vẻ o3-mini còn tốt hơn, nhưng nếu dùng cho lập trình thì vì cần bước suy luận ngắn và phải giải quyết token trung gian nên xét riêng cho mục đích đó có vẻ là tốt nhất. Giá thì cũng..

 
humblebee 2025-02-25

Chế độ tư duy mở rộng (Thinking Mode - Extended)

  • Tính năng cho phép mô hình suy nghĩ sâu hơn thông qua tự phản tư trước khi trả lời
  • Cải thiện hiệu năng trong nhiều tác vụ như toán học, vật lý, tuân theo chỉ thị và lập trình
  • Người dùng API có thể kiểm soát thời gian mô hình suy nghĩ lên tới 128K token
  • Cung cấp sự linh hoạt để điều chỉnh cân bằng giữa tốc độ (chi phí) và chất lượng câu trả lời
  • Giống như con người xử lý phản hồi nhanh và suy nghĩ sâu bằng cùng một bộ não, mô hình này cung cấp hai chế độ trong một mô hình duy nhất thay vì dùng mô hình riêng biệt

Có vẻ họ đã chọn một cách tiếp cận khác với các mô hình suy luận riêng biệt như o1 của OpenAI hay R1 của DeepSeek. Có vẻ như họ đã tích hợp hai chế độ trong cùng một mô hình duy nhất.

Ngoài ra, khi trực tiếp hỏi mô hình về ngày cutoff của dữ liệu huấn luyện, nó trả lời là vào cuối tháng 10 năm 2024~!