So sánh khả năng lập trình của Gemini 2.5 Pro và Claude 3.7 Sonnet

(composio.dev)

9 điểm bởi GN⁺ 2025-04-01 | 1 bình luận | Chia sẻ qua WhatsApp

Gemini 2.5 Pro vượt trội hơn trong việc viết mã
Claude 3.7 Sonnet cũng rất xuất sắc, nhưng ở thời điểm hiện tại dùng Gemini 2.5 Pro có lợi hơn
Cửa sổ ngữ cảnh 1 triệu token và khả năng sử dụng miễn phí là những ưu điểm lớn
Trước đây Claude 3.7 Sonnet luôn là mốc so sánh tiêu chuẩn, nhưng giờ điều đó đã thay đổi

Giới thiệu ngắn về Gemini 2.5 Pro

Mô hình suy luận thử nghiệm do Google ra mắt vào ngày 26/3/2025
Sau khi ra mắt đã tạo ra tiếng vang rất lớn trên Twitter(X), YouTube và nhiều nơi khác
Đạt hạng 1 trên LMArena, cho thấy hiệu năng rất xuất sắc trong viết mã, toán học, khoa học, hiểu hình ảnh và nhiều tác vụ khác
Cung cấp cửa sổ ngữ cảnh 1 triệu token, và trong tương lai còn được báo trước sẽ có 2 triệu token
Theo SWE Bench, độ chính xác đạt 63.8%, cao hơn 62.3% của Claude 3.7 Sonnet
Chứng minh hiệu năng vượt trội qua nhiều ví dụ như bản demo trò chơi khủng long do Google cung cấp
Nhìn chung được đánh giá là một mô hình đa năng phù hợp không chỉ cho lập trình mà cho mọi công việc trí tuệ

So sánh các bài kiểm tra lập trình

1. Tạo flight simulator

Gemini 2.5 Pro
- Tạo ra một trình mô phỏng hoạt động hoàn hảo
- Đáp ứng đầy đủ mọi yêu cầu như điều khiển máy bay, tạo thành phố phong cách Minecraft
- Mức độ hoàn thiện 10/10
Claude 3.7 Sonnet
- Gặp lỗi máy bay bay ngang và đi ra ngoài thành phố
- Mức độ hoàn thiện về chức năng thấp hơn
Tóm tắt: Gemini 2.5 Pro thắng hoàn toàn

2. Trực quan hóa và giải Rubik's Cube

Gemini 2.5 Pro
- Triển khai trực quan hóa và lời giải chính xác ngay trong một lần
- Sử dụng Three.js, triển khai hoàn chỉnh màu sắc khối lập phương, xáo trộn ngẫu nhiên, hoạt ảnh và nhiều yếu tố khác
Claude 3.7 Sonnet
- Thất bại trong việc hiển thị màu sắc và giải bài toán
- Có giới hạn tương tự như các LLM khác
Tóm tắt: Gemini 2.5 Pro tiếp tục áp đảo ở hạng mục này

3. Trực quan hóa quả bóng nảy bên trong tesseract 4 chiều

Gemini 2.5 Pro
- Đáp ứng mọi yêu cầu như va chạm vật lý, làm nổi bật các mặt
- Chất lượng mã và trạng thái hoạt động đều rất tốt
Claude 3.7 Sonnet
- Chức năng có hoạt động nhưng thêm màu sắc không cần thiết
- Dù vậy vẫn đáp ứng được các tính năng được yêu cầu
Tóm tắt: Cả hai mô hình đều đáp ứng yêu cầu, Claude cuối cùng cũng thành công

4. Bài toán LeetCode: tìm tổng lớn nhất bằng cách đặt 3 quân xe

Gemini 2.5 Pro
- Viết mã phức tạp hơn nhưng cho lời giải chính xác
- Cũng cân nhắc hợp lý về độ phức tạp thời gian
Claude 3.7 Sonnet
- Viết mã ngắn gọn nhưng bị quá thời gian (TLE)
- Dễ hiểu hơn nhưng còn thiếu về mặt hiệu năng
Tóm tắt: Gemini 2.5 Pro dẫn trước cả về hiệu năng lẫn độ chính xác

Kết luận

Gemini 2.5 Pro có ưu thế rõ ràng
- Vượt Claude 3.7 Sonnet về cửa sổ ngữ cảnh, độ chính xác và hiệu năng đa nhiệm
Claude vẫn là một mô hình rất xuất sắc, nhưng ở thời điểm hiện tại dùng Gemini hiệu quả hơn
Nếu trong tương lai mở rộng lên cửa sổ 2 triệu token, hiệu năng sẽ còn được cải thiện hơn nữa
Cùng với mẫu nhẹ Gemma 3 27B gần đây của Google, nó tạo thành một dòng AI rất mạnh

1 bình luận

GN⁺ 2025-04-01

Ý kiến trên Hacker News

Muốn mở một cuộc thi có giải thưởng tiền mặt cho các bài toán lập trình thực tế. Cần đặt ra luật chơi. Nghi ngờ liệu LLM có thể giải được bài toán này hay không
- Đó là tạo phiên bản GTK 4 cho Solvespace
- Có một tệp C++ duy nhất cho mỗi nền tảng
- Mục tiêu là viết lại tệp GTK3 sang GTK4
- Nếu muốn chứng minh năng lực của AI, khuyến nghị ghi lại toàn bộ phiên làm việc và biến nó thành video YouTube
- Bài kiểm tra cuối cùng là liệu PR có được chấp nhận hay không
Gemini là mô hình duy nhất cho biết thời điểm cuộc trò chuyện bị ngắt
- ChatGPT có xu hướng quên cuộc trò chuyện khi ngữ cảnh bị đầy
- Gemini thiếu công cụ, nhưng về cơ bản cho cảm giác như là mô hình tốt hơn
Đã dùng Gemini 2.5 Pro và thấy khá ổn
- Claude 3.5 có vẻ tốt hơn trong việc tuân theo chỉ thị
- Thất vọng với các công cụ Cursor và Claude CLI
- Thích cách Gemini hiển thị cửa sổ ngữ cảnh
- Nghĩ rằng thị trường không thể chịu nổi các mức định giá của những công ty AI lớn
- Có lúc mô hình miễn phí lại tốt hơn
Trong cuộc cạnh tranh giữa các mô hình AI, người thua có vẻ là Microsoft
- Khi ChatGPT là lựa chọn duy nhất, Microsoft được xem là bên dẫn đầu
- Copilot là một sản phẩm thất bại, còn Bing thì không tận dụng được AI
- Có nhắc tới việc Sundar Pichai của Google muốn so sánh với mô hình của Microsoft
Gemini 2.5 Pro đạt điểm cao trên bảng xếp hạng lập trình đa ngôn ngữ của aider
- Chủ yếu được dùng cho công việc phát hành mới nhất của aider
- Vấn đề lớn nhất của Gemini hiện tại là giới hạn tốc độ quá nghiêm ngặt
Trong ví dụ Rubik's Cube, Gemini 2.5 dùng một chuỗi xáo trộn đã được ghi nhớ
- Nó giải khối lập phương bằng cách đảo ngược chuỗi xáo trộn
Hồi dùng Visual Basic thập niên 90, việc tạo dự án mới từ template từng rất thú vị
- Lập trình với AI cũng tương tự, nhưng mang cảm giác bị thổi phồng
- Có nhắc đến việc Claude bị bối rối vì chiếc máy bay nằm ngang
Gemini 2.5 không tốt với mã Cython phức tạp
- Claude và o3 làm tốt việc tuân theo chỉ thị
- Gemini cố thử các thay đổi không liên quan
Có câu hỏi về việc liệu có cần một cuộc thảo luận không thiên vị hay không
- Liên kết của OP trông như một quảng cáo thiên vị cho Composio
- Có những mô tả cường điệu về Gemini 2.5 Pro
Mọi tác vụ kiểm thử đều là dự án greenfield
- Để dùng LLM thì cần thay đổi hoặc chỉnh sửa trong các dự án hiện có
- Nghĩ rằng các bài kiểm thử không có ý nghĩa trong việc đo mức độ hữu ích của mô hình

So sánh khả năng lập trình của Gemini 2.5 Pro và Claude 3.7 Sonnet

Giới thiệu ngắn về Gemini 2.5 Pro

So sánh các bài kiểm tra lập trình

1. Tạo flight simulator

2. Trực quan hóa và giải Rubik's Cube

3. Trực quan hóa quả bóng nảy bên trong tesseract 4 chiều

4. Bài toán LeetCode: tìm tổng lớn nhất bằng cách đặt 3 quân xe

Kết luận

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News