Gemini 2.5 Pro là mô hình đạt đỉnh SOTA về hiệu năng lập trình

(composio.dev)

5 điểm bởi GN⁺ 2025-03-29 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Gemini 2.5 Pro do Google ra mắt nhận được ít sự chú ý hơn vì màn ra mắt tính năng tạo ảnh ấn tượng của GPT-4o, nhưng thực chất đây là một bước tiến quan trọng
Hiệu năng viết mã rất xuất sắc, đồng thời cung cấp khả năng xử lý toàn bộ codebase với độ dài ngữ cảnh tối đa 1 triệu token
Phản hồi từ người dùng cũng rất tích cực, và mô hình cho thấy kết quả nổi bật trong các bài kiểm tra lập trình thực tế
Ngược lại, trong các bài toán suy luận phức tạp, mô hình này kém hơn Grok 3 và Claude 3.7 Sonnet

Các cải tiến chính

Gemini 2.5 Pro đạt được mức cải thiện hiệu năng thông qua tối ưu hóa sau huấn luyện và mở rộng tham số trên kiến trúc nền Gemini 2.0 Flash
Hỗ trợ độ dài ngữ cảnh tối đa 1,000,000, nên ngay cả khi đưa toàn bộ codebase vào cũng có thể cho ra kết quả tốt
Khả năng hiểu đa ngôn ngữ được tăng cường, lập kỷ lục về xử lý tiếng Tây Ban Nha trên bảng xếp hạng LMSYS

Hiệu năng benchmark

Đạt thành tích xuất sắc trên các benchmark quan trọng như LMSYS, Livebench, GPQA, AIME, SWEbench verified
Trên ARC-AGI, mô hình tương đương Deepseek r1 và thấp hơn Claude 3.7
Đứng đầu benchmark WeirdML, thể hiện khả năng vượt trội trong việc viết mã PyTorch hoạt động được cho các bài toán ML kỳ lạ
Cũng dẫn đầu trên benchmark Aider Polyglot

Các trường hợp sử dụng thực tế

Cho kết quả xuất sắc trong nhiều ví dụ khác nhau như bài toán Wordle, tạo shader, trình mô phỏng bay, Rubik's Cube, game zombie và game arcade
Đặc biệt, trong các tác vụ tạo game, mô hình mang lại chất lượng thực thi tinh tế và ở mức cao

Gemini 2.5 Pro vs Claude 3.7 vs Grok 3 - So sánh năng lực lập trình

1. Quả bóng nảy bên trong khối lập phương 3D (Three.js)

Gemini 2.5: kết quả tốt nhất với chuyển động mượt mà và giống thực tế
Grok 3: ban đầu ổn, nhưng theo thời gian quả bóng bị dính lại và hoạt động không đúng
Claude 3.7: thiết lập rất tốt nhưng quả bóng bị dừng lại và thiếu tương tác

2. Game phong cách Minecraft (Pygame)

Gemini 2.5: gameplay mượt mà và trau chuốt, đáp ứng mọi yêu cầu
Claude 3.7: kết quả ở mức nâng cao, có hiệu ứng hình ảnh và các thành phần UI
Grok 3: hoạt động cơ bản nhưng chuyển động và bố cục chưa mượt

3. Web app Task Tracker

Gemini 2.5: UI hoàn thiện tốt và luồng sử dụng tự nhiên
Claude 3.7: gọn gàng và hấp dẫn về mặt thị giác
Grok 3: đáp ứng yêu cầu nhưng độ hoàn thiện thấp hơn các mô hình khác

Năng lực suy luận phức tạp

1. Bài kiểm tra thiên kiến nhận thức (bài toán bác sĩ và người con trai)

Claude 3.7 và Grok 3 đều giải đúng bài toán
Gemini 2.5 cho thấy một chút lúng túng

2. Tìm nước đi tối ưu trong cờ ca-rô 3x3

Cả ba mô hình đều đưa ra đáp án đúng, nhưng Grok 3 cung cấp phân tích rõ ràng nhất
Tuy nhiên, không có mô hình nào tìm ra đầy đủ mọi điểm đáp án chính xác (số 3, số 5)

3. Bài toán quan hệ huyết thống phức tạp

Claude 3.7 đưa ra chính xác đáp án là 12 người
Gemini 2.5 và Grok 3 trả lời sai là 15 người, dù vẫn có thể hiểu được logic của chúng

Năng lực toán học

1. Tìm GCD của dãy số vô hạn

Chỉ Gemini 2.5 đưa ra đáp án đúng
Grok 3 trả lời sai

2. Đánh giá biểu thức dựa trên số lượng nguyên âm

Chỉ Claude 3.7 đi đến đáp án đúng
Grok 3 không hiểu được ngữ cảnh
Gemini 2.5 không chắc chắn

Tóm tắt năng lực toán học

Với các bài toán thuần toán học, Gemini 2.5 Pro thể hiện thế mạnh
Với các bài toán toán học có pha trộn suy luận, Claude 3.7 Sonnet cân bằng hơn
Grok 3 có hiệu năng toán học thấp nhất

Kết luận

Gemini 2.5 Pro của Google là một mô hình xuất sắc, chuyên về viết mã và cũng cho thấy hiệu quả nổi bật trong các trường hợp sử dụng thực tế
Trong các bài toán suy luận và tư duy phức tạp, mô hình này vẫn hơi kém hơn các đối thủ cạnh tranh
Mạnh về toán học, nhưng khi có thêm suy luận logic thì hiệu năng bị suy giảm
Sở hữu lợi thế lớn ở xử lý đa ngôn ngữ và xử lý đầu vào dung lượng lớn

Hiệu năng lập trình: rất xuất sắc
Năng lực suy luận: yếu hơn Claude 3.7 và Grok 3
Năng lực toán học: năng lực tính toán thuần túy rất tốt

Gemini 2.5 Pro là mô hình đạt đỉnh SOTA về hiệu năng lập trình

Các cải tiến chính

Hiệu năng benchmark

Các trường hợp sử dụng thực tế

Gemini 2.5 Pro vs Claude 3.7 vs Grok 3 - So sánh năng lực lập trình

1. Quả bóng nảy bên trong khối lập phương 3D (Three.js)

2. Game phong cách Minecraft (Pygame)

3. Web app Task Tracker

Năng lực suy luận phức tạp

1. Bài kiểm tra thiên kiến nhận thức (bài toán bác sĩ và người con trai)

2. Tìm nước đi tối ưu trong cờ ca-rô 3x3

3. Bài toán quan hệ huyết thống phức tạp

Năng lực toán học

1. Tìm GCD của dãy số vô hạn

2. Đánh giá biểu thức dựa trên số lượng nguyên âm

Tóm tắt năng lực toán học

Kết luận

Bài viết liên quan

Chưa có bình luận nào.