- Gemini 2.5 Pro do Google ra mắt nhận được ít sự chú ý hơn vì màn ra mắt tính năng tạo ảnh ấn tượng của GPT-4o, nhưng thực chất đây là một bước tiến quan trọng
- Hiệu năng viết mã rất xuất sắc, đồng thời cung cấp khả năng xử lý toàn bộ codebase với độ dài ngữ cảnh tối đa 1 triệu token
- Phản hồi từ người dùng cũng rất tích cực, và mô hình cho thấy kết quả nổi bật trong các bài kiểm tra lập trình thực tế
- Ngược lại, trong các bài toán suy luận phức tạp, mô hình này kém hơn Grok 3 và Claude 3.7 Sonnet
Các cải tiến chính
- Gemini 2.5 Pro đạt được mức cải thiện hiệu năng thông qua tối ưu hóa sau huấn luyện và mở rộng tham số trên kiến trúc nền Gemini 2.0 Flash
- Hỗ trợ độ dài ngữ cảnh tối đa 1,000,000, nên ngay cả khi đưa toàn bộ codebase vào cũng có thể cho ra kết quả tốt
- Khả năng hiểu đa ngôn ngữ được tăng cường, lập kỷ lục về xử lý tiếng Tây Ban Nha trên bảng xếp hạng LMSYS
Hiệu năng benchmark
- Đạt thành tích xuất sắc trên các benchmark quan trọng như LMSYS, Livebench, GPQA, AIME, SWEbench verified
- Trên ARC-AGI, mô hình tương đương Deepseek r1 và thấp hơn Claude 3.7
- Đứng đầu benchmark WeirdML, thể hiện khả năng vượt trội trong việc viết mã PyTorch hoạt động được cho các bài toán ML kỳ lạ
- Cũng dẫn đầu trên benchmark Aider Polyglot
Các trường hợp sử dụng thực tế
- Cho kết quả xuất sắc trong nhiều ví dụ khác nhau như bài toán Wordle, tạo shader, trình mô phỏng bay, Rubik's Cube, game zombie và game arcade
- Đặc biệt, trong các tác vụ tạo game, mô hình mang lại chất lượng thực thi tinh tế và ở mức cao
Gemini 2.5 Pro vs Claude 3.7 vs Grok 3 - So sánh năng lực lập trình
1. Quả bóng nảy bên trong khối lập phương 3D (Three.js)
- Gemini 2.5: kết quả tốt nhất với chuyển động mượt mà và giống thực tế
- Grok 3: ban đầu ổn, nhưng theo thời gian quả bóng bị dính lại và hoạt động không đúng
- Claude 3.7: thiết lập rất tốt nhưng quả bóng bị dừng lại và thiếu tương tác
2. Game phong cách Minecraft (Pygame)
- Gemini 2.5: gameplay mượt mà và trau chuốt, đáp ứng mọi yêu cầu
- Claude 3.7: kết quả ở mức nâng cao, có hiệu ứng hình ảnh và các thành phần UI
- Grok 3: hoạt động cơ bản nhưng chuyển động và bố cục chưa mượt
3. Web app Task Tracker
- Gemini 2.5: UI hoàn thiện tốt và luồng sử dụng tự nhiên
- Claude 3.7: gọn gàng và hấp dẫn về mặt thị giác
- Grok 3: đáp ứng yêu cầu nhưng độ hoàn thiện thấp hơn các mô hình khác
Năng lực suy luận phức tạp
1. Bài kiểm tra thiên kiến nhận thức (bài toán bác sĩ và người con trai)
- Claude 3.7 và Grok 3 đều giải đúng bài toán
- Gemini 2.5 cho thấy một chút lúng túng
2. Tìm nước đi tối ưu trong cờ ca-rô 3x3
- Cả ba mô hình đều đưa ra đáp án đúng, nhưng Grok 3 cung cấp phân tích rõ ràng nhất
- Tuy nhiên, không có mô hình nào tìm ra đầy đủ mọi điểm đáp án chính xác (số 3, số 5)
3. Bài toán quan hệ huyết thống phức tạp
- Claude 3.7 đưa ra chính xác đáp án là 12 người
- Gemini 2.5 và Grok 3 trả lời sai là 15 người, dù vẫn có thể hiểu được logic của chúng
Năng lực toán học
1. Tìm GCD của dãy số vô hạn
- Chỉ Gemini 2.5 đưa ra đáp án đúng
- Grok 3 trả lời sai
2. Đánh giá biểu thức dựa trên số lượng nguyên âm
- Chỉ Claude 3.7 đi đến đáp án đúng
- Grok 3 không hiểu được ngữ cảnh
- Gemini 2.5 không chắc chắn
Tóm tắt năng lực toán học
- Với các bài toán thuần toán học, Gemini 2.5 Pro thể hiện thế mạnh
- Với các bài toán toán học có pha trộn suy luận, Claude 3.7 Sonnet cân bằng hơn
- Grok 3 có hiệu năng toán học thấp nhất
Kết luận
- Gemini 2.5 Pro của Google là một mô hình xuất sắc, chuyên về viết mã và cũng cho thấy hiệu quả nổi bật trong các trường hợp sử dụng thực tế
- Trong các bài toán suy luận và tư duy phức tạp, mô hình này vẫn hơi kém hơn các đối thủ cạnh tranh
- Mạnh về toán học, nhưng khi có thêm suy luận logic thì hiệu năng bị suy giảm
- Sở hữu lợi thế lớn ở xử lý đa ngôn ngữ và xử lý đầu vào dung lượng lớn
- Hiệu năng lập trình: rất xuất sắc
- Năng lực suy luận: yếu hơn Claude 3.7 và Grok 3
- Năng lực toán học: năng lực tính toán thuần túy rất tốt
Chưa có bình luận nào.