- Gemini 2.5 Pro vượt trội hơn trong việc viết mã
- Claude 3.7 Sonnet cũng rất xuất sắc, nhưng ở thời điểm hiện tại dùng Gemini 2.5 Pro có lợi hơn
- Cửa sổ ngữ cảnh 1 triệu token và khả năng sử dụng miễn phí là những ưu điểm lớn
- Trước đây Claude 3.7 Sonnet luôn là mốc so sánh tiêu chuẩn, nhưng giờ điều đó đã thay đổi
Giới thiệu ngắn về Gemini 2.5 Pro
- Mô hình suy luận thử nghiệm do Google ra mắt vào ngày 26/3/2025
- Sau khi ra mắt đã tạo ra tiếng vang rất lớn trên Twitter(X), YouTube và nhiều nơi khác
- Đạt hạng 1 trên LMArena, cho thấy hiệu năng rất xuất sắc trong viết mã, toán học, khoa học, hiểu hình ảnh và nhiều tác vụ khác
- Cung cấp cửa sổ ngữ cảnh 1 triệu token, và trong tương lai còn được báo trước sẽ có 2 triệu token
- Theo SWE Bench, độ chính xác đạt 63.8%, cao hơn 62.3% của Claude 3.7 Sonnet
- Chứng minh hiệu năng vượt trội qua nhiều ví dụ như bản demo trò chơi khủng long do Google cung cấp
- Nhìn chung được đánh giá là một mô hình đa năng phù hợp không chỉ cho lập trình mà cho mọi công việc trí tuệ
So sánh các bài kiểm tra lập trình
1. Tạo flight simulator
- Gemini 2.5 Pro
- Tạo ra một trình mô phỏng hoạt động hoàn hảo
- Đáp ứng đầy đủ mọi yêu cầu như điều khiển máy bay, tạo thành phố phong cách Minecraft
- Mức độ hoàn thiện 10/10
- Claude 3.7 Sonnet
- Gặp lỗi máy bay bay ngang và đi ra ngoài thành phố
- Mức độ hoàn thiện về chức năng thấp hơn
- Tóm tắt: Gemini 2.5 Pro thắng hoàn toàn
2. Trực quan hóa và giải Rubik's Cube
- Gemini 2.5 Pro
- Triển khai trực quan hóa và lời giải chính xác ngay trong một lần
- Sử dụng Three.js, triển khai hoàn chỉnh màu sắc khối lập phương, xáo trộn ngẫu nhiên, hoạt ảnh và nhiều yếu tố khác
- Claude 3.7 Sonnet
- Thất bại trong việc hiển thị màu sắc và giải bài toán
- Có giới hạn tương tự như các LLM khác
- Tóm tắt: Gemini 2.5 Pro tiếp tục áp đảo ở hạng mục này
3. Trực quan hóa quả bóng nảy bên trong tesseract 4 chiều
- Gemini 2.5 Pro
- Đáp ứng mọi yêu cầu như va chạm vật lý, làm nổi bật các mặt
- Chất lượng mã và trạng thái hoạt động đều rất tốt
- Claude 3.7 Sonnet
- Chức năng có hoạt động nhưng thêm màu sắc không cần thiết
- Dù vậy vẫn đáp ứng được các tính năng được yêu cầu
- Tóm tắt: Cả hai mô hình đều đáp ứng yêu cầu, Claude cuối cùng cũng thành công
4. Bài toán LeetCode: tìm tổng lớn nhất bằng cách đặt 3 quân xe
- Gemini 2.5 Pro
- Viết mã phức tạp hơn nhưng cho lời giải chính xác
- Cũng cân nhắc hợp lý về độ phức tạp thời gian
- Claude 3.7 Sonnet
- Viết mã ngắn gọn nhưng bị quá thời gian (TLE)
- Dễ hiểu hơn nhưng còn thiếu về mặt hiệu năng
- Tóm tắt: Gemini 2.5 Pro dẫn trước cả về hiệu năng lẫn độ chính xác
Kết luận
- Gemini 2.5 Pro có ưu thế rõ ràng
- Vượt Claude 3.7 Sonnet về cửa sổ ngữ cảnh, độ chính xác và hiệu năng đa nhiệm
- Claude vẫn là một mô hình rất xuất sắc, nhưng ở thời điểm hiện tại dùng Gemini hiệu quả hơn
- Nếu trong tương lai mở rộng lên cửa sổ 2 triệu token, hiệu năng sẽ còn được cải thiện hơn nữa
- Cùng với mẫu nhẹ Gemma 3 27B gần đây của Google, nó tạo thành một dòng AI rất mạnh
1 bình luận
Ý kiến trên Hacker News
Muốn mở một cuộc thi có giải thưởng tiền mặt cho các bài toán lập trình thực tế. Cần đặt ra luật chơi. Nghi ngờ liệu LLM có thể giải được bài toán này hay không
Gemini là mô hình duy nhất cho biết thời điểm cuộc trò chuyện bị ngắt
Đã dùng Gemini 2.5 Pro và thấy khá ổn
Trong cuộc cạnh tranh giữa các mô hình AI, người thua có vẻ là Microsoft
Gemini 2.5 Pro đạt điểm cao trên bảng xếp hạng lập trình đa ngôn ngữ của aider
Trong ví dụ Rubik's Cube, Gemini 2.5 dùng một chuỗi xáo trộn đã được ghi nhớ
Hồi dùng Visual Basic thập niên 90, việc tạo dự án mới từ template từng rất thú vị
Gemini 2.5 không tốt với mã Cython phức tạp
Có câu hỏi về việc liệu có cần một cuộc thảo luận không thiên vị hay không
Mọi tác vụ kiểm thử đều là dự án greenfield