- Gemini 2.5 là mô hình AI dựa trên suy luận thông minh nhất, được thiết kế để giải quyết các vấn đề phức tạp
- Bản phát hành đầu tiên, Gemini 2.5 Pro Experimental, đạt hiệu năng hàng đầu trên nhiều benchmark AI
- Đặc biệt, mô hình này đứng số 1 với khoảng cách lớn trên bảng xếp hạng LMArena
- Khác với các mô hình trước đây, nó được thiết kế với cấu trúc tự trải qua quá trình suy nghĩ trước khi phản hồi, giúp cải thiện độ chính xác và hiệu năng
'Năng lực suy nghĩ' trong AI là gì?
- Không chỉ dừng ở phân loại hay dự đoán đơn thuần, mà còn bao gồm các năng lực nhận thức bậc cao như phân tích thông tin, rút ra kết luận logic, hiểu ngữ cảnh và ra quyết định
- Để làm được điều này, DeepMind đã nghiên cứu năng lực suy luận của AI bằng cách tận dụng reinforcement learning và kỹ thuật prompt Chain-of-Thought
- Mô hình này cho thấy hiệu năng tiến thêm một bước so với Gemini 2.0 Flash Thinking hiện có
Định hướng sắp tới
- Thông qua Gemini 2.5, Google kết hợp mô hình nền tảng được cải thiện với các kỹ thuật hậu xử lý để đạt tới một cấp độ hiệu năng mới
- Trong tương lai, hãng dự kiến tích hợp mặc định năng lực suy nghĩ này vào mọi mô hình Gemini, từ đó hỗ trợ giải quyết các bài toán phức tạp hơn và các tác tử tiên tiến hơn
Giới thiệu Gemini 2.5 Pro
- Gemini 2.5 Pro Experimental cho thấy hiệu năng vượt trội trong việc thực hiện những tác vụ phức tạp nhất trong số các mô hình được phát triển cho đến nay
- Đứng số 1 với khoảng cách lớn trên LMArena, hệ đánh giá dựa trên mức độ ưa thích của con người
- Cũng thể hiện hiệu năng xuất sắc trên các benchmark về lập trình, toán học và khoa học
- Hiện đã có mặt trên Google AI Studio và ứng dụng Gemini, đồng thời sẽ sớm được cung cấp trên Vertex AI
- Trong tương lai, sẽ có gói giá để mở rộng dịch vụ với giới hạn gọi cao hơn
Hiệu năng suy luận được nâng cao
- Ghi nhận điểm benchmark ở mức hàng đầu trong việc giải các bài toán logic phức tạp
- Vẫn duy trì hiệu năng xuất sắc mà không cần các kỹ thuật kiểm thử tốn thêm chi phí như bỏ phiếu đa số
- Dẫn đầu ở các bài toán toán học và khoa học như GPQA, AIME 2025
- Trên bài kiểm tra suy luận độ khó cao 'Humanity’s Last Exam', do hàng trăm chuyên gia thiết kế, mô hình đạt 18.8% mà không cần công cụ, mức cao nhất trong ngành
Hiệu năng lập trình nâng cao
- Hiệu năng lập trình được cải thiện đáng kể so với Gemini 2.0
- Có năng lực nổi bật trong tạo web app, viết mã dạng tác tử và chuyển đổi, chỉnh sửa mã
- Đạt 63.8% trên đánh giá SWE-Bench Verified khi sử dụng tác tử tùy chỉnh
- Thậm chí có ví dụ tạo ra một trò chơi điện tử có thể chạy được chỉ với một dòng prompt
Kế thừa thế mạnh của dòng mô hình Gemini
- Gemini 2.5 tiếp tục giữ nguyên các thế mạnh của những mô hình Gemini trước đó là xử lý đa phương thức và cửa sổ ngữ cảnh dài
- Hỗ trợ cửa sổ ngữ cảnh 1 triệu token (sắp mở rộng lên 2 triệu)
- Có thể xử lý tổng hợp nhiều nguồn thông tin như văn bản, âm thanh, hình ảnh, video và toàn bộ kho mã nguồn
- Nhà phát triển và người dùng doanh nghiệp có thể thử nghiệm và kiểm thử thông qua Google AI Studio, Gemini Advanced và Vertex AI
3 bình luận
Nó áp đảo claud, gpt4.5 nhưng vẫn không thắng được khi thử grok3 nhiều lần.
grok3 thật đáng kinh ngạc.
Gemini 2.5 Pro đã xuất hiện trên Google AI Studio, nên toàn bộ các bản Gemini 2.0 Pro trước đó đều biến mất rồi.. Tôi đang dùng miễn phí khá ổn nên cũng thấy hơi tiếc. Có vẻ các giới hạn của Gemini 2.5 Pro là khá lớn: mỗi phút chỉ 2 lần và mỗi ngày chỉ có thể gọi tối đa 50 lần.
Ý kiến trên Hacker News
Một trong những vấn đề lớn nhất khi dùng LLM để viết các văn bản dài như tiểu thuyết là nếu cung cấp chi tiết, mô hình sẽ phản ứng quá mức một cách căng cứng
Đã dùng các câu đố toán học để benchmark nhiều mô hình khác nhau
Mô hình làm rất tốt ở tác vụ chép lời âm thanh và vẽ khung giới hạn quanh sinh vật trong các bức ảnh phức tạp
Đã đạt thành tích cao nhất trên benchmark theo cách chưa từng có tiền lệ
Gemini 2.5 Pro đã đạt SOTA trên bảng xếp hạng aider polyglot với số điểm 73%
Những công bố kiểu này đang bắt đầu trông như một khuôn mẫu
Gemini 2.5 đã đạt tới một mức hiệu năng mới bằng cách kết hợp một mô hình nền tảng được cải thiện đáng kể với hậu xử lý tốt hơn
Đã dùng một test case cung cấp cho LLM toàn bộ codebase và mô tả lỗi để xác định nguyên nhân bug trong một thư viện Dart
Nếu định dùng Gemini, có một số lưu ý sau
Mô hình 2.0 vẫn còn chưa ra mắt được bao lâu, nên khá tò mò vì sao tên lại thêm +0.5