Google phát hành Gemini 2.5

(blog.google)

9 điểm bởi GN⁺ 2025-03-26 | 3 bình luận | Chia sẻ qua WhatsApp

Gemini 2.5 là mô hình AI dựa trên suy luận thông minh nhất, được thiết kế để giải quyết các vấn đề phức tạp
Bản phát hành đầu tiên, Gemini 2.5 Pro Experimental, đạt hiệu năng hàng đầu trên nhiều benchmark AI
Đặc biệt, mô hình này đứng số 1 với khoảng cách lớn trên bảng xếp hạng LMArena
Khác với các mô hình trước đây, nó được thiết kế với cấu trúc tự trải qua quá trình suy nghĩ trước khi phản hồi, giúp cải thiện độ chính xác và hiệu năng

'Năng lực suy nghĩ' trong AI là gì?

Không chỉ dừng ở phân loại hay dự đoán đơn thuần, mà còn bao gồm các năng lực nhận thức bậc cao như phân tích thông tin, rút ra kết luận logic, hiểu ngữ cảnh và ra quyết định
Để làm được điều này, DeepMind đã nghiên cứu năng lực suy luận của AI bằng cách tận dụng reinforcement learning và kỹ thuật prompt Chain-of-Thought
Mô hình này cho thấy hiệu năng tiến thêm một bước so với Gemini 2.0 Flash Thinking hiện có

Định hướng sắp tới

Thông qua Gemini 2.5, Google kết hợp mô hình nền tảng được cải thiện với các kỹ thuật hậu xử lý để đạt tới một cấp độ hiệu năng mới
Trong tương lai, hãng dự kiến tích hợp mặc định năng lực suy nghĩ này vào mọi mô hình Gemini, từ đó hỗ trợ giải quyết các bài toán phức tạp hơn và các tác tử tiên tiến hơn

Giới thiệu Gemini 2.5 Pro

Gemini 2.5 Pro Experimental cho thấy hiệu năng vượt trội trong việc thực hiện những tác vụ phức tạp nhất trong số các mô hình được phát triển cho đến nay
Đứng số 1 với khoảng cách lớn trên LMArena, hệ đánh giá dựa trên mức độ ưa thích của con người
Cũng thể hiện hiệu năng xuất sắc trên các benchmark về lập trình, toán học và khoa học
Hiện đã có mặt trên Google AI Studio và ứng dụng Gemini, đồng thời sẽ sớm được cung cấp trên Vertex AI
Trong tương lai, sẽ có gói giá để mở rộng dịch vụ với giới hạn gọi cao hơn

Hiệu năng suy luận được nâng cao

Ghi nhận điểm benchmark ở mức hàng đầu trong việc giải các bài toán logic phức tạp
Vẫn duy trì hiệu năng xuất sắc mà không cần các kỹ thuật kiểm thử tốn thêm chi phí như bỏ phiếu đa số
Dẫn đầu ở các bài toán toán học và khoa học như GPQA, AIME 2025
Trên bài kiểm tra suy luận độ khó cao 'Humanity’s Last Exam', do hàng trăm chuyên gia thiết kế, mô hình đạt 18.8% mà không cần công cụ, mức cao nhất trong ngành

Hiệu năng lập trình nâng cao

Hiệu năng lập trình được cải thiện đáng kể so với Gemini 2.0
Có năng lực nổi bật trong tạo web app, viết mã dạng tác tử và chuyển đổi, chỉnh sửa mã
Đạt 63.8% trên đánh giá SWE-Bench Verified khi sử dụng tác tử tùy chỉnh
Thậm chí có ví dụ tạo ra một trò chơi điện tử có thể chạy được chỉ với một dòng prompt

Kế thừa thế mạnh của dòng mô hình Gemini

Gemini 2.5 tiếp tục giữ nguyên các thế mạnh của những mô hình Gemini trước đó là xử lý đa phương thức và cửa sổ ngữ cảnh dài
Hỗ trợ cửa sổ ngữ cảnh 1 triệu token (sắp mở rộng lên 2 triệu)
Có thể xử lý tổng hợp nhiều nguồn thông tin như văn bản, âm thanh, hình ảnh, video và toàn bộ kho mã nguồn
Nhà phát triển và người dùng doanh nghiệp có thể thử nghiệm và kiểm thử thông qua Google AI Studio, Gemini Advanced và Vertex AI

3 bình luận

wowfoot 2025-03-26

Nó áp đảo claud, gpt4.5 nhưng vẫn không thắng được khi thử grok3 nhiều lần.
grok3 thật đáng kinh ngạc.

zxshinxz 2025-03-26

Gemini 2.5 Pro đã xuất hiện trên Google AI Studio, nên toàn bộ các bản Gemini 2.0 Pro trước đó đều biến mất rồi.. Tôi đang dùng miễn phí khá ổn nên cũng thấy hơi tiếc. Có vẻ các giới hạn của Gemini 2.5 Pro là khá lớn: mỗi phút chỉ 2 lần và mỗi ngày chỉ có thể gọi tối đa 50 lần.

GN⁺ 2025-03-26

Ý kiến trên Hacker News

Một trong những vấn đề lớn nhất khi dùng LLM để viết các văn bản dài như tiểu thuyết là nếu cung cấp chi tiết, mô hình sẽ phản ứng quá mức một cách căng cứng
- Ví dụ, nếu đưa hồ sơ của nhân vật tình cảm trong một tác phẩm fantasy sử thi, nhân vật chính gần như luôn gặp họ trong vòng 3 trang đầu
- Đây là diễn biến phi logic, và các nỗ lực nhằm thay đổi điều đó đều không hiệu quả
- Mô hình hiện tại sau khi tạo ra 19 trang vẫn cho thấy diễn biến bình thường và chứa nhiều chi tiết
- Rất ấn tượng
Đã dùng các câu đố toán học để benchmark nhiều mô hình khác nhau
- Câu đố này mất khoảng 3 ngày để giải bằng máy tính, còn một người học chuyên ngành toán đã giải bằng tay trong một ngày
- Gemini 2.5 là mô hình đầu tiên giải được câu đố này, điều đó có nghĩa là LLM đã vượt hơn 95% dân số về suy luận toán học
- Câu đố hỏi về ba người đứng thành vòng tròn, trên đầu mỗi người có một số nguyên dương, và tổng của hai số bằng số còn lại
- Người thứ nhất nói rằng mình không biết số của mình, người thứ hai cũng không biết, và người thứ ba cũng không biết
- Khi hỏi lại người thứ nhất, anh ta trả lời là 65
- Câu đố hỏi tích của ba số là bao nhiêu
Mô hình làm rất tốt ở tác vụ chép lời âm thanh và vẽ khung giới hạn quanh sinh vật trong các bức ảnh phức tạp
- Thậm chí còn vẽ một con bồ nông đang đi xe đạp
- Có thể xem ghi chú liên quan ở liên kết
Đã đạt thành tích cao nhất trên benchmark theo cách chưa từng có tiền lệ
- Cho thấy chất lượng cao và kết quả rõ ràng, nhưng hơi chậm một chút
- Google lại vừa tạo ra một cú hit lớn
Gemini 2.5 Pro đã đạt SOTA trên bảng xếp hạng aider polyglot với số điểm 73%
- Thể hiện một bước nhảy lớn so với các mô hình Gemini trước đó
- Đây là mô hình Gemini đầu tiên sử dụng hiệu quả định dạng chỉnh sửa kiểu diff một cách hiệu quả
Những công bố kiểu này đang bắt đầu trông như một khuôn mẫu
- Mô hình tối tân nhất
- So sánh benchmark với X, Y, Z
- Suy luận "tốt hơn"
- Có thể là một mô hình tuyệt vời, nhưng phần văn bản lặp đi lặp lại làm giảm hứng thú
Gemini 2.5 đã đạt tới một mức hiệu năng mới bằng cách kết hợp một mô hình nền tảng được cải thiện đáng kể với hậu xử lý tốt hơn
- Trong tương lai, những năng lực suy nghĩ này sẽ được tích hợp trực tiếp vào mọi mô hình để xử lý các vấn đề phức tạp hơn và hỗ trợ các agent có năng lực hơn, nhận thức ngữ cảnh tốt hơn
- Mô hình được kết nối Internet và hoạt động như một mô hình suy luận khi cần
- Hy vọng chế độ canvas vừa ra mắt gần đây cũng sẽ được hỗ trợ cho mô hình này
Đã dùng một test case cung cấp cho LLM toàn bộ codebase và mô tả lỗi để xác định nguyên nhân bug trong một thư viện Dart
- Bao gồm khoảng 360.000 token
- Đã thử với các mô hình lớn cách đây một tháng, nhưng chỉ mô hình này xác định được bản sửa đúng
Nếu định dùng Gemini, có một số lưu ý sau
- Không nhập thông tin mật hoặc dữ liệu mà reviewer có thể xem hoặc Google có thể sử dụng
- Để nâng cao chất lượng Google AI và cải thiện sản phẩm, các reviewer là con người sẽ đọc, gắn chú thích và xử lý các cuộc trò chuyện
- Trong quá trình này, để bảo vệ quyền riêng tư, các cuộc trò chuyện sẽ được tách khỏi tài khoản Google
Mô hình 2.0 vẫn còn chưa ra mắt được bao lâu, nên khá tò mò vì sao tên lại thêm +0.5
- Không rõ là vì marketing, để chỉ một kiến trúc mô hình mới, nhiều dữ liệu huấn luyện hơn dựa trên 2.0, hay một hạ tầng dịch vụ mới
- Khi cách đặt tên *.5 mới xuất hiện, tôi đã thấy nó hơi ngớ ngẩn
- Khi OpenAI phát hành 3.5, họ nói rằng 4 đã gần xong và đang tinh chỉnh 3 để phù hợp hơn với ChatGPT
- Tôi nghĩ Anthropic đặt tên Sonnet 3, 3.5, 3.5 (new), 3.7 là ví dụ tệ nhất cho kiểu đặt tên này
- Tôi thích semver, cách đặt theo ngày ("Gemini Pro 2025"), hoặc tổ hợp chữ và số có ý nghĩa (ví dụ: 4o - "Omni") hơn