Gemini-2.5-pro-preview-06-05

(deepmind.google)

1 điểm bởi GN⁺ 2025-06-07 | 1 bình luận | Chia sẻ qua WhatsApp

Bản xem trước của Gemini 2.5 Pro mới nhất hiện đã có thể sử dụng trước khi phát hành chính thức
Trong các đánh giá quan trọng như LMArena, WebDevArena, mô hình này tăng 24~35 điểm Elo so với phiên bản trước
Ghi nhận hiệu năng hàng đầu trên các benchmark chính như lập trình, khoa học, toán học, hiểu đa phương thức, xử lý ngữ cảnh dài
Với giá đầu vào $1.25, giá đầu ra $10 (trên mỗi một triệu token), cấu trúc chi phí rẻ hơn so với đối thủ cạnh tranh

So sánh theo từng benchmark chính

Reasoning & Knowledge (Humanity's Last Exam): 21.6%, tương đương với OpenAI/Anthropic và vượt DeepSeek R1 (14%)
Science (GPQA diamond): 86.4%, hiệu năng cao nhất ngành (theo tiêu chí một lần thử)
Mathematics (AIME 2025): 88.0%, tương đương OpenAI o3 và DeepSeek R1, cao hơn Anthropic Claude 4/3
Code Generation/Editing: LiveCodeBench 69.0%, Aider Polyglot 82.2%, độ chính xác cao ở cả tạo và chỉnh sửa mã
Agentic Coding (SWE-bench Verified): 59.6% (một lần), 67.2% (nhiều lần), thấp hơn đôi chút so với Anthropic Claude 4 nhưng tương đương OpenAI/DeepSeek
Factuality: SimpleQA 54.0%, FACTS Grounding 87.8%, có thế mạnh trong việc tạo nội dung dựa trên dữ liệu thực tế
Visual/Video/Image Understanding: MMMU 82.0%, Vibe-Eval (hình ảnh) 67.2%, VideoMMMU (video) 83.6%, mạnh ở cả văn bản, hình ảnh và video
Long Context (MRCR v2, 128K): 58.0%, hiệu năng cao nhất so với các mô hình cạnh tranh lớn như OpenAI, Anthropic, xAI

Giá và ngôn ngữ hỗ trợ

Giá đầu vào: $1.25 / một triệu token ($2.50 nếu trên 200K)
Giá đầu ra: $10 / một triệu token ($15 nếu trên 200K)
Ngôn ngữ hỗ trợ: hơn 70 ngôn ngữ toàn cầu (Multipolyglot 89.2%)

Trường hợp sử dụng và các đặc điểm bổ sung

Có thể dùng bản preview ngay trên Google AI Studio, Vertex AI
Bổ sung các tính năng kiểm soát chi phí và độ trễ cho nhà phát triển như Thinking Budget
Tăng cường các khả năng phù hợp với công việc thực tế như lập trình, tri thức, đa phương thức, xử lý văn bản dài

Kết luận

Gemini 2.5 Pro vượt trội hơn đối thủ ở nhiều hạng mục như giá, hiệu năng, tính đa dụng, đa phương thức, ngữ cảnh dài
Khi triển khai AI cho doanh nghiệp và nhà phát triển, có thể đồng thời cân nhắc so sánh rõ ràng dựa trên benchmark chính và hiệu quả chi phí

1 bình luận

GN⁺ 2025-06-07

Ý kiến trên Hacker News

Đang ấn tượng khi Google tăng thêm khoảng 25 ELO trên lmarena, và rồi lại nhận ra cả vị trí #1 trước đó cũng là Gemini Sau khi dùng khá nhiều cả Gemini lẫn Claude Opus 4 trong vài tuần qua, trải nghiệm của tôi là Opus ở một đẳng cấp khác hẳn Khi xử lý các bài toán TypeScript phức tạp, tôi lần đầu gặp cảnh Gemini cứ quay vòng ở cùng một chỗ, thậm chí còn bỏ cuộc và nói là không làm được, trong khi Opus giải quyết khá dễ dàng Dĩ nhiên ví dụ này không đại diện cho toàn bộ năng lực, nhưng khác biệt tôi cảm nhận được là Gemini có xu hướng cố ép cho code chạy được, còn Opus thì nắm đúng bản chất vấn đề và tiếp cận gọn gàng hơn Tôi cũng thấy Opus có vẻ giàu sức tưởng tượng hơn, hoặc được tối ưu tốt hơn cho các tác vụ mang tính agent Điều đặc biệt gây ấn tượng là Opus từng tự phát tạo ra một giải pháp ngoài dự đoán, như viết script playwright để dump DOM, phân tích nó rồi kiểm tra các vấn đề tương tác Còn Gemini thì cố chấp đọc sát từng dòng code để bắt bug, và tôi cảm thấy cách tiếp cận đó có giới hạn Dù vậy, Gemini vẫn là một mô hình rất tốt, và trước bản 4.0 thì tôi từng nghĩ nó là tốt nhất
- Cá nhân tôi thậm chí còn thích o3 hơn cả Opus 4, nên sau khi tiêu tốn vài trăm đô cho các công cụ sinh code AI trong một tháng qua, tôi tự xếp hạng như sau Hạng 1 là o3, cực kỳ xuất sắc ở xử lý chi tiết, nắm đúng bản chất vấn đề, và viết code chất lượng cao có thể dùng trong production thực tế Điểm yếu là cửa sổ cutoff, chi phí, và việc nó quá thích dùng tool Với dự án Rails thì hầu như không vấn đề gì, nhưng đôi khi vẫn có ảnh hưởng Hạng 2 là Opus 4 (dùng qua Claude Code), hiệu năng tốt và rẻ hơn o3 nên tôi dùng làm daily driver chính Tôi thường để Opus 4 lên kế hoạch và làm bản nháp đầu, rồi cho o3 soi kỹ, phê bình và lập danh sách feedback để nâng mức hoàn thiện lên rất nhiều Hạng 3 là Gemini 2.5 Pro, tôi chưa thử bản phát hành mới nhất lần này nhưng trước đây nó đứng hạng 2 Hiện tại nó ngang Sonnet 4 hoặc nhỉnh hơn một chút, tùy tình huống Hạng 4 là Sonnet 4, tạo ra nhiều code nhưng nếu không được coaching hay giám sát trực tiếp thì không thật sự cho ra code chất lượng, súc tích và có chiều sâu Tôi khá ám ảnh với chất lượng và cấu trúc code của mình (tên gọi, khả năng tái sử dụng, v.v.), nên theo thống kê Cursor tháng trước tôi chỉ chấp nhận 33% code từ gợi ý tự động Khi nó đi chệch khỏi hướng tối ưu, tôi sẽ sửa các yêu cầu sai và tinh chỉnh lại prompt để tiếp tục theo đuổi kết quả tốt hơn
- Điểm nổi bật nhất của Gemini so với các model khác là khả năng tìm kiếm vượt trội Tôi nhờ nó soạn email gửi nơi dùng domain công ty để spam, và nó tìm ra luôn email abuse của nhà cung cấp hosting, thông tin domain, máy chủ mx, IP, datacenter, v.v. Tôi cũng nhờ chuyển một bài báo khoa học thành podcast, và nó làm ngay, nghe cũng khá thú vị
- Tuần này khi tôi giao cùng một bài toán cho Claude 4 và Gemini 2.5 thì Gemini đưa ra đáp án đúng còn Claude không làm được Đặc biệt, ngay cả với những tác vụ không khó kiểu so sánh truy vấn SQL, Gemini vẫn thường tìm ra đúng vấn đề thực tế
- Thực ra trải nghiệm của tôi thay đổi tùy từng trường hợp Có vấn đề Gemini xử lý rất ngon, nhưng ngay sau đó lại mắc kẹt ở một bug cực kỳ đơn giản, khá khó hiểu o3 và sonnet cũng vậy, còn 4.0 thì tôi chưa dùng đủ để đánh giá Tôi thấy cần có hỗ trợ đánh giá nhiều model song song rồi chọn ra lời giải tối ưu
- Có người hỏi liệu đã test với o3 chưa Với use case của tôi thì o3 gây ấn tượng hơn Opus 4 rất nhiều
Tôi bắt đầu ngày càng lo về giá trị thị trường của OpenAI Có quá nhiều đối thủ mạnh, và nhận định rằng họ không còn là người dẫn đầu tuyệt đối nữa nghe rất thuyết phục Ở mức định giá 300 tỷ USD, tôi tò mò họ sẽ còn gọi thêm vốn kiểu gì trong tương lai Doanh thu thì ít còn chi phí như phần cứng, tiền điện và các khoản khác cứ tăng mãi, nên rất khó xác định giá trị thực Khi thế hệ LLM tiếp theo cần dữ liệu mới, có vẻ Facebook và Google sẽ có lợi thế cấu trúc OpenAI không có nhiều mảng kinh doanh dữ liệu của riêng mình nên tôi nghĩ họ bất lợi trong cuộc cạnh tranh về dữ liệu độc quyền Hồi còn dẫn đầu cả nghiên cứu lẫn ứng dụng cho người dùng thì định giá cao còn có thể biện minh được, nhưng bây giờ nền tảng niềm tin đã yếu hơn nhiều Tôi không rõ nhà đầu tư mới sẽ thu được lợi ích gì từ OpenAI Với định giá 300 tỷ USD thì thông thường sẽ cần khoảng 150 tỷ doanh thu nếu lấy bội số doanh thu 2x, còn kể cả với P/E cực đoan 100x thì cũng phải có 3 tỷ lợi nhuận mỗi năm, kèm kịch bản tăng trưởng gấp đôi liên tục trong 10 năm như Amazon những năm 2000 Hiện còn có vấn đề về cấu trúc phi lợi nhuận/vì lợi nhuận nên việc IPO có thể cũng không hề dễ Xin chúc mừng Google, và tôi đánh giá họ có khả năng cao là bên thắng lớn nhất trong cuộc đua AI
- Có ý kiến cho rằng đang có nhiều hiểu lầm về vị thế thị trường của OpenAI "chatgpt" đã trở thành một động từ đời thường, còn Claude hay Gemini thì với người bình thường gần như không ai biết đến Trừ khi xảy ra điều gì thật sự đột phá, công chúng không có lý do gì để chuyển sang sản phẩm khác Chỉ riêng sự tiện lợi của lịch sử hội thoại, bộ nhớ và cấu trúc xuất dữ liệu của ChatGPT cũng đã đủ tạo ra rào cản chuyển đổi Với 500 triệu người dùng hoạt động, điều OpenAI cần làm đơn giản là duy trì chất lượng Nếu mô hình hiện tại vẫn tiếp diễn thì kể cả không dẫn đầu, họ vẫn có thể bắt kịp công nghệ của bên khác Người dùng phổ thông không đổi sản phẩm chỉ vì một vài cải thiện nhỏ
- Có người chỉ ra lỗi trong phép tính định giá Không phải gấp đôi doanh thu của 300 tỷ USD mà là 150 tỷ USD doanh thu mới đúng Tuy vậy luận điểm chính vẫn hợp lý
- Lĩnh vực mà OpenAI hiện rõ ràng vượt trội hơn là tạo ảnh Từ minh họa, truyện tranh, chỉnh sửa ảnh đến lên ý tưởng cho các dự án gia đình đều có khác biệt rõ
- Có quan điểm rằng dù Google đang thắng trong cuộc đua AI, mảng tìm kiếm của họ vẫn sẽ tiếp tục bị bào mòn Và cũng chưa rõ liệu AI có giúp họ trích xuất được lợi ích kinh tế từ vị thế dẫn đầu thị trường hay không Họ buộc phải cạnh tranh, nhưng có lẽ thời kỳ độc quyền xoay quanh quảng cáo trước đây vẫn dễ chịu hơn
- Vì o3 pro và GPT 5 sắp ra mắt nên còn quá sớm để khẳng định OpenAI không còn là người dẫn đầu Nếu hai model đó không cho thấy bước tiến rõ rệt thì khi ấy mới nên tính đến chuyện mất vị thế lãnh đạo Còn lúc này, cảm giác là họ ít nhất vẫn đang ngang hàng với Google và các bên khác
Việc cùng một model mà tung ra tới ba bản preview đã đủ gây rối, giờ còn thêm chuyện hai ngày cuối bị đảo như 05-06 và 06-05 nên lại càng khó hiểu hơn Chỉ cần lùi đi một ngày thôi là đã rõ ràng hơn rồi, hơi đáng tiếc
- Vì cách ghi ngày quá mơ hồ nên thực chất phải lùi đến ngày 13 mới hết nhầm lẫn Ở Canada thì định dạng ngày kiểu Anh và kiểu Mỹ trộn lẫn với nhau, cực kỳ rối Dạo này định dạng y-m-d đã được chấp nhận chính thức và ngày càng phổ biến hơn
- Cái việc 05-06 với 06-05 dễ gây nhầm lẫn này tự nó đã giống như đang công khai châm chọc các model 4o và o4 của OpenAI
- Tôi đang tò mò khi nào Gemini 2.5 pro mới chuyển sang 2.6 pro Có lẽ đến Gemini 3 thì kích thước sẽ còn lớn hơn nữa
- Một câu đùa rằng các lập trình viên thật sự rất kém trong việc đặt tên
Có hai vấn đề tôi chỉ thấy ở Gemini
1. Nó đổi tên biến dù tôi không hề yêu cầu rõ ràng phải đổi tên
2. Thỉnh thoảng nó còn quên dấu ngoặc vuông đóng Tôi thích đặt tên biến ngắn gọn nên đôi khi chỉ dùng "json", cảm ơn vì góp ý nhưng khi các thay đổi kiểu đó quá nhiều thì việc review code trở nên khó khăn
- Có người nêu một case cụ thể Gemini xử lý sai Với đoạn code đã ghi rõ processing_class=tokenizer, dù sửa nhiều lần Gemini vẫn cứ đổi thành tokenizer=tokenizer Thậm chí ghi chú cả khối là DO NOT CHANGE mà nó vẫn tiếp tục đổi sai Tôi chưa thử bản mới nhất (06-05), nhưng ngay bản 05-06 trước đó lỗi này vẫn lặp lại
- Nhấn mạnh rằng thực chất o1-pro cùng với Gemini đang nằm trong nhóm đầu bảng của tôi Nhưng Gemini thêm quá nhiều chú thích không cần thiết và sửa các phần code không liên quan, nên rất khó dùng cho công việc thực tế Khi khám phá ý tưởng thì nó hữu ích, nhưng với lời giải cuối cùng tôi lại dùng o1-pro
- Gemini còn hay thêm cả những chú thích không chạy rất ngớ ngẩn Như # Added this function, # Changed this to fix the issue Mấy thứ đó hợp với commit message hay PR hơn là nhét vào code, nên khá khó chịu
- ChatGPT cũng có nhiều trường hợp phớt lờ hẳn các chỉ thị cụ thể Ví dụ như dù nhấn mạnh bao nhiêu lần rằng đừng dùng em dash hay en dash thì nó lại càng chèn nhiều hơn Tôi đã thử nhiều lần mà chưa lần nào kiểm soát được hẳn
Tôi đang trả tiền cho cả ChatGPT Plus lẫn Gemini Pro ChatGPT liên tục đụng rate limit nên tôi đang cân nhắc hủy Còn Gemini/AI Studio thì đến giờ tôi chưa từng bị rate limit lần nào
- AI Studio thực ra dùng tài khoản API ở backend, và một dự án Google Cloud free tier được tạo tự động Ở cuối trang "get an api key" có thể liên kết tài khoản thanh toán Theo điều khoản dịch vụ của Google, API free tier có thể không được xem là dùng cho mục đích thương mại, và prompt có thể bị con người xem xét cũng như được dùng làm dữ liệu huấn luyện
- Vì AI Studio dùng API nên trên thực tế người dùng bình thường rất hiếm khi chạm trần với các model preview trả phí
- Tôi thích Gemini hơn ChatGPT khá nhiều, nhưng gần đây gói Pro có thêm giới hạn 100 tin nhắn mỗi ngày Còn AI Studio có vẻ vẫn chưa có giới hạn
- Có người thắc mắc vì sao không dùng API qua bên trung gian như openrouter
Tôi cảm thấy các model Gemini trước đây thua Claude 3.7 Sonnet trong vai trò trợ lý lập trình (bản 4 còn tệ hơn) Với phiên bản mới này tôi cũng chưa định thử cho đến khi có đánh giá thực tế Trên mạng có quá nhiều lời khen Gemini trái ngược hẳn với trải nghiệm cá nhân của tôi, nên tôi nghi có pha trộn giữa marketing lộ liễu và hiệu ứng thổi phồng nhân tạo
- Có ý kiến rằng đánh giá model nào cũng phụ thuộc vào việc bạn thật sự dùng nó để làm gì Claude 3.5/3.7 Sonnet hoàn toàn vô dụng với C/C++/Make/CMake Tôi gặp đủ thứ trải nghiệm tệ như thông tin sai, trả về code bất khả thi, bịa ra cú pháp/API vô nghĩa, mâu thuẫn logic, v.v. Trong khi đó Gemini 2.5-pro và o3 vượt trội rõ rệt, đến mức cả đội tôi đều nói là tốt hơn Có thể Claude mạnh ở TypeScript hay Ruby, nhưng ít nhất với công việc của tôi thì Gemini không chỉ là quảng cáo thổi phồng
- Có người chưa dùng Claude, nhưng với các câu hỏi đời thường thì Gemini luôn cho câu trả lời tốt hơn ChatGPT hay Copilot Đặc biệt khi dùng cho mục đích tìm kiếm như cách làm trên command line hay thông tin sản phẩm, Gemini thật sự có lợi thế
- Trong Aider tôi đang luân phiên dùng Sonnet và Gemini Lạ là có bài toán chỉ một model giải được, và không có quy luật nào có thể biết trước
- Có ý kiến Claude 3.7 Sonnet tốt hơn Gemini khi làm coding assistant, nhưng ở mảng data science hay Python ETL phức tạp thì Claude lại gây thất vọng còn o3 tốt hơn nhiều
- Trong Roo Code thì Claude dùng tool tốt hơn, nhưng phong cách code gọn của Gemini lại hợp gu tôi hơn Tôi thường trộn cả hai, hoặc khi một bên thất bại thì dùng bên còn lại để xử lý
Tôi mong họ tăng số patch thay vì cứ tiếp tục phát hành các bản preview chỉ khác ngày
- Nếu không muốn ảnh hưởng đến hệ sinh thái được xây trên phiên bản cũ, thì mỗi đợt cập nhật lớn nên tách thành model mới riêng
Theo Aider thì điểm là 82.2 Nhưng thực tế vẫn còn kém điểm chính thức của o3 high Bảng xếp hạng Aider link
- Có người hỏi liệu 82.2 có cùng tiêu chí với Percent correct của model khác không pure o3 (high) đạt 79.6%, còn tổ hợp o3 (high) + gpt-4.1 cao nhất là 82.7% Gemini 2.5 Pro Preview 05-06 cũ ở mức 76.9% Đây được xem là một bước nhảy khá lớn Hiện tại benchmark Aider được xem là benchmark đáng tin cậy nhất
- Điều đặc biệt ấn tượng là nó rẻ hơn và nhanh hơn rất nhiều
- Có người nhắc rằng điểm được nói đến là của bản preview 05-06 cũ, chưa phải bản mới công bố hôm nay
Tham khảo một tweet nói rằng 06-05 lấp đầy khoảng cách giữa 03-25 và 05-06 Tweet liên quan
Có người quan tâm tới so sánh code với Claude 4 Sonnet Theo bảng trong bài blog này, nó được hiển thị là thua khá rõ trước Claude 4 Sonnet
- Thực tế phần lớn benchmark đều liên quan đến lập trình, và chỉ có SWE-Bench là Claude đạt điểm cao hơn Khó đánh giá benchmark nào phản ánh công việc thực tế tốt nhất, nhưng trong cộng đồng thì Aider Polyglot có uy tín khá cao

Gemini-2.5-pro-preview-06-05

So sánh theo từng benchmark chính

Giá và ngôn ngữ hỗ trợ

Trường hợp sử dụng và các đặc điểm bổ sung

Kết luận

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News