Ra mắt Gemini 2.5 Flash và Flash-Lite được cải tiến

(developers.googleblog.com)

1 điểm bởi GN⁺ 2025-09-27 | 1 bình luận | Chia sẻ qua WhatsApp

Google đã công bố các bản preview mới của Gemini 2.5 Flash và 2.5 Flash-Lite, với trọng tâm là nâng cao chất lượng và cải thiện hiệu quả
Flash-Lite được tăng cường khả năng hiểu chỉ thị, giảm câu trả lời dài dòng, cải thiện năng lực đa phương thức và dịch thuật, tối ưu cho môi trường tốc độ cao và chi phí thấp
Flash được nâng cao khả năng sử dụng công cụ, cải thiện hiệu quả token, giúp tăng mạnh hiệu năng trong các tác vụ dạng agent phức tạp
Trong các bài kiểm thử thực tế, điểm SWE-Bench Verified tăng 5%, còn trong benchmark nội bộ, hiệu năng ở các tác vụ dài hạn cải thiện 15%
Cả hai mô hình đều hỗ trợ bí danh -latest để dùng tính năng mới nhất mà không cần sửa mã, còn nếu cần sự ổn định thì vẫn có thể tiếp tục dùng các mô hình 2.5 hiện có

Tổng quan về Gemini 2.5 Flash và Flash-Lite

Các phiên bản mới nhất của Gemini 2.5 Flash và Flash-Lite đã được công bố trên Google AI Studio và Vertex AI. Mục tiêu của lần phát hành này là tiếp tục mang lại chất lượng mô hình tốt hơn và hiệu quả cao hơn
Flash-Lite và Flash mới cho thấy hiệu năng được cải thiện đáng kể so với các mô hình trước đó trên các phương diện chất lượng tổng thể, tốc độ và chi phí
Flash-Lite giảm 50% token đầu ra, còn Flash giảm 24%, giúp tiết kiệm chi phí vận hành và tăng tốc độ xử lý

Gemini 2.5 Flash-Lite được cập nhật

Cải thiện khả năng làm theo lệnh: Năng lực hiểu và thực thi trong các chỉ thị phức tạp hoặc system prompt được nâng cao đáng kể
Tăng độ súc tích: Tạo phản hồi ngắn hơn và dễ hiểu hơn, giúp giảm chi phí token và độ trễ trong môi trường lưu lượng lớn
Nâng cao chất lượng đa phương thức và dịch thuật: Độ tin cậy đều tăng lên ở ghi âm audio, nhận diện hình ảnh và chất lượng dịch thuật
Có thể thử ngay bản preview Flash-Lite với tên mô hình gemini-2.5-flash-lite-preview-09-2025

Gemini 2.5 Flash được cập nhật

Tăng cường khả năng dùng công cụ: Khả năng ứng dụng theo hướng agent trong các tình huống đa bước phức tạp được nâng lên rõ rệt, đạt hiệu năng cao hơn 5 điểm phần trăm theo SWE-Bench Verified so với phiên bản trước (48.9% → 54%)
Cải thiện hiệu quả chi phí: Dùng ít token hơn nhưng cho chất lượng đầu ra cao hơn, giúp giảm độ trễ và chi phí hạ tầng
Phản hồi từ những người dùng Primer cũng tích cực
- Yichao ‘Peak’ Ji, đồng sáng lập kiêm Chief Scientist của Manus, đánh giá: “Mô hình Gemini 2.5 Flash mới mang lại cả tốc độ lẫn trí tuệ ấn tượng. Hiệu năng trong các tác vụ agent dựa trên mục tiêu dài hạn đã cải thiện 15%, giúp mở rộng quy mô hơn nữa nhờ hiệu quả chi phí”
Bản preview của Gemini 2.5 Flash có thể dùng với tên mô hình gemini-2.5-flash-preview-09-2025

Bắt đầu xây dựng với Gemini

Trong năm qua, việc phát hành các mô hình preview đã giúp nhà phát triển nhanh chóng thử nghiệm tính năng mới nhất và gửi phản hồi.
Bản preview được công bố hôm nay không phải là chuyển đổi chính thức sang phiên bản ổn định (stable) mới, mà được dùng làm nền tảng để nâng cao chất lượng cho bản chính thức tiếp theo

Ngoài các tên mô hình dài dòng, Google đã thêm bí danh -latest để luôn có thể dùng mô hình mới nhất một cách dễ dàng. Bí danh này sẽ tự động trỏ tới phiên bản mới nhất, cho phép thử tính năng mới mà không cần sửa mã
- gemini-flash-latest
- gemini-flash-lite-latest
Nếu một phiên bản cụ thể được cập nhật hoặc ngừng cung cấp, sẽ có email thông báo trước ít nhất 2 tuần. Bí danh chỉ là tham chiếu đơn giản, còn giá, tính năng và hạn mức có thể khác nhau theo từng bản phát hành
Nếu cần sự ổn định dài hạn, nên tiếp tục dùng các tên mô hình gemini-2.5-flash và gemini-2.5-flash-lite hiện có

Ý nghĩa

Đợt phát hành này là bản cập nhật preview chứ không phải nâng cấp lên bản ổn định chính thức, và là một phần của quá trình thử nghiệm cũng như thu thập phản hồi người dùng cho các mô hình ổn định trong tương lai
Google đang tiếp tục cải tiến Gemini để theo đuổi sự cân bằng giữa tốc độ, trí tuệ và hiệu quả chi phí, qua đó giúp nhà phát triển xây dựng các ứng dụng AI tốt hơn

1 bình luận

GN⁺ 2025-09-27

Ý kiến trên Hacker News

Đây là ý kiến chỉ ra rất đúng vấn đề mà tôi cảm nhận gần đây khi dùng Gemini. Bản thân mô hình thực sự rất xuất sắc, nhưng khi dùng thực tế thì liên tục gặp tình trạng cuộc trò chuyện bị cắt ngang giữa chừng. Có vẻ đây không phải do giới hạn token hay bộ lọc, mà là lỗi mô hình gửi nhầm tín hiệu hoàn tất phản hồi. Vấn đề này đã được nêu dưới dạng issue P2 trên GitHub và diễn đàn nhà phát triển suốt vài tháng nay. Nếu so sánh câu trả lời đầy đủ của Gemini với Claude hay GPT-4 thì chất lượng không hề tệ. Nhưng độ tin cậy mới là điều quan trọng. Dù không hoàn hảo, một mô hình luôn trả lời đến cùng vẫn dễ dùng hơn. Google rõ ràng có năng lực kỹ thuật, nhưng nếu không sửa những lỗi rất cơ bản trong luồng hội thoại như thế này thì dù benchmark có đẹp đến đâu, nó vẫn tạo cảm giác thua kém đối thủ vì bị “hỏng”. Tham khảo liên quan: issue #707 và thảo luận trên diễn đàn nhà phát triển
- Một nhược điểm khác của Gemini là không thể đồng thời xử lý tool calling và yêu cầu xuất JSON. Nếu chỉ định application/json khi gửi yêu cầu thì không thể dùng tool; còn nếu muốn dùng cả hai thì либо phải cầu mong JSON trả ra hợp lệ (thường thất bại), hoặc phải dùng tool ở request đầu tiên rồi format ở request thứ hai. Dù khá phiền, cách lách này vẫn tương đối đơn giản
- Đây không chỉ là vấn đề của Gemini; bản thân ChatGPT tôi cũng từng gặp rất nhiều rắc rối lớn về độ tin cậy
- Thật khó hiểu với những lỗi nhỏ như thế này, hay việc ngay cả cuộn trang trong AI Studio cũng không hoạt động tốt. Một công cụ hay như vậy mà sao lại thiếu những chức năng cơ bản đến thế
- Tôi cũng có cảm giác tương tự. Gemini 2.5 Pro thực sự rất hợp với kiến trúc phần mềm. Nhưng việc cứ phải liên tục “thúc” nó thì khá mệt. Sonnet cũng làm đủ tốt
- chatgpt cũng có rất nhiều vấn đề về độ tin cậy
Tôi đã thêm hỗ trợ cho các model này vào plugin llm-gemini. Có thể chạy bằng uvx mà không cần cài riêng. Ví dụ:

export LLM_GEMINI_KEY='...'
uvx --isolated --with llm-gemini llm -m gemini-flash-lite-latest 'An epic poem about frogs at war with ducks'

Ghi chú phát hành xem ở đây. Thảo luận liên quan đến bồ nông xem bài này

Tôi tò mò không biết ví dụ ảnh SVG con bồ nông đi xe đạp có đang được đưa vào tập dữ liệu huấn luyện hay không. Trong giới kỹ sư làm mảng này cũng có rất nhiều người thường xuyên vào Hacker News
Cuối cùng thì ai sẽ thắng nhỉ. Ếch? Vịt? Hay bồ nông?
Nếu 2.5 là model đã được cải tiến thì tại sao không gọi là 2.6? Phải phân biệt giữa 2.5 cũ và 2.5 mới nên khá rối. Cảm giác phiền giống thời Apple ra mắt “the new iPad” mà không đánh số vậy
- Vì thế mà nhiều người hay gọi phiên bản thứ hai của Sonnet v3.5 là v3.6, và Anthropic sau đó cũng đặt bản kế tiếp là v3.7
- Mọi người thường gọi model theo tháng/năm phát hành. Ví dụ Gemini 2.5 Flash mới nhất được gọi là "google/gemini-2.5-flash-preview-09-2025". Tham khảo
- 2.5 không phải là số phiên bản mà là ký hiệu cho thế hệ kiến trúc. Lấy Mazda 3 làm ví dụ thì nó không thành “Mazda 4”, mà giống như cùng mẫu xe cũ nhưng thêm trim level mới hoặc một bản facelift nhẹ. Tôi đồng ý rằng SemVer sẽ tốt hơn
- Có lẽ họ chỉ muốn truyền đạt đây là mức thay đổi kiểu sửa lỗi
- Ngược lại như thế lại khiến người ta bối rối không biết giữa 2.6 Flash và 2.5 Pro thì cái nào tốt hơn
Google có vẻ là nhà cung cấp foundation model lớn tập trung rất mạnh vào độ trễ, TPS và chi phí. Anthropic và OpenAI dẫn trước về độ thông minh mô hình, nhưng dưới một ngưỡng hiệu năng nhất định thì phản hồi chậm gây khó chịu trong các công cụ cộng tác. Dù kém thông minh hơn một chút, model nhanh như Gemini lại đem đến cảm giác dễ chịu hơn trong workflow. Tuy vậy, cũng có lúc nó cho cảm giác cùn hẳn so với claude hay gpt-5
- Cá nhân tôi nghi ngờ cách chia đôi như vậy có thực sự đúng không. Gemini không có vẻ thua xa đến mức đó về “độ thông minh”, và tôi nghĩ khoảng cách giữa các model sẽ còn thu hẹp trong các chu kỳ tiếp theo. Ngoài latency/TPS/chi phí, Google dường như còn dồn sức vào việc tích hợp nhanh model của mình vào nhiều sản phẩm ngoài chatbot đơn thuần. Ví dụ không chỉ Google Workspace, Google Search mà còn tích cực thử nghiệm ở các mảng mới như jules, labs.google/flow, hay bảng điều khiển tài chính. Việc Gemini xuất hiện trong YouTube có lẽ chỉ còn là vấn đề thời gian
- Gần đây tôi đang giảm dùng Gemini (2.5-pro). Trước đây tôi rất ấn tượng với khả năng nghiên cứu chuyên sâu và trích dẫn đáng tin cậy của nó. Nhưng vài tuần gần đây, nó tranh cãi nhiều hơn và không nhận ra khi bị ảo giác về nguồn. Ví dụ tôi hỏi về cách truy cập secrets map trong Github Actions thì thay vì trả lời đúng, nó đưa ra một workflow test sai, và dù tôi phản bác thế nào nó cũng chỉ tiếp tục ngụy biện. Trong khi đó Chatgpt trả lời không vấn đề gì. Tham khảo liên quan: thứ nhất, thứ hai
- Cá nhân tôi thấy cuộc đua Latency/TPS/cost thực chất là giữa grok và gemini flash. Ở các tác vụ image→text, không model nào bắt kịp hai cái này. OpenAI và Anthropic có vẻ chẳng mấy quan tâm đến mảng đó
- Từ câu “trước khi kết hôn hãy cho đối phương ngồi trước internet chậm” của 10 năm trước, giờ chúng ta bước sang thời “trước khi kết hôn hãy cho đối phương ngồi trước một model AI chậm” ;-)
- Khó mà đồng ý. Gemini không chỉ đơn thuần có tỷ lệ giá/hiệu năng tốt, mà với người dùng phổ thông nó còn là model “hằng ngày” tốt nhất. Đúng là ở các phần mang tính “agent” như coding thì còn kém xa Claude hay GPT-5, nhưng ở hội thoại dài và khả năng nhớ tốt ngữ cảnh trước đó thì Gemini là số một. Khi debug mà chạy nhiều model song song, chỉ Gemini mới bắt được những điểm quan trọng trong các tin nhắn cũ và đưa ra cả code sample chính xác. Hỗ trợ ngôn ngữ ít phổ biến, OCR và nhận diện hình ảnh của nó cũng vượt trội. Chỉ là marketing và AI UX của Google hiện vẫn là điểm yếu nhất, nhưng nếu cải thiện được thì họ sẽ còn đi xa. Bản thân tôi cũng gần như dùng song song cả ba model mỗi ngày
Tóm tắt không-AI: cả hai model đều thông minh hơn trên các chỉ số phân tích AI và thời gian phản hồi end-to-end cũng ngắn hơn. Hiệu quả token đầu ra tăng 24%~50% (giúp giảm chi phí). Điểm cải thiện chính của Gemini 2.5 Flash-Lite là hiểu chỉ thị tốt hơn, bớt dài dòng không cần thiết, tăng cường khả năng đa phương thức/dịch thuật. Gemini 2.5 Flash nổi bật ở khả năng dùng công cụ tác tử mạnh hơn và suy luận hiệu quả token. Chuỗi model là gemini-2.5-flash-lite-preview-09-2025 và gemini-2.5-flash-preview-09-2025
- Tôi nghĩ kiểu như “tóm tắt không-AI” sẽ thành xu hướng sau này. Chỉ riêng việc biết là do con người tự tóm tắt cũng đã làm tăng niềm vui khi đọc
- Tôi sẽ lấy luôn cụm “Non-AI Summary” để dùng
- Tôi tò mò “output token efficiency” nghĩa là gì. Gemini Flash tính phí theo số token đầu vào/đầu ra, nên nếu đầu ra giống nhau thì chi phí cũng phải giống nhau. Tức là nếu không đổi tokenizer hay cơ chế nội bộ thì khó hiểu tại sao lại tiết kiệm chi phí
- 2.5 Flash là thứ đầu tiên khiến AI thực sự hữu ích với tôi. Tôi vốn là kẻ ghét AI số 1, nhưng giờ lại mở Gemini app trước cả Google Search. Nó chính xác hơn, không có quảng cáo. Phần lớn thông tin nó đưa ra là đúng, tạo cảm giác như đang nắm kiến thức chính xác của internet trong tay. Tôi có thể một mình sa vào những cuộc trò chuyện trong app Gemini về nhiệt độ gieo hạt cải kale. So với đống blog, bot và SEO spam thì cái này tập trung hơn nhiều. Tuy vậy, vẫn còn câu hỏi Google sẽ duy trì chuyện này được bao lâu, và vấn đề tự ăn thịt doanh thu vẫn còn đó
- Nhìn chung đây có vẻ là một cải tiến tiệm tiến so với phiên bản trước
Một lời phàn nàn nhỏ về cách đánh số phiên bản: mỗi khi có cải tiến thì cứ tăng số sẽ trực quan hơn. Phát hành kiểu hiện tại gây nhầm lẫn
- Tôi cũng bực điều tương tự. Anthropic cũng từng làm như vậy và rồi gây ra tranh cãi “nerf”. Chúng ta mua token theo gói, thời hạn lại ngắn, mà cũng chẳng rõ model thực tế được cập nhật đến mức nào. Chỉ cần tốt hơn hay tệ đi 1% thôi cũng nên công khai. Về căn bản, các công ty AI cần giữ minh bạch và khả năng tiếp cận tốt hơn. Tham khảo trường hợp liên quan: Claude incident
- Đây không phải phàn nàn nhỏ mà là vấn đề nghiêm trọng. Với kiểu chính sách này, bản thân việc đánh số phiên bản cũng trở nên vô nghĩa
- Có lẽ đây là khái niệm thay thế model 2.5 Flash hiện có. Cũng gợi nhớ chuyện openai âm thầm cập nhật model 4-o rồi từng rollback vì sự cố glazing trước đây
Cần xây dựng một hệ thống quản lý phiên bản có ý nghĩa hơn theo kiểu semver cho từng model. Phải phân biệt rõ giữa tối ưu nhỏ và thay đổi hoàn toàn về retrain/kiến trúc
Gemini 2.5 Flash gần đây là LLM tôi dùng nhiều nhất. Đặc biệt ở input hình ảnh và output có cấu trúc, nó tốt hơn OpenAI/Anthropic
- Gemini 2.5 Flash vượt xa ChatGPT 5 trong lĩnh vực công việc của tôi. Thật bất ngờ khi nó lại không phổ biến hơn
- Tôi chưa kiểm tra xem giá có thay đổi không
Không biết có phải chỉ mình tôi đang dùng một Gemini khác không. Công ty tôi dùng Google Workspace nên Gemini được tích hợp sẵn. Nhưng so với các model khác thì kết quả tệ đến mức khủng khiếp. Mọi người đều khen, còn trải nghiệm Gemini của tôi thì câu trả lời hoặc sai, hoặc dài lê thê (tôi muốn tóm tắt mà nó viết thành bài luận), hoàn toàn không thỏa mãn. Nếu hỏi cùng một câu cho Gemini và một bản ChatGPT khá yếu thì ChatGPT vẫn tốt hơn hẳn. Không biết tôi có đang bỏ lỡ điều gì không?
- Tôi chỉ dùng trong ai studio, và ở đó nó tốt hơn hẳn các model khác. Tôi không có kinh nghiệm với tích hợp IDE các kiểu. Tuy nhiên phải để ý nhắc nó bớt tâng bốc quá mức, và điều đó cũng giúp quản lý cửa sổ ngữ cảnh tốt hơn
- Tôi cũng tương tự. Ngoài mục đích dịch thuật ra thì hầu như chẳng dùng đến, mà ngay cả dịch thuật đôi khi nó cũng từ chối hoặc hành xử kỳ quặc. Gần đây nhất, có lần với một câu hỏi rất cơ bản nó chỉ trả về đúng một dấu phẩy, hoặc vô cớ từ chối vì cho là vấn đề đạo đức (ví dụ: “ba lô có mũ trùm đầu”). Vấn đề lớn nhất là nó từ chối cả những yêu cầu chẳng có gì đáng ngại
- Tùy mục đích sử dụng. Q&A đơn giản thì GPT-5 tốt hơn, nhưng cho các tác vụ viết như biến câu thành báo cáo, tóm tắt hay nhấn mạnh ý thì Gemini là số một
- Cá nhân tôi thấy ChatGPT nổi trội ở chỗ nó hiểu câu hỏi rất tốt mà không cần phải đòi thêm giải thích, và sắp xếp câu trả lời theo định dạng dễ đọc. Tôi có cảm giác phần post-training của GPT nhỉnh hơn một bậc
- Có thể bạn đang dùng sai cách cũng nên
Gemini 2.5 Flash là model rất ấn tượng về tỷ lệ giá/hiệu năng. Dù vậy tôi vẫn không hiểu tại sao Gemini 2.0 Flash còn phổ biến đến thế. Số liệu model gần đây trên OpenRouter:
- xAI: Grok Code Fast 1: 1.15T
- Anthropic: Claude Sonnet 4: 586B
- Google: Gemini 2.5 Flash: 325B
- Sonoma Sky Alpha: 227B
- Google: Gemini 2.0 Flash: 187B
- DeepSeek: DeepSeek V3.1 (miễn phí): 180B
- xAI: Grok 4 Fast (miễn phí): 158B
- OpenAI: GPT-4.1 Mini: 157B
- DeepSeek: DeepSeek V3 0324: 142B
- Một điểm yếu của OpenRouter là họ không công bố số doanh nghiệp thực tế sử dụng từng model. Chỉ cần một khách hàng lớn chuyển đi là chỉ số có thể thay đổi hẳn. Sẽ tốt hơn nếu phần này minh bạch hơn
- Công ty chúng tôi cũng có nhiều tác vụ vẫn đang nằm trên model cũ và chưa được cập nhật
- Vì giá. 2.0 Flash rẻ hơn 2.5 Flash mà vẫn là một model rất tốt
- 2.0 Flash chắc chắn rẻ hơn 2.5 Flash, và trước bản cập nhật gần đây thì còn tốt hơn cả 2.5-Flash-Lite. Nó là một con ngựa thồ rất ổn cho các tác vụ như phân tích văn bản, tóm tắt, nhận diện hình ảnh. Nhưng giờ có 2.5-Flash-Lite rồi nên có lẽ sẽ bị thay thế
- Có lẽ vì đổi tên cho khớp với bản mới khá phiền nên họ vẫn giữ nguyên hệ thống tên cho 2.5 Flash.

Ra mắt Gemini 2.5 Flash và Flash-Lite được cải tiến

Tổng quan về Gemini 2.5 Flash và Flash-Lite

Gemini 2.5 Flash-Lite được cập nhật

Gemini 2.5 Flash được cập nhật

Bắt đầu xây dựng với Gemini

Ý nghĩa

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News