- Gemini 3 Flash là mô hình AI mới nhất của Google, mang lại trí tuệ cấp frontier với tốc độ cao và chi phí thấp
- Kết hợp độ trễ và hiệu quả của dòng Flash trong khi vẫn duy trì năng lực suy luận ở mức Gemini 3 Pro, hỗ trợ các tác vụ hằng ngày và quy trình làm việc dạng tác tử
- Trên các benchmark chính như GPQA Diamond 90.4%, Humanity’s Last Exam 33.7%, MMMU Pro 81.2%, mô hình này vượt qua Gemini 2.5 Pro
- Nhà phát triển có thể truy cập qua Google AI Studio, Gemini CLI, Antigravity, Vertex AI; người dùng phổ thông có thể dùng miễn phí qua ứng dụng Gemini và AI Mode trong Tìm kiếm
- Định nghĩa lại sự cân bằng giữa tốc độ, chi phí và trí tuệ, trở thành mô hình có thể mở rộng cho cả người dùng quy mô lớn lẫn môi trường doanh nghiệp
Tổng quan về Gemini 3 Flash
- Gemini 3 Flash là phiên bản mở rộng của họ mô hình Gemini 3, một mô hình thế hệ mới tối đa hóa tốc độ và hiệu quả
- Được công bố sau Gemini 3 Pro và chế độ Deep Think, hiện đã xử lý hơn 1 nghìn tỷ token/ngày thông qua API
- Nhiều trường hợp sử dụng đã được ghi nhận như học các chủ đề phức tạp, thiết kế game tương tác và hiểu nội dung đa phương thức
- Giữ lại khả năng suy luận nâng cao, hiểu thị giác và lập trình dạng tác tử của Gemini 3, đồng thời kết hợp độ trễ cấp Flash và hiệu quả chi phí
- Được thiết kế để nâng cao độ chính xác cho các tác vụ hằng ngày và tối ưu cho quy trình làm việc dạng tác tử
Hiệu năng và benchmark
- Gemini 3 Flash chứng minh rằng tốc độ và quy mô không nhất thiết phải đánh đổi trí tuệ
- Với GPQA Diamond 90.4%, Humanity’s Last Exam 33.7% (không dùng công cụ), MMMU Pro 81.2%, mô hình đạt hiệu năng tương đương các mô hình lớn
- Ghi nhận kết quả tốt hơn Gemini 2.5 Pro trên nhiều benchmark
- Mở rộng biên Pareto của chất lượng, chi phí và tốc độ
- Ở các tác vụ phức tạp, mô hình suy nghĩ lâu hơn, nhưng trên lưu lượng thông thường vẫn duy trì hiệu năng cao với mức sử dụng token trung bình ít hơn 30%
- Theo Artificial Analysis, tốc độ xử lý nhanh hơn 3 lần so với 2.5 Pro, với chi phí $0.50 cho 1 triệu token đầu vào, $3.00 cho đầu ra
- Âm thanh đầu vào có giá $1.00 cho 1 triệu token
Tính năng cho nhà phát triển
- Cung cấp hiệu năng lập trình độ trễ thấp, phù hợp cho phát triển lặp và các quy trình làm việc tần suất cao
- Trên benchmark SWE-bench Verified, đạt 78%, vượt cả dòng 2.5 và Gemini 3 Pro
- Mạnh trong các tác vụ đa phương thức phức hợp như phân tích video, trích xuất dữ liệu, hỏi đáp trực quan
- Hỗ trợ xây dựng ứng dụng thông minh như hỗ trợ game thời gian thực, A/B testing, tự động hóa thiết kế
- Các công ty như JetBrains, Bridgewater Associates, Figma đã triển khai, và mô hình được cung cấp qua Vertex AI và Gemini Enterprise
Tính năng cho người dùng phổ thông
- Trở thành mô hình mặc định trong ứng dụng Gemini, thay thế 2.5 Flash, người dùng toàn cầu có thể sử dụng miễn phí
- Tăng cường năng lực suy luận đa phương thức, chẳng hạn tạo kế hoạch có thể thực thi từ phân tích video và hình ảnh
- Ví dụ: phân tích cú swing golf, nhận diện tranh vẽ, tạo quiz cá nhân hóa dựa trên âm thanh
- Có thể tạo nguyên mẫu ứng dụng chỉ bằng lệnh thoại, giúp cả người không chuyên cũng triển khai app nhanh chóng
- Cũng được áp dụng làm mô hình mặc định trong AI Mode của Tìm kiếm
- Dựa trên năng lực suy luận của Gemini 3 Pro để phân tích kỹ ngữ cảnh câu hỏi, đồng thời cung cấp câu trả lời được trình bày trực quan và thông tin thời gian thực
- Mạnh trong việc xử lý mục tiêu nhiều bước như lập kế hoạch du lịch phức tạp hoặc học các khái niệm giáo dục
Kênh truy cập và triển khai
- Dành cho nhà phát triển: cung cấp bản preview trên Google AI Studio, Gemini CLI, Antigravity, Vertex AI, Gemini Enterprise
- Dành cho người dùng phổ thông: đang được triển khai dần trên toàn cầu trong ứng dụng Gemini và AI Mode của Google Search
- Gemini 3 Flash cùng với Gemini 3 Pro, Deep Think đang mở rộng thành các trụ cột chính của họ mô hình Gemini 3
1 bình luận
Ý kiến Hacker News
Đừng để cái tên “Flash” đánh lừa. Mô hình này cho hiệu năng thật sự đáng kinh ngạc
Tôi đã dùng vài tuần rồi, và nó không chỉ nhanh mà còn có phạm vi kiến thức rộng, nên hiệu quả hơn nhiều so với Claude Opus 4.5 hay GPT 5.2 Extra High. Thời gian suy luận và chi phí gần như chỉ bằng 1/10
Thời gian phản hồi giữ nguyên nhưng kết quả tốt hơn hẳn. Hiệu năng trên giá thành quá điên rồ
Tôi rất tò mò Google đã tạo ra hiệu năng này bằng khác biệt kỹ thuật nào giữa dòng Pro và Flash
Nhân tiện, tôi dùng Gemini API khá thường xuyên, nên mỗi khi có model mới tôi đều muốn thử bằng benchmark nội bộ
Nhưng Gemini 3 Flash là model đầu tiên đưa ra câu trả lời gần đúng với một câu hỏi benchmark cụ thể mà tôi có
Mẫu thử vẫn còn ít, nhưng có thể thấy rõ độ chính xác đã tăng
Chiến lược cố giải quyết mọi thứ chỉ bằng GPT 5 là thất bại.
Tôi đang test Gemini 3 Flash, và cả độ trễ lẫn hiệu năng đều tốt hơn GPT 5 Thinking
OpenAI nên tập trung phát triển model thực dụng hơn là quảng bá
Có thể xem kết quả chi tiết tại trang đánh giá của Artificial Analysis
Bản phát hành này rất tốt ở chỗ có thể đưa thẳng vào production mà không cần preview trước
Nhưng giá tăng vẫn đang tiếp diễn
Ví dụ, Gemini 1.5 Flash đã tăng từ input $0.075/M → 3.0 Flash là $0.50/M
Model Pro ở mức input $2/M, output $12/M
Đính chính là model lần này cũng là bản preview
Với phần lớn tác vụ không phải coding, chênh lệch giữa Flash và Flash Lite có thể quan trọng hơn Pro
Nhưng cạnh tranh đang rất khốc liệt, nên có lẽ sớm sẽ xuất hiện model rẻ hơn với hiệu năng tương tự
Có cảm giác Google thực sự đã cân bằng được cả tốc độ, giá và chất lượng
Nếu tính cả tích hợp với Android và G Suite thì đây là một tổ hợp cực mạnh
Có lẽ đây là chiến lược tung ra smartphone AI-first trước cả dự án phần cứng OpenAI–Jony Ive hay Apple Intelligence
Ví dụ Gemini 3 Pro chậm và hay thất bại ngay cả với lệnh gọi công cụ
Editđơn giảnCùng một công việc, Claude-Code hoàn thành trong 5 phút còn Gemini mất 27 phút
Tôi lại nghĩ tablet hoặc kính thông minh phù hợp hơn để tận dụng smol AI
Gemini 3 Flash (non-thinking) là model đầu tiên đạt 50% trong “bài test đếm số chân chó” của tôi
Khi tôi cho xem ảnh tổng hợp có 5 chân, đa số model trả lời là 4, nhưng 3 Flash trả lời đúng là 5
Chỉ khi tôi thêm hình xăm vào chân thì nó mới đếm chính xác; với ảnh không có hình xăm, nó vẫn trả lời là 4
Chấm nửa điểm là hợp lý
Flash ngày càng đắt hơn, nhưng 3.0 Flash lần này có giá trị trên chi phí cực kỳ điên rồ
Nó đạt 78% trong benchmark, vượt cả dòng 2.5 lẫn 3 Pro
Rất lý tưởng cho coding kiểu agent và ứng dụng tương tác thời gian thực
Nếu đang dùng 2.5 Flash thì nâng cấp sẽ thấy hơi đau ví, nhưng rất đáng
Ai cần phân khúc giá rẻ thì đã có Flash Lite nên khá cân bằng
Nhanh, thông minh và còn hỗ trợ context 1M
Tôi hy vọng model open-weight sẽ cạnh tranh được ở mảng này
Tôi đã cảm thấy tổ hợp Claude Code + Gemini là đủ “tốt” rồi
Bây giờ rất khó để công ty khác thuyết phục tôi.
Với bản phát hành này, nó đã chạm đến điểm giao giữa “đủ tốt và đủ rẻ”
Chỉ cần đổi lựa chọn model trong CLI hoặc plugin IDE là xong
Độ chính xác lên xuống quá thất thường
Doanh nghiệp muốn trí tuệ không giới hạn, nhưng với cá nhân thì chưa cần đến mức đó
Nó đạt 69% trên benchmark SimpleQA, vốn là bài test kiến thức cực kỳ hiếm
Nghĩ đến việc Gemini 2.5 Pro chỉ đạt 55% thì đây là con số rất lớn
Có vẻ Google đã tận dụng tốt nén kiến thức hoặc kiến trúc MoE (Mixture of Experts)
Tôi không thật sự hiểu khác biệt giữa ‘Thinking’ và ‘Pro’ của Gemini 3
Phần mô tả ghi là “giải quyết vấn đề phức tạp” so với “suy nghĩ lâu cho toán và code nâng cao”
Có lẽ khác nhau ở ngân sách suy nghĩ (thinking budget)
thinking_levelGemini về cơ bản vẫn chỉ suy nghĩ dựa trên truy vấn.
Nếu thêm vòng lặp và context duy trì liên tục thì có thể trông giống AGI, nhưng chi phí sẽ tăng mạnh
Chắc Google cũng đã thử kiểu thí nghiệm này rồi
Phàn nàn lớn nhất của tôi là thiếu chức năng xóa hội thoại
Ở tài khoản doanh nghiệp, không thể xóa từng cuộc trò chuyện riêng lẻ mà chỉ đặt được thời gian lưu trữ toàn bộ (tối thiểu 3 tháng)
Với tư cách người dùng trả phí, tôi thấy các tính năng cơ bản quá thiếu so với mức giá ngày càng tăng
Nếu so sánh giá nhanh theo LLM Prices thì
Gemini 3 Flash có giá bằng 1/4 so với Pro ≤200k, và 1/8 so với Pro >200k
Điểm ấn tượng là giá không tăng sau mốc 200k token
Tính theo input thì đắt gấp đôi GPT-5 Mini và bằng một nửa Claude 4.5 Haiku