Gemini 3 Flash: trí tuệ frontier được thiết kế cho tốc độ

(blog.google)

4 điểm bởi GN⁺ 2025-12-18 | 1 bình luận | Chia sẻ qua WhatsApp

Gemini 3 Flash là mô hình AI mới nhất của Google, mang lại trí tuệ cấp frontier với tốc độ cao và chi phí thấp
Kết hợp độ trễ và hiệu quả của dòng Flash trong khi vẫn duy trì năng lực suy luận ở mức Gemini 3 Pro, hỗ trợ các tác vụ hằng ngày và quy trình làm việc dạng tác tử
Trên các benchmark chính như GPQA Diamond 90.4%, Humanity’s Last Exam 33.7%, MMMU Pro 81.2%, mô hình này vượt qua Gemini 2.5 Pro
Nhà phát triển có thể truy cập qua Google AI Studio, Gemini CLI, Antigravity, Vertex AI; người dùng phổ thông có thể dùng miễn phí qua ứng dụng Gemini và AI Mode trong Tìm kiếm
Định nghĩa lại sự cân bằng giữa tốc độ, chi phí và trí tuệ, trở thành mô hình có thể mở rộng cho cả người dùng quy mô lớn lẫn môi trường doanh nghiệp

Tổng quan về Gemini 3 Flash

Gemini 3 Flash là phiên bản mở rộng của họ mô hình Gemini 3, một mô hình thế hệ mới tối đa hóa tốc độ và hiệu quả
- Được công bố sau Gemini 3 Pro và chế độ Deep Think, hiện đã xử lý hơn 1 nghìn tỷ token/ngày thông qua API
- Nhiều trường hợp sử dụng đã được ghi nhận như học các chủ đề phức tạp, thiết kế game tương tác và hiểu nội dung đa phương thức
Giữ lại khả năng suy luận nâng cao, hiểu thị giác và lập trình dạng tác tử của Gemini 3, đồng thời kết hợp độ trễ cấp Flash và hiệu quả chi phí
Được thiết kế để nâng cao độ chính xác cho các tác vụ hằng ngày và tối ưu cho quy trình làm việc dạng tác tử

Hiệu năng và benchmark

Gemini 3 Flash chứng minh rằng tốc độ và quy mô không nhất thiết phải đánh đổi trí tuệ
- Với GPQA Diamond 90.4%, Humanity’s Last Exam 33.7% (không dùng công cụ), MMMU Pro 81.2%, mô hình đạt hiệu năng tương đương các mô hình lớn
- Ghi nhận kết quả tốt hơn Gemini 2.5 Pro trên nhiều benchmark
Mở rộng biên Pareto của chất lượng, chi phí và tốc độ
- Ở các tác vụ phức tạp, mô hình suy nghĩ lâu hơn, nhưng trên lưu lượng thông thường vẫn duy trì hiệu năng cao với mức sử dụng token trung bình ít hơn 30%
Theo Artificial Analysis, tốc độ xử lý nhanh hơn 3 lần so với 2.5 Pro, với chi phí $0.50 cho 1 triệu token đầu vào, $3.00 cho đầu ra
- Âm thanh đầu vào có giá $1.00 cho 1 triệu token

Tính năng cho nhà phát triển

Cung cấp hiệu năng lập trình độ trễ thấp, phù hợp cho phát triển lặp và các quy trình làm việc tần suất cao
- Trên benchmark SWE-bench Verified, đạt 78%, vượt cả dòng 2.5 và Gemini 3 Pro
Mạnh trong các tác vụ đa phương thức phức hợp như phân tích video, trích xuất dữ liệu, hỏi đáp trực quan
- Hỗ trợ xây dựng ứng dụng thông minh như hỗ trợ game thời gian thực, A/B testing, tự động hóa thiết kế
Các công ty như JetBrains, Bridgewater Associates, Figma đã triển khai, và mô hình được cung cấp qua Vertex AI và Gemini Enterprise

Tính năng cho người dùng phổ thông

Trở thành mô hình mặc định trong ứng dụng Gemini, thay thế 2.5 Flash, người dùng toàn cầu có thể sử dụng miễn phí
- Tăng cường năng lực suy luận đa phương thức, chẳng hạn tạo kế hoạch có thể thực thi từ phân tích video và hình ảnh
- Ví dụ: phân tích cú swing golf, nhận diện tranh vẽ, tạo quiz cá nhân hóa dựa trên âm thanh
Có thể tạo nguyên mẫu ứng dụng chỉ bằng lệnh thoại, giúp cả người không chuyên cũng triển khai app nhanh chóng
Cũng được áp dụng làm mô hình mặc định trong AI Mode của Tìm kiếm
- Dựa trên năng lực suy luận của Gemini 3 Pro để phân tích kỹ ngữ cảnh câu hỏi, đồng thời cung cấp câu trả lời được trình bày trực quan và thông tin thời gian thực
- Mạnh trong việc xử lý mục tiêu nhiều bước như lập kế hoạch du lịch phức tạp hoặc học các khái niệm giáo dục

Kênh truy cập và triển khai

Dành cho nhà phát triển: cung cấp bản preview trên Google AI Studio, Gemini CLI, Antigravity, Vertex AI, Gemini Enterprise
Dành cho người dùng phổ thông: đang được triển khai dần trên toàn cầu trong ứng dụng Gemini và AI Mode của Google Search
Gemini 3 Flash cùng với Gemini 3 Pro, Deep Think đang mở rộng thành các trụ cột chính của họ mô hình Gemini 3

1 bình luận

GN⁺ 2025-12-18

Ý kiến Hacker News

Đừng để cái tên “Flash” đánh lừa. Mô hình này cho hiệu năng thật sự đáng kinh ngạc
Tôi đã dùng vài tuần rồi, và nó không chỉ nhanh mà còn có phạm vi kiến thức rộng, nên hiệu quả hơn nhiều so với Claude Opus 4.5 hay GPT 5.2 Extra High. Thời gian suy luận và chi phí gần như chỉ bằng 1/10
- Tôi cũng đã chạy benchmark, và trong số 2.5 Flash, 2.5 Pro, 3.0 Flash thì 3.0 Flash là tốt nhất
  Thời gian phản hồi giữ nguyên nhưng kết quả tốt hơn hẳn. Hiệu năng trên giá thành quá điên rồ
  Tôi rất tò mò Google đã tạo ra hiệu năng này bằng khác biệt kỹ thuật nào giữa dòng Pro và Flash
  Nhân tiện, tôi dùng Gemini API khá thường xuyên, nên mỗi khi có model mới tôi đều muốn thử bằng benchmark nội bộ
- Tôi là một người hoài nghi GenAI. Tôi thường test về các chủ đề phức tạp hoặc ngách, và đa số model đều trả lời rất tệ
  Nhưng Gemini 3 Flash là model đầu tiên đưa ra câu trả lời gần đúng với một câu hỏi benchmark cụ thể mà tôi có
  Mẫu thử vẫn còn ít, nhưng có thể thấy rõ độ chính xác đã tăng
- Tôi nghĩ OpenAI đã mắc sai lầm lớn khi xem nhẹ các model suy luận nhanh
  Chiến lược cố giải quyết mọi thứ chỉ bằng GPT 5 là thất bại.
  Tôi đang test Gemini 3 Flash, và cả độ trễ lẫn hiệu năng đều tốt hơn GPT 5 Thinking
  OpenAI nên tập trung phát triển model thực dụng hơn là quảng bá
- Nhìn benchmark thì Flash yếu ở phần ảo giác (hallucination), nhưng xét tổng thể vẫn vượt Gemini 3 Pro và GPT 5.1 Thinking
  Có thể xem kết quả chi tiết tại trang đánh giá của Artificial Analysis
- Có thể sẽ đến lúc các công ty đầu tư quá tay vào OpenAI phải hối hận. Nvidia có thể là ngoại lệ, còn Microsoft thì có lẽ ít bận tâm hơn vì họ bán model qua Azure
Bản phát hành này rất tốt ở chỗ có thể đưa thẳng vào production mà không cần preview trước
Nhưng giá tăng vẫn đang tiếp diễn
Ví dụ, Gemini 1.5 Flash đã tăng từ input $0.075/M → 3.0 Flash là $0.50/M
Model Pro ở mức input $2/M, output $12/M
Đính chính là model lần này cũng là bản preview
- Tôi lại tò mò hơn về hiệu năng và giá của Gemini 3 Flash Lite khi nó ra mắt
  Với phần lớn tác vụ không phải coding, chênh lệch giữa Flash và Flash Lite có thể quan trọng hơn Pro
- Cảm ơn vì đã tổng hợp giá. Gemini 3.0 mạnh đến mức có vẻ đây là chính sách giá đầy tự tin
  Nhưng cạnh tranh đang rất khốc liệt, nên có lẽ sớm sẽ xuất hiện model rẻ hơn với hiệu năng tương tự
- Khi bật chế độ Thinking, lượng token sử dụng sẽ thay đổi, nên cần tính điều đó khi ước tính chi phí thực tế
- GPT-5 Mini có giá input $0.25/M, output $2/M, nên so với Flash thì input bằng một nửa và output rẻ hơn 50%
Có cảm giác Google thực sự đã cân bằng được cả tốc độ, giá và chất lượng
Nếu tính cả tích hợp với Android và G Suite thì đây là một tổ hợp cực mạnh
Có lẽ đây là chiến lược tung ra smartphone AI-first trước cả dự án phần cứng OpenAI–Jony Ive hay Apple Intelligence
- Nhưng trong sử dụng thực tế thì còn tùy trường hợp.
  Ví dụ Gemini 3 Pro chậm và hay thất bại ngay cả với lệnh gọi công cụ Edit đơn giản
  Cùng một công việc, Claude-Code hoàn thành trong 5 phút còn Gemini mất 27 phút
- Theo bài viết của MacRumors, Apple Intelligence dự kiến sẽ dựa trên Gemini
- Tuy vậy, tôi vẫn nghi ngờ AI trên smartphone thực sự để làm gì.
  Tôi lại nghĩ tablet hoặc kính thông minh phù hợp hơn để tận dụng smol AI
Gemini 3 Flash (non-thinking) là model đầu tiên đạt 50% trong “bài test đếm số chân chó” của tôi
Khi tôi cho xem ảnh tổng hợp có 5 chân, đa số model trả lời là 4, nhưng 3 Flash trả lời đúng là 5
Chỉ khi tôi thêm hình xăm vào chân thì nó mới đếm chính xác; với ảnh không có hình xăm, nó vẫn trả lời là 4
Chấm nửa điểm là hợp lý
Flash ngày càng đắt hơn, nhưng 3.0 Flash lần này có giá trị trên chi phí cực kỳ điên rồ
Nó đạt 78% trong benchmark, vượt cả dòng 2.5 lẫn 3 Pro
Rất lý tưởng cho coding kiểu agent và ứng dụng tương tác thời gian thực
- 3.0 Flash rẻ hơn, nhanh hơn và còn mạnh hơn 2.5 Pro
  Nếu đang dùng 2.5 Flash thì nâng cấp sẽ thấy hơi đau ví, nhưng rất đáng
- Tôi nghĩ việc định vị Flash ngày càng rõ là model thiên về coding và suy luận là hướng đi tốt
  Ai cần phân khúc giá rẻ thì đã có Flash Lite nên khá cân bằng
- Nemotron 3 Nano của Nvidia có thể là một phương án OSS thay thế tương tự
  Nhanh, thông minh và còn hỗ trợ context 1M
- Trong benchmark ứng dụng của tôi, chỉ có Gemini Flash và Grok 4 Fast là dùng được
  Tôi hy vọng model open-weight sẽ cạnh tranh được ở mảng này
- Theo benchmark của Epoch.ai, nó cũng vượt OpenAI GPT 5.2
Tôi đã cảm thấy tổ hợp Claude Code + Gemini là đủ “tốt” rồi
Bây giờ rất khó để công ty khác thuyết phục tôi.
Với bản phát hành này, nó đã chạm đến điểm giao giữa “đủ tốt và đủ rẻ”
- Tôi gần như không có chi phí chuyển đổi nên đổi model rất dễ
  Chỉ cần đổi lựa chọn model trong CLI hoặc plugin IDE là xong
- Các model gần đây cuối cùng cũng biến lời hứa về coding kiểu agent thành hiện thực
- Các model trước đây sai quá thường xuyên nên ngược lại chỉ làm tốn thời gian
  Độ chính xác lên xuống quá thất thường
- Với Opus 4.5 thì các bài toán software engineering thực tế đã gần như được “giải quyết”
  Doanh nghiệp muốn trí tuệ không giới hạn, nhưng với cá nhân thì chưa cần đến mức đó
Nó đạt 69% trên benchmark SimpleQA, vốn là bài test kiến thức cực kỳ hiếm
Nghĩ đến việc Gemini 2.5 Pro chỉ đạt 55% thì đây là con số rất lớn
Có vẻ Google đã tận dụng tốt nén kiến thức hoặc kiến trúc MoE (Mixture of Experts)
- Đánh giá Omniscience của Artificial Analysis cũng đáng tham khảo
- Nhờ kiến trúc MoE, họ có thể dùng rất nhiều tham số trên TPU mà vẫn giữ được throughput
- Những model kiểu này có vẻ cũng sẽ rất hợp cho giao diện giọng nói. Có lẽ Apple cũng sẽ áp dụng
- Hoặc cũng có thể nội bộ đang suy luận bằng cách dùng gọi công cụ (ví dụ: Google Search)
- Cũng có khả năng đây là cấu trúc tăng số chuyên gia và giảm tỷ lệ kích hoạt để tăng độ thưa (sparsity)
Tôi không thật sự hiểu khác biệt giữa ‘Thinking’ và ‘Pro’ của Gemini 3
Phần mô tả ghi là “giải quyết vấn đề phức tạp” so với “suy nghĩ lâu cho toán và code nâng cao”
Có lẽ khác nhau ở ngân sách suy nghĩ (thinking budget)
- Có vẻ cấu trúc là Fast = Flash (ngân sách suy nghĩ thấp), Thinking = Flash (ngân sách suy nghĩ cao), Pro = Pro (ngân sách suy nghĩ cao)
- Trên thực tế có vẻ điều này được điều khiển bằng tham số thinking_level
- Tôi cũng tò mò ‘Thinking’ của Gemini khác AGI ở điểm nào
  Gemini về cơ bản vẫn chỉ suy nghĩ dựa trên truy vấn.
  Nếu thêm vòng lặp và context duy trì liên tục thì có thể trông giống AGI, nhưng chi phí sẽ tăng mạnh
  Chắc Google cũng đã thử kiểu thí nghiệm này rồi
Phàn nàn lớn nhất của tôi là thiếu chức năng xóa hội thoại
Ở tài khoản doanh nghiệp, không thể xóa từng cuộc trò chuyện riêng lẻ mà chỉ đặt được thời gian lưu trữ toàn bộ (tối thiểu 3 tháng)
Với tư cách người dùng trả phí, tôi thấy các tính năng cơ bản quá thiếu so với mức giá ngày càng tăng
- Dùng qua API thì có thể tránh được vấn đề này
- Cả bản cho người dùng cá nhân lẫn doanh nghiệp đều kiểm soát lưu giữ dữ liệu rất kém. Tệ nhất trong các đối thủ lớn
Nếu so sánh giá nhanh theo LLM Prices thì
Gemini 3 Flash có giá bằng 1/4 so với Pro ≤200k, và 1/8 so với Pro >200k
Điểm ấn tượng là giá không tăng sau mốc 200k token
Tính theo input thì đắt gấp đôi GPT-5 Mini và bằng một nửa Claude 4.5 Haiku

Gemini 3 Flash: trí tuệ frontier được thiết kế cho tốc độ

Tổng quan về Gemini 3 Flash

Hiệu năng và benchmark

Tính năng cho nhà phát triển

Tính năng cho người dùng phổ thông

Kênh truy cập và triển khai

Bài viết liên quan

1 bình luận

Ý kiến Hacker News